Jelen Git repository a Kvantitatív szövegelemzés és szövegbányászat a politikatudományban c. tankönyv (http://qta.tk.mta.hu/) anyagához kapcsolódó, illetve azokat kiegészítő forráskódokat tartalmazza.
A repository a könyv főbb témaköreihez kapcsolódó, R és Python programozási nyelven írt forráskódokat tartalmaz, melyek vegyítik a szöveges információ (akár internetről) történő összegyűjtésének és tisztításának gyakorlatias eljárását és magának a kvantitatív szövegelemzés végrehajtásának menetét. A forráskódok egytől-egyik alapos kommentárokkal vannak ellátva, melyek átláthatóvá és követhetővé teszik az elvégzett műveleteket. A következők elérhetőek:
clustering
- Angol nyelvű Wikipedia cikkek automatizált összegyűjtése, a szövegek megtisztítása, továbbá hierarchikus klaszterezés elvégzése (R)named_entity_recognition
- Rand Paul amerikai szenátor közel 11 órás filibusterének szövegén névelem-felismerés elvégzése (R)sentiment_analysis
- Négy fő amerikai újság online cikkeinek szövegén elvégzett érzelemdetekció (R)supervised_learning
- A tankönyv Felügyelt tanulási módszerek c. fejezetéhez tartozó, törvényjavaslatok címei alapján közpolitikai kódokat becslő eljárás végrehajtása (R)unsupervised_learning
- A tankönyv Felügyelet nélküli tanulási módszerek c. fejezetéhez tartozó forráskód, mely a Napimigráns.hu szélsőségesen migránsellenes weboldal cikkein azonosít témákat (Python)
A könyv megjelenését a Nemzeti Kulturális Alap a 3437/02240. témaszámon 400.000 forinttal támogatta, melyért köszönettel tartozunk.