Történeti szövegek számítógépes elemzése

Tanszéki konzulens: 
A munkatárs fényképe
docens
Szoba: IE437
Tel.:
+36 1 463-2899
Email: meszaros (*) mit * bme * hu
Külső konzulens: 
Kiss Margit, MTA Irodalomtudományi Intézet

A kiírás adatai

A téma státusza: 
Korábbi (jelenleg nem aktív, de látszik)
Kiírás éve: 
2014
A kiírás jellege: 
szorgalmi feladat, önálló labor, szakdolgozat/diplomaterv

Régi irodalmi és történeti szövegek modern számítógépes elemzése érdekes eredményekkel szolgálhat, és számos nyitott kérdésre adhat választ.

Ki írt valójában egy álnév alatt publikált művet? Ki kinek az írásaira gyakorolt hatást? Hogyan változott egyes szavak, fogalmak előfordulása az elmúlt évszázadok alatt?

A feladatkiírás részben az MTA Irodalomtudományi Intézetétől érkezik, így az itt elért eredmények az ott folyó munkát is elősegítik. A tervek szerint a sikeres hallgatói projektek az intézetben kutatás-fejlesztési megbízásként is folytathatók.

Előzmények

Az angol nyelvterület irodalmainak ilyen jellegű feldolgozása már több publikációban is áttekinthető. Néhány példa az elemzések érdekes eredményeire:

  • A VI. Henrik című dráma első és második részét Shakespeare nem önállóan, hanem Marlow-val együtt írta.
  • 1800-1970 között a „woman” szó a „man”-hez képest elenyésző gyakoriságú volt,
    1980 óta nagyjából egyforma arányban fordulnak elő az angol irodalomban.
  • Német irodalmi szövegkorpuszok klaszterezési vizsgálatának segítségével megállapították, hogy Franz Kafka szövegei stilisztikai hasonlóságot mutatnak a 19. és a korai 20. század gyermekirodalmának szövegeivel.
  • Az „1880” szó használatának gyakorisága 1912-re feleződött meg, míg az „1973” már nagyjából 1983-ra elérte ezt a szintet.
  • Az 1800-1840 között találmányok nevei kb. 66 év után terjedtek el írásban, míg az 1880-1920 közöttieknek ez csak 27 évig tartott.

A magyar írásbeliség ilyen jellegű tanulmányozása sok tekintetben úttörő munkának számít. Számos írói életmű elérhető digitális formában, így részletes feldolgozásuk, elemzésük lehetségessé vált.

A feladat

A feladat során jellemzően Mikes Kelemen műveit használjuk, de más, elektronikusan elérhető szöveggyűjtemény is választható. A művek eredeti nyelvezete mellett egyes esetekben a modern átirat is elérhető, valamint elkészült a Digitális Mikes Szótár, amely az író szavainak példákkal illusztrált tárháza, segít azok jobb megértésében, illetve a különböző szóalakok, eltérő helyesírású előfordulások egységesítésében. Jelenleg a kritikai megjegyzésekkel bővített kiadás elkészítésén dolgozunk.

A feladat sokszínű és rugalmas, megválaszthatók az eszközök és a célok is.

Vizsgálhatók eredeti szerzőségi kérdések, a művek időbeli témaváltozása, az írói szókincs bővülése, a helyesírás változása, a szavak együttes előfordulása, történeti személyiségek és évszámok említése, stb. A művek klaszterezési eljárásokkal téma szerint csoportosíthatók (részben és egészükben is). Érdekes lehet a művek szóstatisztikájának változását konkrét történeti eseményekkel is összevetni, stb.

A szövegek feldolgozására számos szoftver áll rendelkezésre (általános szövegbányászati eszközök, illetve kifejezetten ilyen célra készült, bár angol nyelvterületi szoftverek is elérhetők), de kis programozási tudással részben vagy teljesen saját megoldás is kifejleszhető.

Szükséges kompetenciák - megszerezhető képességek

A feladat sikeres megoldásához alapvető programozói tudás szükséges, nyelvészeti eszközök és algoritmusok előismerete nem.

A feladat megoldása során gyakorlati ismeretek szerezhetők egyszerűbb természetes nyelv feldolgozási feladatokban, valamint mélyebb ismeretek a statisztikai szövegelemzés és -klaszterezés területén. A magyar irodalmi szövegek elemzésében ezek az alkalmazások ezidáig ismeretlenek, így módszertani újításról van szó. Ráadásul Mikes Kelemen munkásságát is jobban megismerhetik   :-)

A munka akár több féléven keresztül is végezhető, a gyakorlati alapismeretek szintjéről indulva az összetettebb módszerek, saját kísérletek megvalósításáig.

Kapcsolódó kutatás

A feladatkiíráshoz az MTA Irodalomtudományi Intézetében zajló Mikes életmű feldolgozás, valamint témába vágó OTKA kutatási projektek kapcsolódnak. A témához kapcsolódik a Szövegelemző- és annotálórendszer fejlesztése, a Kutatástámogató webrendszer fejlesztése és a Tudásbevitel kontrollált természetes nyelven kiírás is.

A jelentkezés menete, mi várható a konzulenstől...

Ezen a lapon összefoglaltam, mire számítok a jelentkezőktől, illetve mi várható tőlem.

Irodalmak

[1] J. Hagood, “A brief introduction to data mining projects in the humanities,” Bulletin of the American Society for Information Science and Technology, vol. 38, no. 4, pp. 20–23, 2012.
[2] G. Crane, B. Seales, and M. Terras, “Cyberinfrastructure for Classical Philology,” Digital Humanities Quarterly, vol. 3, no. 1, 2009.
[3] M. Piotrowski, “Natural Language Processing for Historical Texts,” Synthesis Lectures on Human Language Technologies, vol. 5, no. 2, pp. 1–157, Sep. 2012.
[4] Curt Suplee, “‘Text Mining’--Digging through Digital Archives | National Endowment for the Humanities,” 2010. [Online] [Accessed: 10-Feb-2014].
[5] P. Rayson, D. Archer, A. Baron, and N. Smith, “Travelling through time with corpus annotation software,” 2008.
[6] H. E. Green, “Finding the Canary for Text Mining: Analysis of the use and users of MONK text mining research software,” Journal of the Chicago Colloquium on Digital Humanities and Computer Science, vol. 1, no. 3, 2011.
[7] R. Vuillemot, T. Clement, C. Plaisant, and A. Kumar, “What’s being said near ‘Martha’? Exploring name entities in literary text collections,” in Visual Analytics Science and Technology, 2009. VAST 2009. IEEE Symposium on, 2009, pp. 107–114.

 

© 2010-2024 BME MIT | Hibajelentés | Használati útmutató