Történeti szövegek számítógépes elemzése
docens
Szoba: IE437
Tel.:
+36 1 463-2899 Email: meszaros (*) mit * bme * hu |
A kiírás adatai
Régi irodalmi és történeti szövegek modern számítógépes elemzése érdekes eredményekkel szolgálhat, és számos nyitott kérdésre adhat választ.
Ki írt valójában egy álnév alatt publikált művet? Ki kinek az írásaira gyakorolt hatást? Hogyan változott egyes szavak, fogalmak előfordulása az elmúlt évszázadok alatt?
A feladatkiírás részben az MTA Irodalomtudományi Intézetétől érkezik, így az itt elért eredmények az ott folyó munkát is elősegítik. A tervek szerint a sikeres hallgatói projektek az intézetben kutatás-fejlesztési megbízásként is folytathatók.
Előzmények
Az angol nyelvterület irodalmainak ilyen jellegű feldolgozása már több publikációban is áttekinthető. Néhány példa az elemzések érdekes eredményeire:
- A VI. Henrik című dráma első és második részét Shakespeare nem önállóan, hanem Marlow-val együtt írta.
-
1800-1970 között a „woman” szó a „man”-hez képest elenyésző gyakoriságú volt,
1980 óta nagyjából egyforma arányban fordulnak elő az angol irodalomban. - Német irodalmi szövegkorpuszok klaszterezési vizsgálatának segítségével megállapították, hogy Franz Kafka szövegei stilisztikai hasonlóságot mutatnak a 19. és a korai 20. század gyermekirodalmának szövegeivel.
- Az „1880” szó használatának gyakorisága 1912-re feleződött meg, míg az „1973” már nagyjából 1983-ra elérte ezt a szintet.
- Az 1800-1840 között találmányok nevei kb. 66 év után terjedtek el írásban, míg az 1880-1920 közöttieknek ez csak 27 évig tartott.
A magyar írásbeliség ilyen jellegű tanulmányozása sok tekintetben úttörő munkának számít. Számos írói életmű elérhető digitális formában, így részletes feldolgozásuk, elemzésük lehetségessé vált.
A feladat
A feladat során jellemzően Mikes Kelemen műveit használjuk, de más, elektronikusan elérhető szöveggyűjtemény is választható. A művek eredeti nyelvezete mellett egyes esetekben a modern átirat is elérhető, valamint elkészült a Digitális Mikes Szótár, amely az író szavainak példákkal illusztrált tárháza, segít azok jobb megértésében, illetve a különböző szóalakok, eltérő helyesírású előfordulások egységesítésében. Jelenleg a kritikai megjegyzésekkel bővített kiadás elkészítésén dolgozunk.
A feladat sokszínű és rugalmas, megválaszthatók az eszközök és a célok is.
Vizsgálhatók eredeti szerzőségi kérdések, a művek időbeli témaváltozása, az írói szókincs bővülése, a helyesírás változása, a szavak együttes előfordulása, történeti személyiségek és évszámok említése, stb. A művek klaszterezési eljárásokkal téma szerint csoportosíthatók (részben és egészükben is). Érdekes lehet a művek szóstatisztikájának változását konkrét történeti eseményekkel is összevetni, stb.
A szövegek feldolgozására számos szoftver áll rendelkezésre (általános szövegbányászati eszközök, illetve kifejezetten ilyen célra készült, bár angol nyelvterületi szoftverek is elérhetők), de kis programozási tudással részben vagy teljesen saját megoldás is kifejleszhető.
Szükséges kompetenciák - megszerezhető képességek
A feladat sikeres megoldásához alapvető programozói tudás szükséges, nyelvészeti eszközök és algoritmusok előismerete nem.
A feladat megoldása során gyakorlati ismeretek szerezhetők egyszerűbb természetes nyelv feldolgozási feladatokban, valamint mélyebb ismeretek a statisztikai szövegelemzés és -klaszterezés területén. A magyar irodalmi szövegek elemzésében ezek az alkalmazások ezidáig ismeretlenek, így módszertani újításról van szó. Ráadásul Mikes Kelemen munkásságát is jobban megismerhetik :-)
A munka akár több féléven keresztül is végezhető, a gyakorlati alapismeretek szintjéről indulva az összetettebb módszerek, saját kísérletek megvalósításáig.
Kapcsolódó kutatás
A feladatkiíráshoz az MTA Irodalomtudományi Intézetében zajló Mikes életmű feldolgozás, valamint témába vágó OTKA kutatási projektek kapcsolódnak. A témához kapcsolódik a Szövegelemző- és annotálórendszer fejlesztése, a Kutatástámogató webrendszer fejlesztése és a Tudásbevitel kontrollált természetes nyelven kiírás is.
A jelentkezés menete, mi várható a konzulenstől...
Ezen a lapon összefoglaltam, mire számítok a jelentkezőktől, illetve mi várható tőlem.
Irodalmak