OCR-hibák kvantitatív elemzése és korrekciója

Tanszéki konzulens: 
A munkatárs fényképe
docens
Szoba: IE413
Tel.:
+36 1 463-4394
Email: meszaros (*) mit * bme * hu
Külső konzulens: 
Simon László, Nyelvtudományi Kutatóközpont

A kiírás adatai

A téma státusza: 
Aktív (aktuális, lehet rá jelentkezni)
Kiírás éve: 
2025
A kiírás jellege: 
önálló labor, szakdolgozat/diplomaterv

A Nyelvtudományi Kutatóközpont munkatársai kidolgoztak egy eljárást [1], amivel nagy mennyiségű (sok milliárd szövegszavas) magyar nyelvű szkennelt oldalképen lehet OCR-hibákat javítani. A feladat az eljárás gyakorlati megvalósítása, illetve potenciálisan annak továbbfejlesztése.

Az eljárás azon a megfigyelésen alapul, hogy ha ugyanazt az oldalt több elég pontosan működő OCR-szoftverrel feldolgozunk, akkor mindegyik fog helyenként hibázni, de általában nem ugyanazokon a pontokon. Ebből kiindulva egyazon digitalizált oldalkép alapján készült több különböző OCR-outputot használunk, amelyeket például különböző OCR-szoftverek állítottak elő. Az egyazon oldalról készült kimenetek sorait a bemenetként szolgáló oldalképen elfoglalt helyük alapján egymáshoz illesztjük, és a felismert sztringek között azonosítjuk a pontszerű, karakternyi eltéréseket. Annak eldöntését, hogy az eltérő változatok közül melyik a helyes és melyik a rontott, karakterszintű nyelvmodellre bízzuk. Ha nem is lehetünk biztosak abban, hogy a felismert alternatívák között ott van a nyomtatott oldalképnek megfelelő változat, abból kiindulhatunk, hogy rendszerint ott lesz, mert a felhasznált OCR-szoftverek karakterszintű hibaaránya meglehetősen alacsony.

Az eljárás implementációja addig a pontig kész, hogy a különböző kimenetek közül megkapjuk eredményként, hogy egy eltérően azonosított karakter két változata közül melyik tűnik a valószínűbbnek a nyelvmodell alapján (tehát a megbízhatóbb tippnek). A következő lépés ennek a kódnak a továbbfejlesztése lenne, hogy alkalmas legyen a tényleges szövegjavításra, tehát a kimenet ne karakterszintű döntések listája legyen, hanem egy összefésült szövegváltozat, amely az adott pontokon a döntésnek megfelelő karaktert tartalmazza. A későbbiekben az implementáció további finomítására kerülne sor.

A munka szakmai gyakorlatként is végezhető.

[1] Pethő Gergely, Sass Bálint, Simon László, Lipp Veronika: OCR-hibák kvantitatív elemzése több szövegváltozat összehasonlításával. In: XIX. Magyar Számítógépes Nyelvészeti Konferencia. pp. 17–29. Szegedi Tudományegyetem, Szeged (2024)

© 2010-2025 BME MIT | Hibajelentés | Használati útmutató