OCR-hibák kvantitatív elemzése és korrekciója

Tanszéki konzulens:

Mészáros Tamás

docens

Szoba: IE413

Tel.:

+36 1 463-4394

Email: meszaros (*) mit * bme * hu

Külső konzulens:

Simon László, Nyelvtudományi Kutatóközpont

A kiírás adatai

A téma státusza:

Aktív (aktuális, lehet rá jelentkezni)

Kiírás éve:

2025

A kiírás jellege:

önálló labor, szakdolgozat/diplomaterv

Kutatócsoport:

Mesterséges intelligencia›Mesterséges Intelligencia Kutatócsoport

A Nyelvtudományi Kutatóközpont munkatársai kidolgoztak egy eljárást [1], amivel nagy mennyiségű (sok milliárd szövegszavas) magyar nyelvű szkennelt oldalképen lehet OCR-hibákat javítani. A feladat az eljárás gyakorlati megvalósítása, illetve potenciálisan annak továbbfejlesztése.

Az eljárás azon a megfigyelésen alapul, hogy ha ugyanazt az oldalt több elég pontosan működő OCR-szoftverrel feldolgozunk, akkor mindegyik fog helyenként hibázni, de általában nem ugyanazokon a pontokon. Ebből kiindulva egyazon digitalizált oldalkép alapján készült több különböző OCR-outputot használunk, amelyeket például különböző OCR-szoftverek állítottak elő. Az egyazon oldalról készült kimenetek sorait a bemenetként szolgáló oldalképen elfoglalt helyük alapján egymáshoz illesztjük, és a felismert sztringek között azonosítjuk a pontszerű, karakternyi eltéréseket. Annak eldöntését, hogy az eltérő változatok közül melyik a helyes és melyik a rontott, karakterszintű nyelvmodellre bízzuk. Ha nem is lehetünk biztosak abban, hogy a felismert alternatívák között ott van a nyomtatott oldalképnek megfelelő változat, abból kiindulhatunk, hogy rendszerint ott lesz, mert a felhasznált OCR-szoftverek karakterszintű hibaaránya meglehetősen alacsony.

Az eljárás implementációja addig a pontig kész, hogy a különböző kimenetek közül megkapjuk eredményként, hogy egy eltérően azonosított karakter két változata közül melyik tűnik a valószínűbbnek a nyelvmodell alapján (tehát a megbízhatóbb tippnek). A következő lépés ennek a kódnak a továbbfejlesztése lenne, hogy alkalmas legyen a tényleges szövegjavításra, tehát a kimenet ne karakterszintű döntések listája legyen, hanem egy összefésült szövegváltozat, amely az adott pontokon a döntésnek megfelelő karaktert tartalmazza. A későbbiekben az implementáció további finomítására kerülne sor.

A munka szakmai gyakorlatként is végezhető.

[1] Pethő Gergely, Sass Bálint, Simon László, Lipp Veronika: OCR-hibák kvantitatív elemzése több szövegváltozat összehasonlításával. In: XIX. Magyar Számítógépes Nyelvészeti Konferencia. pp. 17–29. Szegedi Tudományegyetem, Szeged (2024)

Kapcsolódó tantárgyak:

Természetes nyelvi és szemantikus technológiák

Mészáros Tamás, 2025. január 15. 21:16 | Legutóbb frissítve: 2025. január 15. 21:33

Mesterséges Intelligencia és Rendszertervezés Tanszék

OCR-hibák kvantitatív elemzése és korrekciója

A kiírás adatai

Oktatási lapjaink