Oldalelrendezés szoftveres rekonstrukciója

Tanszéki konzulens: 
A munkatárs fényképe
docens
Szoba: IE413
Tel.:
+36 1 463-4394
Email: meszaros (*) mit * bme * hu
Külső konzulens: 
Simon László, Nyelvtudományi Kutatóközpont

A kiírás adatai

A téma státusza: 
Aktív (aktuális, lehet rá jelentkezni)
Kiírás éve: 
2025
A kiírás jellege: 
szorgalmi feladat, önálló labor, szakdolgozat/diplomaterv

A Nyelvtudományi Kutatóközpont munkatársai által konzultált feladat egy olyan eljárás és szoftver kidolgozása, amely többhasábos, bonyolult elrendezéssel rendelkező oldalképekből képes visszaállítani a lineáris szövegfolyamot, megállapítja a szétdarabolt szövegrészek egymásutániságát.

A probléma adott: egy sokhasábos, hirdetésekkel és képekkel megspékelt napilapoldal esetében az OCR-kimenetekben a hasábok összekeverednek, sokszor a hasábok az egymás melletti, pár szavas sorait „gyúrja össze” az OCR egybefüggő szöveggé.

A mintázat, a szövegösszefüggés feltérképezésével szeretnénk elérni, hogy a kimeneten a hasábokba tördelt szövegrészek, a képaláírások, a hirdetésblokkok stb. a megfelelő sorrendben következzenek egymás után. Illetve legkésőbb az OCR-javító bemeneteként már egy, a blokkok tekintetében javított szövegünk legyen a nyers OCR-hez képest.

A munka szakmai gyakorlatként is végezhető.

© 2010-2025 BME MIT | Hibajelentés | Használati útmutató