PDF értelmezése nagy nyelvi modellek segítségével

Tanszéki konzulens:

Mészáros Tamás

docens

Szoba: IE413

Tel.:

+36 1 463-4394

Email: meszaros (*) mit * bme * hu

Külső konzulens:

Karz Gergely, Artillence Kft.

A kiírás adatai

A téma státusza:

Aktív (aktuális, lehet rá jelentkezni)

Kiírás éve:

2024

A kiírás jellege:

önálló labor, szakdolgozat/diplomaterv

Kutatócsoport:

Mesterséges intelligencia›Mesterséges Intelligencia Kutatócsoport

A multimodális nagy nyelvi modellek már nem csak szöveges adatok feldolgozására képesek, ezzel párhuzamosan vizuális adatok, képek feldolgozásához is értenek. Így a dokumentum feldolgozást is egyszerű, kézzelfogható feladattá teszik. Ez fontos feladatkör, ugyanis dokumentumokból nagyon sokféle létezik: számlák, specifikációk, kivonatok, dokumentációk, stb. Ezek a dokumentumok elsősorban arra szolgálnak, hogy emberileg, egymás között osszunk meg információt, viszont a gépek számára eddig nagyon nehéz volt ezekből a dokumentumokból nem csak adatot, hanem információt kinyerni.

A hallgató feladata PDF-ek feldolgozása, elsősorban multimodális nagy nyelvi modellek (pl QVQ-72B-Preview) segítségével, majd a kinyert adatokból további információk kinyerése, sima nyelvi modellek segítségével (ChatGPT, Llama 3.3, ...). A feldolgozandó dokumentumok elsősorban cybersecurity hardening konfiguráció specifikációk, melyekhez egy automatikus feldolgozó pipeline-t kell készíteni, ami a dokumentumokból kinyert adatokat egy json vagy xml formátumba menti ki. A kinyert adatokból utána ugyancsak nagy nyelvi modellek segítségével további információkat kell kiszámítani.

A hallgató feladatai:

Cybersecurity hardening konfiguráció specifikáció PDF formátumának megismerése
Példa feladatok megfogalmazása az LLM-ek számára
PDF-ek szekciókra bontása
Dokumentumokból adatkinyerés multimodális LLM-ek segítségével (és amennyiben szükséges, OCR módszerekkel)
LLM könyvtárak kiértékelése (Huggingface Transformers, LangChain)
Automatikus információkinyerés implementálása
Dokumentáció

A téma szakdolgozatnak, TDK-nak, diplomadolgozatnak továbbfejleszthető.

Kapcsolódó tantárgyak:

Természetes nyelvi és szemantikus technológiák

Mészáros Tamás, 2024. augusztus 29. 19:16 | Legutóbb frissítve: 2025. január 13. 12:40

Mesterséges Intelligencia és Rendszertervezés Tanszék

PDF értelmezése nagy nyelvi modellek segítségével

A kiírás adatai

Oktatási lapjaink