Orvosi szövegek feldolgozása nagy nyelvi modellekkel
doktorandusz
Szoba: IE427
Tel.:
+36 1 463-2010 Email: pogany (*) mit * bme * hu |
A kiírás adatai
A természetes nyelvfeldolgozás területét az utóbbi időben a nagy nyelvi modellek (Large Language Models - LLMs) dominálják. Ezen gépi tanulási módszerek alapja a Google által eredetileg szöveg fordításra fejlesztett Transformer architektúra, ami figyelmi mechanizmus segítségével állítja elő a bemenet kontextusfüggő beágyazását. Ezen módszerek közé sorolható a szintén Google által fejlesztett, szövegek beágyazására és megértésére alkalmas BERT (Bidirectional Encoder Representations from Transformers), valamint a hétköznapi életben is elterjedt generatív modellek, az OpenAI által közölt GPT (Generative Pre-trained Transformer) és a Meta AI LLaMa (Large Language Model Meta AI) modellje.
A feladat a nagy nyelvi modellek biológiai területen történő alkalmazásának vizsgálata, különböző orvosi szövegek, biológiai és egészségügyi témájú publikációk feldolgozása. A kutatómunka fókuszában a BERT és annak biológiai változatai (BioBERT, PubMedBERT, …) állnak. A feladat magába foglalja esetlegesen új modellek létrehozását, illetve a már meglévő modellek finomhangolását és utótanítását olyan konkrét feladatokon, mint különböző kérdések megválaszolása, a nevesített entitások és a közöttük lévő kapcsolatok felismerése, valamint azok ötvözése egy tudásfa formájában. A kutatás eredményei hozzájárulhatnak az egészségügyi adatok strukturáltabbá és ezáltal könnyebben kezelhetővé tételéhez. Az így kinyert biológiai tudás pedig elősegítheti a pontosabb diagnosztizálást vagy akár a hatékonyabb gyógyszerfejlesztést.