Orvosi szövegek feldolgozása nagy nyelvi modellekkel

Tanszéki konzulens: 
A doktorandusz fényképe
doktorandusz
Szoba: IE 322
Tel.:
+36 1 463-
Email: pogany (*) mit * bme * hu

A kiírás adatai

A téma státusza: 
Aktív (aktuális, lehet rá jelentkezni)
Kiírás éve: 
2023
A kiírás jellege: 
önálló labor, szakdolgozat/diplomaterv

A természetes nyelvfeldolgozás területét az utóbbi időben a nagy nyelvi modellek (Large Language Models - LLMs) dominálják. Ezen gépi tanulási módszerek alapja a Google által eredetileg szöveg fordításra fejlesztett Transformer architektúra, ami figyelmi mechanizmus segítségével állítja elő a bemenet kontextusfüggő beágyazását. Ezen módszerek közé sorolható a szintén Google által fejlesztett, szövegek beágyazására és megértésére alkalmas BERT (Bidirectional Encoder Representations from Transformers), valamint a hétköznapi életben is elterjedt generatív modellek, az OpenAI által közölt GPT (Generative Pre-trained Transformer) és a Meta AI LLaMa (Large Language Model Meta AI) modellje.

A feladat a nagy nyelvi modellek biológiai területen történő alkalmazásának vizsgálata, különböző orvosi szövegek, biológiai és egészségügyi témájú publikációk feldolgozása. A kutatómunka fókuszában a BERT és annak biológiai változatai (BioBERT, PubMedBERT, …) állnak. A feladat magába foglalja esetlegesen új modellek létrehozását, illetve a már meglévő modellek finomhangolását és utótanítását olyan konkrét feladatokon, mint különböző kérdések megválaszolása, a nevesített entitások és a közöttük lévő kapcsolatok felismerése, valamint azok ötvözése egy tudásfa formájában. A kutatás eredményei hozzájárulhatnak az egészségügyi adatok strukturáltabbá és ezáltal könnyebben kezelhetővé tételéhez. Az így kinyert biológiai tudás pedig elősegítheti a pontosabb diagnosztizálást vagy akár a hatékonyabb gyógyszerfejlesztést.

© 2010-2024 BME MIT | Hibajelentés | Használati útmutató