Természetes nyelvi és szemantikus technológiák

VIMIAC22  |  Mérnökinformatikus BSc  |  Félév: 5  |  Kredit: 5

A tantárgy célkitűzése

A tantárgy bevezetést nyújt a természetesnyelv-feldolgozás és a szemantikus technológiák területébe, a különböző megközelítéseket gazdagon illusztrálja gyakorlati ismeretekkel. Ismerteti az egyszerű statisztikai módszerektől a nagy nyelvi modellekig terjedő eszközök működését és alkalmazását az információkeresés, a szövegannotálás, a tudáskinyerés, a természetes nyelvű ember-gép interfészek és további területeken. Kitér különféle tudásreprezentációs technikák, szakértői és következtető rendszerek alkalmazására, valamint kiemelt hangsúlyt helyez modern gépi tanulási megoldások bemutatására. A tantárgyi gyakorlatokon lehetőséget biztosít széles körben alkalmazott eszközök gyakorlati kipróbálására, ipari projektekből származó tapasztalatok megismerésére is.
Mészáros Tamás
Mészáros Tamás

docens

tárgyfelelős

A tárgy oktatói

A tantárgy részletes tematikája

Előadás:

Bevezetés. A természetesnyelv-feldolgozás (natural language processing, NLP) áttekintése, alapfogalmak, áttekintő irodalmak, célkitűzések, kihívások, alkalmazási területek, ajánlott szoftvereszközök áttekintése.

Statisztikai nyelvi modellek és alkalmazásaik. Az NLP-feldolgozólánc elemei: adattisztítás, szegmentálás és tokenizálás, modellépítés. Szózsák, n-gram, TF-IDF és rejtett szemantikai modellek. Hatékonyság mérése (pontosság, felidézés, F1-score). Tipikus alkalmazások: információkeresés, szövegklaszterezés, szövegkivonatolás, hangulatelemzés, stilometria, spamszűrés és témamodellezés (topic modelling).

A nyelvtani elemzés és kontrollált nyelvű interfészek. Nyelvi szabályszerűségek leírása nyelvtanokkal, szintaktikai elemzés és jellemző algoritmusai, az elemző működése, kifejezésstruktúra, levezetési szabály, elemzési fa, nyelvtanok tanulása, kontrollált természetes nyelvű interfészek (ANTLR).

Gépi tanuláson alapuló és nagy nyelvi modellek. Szövegek nyelvi és szemantikai tulajdonságainak tanulása korpuszból, mélytanulási módszerek (szóbeágyazások, RNN, LSTM, transzformer), generatív és nagy nyelvi nyelvi modellek (GPT, LLM) működése.

Nagy nyelvi modellek alkalmazásai. Online és lokális modellek használata: képességeik összehasonlítása, programozói felületeik bemutatása, alkalmazásfejlesztési esettanulmányok (csetbotok, copilot megoldások, új generációs keresőgépek: retrieval-augmented generation, RAG).

Szövegannotálás és információkinyerés. Szófaji címkézés, szemantikus annotálás, egyértelműsítés, nagy nyelvi modellek alkalmazása információkinyerésre (tudásgráf kinyerése szövegből és Graph-RAG).

Tudásmenedzsment, tárgyterületek modellezése. Tudásmodellezés, explicit és implicit tudás, tudásreprezentációs megközelítések, szakértői rendszerek, következtetés, magyarázatgenerálás.

Szemantikus technológiák. Szemantikus web koncepció, szemantikus web technológiák, egységes erőforrás azonosító (URI), erőforrás leíró keretrendszer (RDF), nyílt világ feltételezés alapú információleírás.

Linked Data információelérés. Linked Data koncepció, nyílt adatforrások a világban, nyílt szótárak, szemantikus hálózatok.

Ontológiák, logikai reprezentációk. Szótárak, tezauruszok, ontológiák építése és alkalmazása, pszicholingvisztikai modellek.

Logikai következtetés. Ontológiák reprezentálása leíró logikákban, leíró logikai következtetés, Tableau algoritmus, szabály alapú reprezentáció, előre és hátrafelé láncoló következtetés.

Párbeszédkezelés, érvelés. Párbeszédek leírása, modellezése szabály alapú megközelítéssel, érvelési rendszerek, magasabb rendű logikai modellek, modális logikák alkalmazása érvelések leírására

Esettanulmányok. Tudástárak építése és alkalmazása, szemantikus annotálás információkinyerési céllal, természetes nyelvű robotinterfészek megvalósítása, böngésző alkalmazásokba beépülő nyelvi technológiák.

 

Gyakorlatok:

Elemi nyelvfeldolgozás (szegmentálás, tokenizálás, szófaji címkézés) NLTK és Spacy segítségével.

Szózsák és n-gram modellek építése és alkalmazásuk információkeresési és klaszterezési feladatokban. Apache Solr.

Nagy nyelvi modellek használata (online és lokális modellek), prompttervezés, csetbotkészítés.

RAG-alapú keresőrendszer megvalósítása.

Nyelvtani elemző készítése ANTLR segítségével, gyakorlati alkalmazásuk.

Szövegannotálás és információkinyerés Spacy-vel és nagy nyelvi modellekkel.

Szakértői rendszerek demó, egyszerű szabályalapú környezet vizsgálata (Drools).

RDF adatmodellek vizsgálata (RDF4J adatbázis, múzeumi adatok elemzése)

RDF - Linked data adatmodellek vizsgálata, múzeumi adatok integrálása DBPedia adatokkal.

Ontológiák vizsgálata (Protege ontológiaszerkesztő eszköz), következtetés a múzeumi adatmodellen

Ontológiák építése, egyszerűbb modellek létrehozása Protege környezetben.

Érvelés szakértői rendszermodellben.