Jegyzetek

Tárgy tematikája heti bontásban 2023 tavaszi félévben:

Adminisztratív infomrációk ismertetése, neuronhálók fejlődésének áttekintése: biológiai modellektől a mély hálókig. Rosenblatt perceptron architektúrája, képessége, tanító eljárása, tanítás geometriai interpretációja, konvergenciájának tulajdonságai. Perceptron modellező képessége, perceptron kapacitás

Irodalom: Neurális hálózatok könyv bevezetése, 3.1. fejezete.

Adaptív lineáris neuron (Adaline) architektúrája, tanítása: Wiener-Hopf egyenlet, gradient descent (legmeredekebb lejtő) alapú optimalizáció - konvergencia feltétele. Adaline hibafelületének geometriai interpretációja. Adaline négyzetes kritériumfüggvény szerinti hibafelületének vizsgálata, annak kondícionálása adatok (lineáris) előfeldolgozásával. Adaline SGD (LMS) eljárással történő tanítása, tanítás konvergenciájának feltétele, konvergencia sebességének függvénye, viselkedése az optimum közelében. Adaline képességének összevetése a Perceptronéval. Elemi, szigmoidos neuron felépítése, logisztikus szigmoid, tanh nemlinearitás motivációja.
Irodalom: Neurális hálózatok könyv 3.2, 2.5, 3.3.

Teljesen összekötött többrétegű neurális hálózatok (Multi Layered Perceptron / FCN / Feed Forward Neural Network ) architektúrája. Tanítása négyzetes hiba esetén (S)GD eljárással - hibavisszaterejsztés származtatása (delta szabály). MLP konstrukciójával kapcsolatos kérdések: hálózatok képessége (univerzális approximátor / osztályozó), hálózat méretének meghatározása (hálózat bővítése, betanított hálózat nyesése: neuronok kivágása, súlyok eliminálása - Optimal Brain Surgeon/Damage alapötlete). MLP direkt regularizációja súlyok ritkítása érdekében (L1, L0). Hibafelület jellege. Telítődő nemlinearitás hatása a tanulásra. MLP esetén a súlyok inicializációjának kérdése.  Másodrendű optimalizációs módszerek hálók konstrukciója során: Newton iteráció működése, összevetése a Gradient Descenttel, Bactracking Line Search alapú Newton iteráció (Armijo szabály). Newton iteráció numerikus stabilitása, kondícionálása kvázi Newton módszerekkel: Levenberg Marquardt eljárás. Elsőrendű optimalizációs módszerek módosítása: Polyak momentum, Nesterov momentum. MLP tanítása Early stopping módszerrel (annak regularizációra gyakorolt hatása - kvadratikus hbafelület esetén működésének az értelmezése). MLP tanítása sztochasztikus optimalizáló eljárásokkal (SGD jellemzői, optimalizációra gyakorolt hatása), batch méret és bátorsági tényező megválasztásának kérdése. Négyzetes veszteségfüggvény esetén a Perceptron, Adaline, MLP hibafelülete.
Irodalom: Neurálsi hálózatok könyv 4.1, 4.2, 4.3 fejezetei, OBS cikk,  Armijo bactracking line search cikk ((2)-es szabály), hibafelületekről diák.

Radiális bázifüggvényes hálók (RBF): architektúrájuk, nemlineáris dimenziónövelő bázistranszfromáció és a lineáris szeparabilitás kapcsolata, súlyvektorának meghatározása (Moore-Penrose pseudo inverz) analitikusan, Orthogonal Least Squares eljárással, K-means eljárással. RBF hálózatok MLP-vel való összevetése, képességük, jellemző viselkedésük összehasonlítása.
Irodalom: Neurális hálózatok könyv 5.1, 5.3 fejezetek ide vonatkozó részei

Kernel gépek általános felépéítése, konstrukciójuk kérdése. Kernel trükk, kernel függvényekre vonatkozó Mercer tétel, kernel függvények többségének általános tualjdonságai. Nevezetesebb kernel függvények, azok jellemzőtérbeli reprezentációja (lineáris, polinomiális, Gauss). Szupport vektor gépek motivációja, felépítésük. Egyenlőtelnség kényszeres feltételes szélsőérték keresés. Lagrange duális optimalizálási feladat, annak geometriai értelmezése (KKT feltételek áttekintése, gyenge valamint erős dualitás tételek származtatása). Lineáris, osztályozó SVM (SVC) optimalizációs problémájának származtatása, viselkedésének az értelmezése. Nemlineáris, gyengített SVM osztályozó (C-SVC) optimalizációs problémájának származtatása, viselkedésének analízisa, C paraméter hatásának értelmezése. Regressziós SVM (eps. érzéketlenségi sávos abs. veszteségfüggvénnyel) optimalizációs problémájának származtatása, viselkedésének analízise, súlyvektor normaredukciójának motivációja. C-SVC duális feladatának hatékony megoldása SMO optimalizációval. SVM-ek összegzése.
Irodalom: Stephen Boyd, Lieven Vandenberghe : "Convex Optimization" 5. fejezete; Neurális hálózatok könyv: 6. fejezet bevezetője, 6.1, 6.2, 6.3 releváns részei, 6.6 releváns részei; SMO eljárás alapötlete.

Statisztikus tanuláselmélet: kockázat definíciója, általánosítási hiba definíciója, torzítás variancia dilemma származtatása, értelmezése, következményei, alul/túl illeszkedés fogalma, példák, regularizáció motivációja. Vapnik - Chervonenkis (ВЧ) elmélet: empirikus kockázatminimalizálás (ERM) konzisztenciájának szükséges és elégséges feltétele, gyakorlati megvalósítása, empirikus, illetve a valódi kockázat alakulása a tanítóhalmaz méretének függvényében. Indikátor fgv., diverzitás, függvényosztály entrópiája, VC entrópia, növekedési függvény definíciója. ERM konzisztenciájának elégséges feltétele a növekedési függvény alapján, VC dimenzió definíciója, értelmezései. Osztályozók kockázatának felsőbecslése. Lineáris osztályozók VC dimenziója. Strukturális kockázatminimalizálás elve, SVC esetén a VC dimmenzió felső becslése.
Tanulás, mint statisztikai becslési probléma: maximum likelihood becslések elve, regressziós veszteségfüggvényekhez tartozó likelihood függvények (négyzetes, abs érték, eps érzéketlenségi sávos abs. érték veszteségfüggvény). Maximum likelihood becslésekből származtatott veszteségfüggvények osztályozási feladatokhoz (bináris, kategorikus keresztentrópia, hinge loss). Regularizáció - Maximum a Posterior-i beclések motivációja, illeszkedése a stat. tanuláselmélet témakörébe, klasszikus explicit súlyregularizációk: Tyihononv, Lasso, L0 priorjaik, proximity operátor alapú analízisük, súlyokra gyakorolt posterior hatásuk. Bayes-i modellátlagolás (nem összekeverendő a Bayes becsléssel), posterior becslés neurális hálózatokkal.
Irodalom: Neurális hálózatok Neurális hálózatok 2.1. releváns részei, 2.3, 2.4, Deep Learning book 5. fejezetének részei (5.4, 5.5, 5.6, 5.7), Parkih, Boyd: "Proximal Algorithms" cikk (proximal operator); Bayes-i modellátlagolás cikk . Téma iránt mélyebben érdeklődőknek: Vladimir N. Vapnik: Statistical Learning Theory, ISBN: 0-471-03003-1 (1998), V. N. Vapnik: The Nature of Statistical Learning Theory, ISBN: 0-387-98780-0 (1995).
 
Dinamikus nemlináris rendszerek modellezése neurális hálókkal: NFIR, NARX, NOE, NARMAX leírások, állapotváltozós modell. Dinamikus hálók tipikus alkalmazási területei. Ezek jellemzői, nehézségei, illetve a belőlük eredő korlátok.Regresszorvektor megválasztása maradék hiba alapján (maradék hiba autokorralációs, illetve bemenettel vett keresztkorrelációs függvénye szerint). Regresszorvektor konstruálás Lipchitz index alapján, regresszorvketor konstruálási módszerek összevetése. FIR MLP felpítése, tanítása időbeli kiterítés (Backt Propagation Through Time), illetve Temporal Back Propagation (TBP) eljárásokkal. Két tanítóeljárás egymással történő összevetése. Temporal Back Propagation (TBP) eljárás származtatása, BPTT-vel történő összehasonlítása FIR MLP (1D konvolúciós hálóknál) történő alkalmazása esetén. Visszacsatolt neurális hálók MLP-vel történő megvalósítása, ezek tanító eljárásai (kiterítéssel - BPTT, valós idejú eljárással - RTRL). Ezen eljárások összevetése, alkalmazásuk előnyei - hátrányai. Cella alapú megközelítése jellemző architektúrái (SISO, MISO, SIMO, MIMO) és ezek alkalmazási területei. RNN cella felépítése, használatának korlátai (hosszú távú emlékezet problematikája). Cella alapú visszacsatolt hálónál a hosszútávú emlékezet kialakításának problémái: gradiens alapú optimalizáció korlátjai, gradient clipping, büntetőfüggvény regularizációja. Echo State Network (ESN) felépítése, működése, tervezésének kérdései, általános motivációja. LSTM felépítése, működésük, hosszútávú emlékezet céljából alkalmazott strukturális átalakításai. Teacher forcing motivációja, alkalmazásának javasolt módja. Természetes nyelvű szövegfeldolgozás (NLP): bidirekcionális visszacsatolt cella, alacsony dimenziós beágyazás (word2vec) jellemzői, előnyei, hátrányai. Seq2seq megközelítés korlátjai, ezek meghaladása attention layer / mechanism alkalamzása rekurrens cellák esetén. 
 
Irodalom: Neurális hálózatok könyv: 8. fejezet bevezető, 8.1, 8.6.1, 8.3 - 8.4, Deep Learning book 10.1, 10.2, 10.4, 10.5, 10.7, 10.8, 10.9, 10.10, 10.11, 10.12, 10.13, Attention mechanism cikk
 
Mély neurális hálók: konstrukciójuk fő motivációja (reprezentáció tanulás), háló mélységére, rétegek szélességére vonatkozó megfontolások. Mély hálók architektúrális módosításai, új elemei: aktivációs függvények, és azok optimalizációra, illetve modellezőképességre gyakorolt hatásaik (logisztikus szigmoid, tanh, ReLU, LeakyReLU, ELU, Maxout), minták előfeldolgozásának kérdése (standardizálás). Batch normalizáció (motivációja, optimalizációra gyakorolt hatása, regularizációs hatása, alkalmazása tanítási, illetve következtetési / tesztelési fázisban), dorpout (motivációja, illetve a szakértő együttesek megközelítéséből, regularizációs aspektusból). Dropout mint Bayes-i modellátlagolás módszere (MC dropout). Xavier Glorot súlyinicializációs eljárása (tanh nemlinearitásra levezetve). Transfer learning / finte-tuning alkalmazása mély hálók tanítása során. Mély hálók során alkalmazott numerikus optimalizáció: Newton módszer, Levenberg Marquardt, kvázi Netwon módszerek: BFGS, L_BFGS, konjugált gradiens módszer, elsőrendű eljárások: első rendű momentumos gradiens módszerek (Polyak, Nesterov), adaptív gradiens (másodrendű momentumos) módszerek: Adagrad, RMSProp, Adaptive Momentum (Adam). Konvolúciós neurális hálózatok motivációja, tipikus alkalmazási körük, CNN-ek helye és szerepe a képfelismerési feladatokban, konvolúciós réteg felépítése, működésének szemléltetése. Konvolúciós neurális hálózatok felépítése: pooling réteg, transzponált konvolúció, flatten réteg. Augmentálás, transfer learning kérdésköre. CNN alapú objektumdetektálás módszerei: csúszóablakos osztályozás, Régió alapú CNN, Fast-RCNN, Faster R-CNN, Yolo v2, v3, pixel szintű szegmentálás teljesen konvolúciós NN-el: U-net.
 
Irodalom: Deep Learning book 6.3, 6.4, 7.11, 7.12, 8. fejezet, Batch normalization cikk ;  MC dropout:cikk, Xavier inicializáció: https://arxiv.org/pdf/1704.08863.pdf ; diasor (címeiben (*)-al jelölt diák nem képezik részét a vizsgaanyagnak)
 
Hivatkozott irodalom:

Altrichter, Horváth, Pataki, Strausz, Takács, Valyon: "Neurális hálózatok” Panem, Budapest, 2007. Elektronikus változata (Chrome alapú böngészőkben a matematikai összefüggések megjelenítéséhaz a MathML szükséges)

Ian Goodfellow, Yoshua Bengio, Aaron Courville: "Deep Learning" MIT Press, 2016. Elérhető:  http://www.deeplearningbook.org/

Stephen Boyd, Lieven Vandenberghe: "Convex Optimization" Cambridge University Press Elektronikus változat

Tárgy tematikája heti bontásban 2022 tavaszi félévben:

Adminisztratív infomrációk ismertetése, neuronhálók fejlődésének áttekintése: biológiai modellektől a mély hálókig. Rosenblatt perceptron architektúrája, képessége, tanító eljárása, tanítás geometriai interpretációja, konvergenciájának tulajdonságai. Perceptron modellező képessége, perceptron kapacitás

Irodalom: Neurális hálózatok könyv bevezetése, 3.1. fejezete.

Adaptív lineáris neuron (Adaline) architektúrája, tanítása: Wiener-Hopf egyenlet, gradient descent (legmeredekebb lejtő) alapú optimalizáció - konvergencia feltétele. Adaline hibafelületének geometriai interpretációja. Adaline négyzetes kritériumfüggvény szerinti hibafelületének vizsgálata, annak kondícionálása adatok (lineáris) előfeldolgozásával. Adaline SGD (LMS) eljárással történő tanítása, tanítás konvergenciájának feltétele, konvergencia sebességének függvénye, viselkedése az optimum közelében. Adaline képességének összevetése a Perceptronéval. Elemi, szigmoidos neuron felépítése, logisztikus szigmoid, tanh nemlinearitás motivációja.
Irodalom: Neurális hálózatok könyv 3.2, 2.5, 3.3.

Teljesen összekötött többrétegű neurális hálózatok (Multi Layered Perceptron / FCN / Feed Forward Neural Network ) architektúrája. Tanítása négyzetes hiba esetén (S)GD eljárással - hibavisszaterejsztés származtatása (delta szabály). MLP konstrukciójával kapcsolatos kérdések: hálózatok képessége (univerzális approximátor / osztályozó), hálózat méretének meghatározása (hálózat bővítése, betanított hálózat nyesése: neuronok kivágása, súlyok eliminálása - Optimal Brain Surgeon/Damage alapötlete). MLP direkt regularizációja súlyok ritkítása érdekében (L1, L0). Hibafelület jellege. Telítődő nemlinearitás hatása a tanulásra. MLP esetén a súlyok inicializációjának kérdése.  Másodrendű optimalizációs módszerek hálók konstrukciója során: Newton iteráció működése, összevetése a Gradient Descenttel, Bactracking Line Search alapú Newton iteráció (Armijo szabály). Newton iteráció numerikus stabilitása, kondícionálása kvázi Newton módszerekkel: Levenberg Marquardt eljárás. Elsőrendű optimalizációs módszerek módosítása: Polyak momentum, Nesterov momentum. MLP tanítása Early stopping módszerrel (annak regularizációra gyakorolt hatása - kvadratikus hbafelület esetén működésének az értelmezése). MLP tanítása sztochasztikus optimalizáló eljárásokkal (SGD jellemzői, optimalizációra gyakorolt hatása), batch méret és bátorsági tényező megválasztásának kérdése. Négyzetes veszteségfüggvény esetén a Perceptron, Adaline, MLP hibafelülete.
Irodalom: Neurálsi hálózatok könyv 4.1, 4.2, 4.3 fejezetei, OBS cikk,  Armijo bactracking line search cikk ((2)-es szabály), hibafelületekről diák .

Radiális bázifüggvényes hálók (RBF): architektúrájuk, nemlineáris dimenziónövelő bázistranszfromáció és a lineáris szeparabilitás kapcsolata, súlyvektorának meghatározása (Moore-Penrose pseudo inverz) analitikusan, Orthogonal Least Squares eljárással, K-means eljárással. RBF hálózatok MLP-vel való összevetése, képességük, jellemző viselkedésük összehasonlítása.
Irodalom: Neurális hálózatok könyv 5.1, 5.3 fejezetek ide vonatkozó részei

Kernel gépek általános felépéítése, konstrukciójuk kérdése. Kernel trükk, kernel függvényekre vonatkozó Mercer tétel, kernel függvények többségének általános tualjdonságai. Nevezetesebb kernel függvények, azok jellemzőtérbeli reprezentációja (lineáris, polinomiális, Gauss). Szupport vektor gépek motivációja, felépítésük. Egyenlőtelnség kényszeres feltételes szélsőérték keresés. Lagrange duális optimalizálási feladat, annak geometriai értelmezése (KKT feltételek áttekintése, gyenge valamint erős dualitás tételek származtatása). Lineáris, osztályozó SVM (SVC) optimalizációs problémájának származtatása, viselkedésének az értelmezése. Nemlineáris, gyengített SVM osztályozó (C-SVC) optimalizációs problémájának származtatása, viselkedésének analízisa, C paraméter hatásának értelmezése. Regressziós SVM (eps. érzéketlenségi sávos abs. veszteségfüggvénnyel) optimalizációs problémájának származtatása, viselkedésének analízise, súlyvektor normaredukciójának motivációja. C-SVC duális feladatának hatékony megoldása SMO optimalizációval. SVM-ek összegzése.
Irodalom: Stephen Boyd, Lieven Vandenberghe : "Convex Optimization" 5. fejezete; Neurális hálózatok könyv: 6. fejezet bevezetője, 6.1, 6.2, 6.3 releváns részei, 6.6 releváns részei; SMO eljárás alapötlete.

Statisztikus tanuláselmélet: kockázat definíciója, általánosítási hiba definíciója, torzítás variancia dilemma származtatása, értelmezése, következményei, alul/túl illeszkedés fogalma, példák, regularizáció motivációja. Vapnik - Chervonenkis (ВЧ) elmélet: empirikus kockázatminimalizálás (ERM) konzisztenciájának szükséges és elégséges feltétele, gyakorlati megvalósítása, empirikus, illetve a valódi kockázat alakulása a tanítóhalmaz méretének függvényében. Indikátor fgv., diverzitás, függvényosztály entrópiája, VC entrópia, növekedési függvény definíciója. ERM konzisztenciájának elégséges feltétele a növekedési függvény alapján, VC dimenzió definíciója, értelmezései. Osztályozók kockázatának felsőbecslése. Lineáris osztályozók VC dimenziója. Strukturális kockázatminimalizálás elve, SVC esetén a VC dimmenzió felső becslése.
Tanulás, mint statisztikai becslési probléma: maximum likelihood becslések elve, regressziós veszteségfüggvényekhez tartozó likelihood függvények (négyzetes, abs érték, eps érzéketlenségi sávos abs. érték veszteségfüggvény). Maximum likelihood becslésekből származtatott veszteségfüggvények osztályozási feladatokhoz (bináris, kategorikus keresztentrópia, hinge loss). Regularizáció - Maximum a Posterior-i beclések motivációja, illeszkedése a stat. tanuláselmélet témakörébe, klasszikus explicit súlyregularizációk: Tyihononv, Lasso, L0 priorjaik, proximity operátor alapú analízisük, súlyokra gyakorolt posterior hatásuk. Bayes-i modellátlagolás (nem összekeverendő a Bayes becsléssel), posterior becslés neurális hálózatokkal.
Irodalom: Neurális hálózatok Neurális hálózatok 2.1. releváns részei, 2.3, 2.4, Deep Learning book 5. fejezetének részei (5.4, 5.5, 5.6, 5.7), Parkih, Boyd: "Proximal Algorithms" cikk (proximal operator); Bayes-i modellátlagolás cikk . Téma iránt mélyebben érdeklődőknek: Vladimir N. Vapnik: Statistical Learning Theory, ISBN: 0-471-03003-1 (1998), V. N. Vapnik: The Nature of Statistical Learning Theory, ISBN: 0-387-98780-0 (1995).
 
Dinamikus nemlináris rendszerek modellezése neurális hálókkal: NFIR, NARX, NOE, NARMAX leírások, állapotváltozós modell. Dinamikus hálók tipikus alkalmazási területei. Ezek jellemzői, nehézségei, illetve a belőlük eredő korlátok.Regresszorvektor megválasztása maradék hiba alapján (maradék hiba autokorralációs, illetve bemenettel vett keresztkorrelációs függvénye szerint). Regresszorvektor konstruálás Lipchitz index alapján, regresszorvketor konstruálási módszerek összevetése. FIR MLP felpítése, tanítása időbeli kiterítés (Backt Propagation Through Time), illetve Temporal Back Propagation (TBP) eljárásokkal. Két tanítóeljárás egymással történő összevetése. Temporal Back Propagation (TBP) eljárás származtatása, BPTT-vel történő összehasonlítása FIR MLP (1D konvolúciós hálóknál) történő alkalmazása esetén. Visszacsatolt neurális hálók MLP-vel történő megvalósítása, ezek tanító eljárásai (kiterítéssel - BPTT, valós idejú eljárással - RTRL). Ezen eljárások összevetése, alkalmazásuk előnyei - hátrányai. Cella alapú megközelítése jellemző architektúrái (SISO, MISO, SIMO, MIMO) és ezek alkalmazási területei. RNN cella felépítése, használatának korlátai (hosszú távú emlékezet problematikája). Cella alapú visszacsatolt hálónál a hosszútávú emlékezet kialakításának problémái: gradiens alapú optimalizáció korlátjai, gradient clipping, büntetőfüggvény regularizációja. Echo State Network (ESN) felépítése, működése, tervezésének kérdései, általános motivációja. LSTM felépítése, működésük, hosszútávú emlékezet céljából alkalmazott strukturális átalakításai. Teacher forcing motivációja, alkalmazásának javasolt módja. Természetes nyelvű szövegfeldolgozás (NLP): bidirekcionális visszacsatolt cella, alacsony dimenziós beágyazás (word2vec) jellemzői, előnyei, hátrányai. Seq2seq megközelítés korlátjai, ezek meghaladása attention layer / mechanism alkalamzása rekurrens cellák esetén. 
 
Irodalom: Neurális hálózatok könyv: 8. fejezet bevezető, 8.1, 8.6.1, 8.3 - 8.4, Deep Learning book 10.1, 10.2, 10.4, 10.5, 10.7, 10.8, 10.9, 10.10, 10.11, 10.12, 10.13, Attention mechanism cikk
 
Mély neurális hálók: konstrukciójuk fő motivációja (reprezentáció tanulás), háló mélységére, rétegek szélességére vonatkozó megfontolások. Mély hálók architektúrális módosításai, új elemei: aktivációs függvények, és azok optimalizációra, illetve modellezőképességre gyakorolt hatásaik (logisztikus szigmoid, tanh, ReLU, LeakyReLU, ELU, Maxout), minták előfeldolgozásának kérdése (standardizálás). Batch normalizáció (motivációja, optimalizációra gyakorolt hatása, regularizációs hatása, alkalmazása tanítási, illetve következtetési / tesztelési fázisban), dorpout (motivációja, illetve a szakértő együttesek megközelítéséből, regularizációs aspektusból). Dropout mint Bayes-i modellátlagolás módszere (MC dropout). Xavier Glorot súlyinicializációs eljárása (tanh nemlinearitásra levezetve). Transfer learning / finte-tuning alkalmazása mély hálók tanítása során. Mély hálók során alkalmazott numerikus optimalizáció: Newton módszer, Levenberg Marquardt, kvázi Netwon módszerek: BFGS, L_BFGS, konjugált gradiens módszer, elsőrendű eljárások: első rendű momentumos gradiens módszerek (Polyak, Nesterov), adaptív gradiens (másodrendű momentumos) módszerek: Adagrad, RMSProp, Adaptive Momentum (Adam). Konvolúciós neurális hálózatok motivációja, tipikus alkalmazási körük, CNN-ek helye és szerepe a képfelismerési feladatokban, konvolúciós réteg felépítése, működésének szemléltetése. Konvolúciós neurális hálózatok felépítése: pooling réteg, transzponált konvolúció, flatten réteg. Augmentálás, transfer learning kérdésköre. CNN alapú objektumdetektálás módszerei: csúszóablakos osztályozás, Régió alapú CNN, Fast-RCNN, Faster R-CNN, Yolo v2, v3, pixel szintű szegmentálás / szűrés teljesen konvolúciós NN-el: U-net.
 
Irodalom: Deep Learning book 6.3, 6.4, 7.11, 7.12, 8. fejezet, Batch normalization cikk ;  MC dropout:cikk, Xavier inicializáció: https://arxiv.org/pdf/1704.08863.pdfdiasor
 

Tárgy tematikája heti bontásban 2021 tavaszi félévben:

1. hét:

Adminisztratív infomrációk ismertetése, neuronhálók fejlődésének áttekintése: biológiai modellektől a mély hálókig. Rosenblatt perceptron architektúrája, képessége, tanító eljárása, tanítás geometriai interpretációja, konvergenciájának tulajdonságai.
Irodalom: Neurális hálózatok könyv bevezetése, 3.1. fejezete. Előadás lapjai

Perceptron modellező képessége, perceptron kapacitás. Adaptív lineáris neuron (Adaline) architektúrája, tanítása: Wiener-Hopf egyenlet, gradient descent (legmeredekebb lejtő) alapú optimalizáció - konvergencia feltétele. Adaline hibafelületének geometriai interpretációja.
Irodalom: Neurális hálózatok könyv 3.2, 2.5 "szélsőérték keresés legmeredekebb lejtő módszerével" résszel bezáróan. Előadás lapjai

2. hét:

Adaline négyzetes kritériumfüggvény szerinti hibafelületének vizsgálata, annak kondícionálása adatok előfeldolgozásával. Adaline SGD (LMS) eljárással történő tanítása, tanítás konvergenciájának feltétele, konvergencia sebességének függvénye, viselkedése az optimum közelében. Adaline képességének összevetése a Perceptronéval. Elemi, szigmoidos neuron felépítése, logisztikus szigmoid nemlinearitás esetén a tanítása. Teljesen összekötött többrétegű neurális hálózatok (Multi Layered Perceptron / FCN / Feed Forward Neural Network ) architektúrája. Tanítása négyzetes hiba esetén (S)GD eljárással - hibavisszaterejsztés származtatása (delta szabály).
Iroadlom: Neurális hálózatok könyv 2.5 "Az LMS algoritmus és néhány változata" része, 3.3, 4.1, 4.2. Előadás lapjai

Négyzetes veszteségfüggvény esetén a Perceptron, Adaline, MLP hibafelülete. MLP konstrukciójával kapcsolatos kérdések: hálózatok képessége (univerzális approximátor / osztályozó), hálózat méretének meghatározása (hálózat bővítése, betanított hálózat nyesése: neuronok kivágása, súlyok eliminálása - Optimal Brain Surgeon/Damage alapötlete). MLP direkt regularizációja súlyok ritkítása érdekében (L1, L0). Hibafelület jellege. Telítődő nemlinearitás hatása a tanulásra.
Irodalom: Neurális hálózatok könyv 4.3. fejezetének ide vonatkozó részei, OBS cikk, hibafelületekről diák. Előadás lapjai.
 
3. hét:
 
MLP esetén a súlyok inicializációjának kérdése.  Másodrendű optimalizációs módszerek hálók konstrukciója során: Newton iteráció működése, összevetése a Gradient Descenttel, Bactracking Line Search alapú Newton iteráció (Armijo szabály). Newton iteráció numerikus stabilitása, kondícionálása kvázi Newton módszerekkel: Levenberg Marquardt eljárás. Elsőrendű optimalizációs módszerek módosítása: Polyak momentum, Nesterov momentum

Irodalom: Neurális hálózatok könyv 4.3. fejezetének ide vonatkozó részei, 2.5. fejezet ide vonatkozó részei. Armijo bactracking line search cikk ((2)-es szabály) Előadás lapjai

MLP tanítása Early stopping módszerrel (annak regularizációra gyakorolt hatása - kvadratikus hbafelület esetén működésének az értelmezése). MLP tanítása sztochasztikus optimalizáló eljárásokkal (SGD jellemzői, optimalizációra gyakorolt hatása), batch méret és bátorsági tényező megválasztásának kérdése. Radiális bázisfüggvényes hálók: architektúrájuk, nemlineáris dimenziónövelő bázistranszfromáció és a lineáris szeparabilitás kapcsolata, súlyvektorának tanítása (Moore-Penrose pseudo inverz) analitikusan.
 
Irodalom: Neurális hálózatok könyv 4.3, 5.1 fejezetek ide vonatkozó részei. Előadás lapjai
 

4. hét:

RBF konstruálása Orthogonal Least Squares eljárással, hibavisszaterjesztéssel, K-means eljárással. RBF hálózatok MLP-vel való összevetése, képességük, jellemző viselkedésük összehasonlítása. Kernel gépek általános felépéítése, konstrukciójuk kérdése. Kernel trükk, kernel függvényekre vonatkozó Mercer tétel, kernel függvények többségének általános tualjdonságai. Nevezetesebb kernel függvények, azok jellemzőtérbeli reprezentációja (lineáris, polinomiális, Gauss).

Irodalom: Neurális hálózatok könyv 5.1, 5.3 fejezetek ide vonatkozó részei, 6. fejezet bevezetője, 6.1, 6.2. Előadás lapjai

Szupport vektor gépek motivációja, felépítésük. Egyenlőtelnség kényszeres feltételes szélsőérték keresés. Lagrange duális optimalizálási feladat, annak geometriai értelmezése (KKT feltételek áttekintése, gyenge valamint erős dualitás tételek származtatása). Lineáris, osztályozó SVM (SVC) optimalizációs problémájának származtatása, viselkedésének az értelmezése.

Irodalom: Stephen Boyd, Lieven Vandenberghe : "Convex Optimization" 5. fejezete, Neurális hálózatok 6.3.1-6.3.3 releváns részei Előadás lapjai

5. hét:
 
Nemlineáris és gyengített  SVM osztályozó (SVC) primál problémájának ismertetése, duálisának származtatása. Eszközök viselkedésének értelmezése, gyengítés hatása, súlyának meghatározása. Nemlineáris, gyengített regressziós SVM (SVR) primál problémája. Duális problémájának származtatása, viselkedésének értelmezése
 
Irodalom: Neurális hálózatok 6.3.3-6.3.5. relevás részei. Előadás lapjai
 
Nemlineáris SVR viselkedésének értelmezése, súlyhossz minimalizáció hatásának vizsgálata. SVC optimalizációja - SMO eljárás. SVM-ek összegző értékelése.
 
Irodalom:  Neurális hálózatok 6.3.6, 6.6. releváns részei, SMO eljárás alapötlete. Előadás lapjai
 
6.hét:
 
Statisztikus tanuláselmélet: kockázat definíciója, általánosítási hiba definíciója, torzítás variancia dilemma származtatása, értelmezése, következményei, alul/túl illeszkedés fogalma, példák, regularizáció motivációja. Vapnik - Chervonenkis (ВЧ) elmélet: empirikus kockázatminimalizálás (ERM) konzisztenciájának szükséges és elégséges feltétele, gyakorlati megvalósítása, empirikus, illetve a valódi kockázat alakulása a tanítóhalmaz méretének függvényében. Indikátor fgv, diverzitás, függvényosztály entrópiája, VC entrópia, növekedési függvény definíciója. ERM konz. elégséges feltétele a növekedési függvény alapján, VC dimenzió definíciója, értelmezései. Osztályozók kockázatának felsőbecslése. Lineáris osztályozók VC dimenziója.
Strukturális kockázatminimalizálás elve, SVC esetén a VC dimmenzió felső becslése. Tanulás, mint statisztikai becslési probléma: maximum likelihood becslések elve, regressziós veszteségfüggvényekhez tartozó likelihood függvények (négyzetes, abs érték, eps érzéketlenségi sávos abs. érték veszteségfüggvény).
 
Irodalom: Neurális hálózatok Neurális hálózatok 2.1. releváns részei, 2.3, Neurális hálózatok könyv 2.4, Deep Learning book 5. fejezetének részei (5.4, 5.5)
Téma iránt mélyebben érdeklődőknek: Vladimir N. Vapnik: Statistical Learning Theory, ISBN: 0-471-03003-1 (1998), V. N. Vapnik: The Nature of Statistical Learning Theory, ISBN: 0-387-98780-0 (1995). Előadás lapjai
 
7. hét:
 
Maximum likelihood becslésekből származtatott veszteségfüggvények osztályozási feladatokhoz (bináris, kategorikus keresztentrópia, hinge loss).
Regularizáció - Maximum a Posterior-i beclések motivációja, illeszkedése a stat. tanuláselmélet témakörébe, klasszikus explicit regularizációk: Tyihononv, Lasso, L0 priorjaik, proximity operátor alapú analízisük, súlyokra gyakorolt posterior hatásuk.  Bayes-i modellátlagolás (nem összekeverendő a Bayes becsléssel). Dinamikus nemlináris rendszerek modellezése neurális hálókkal: NFIR, NARX, NOE, NARMAX leírások, állapotváltozós modell. Dinamikus hálók tipikus alkalmazási területei. Ezek jellemzői, nehézségei, illetve a belőlük eredő korlátok.Regresszorvektor megválasztása maradék hiba alapján (maradék hiba autokorralációs, illetve bemenettel vett keresztkorrelációs függvénye szerint).
 
Irodalom: Neurális hálózatok könyv 2.4, Deep Learning book 5. fejezetének részei (5.5, 5.6, 5.7), Parkih, Boyd: "Proximal Algorithms" cikk (proximal operator), Neurális hálózatok könyv: 2.4, 8. fejezet bevezető, 8.1; Bayes-i modellátlagolás cikk . Előadás lapjai
 
8. hét:
 
Regresszorvektor konstruálás Lipchitz index alapján, regresszorvketor konstruálási módszerek összevetése. FIR MLP felpítése, tanítása időbeli kiterítés (Backt Propagation Through Time), illetve Temporal Back Propagation (TBP) eljárásokkal. Két tanítóeljárás egymással történő összevetése.
Irodalom: Neurális hálózatok könyv 8.6.1, 8.3.1, Előadás lapjai.
 
9. hét:
 
Temporal Back Propagation (TBP) eljárás származtatása, BPTT-vel történő összehasonlítása FIR MLP (1D konvolúciós hálóknál) történő alkalmazása esetén. Visszacsatolt neurális hálók MLP-vel történő megvalósítása, ezek tanító eljárásai (kiterítéssel - BPTT, valós idejú eljárással - RTRL). Ezen eljárások összevetése, alkalmazásuk előnyei - hátrányai.
Irodalom: Neurális hálózatok könyv: 8.3 - 8.4, Előadás lapjai
 
10. hét:
 
Cella alapú megközelítése jellemző architektúrái (SISO, MISO, SIMO, MIMO) és ezek alkalmazási területei. RNN cella felépítése, használatának korlátai (hosszú távú emlékezet problematikája). Cella alapú visszacsatolt hálónál a hosszútávú emlékezet kialakításának problémái: gradiens alapú optimalizáció korlátjai, gradient clipping, büntetőfüggvény regularizációja. Echo State Network (ESN) felépítése, működése, tervezésének kérdései, általános motivációja. LSTM felépítése, működésük, hosszútávú emlékezet céljából alkalmazott strukturális átalakításai. Teacher forcing motivációja, alkalmazásának javasolt módja. Természetes nyelvű szövegfeldolgozás (NLP): bidirekcionális visszacsatolt cella, alacsony dimenziós beágyazás (word2vec) jellemzői, előnyei, hátrányai. Seq2seq megközelítés korlátjai, ezek meghaladása attention layer / mechanism alkalamzása rekurrens cellák esetén
Irodalom: Deep Learning book 10.1, 10.2, 10.4, 10.5, 10.7, 10.8, 10.9, 10.10, 10.11, 10.12, 10.13, Attention mechanism cikk, Előpadás lapjai
 
11. hét:
 
Mély neurális hálók: konstrukciójuk fő motivációja (reprezentáció tanulás), háló mélységére, rétegek szélességére vonatkozó megfontolások. Mély hálók architektúrális módosításai, új elemei: aktivációs függvények, és azok optimalizációra, illetve modellezőképességre gyakorolt hatásaik (logisztikus szigmoid, tanh, ReLU, LeakyReLU, ELU, Maxout), minták előfeldolgozásának kérdése (standardizálás). Batch normalizáció (motivációja, optimalizációra gyakorolt hatása, regularizációs hatása, alkalmazása tanítási, illetve következtetési / tesztelési fázisban), dorpout (motivációja, illetve a szakértő együttesek megközelítéséből, regularizációs aspektusból).
Irodalom: Deep Learning book 6.3, 6.4, 7.11, 7.12, 8.7.1, Batch normalization cikk, Előadás lapjai
 
12. hét:
 
Dropout mint Bayes-i modellátlagolás módszere (MC dropout). Xavier Glorot súlyinicializációs eljárása (tanh nemlinearitásra levezetve). Transfer learning / finte-tuning alkalmazása mély hálók tanítása során. Mély hálók során alkalmazott numerikus optimalizáció: Newton módszer, Levenberg Marquardt, kvázi Netwon módszerek: BFGS, L_BFGS, konjugált gradiens módszer, elsőrendű eljárások: első rendű momentumos gradiens módszerek (Polyak, Nesterov), adaptív gradiens (másodrendű momentumos) módszerek: Adagrad, RMSProp, Adaptive Momentum (Adam). Konvolúciós neurális hálózatok motivációja, tipikus alkalmazási körük, CNN-ek helye és szerepe a képfelismerési feladatokban, konvolúciós réteg felépítése, működésének szemléltetése.
Irodalom: Deep Learning book 8. fejezetének releváns részei. MC dropout:cikk, Xavier inicializáció: https://arxiv.org/pdf/1704.08863.pdf . Előadás lapjai
 
13. hét:
 
Konvolúciós neurális hálózatok felépítése: pooling réteg, transzponált konvolúció, flatten réteg. Augmentálás, transfer learning kérdésköre. CNN alapú objektumdetektálás módszerei: csúszóablakos osztályozás, Régió alapú CNN, Fast-RCNN, Faster R-CNN, Yolo v2, v3, RetinaNet. Pixel szintű szegmentálás / szűrés teljesen konvolúciós NN-el: U-net.
Segédanyag: diasor
 

Ellenőrző kérdések a tárgyhoz itt találhatók (2017-es változat).

Ajánlott irodalom:

Altrichter, Horváth, Pataki, Strausz, Takács, Valyon: "Neurális hálózatok” Panem, Budapest, 2007.

Részletesebb információ itt (A könyv nyomtatott formában már nem vásárolható meg.) Hibajegyzék

A könyv elektronikus változata hozzáférhető egyetemi belépéssel rendelkezők számára. Az elektronikus változat az ismert hibákat nem tartalmazza.

Ian Goodfellow, Yoshua Bengio, Aaron Courville: "Deep Learning" MIT Press, 2016. Elérhető:  http://www.deeplearningbook.org/

Haykin, S.: "Neural Networks. A Comprehensive Foundation" Second Edition, Prentice Hall. 1999.

Hassoun, M. H.: "Fundamentals of Artificial Neural Networks" MIT press, Cambridge, 1995

Elérhető elektronikusan is: http://neuron.eng.wayne.edu/tarek/MITbook/t_contents.html

Mitchell, T. "Machine Learning" McGraw Hill, New York, 1997.

Schölkopf, B, Buges, C.J.C., Smola, A. J.: "Advances in Kernel Methods, Support Vector Learning" MIT Press, Cambridge, MA. 1999.

Schölkopf, B,  Smola, A. J: Learning with Kernels, MIT Press, 2002. (Egy része elektronikusan is elérhető) 

A Méréstechnika és Információs Rendszerek Tanszék WWW szerverén található összefoglaló anyag.

Kiegészítő anyag a CMAC hálóhoz

Kiegészítő anyag a CMAC háló általánosítási hibájáról

Rövid összefoglaló az LS SVM és egyéb SVM verziókról

Kiegészítő anyag a kernel gépekről

Összefoglaló cikk a Kernel PCA-ról

Áttekintő cikk a statisztikus tanuláselméletről:

V. Vapnik: "An overview of statistical learning theory" IEEE Trans. on Neural Networks,  vol. 10. No. 5. pp. 988-1000. 1999.) 

Elektronikusan elérhető az egyetem területéről az IEEE Xplore-on keresztül.

Több, a témakörhöz kapcsolódó tutorial az alábbi címen érhető el:

http://ewh.ieee.org/cmte/cis/mtsc/ieeecis/tutorial_ppt.htm

A tárgyhoz kapcsolódó fólia készlet

 

Hivatkozott irodalom:

Altrichter, Horváth, Pataki, Strausz, Takács, Valyon: "Neurális hálózatok” Panem, Budapest, 2007. Elektronikus változata (Chrome alapú böngészőkben a matematikai összefüggések megjelenítéséhaz a MathML szükséges)

Ian Goodfellow, Yoshua Bengio, Aaron Courville: "Deep Learning" MIT Press, 2016. Elérhető:  http://www.deeplearningbook.org/

Stephen Boyd, Lieven Vandenberghe: "Convex Optimization" Cambridge University Press Elektronikus változat
© 2010-2024 BME MIT