Jegyzetek

Tárgy tematikája heti bontásban 2020 tavaszi félév:

1. hét:

Adminisztratív infomrációk ismertetése, neuronhálók fejlődésének áttekintése: biológiai modellektől a mély hálókig. Rosenblatt perceptron architektúrája, képessége, tanító eljárása, tanítás geometriai interpretációja, konvergenciájának tulajdonságai.
Irodalom: Neurális hálózatok könyv bevezetése, 3.1. fejezete

Perceptron modellező képessége, perceptron kapacitás. Adaptív lineáris neuron (Adaline) architektúrája, tanítása: Wiener-Hopf egyenlet, gradient descent (legmeredekebb lejtő) alapú optimalizáció - konvergencia feltétele. Adaline hibafelületének geometriai interpretációja.
Irodalom: Neurális hálózatok könyv 3.2, 2.5 "szélsőérték keresés legmeredekebb lejtő módszerével" résszel bezáróan

2. hét:

Adaline négyzetes kritériumfüggvény szerinti hibafelületének kondícionálása adatok előfeldolgozásával. Adaline SGD (LMS) eljárással történő tanítása, tanítás konvergenciájának feltétele, konvergencia sebességének függvénye, viselkedése az optimum közelében. Adaline képességének összevetése a Perceptronéval. Elemi, szigmoidos neuron felépítése, logisztikus szigmoid / tanh nemlinearitás esetén a tanítása. Teljesen összekötött többrétegű neurális hálózatok (Multi Layered Perceptron / FCN) architektúrája. Tanítása négyzetes hiba esetén (S)GD eljárással - hibavisszaterejsztés származtatása (delta szabály). Telítődő nemlinearitások által implikált nehézségek.
Iroadlom: Neurális hálózatok könyv 2.5 "Az LMS algoritmus és néhány változata" része, 3.3, 4.1, 4.2

Négyzetes veszteségfüggvény esetén a Perceptron, Adaline, MLP hibafelülete. MLP konstrukciójával kapcsolatos kérdések: hálózatok képessége (univerzális approximátor / osztályozó), hálózat méretének meghatározása (hálózat bővítése, betanított hálózat nyesése: neuronok kivágása, súlyok eliminálása - Optimal Brain Surgeon/Damage alapötlete). MLP direkt regularizációja súlyok ritkítása érdekében (L1, L0). Hibafelület jellege. GD alapú optimalizációs esetén a súlyok inicializálásának kérdése. Korai leállás alapú tanítás, túltanulás megjelenése, minták augmentálása.
Irodalom: Neurális hálózatok könyv 4.3. fejezetének ide vonatkozó részei, OBS cikk, hibafelületekről ábrák.

3.hét:

MLP általánosító képessége a tanítóminták számának függvényében, kereszt kiértékelés - leave one out statisztikai módszerekkel becslés minősítés, szakértőegyüttes konstruálása. Másodrendű optimalizációs módszerek hálók konstrukciója során: Newton iteráció működése, összevetése a Gradient Descenttel, Bactracking Line Search alapú Newton iteráció (Armijo szabály). Newton iteráció numerikus stabilitása, kondícionálása kvázi Newton módszerekkel: Levenberg Marquardt eljárás. Elsőrendű optimalizációs módszerek módosítása: Polyak momentum, Nesterov momentum lényege, konvergencia rátája.
Irodalom: Neurális hálózatok könyv 4.3. fejezetének ide vonatkozó részei, 2.5. fejezet ide vonatkozó részei. Armijo bactracking line search cikk ((2)-es szabály)

MLP tanítása sztochasztikus optimalizáló eljárásokkal (SGD jellemzői, optimalizációra gyakorolt hatása), ciklikus bátorsági tényezővel szakértőegyüttes konstruálás. Radiális bázisfüggvényes hálók: architektúrájuk, nemlineáris dimenziónövelő bázistranszfromáció és a lineáris szeparabilitás kapcsolata, súlyvektorának tanítása (Moore-Penrose pseudo inverz), bázisfüggvények kiválasztásának lehetséges módszerei (minden tanítópontra / K-means, OLS alapú szelekció). 
Irodalom: Neurális hálózatok könyv 4.3, 5.1 fejezetek ide vonatkozó részei. Ciklikus bátorsági tényező cikk.

4. hét:

RBF konstruálása hibavisszaterjesztéssel, RBF hálózatok MLP-vel való összevetése, képességük, jellemző viselkedésük összehasonlítása. Kernel gépek általános felépéítése, konstrukciójuk kérdése. Kernel trükk, kernel függvényekre vonatkozó Mercer tétel, kernel függvények többségének általános tualjdonságai. Nevezetesebb kernel függvények, azok jellemzőtérbeli reprezentációja (lineáris, polinomiális, Gauss). Szupport vektor gépek (SVM) motivációja, szeparálási tartalék és a súlyvektorok közötti kapcsolat, lineáris SVM optimalizációs problémája.
Irodalom: Neurális hálózatok könyv 5.1, 5.3 fejezetek ide vonatkozó részei, 6. fejezet bevezetője, 6.1, 6.2.

Egyenlőtelnség kényszeres feltételes szélsőérték keresés. Lagrange duális optimalizálási feladat, annak geometriai értelmezése (KKT feltételek áttekintése, gyenge valamint erős dualitás tételek származtatása). Lineáris, valamint a nemlineáris SVM optimalizációs problémájának származtatása, ezen SVM-ek viselkedésének az értelmezése. Gyengített SVM primál problémájának ismertetése, duálisának származtatása.
Irodalom: Stephen Boyd, Lieven Vandenberghe : "Convex Optimization" 5. fejezete, Neurális hálózatok 6.3.1-6.3.3 releváns részei

5. hét:

Gyengített, SVM osztályozók (SVC) működésének geometriai interpretációja, hiperparaméterek hatása, szupport vektorok jellemzői. Regressziós, gyengített SVM (SVR): veszteségfüggvényes, primál optimalizációs feladata, Lagrange duálisa, működésének geometriai interpretációja, hiperparaméterek megoldásra gyakorolt hatása, regularizáció simító hatásának értelmezése.
Irodalom: Neurális hálózatok 6.3.3-6.3.5.

6. hét:

Regressziós SVM esetén eps hatásának az értelmezése. SVM tanulásához kapcsolódó optimalizáció implementálása (duális feladat megoldása) SMO eljárással (gyengített SVC esetén). SVM-ek összehasonlítása az eddig tanult neurális hálós megközelítésekkel (pereptron, adaline, MLP, RBF). SVM általánosító képességének kérdésköre, gyengített SVM-ek C paraméterének a hatása. Statisztikus tanuláselmélet: kockázat definíciója, általánosítási hiba definíciója, torzítás variancia dilemma származtatása.
Irodalom:  Neurális hálózatok 6.3.6, 6.6. releváns részei, SMO eljárás alapötlete. Torzítás variancia dilemma: Neurális hálózatok 2.1. releváns részei. Előadás lapjai.

Torzítás variancia dilemma értelmezése, következményei, alul/túl illeszkedés fogalma, példák, regularizáció motivációja. Vapnik - Chervonenkis (ВЧ) elmélet: empirikus kockázatminimalizálás (ERM) konzisztenciájának szükséges és elégséges feltétele, gyakorlati megvalósítása, empirikus, illetve a valódi kockázat alakulása a tanítóhalmaz méretének függvényében. Indikátor fgv, diverzitás, függvényosztály entrópiája, VC entrópia, növekedési függvény definíciója. ERM konz. elégséges feltétele a növekedési függvény alapján, VC dimenzió definíciója, értelmezései. Osztályozók kockázatának felsőbecslése. Lineáris osztályozók VC dimenziója.
Irodalom: Neurális hálózatok könyv 2.1. ide vonatkozó részei, 2.3, téma iránt mélyebben érdeklődőknek: Vladimir N. Vapnik: Statistical Learning Theory, ISBN: 0-471-03003-1 (1998), V. N. Vapnik: The Nature of Statistical Learning Theory, ISBN: 0-387-98780-0 (1995). Előadás lapjai.

7. hét:

Strukturális kockázatminimalizálás elve, SVC esetén a VC dimmenzió felső becslése, regressziós problémára az általánosítási hiba felső becslése. Tanulás, mint statisztikai becslési probléma: maximum likelihood becslések elve, veszteségfüggvényekhez tartozó likelihood függvények (bináris, kategorikus keresztentrópia; négyzetes, abs érték, eps érzéketlenségi sávos abs. érték veszteségfüggvény). Regularizáció - Maximum a Posterior-i beclések motivációja, illeszkedése a stat. tanuláselmélet témakörébe, klasszikus explicit regularizációk: Tyihononv, Lasso, L0 priorjaik, proximity operátor alapú analízisük bevezetése.
Irodalom: Neurális hálózatok könyv 2.4, Deep Learning book 5. fejezetének részei (5.5, 5.6, 5.7), Parkih, Boyd: "Proximal Algorithms" cikk csak a proximal operátor kell belőle. Előadás lapjai.

Regularizációk proximity operátor alapú analízisének befejezése. Bayes-i modellátlagolás (nem összekeverendő a Bayes becsléssel). Dinamikus nemlináris rendszerek modellezése neurális hálókkal: NFIR, NARX, NOE, NARMAX leírások, állapotváltozós modell. Dinamikus hálók tipikus alkalmazási területei. Ezek jellemzői, nehézségei, illetve a belőlük eredő korlátok.
Irodalom: Neurális hálózatok könyv: 2.4, 8. fejezet bevezető, 8.1; Bayes-i modellátlagolás cikk (előadáson csak az első ö.f.-ig jutottunk). Előadás lapjai

8. hét:

Regresszorvektor megválasztásának módszerei: maradék hiba és bemenet keresztkorrelációja, hiba autokorrelációja alapján, modell mentes regresszorvektor konstruálás Lipchitz index alapján. FIR MLP felpítése, tanítása időbeli kiterítés (Backt Propagation Through Time), illetve Temporal Back Propagation (TBP) eljárásokkal. Két tanítóeljárás egymással történő összevetése.
Irodalom: Neurális hálózatok könyv 8.6.1, 8.3.1, Előadás lapjai.

9. hét:
 
Visszacsatolt neurális hálók MLP-vel történő megvalósítása, ezek tanító eljárásai (kiterítéssel - BPTT, valós idejú eljárással - RTRL). Cella alapú megközelítése jellemző architektúrái (SISO, MISO, SIMO, MIMO) és ezek alkalmazási területei.
Irodalom: Neurális hálózatok könyv 8.4, Deep Learning book 10.1, 10.2, 10.4, 10.7  Előadás lapjai.
 
RNN cella felépítése, használatának korlátai (hosszú távú emlékezet problematikája). Cella alapú visszacsatolt hálónál a hosszútávú emlékezet kialakításának problémái: gradiens alapú optimalizáció korlátjai, gradient clipping, büntetőfüggvény regularizációja. Echo State Network (ESN) felépítése, működése, tervezésének kérdései, általános motivációja. LSTM felépítése, működésük, hosszútávú emlékezet céljából alkalmazott strukturális átalakításai.
Irodalom: Deep Learning book 10.5, 10.7, 10.8, 10.9, 10.11, 10.12, 10.13 Előadás lapjai
 
10.hét:
 
GRU cella felépítése, viselkedésének főbb jellemzői. Teacher forcing motivációja, alkalmazásának javasolt módja. Természetes nyelvű szövegfeldolgozás (NLP): bidirekcionális visszacsatolt cella, alacsony dimenziós beágyazás (word2vec) jellemzői, előnyei, hátrányai. Seq2seq megközelítés korlátjai, ezek meghaladására avasolt konkrét architektúráka: FIR MLP alapú szövegosztályozás, Attention layer alkalamzása rekurrens cellák esetén, Self Attention motivációja, konstrukciója.
Irodalom: Deep Learning book 10.10.2, 10.2.1, FIR MLP alapú osztályozás cikk, Attention mechanism cikk, Transformer Network cikk, Előadás lapjai
 
Transformer network architektúrája, felépítésének főbb motiváció, Self, illetve Enkóder- Dekóder Attention működése, feladata (multihead attention-t nem tárgyaltuk).Mély neurális hálók: konstrukciójuk fő motivációja (reprezentáció tanulás), háló mélységére, rétegek szélességére vonatkozó megfontolások. Mély hálók architektúrális módosításai, új elemei: aktivációs függvények, és azok optimalizációra, illetve modellezőképességre gyakorolt hatásaik (logisztikus szigmoid, tanh, ReLU, LeakyReLU, ELU, Maxout), minták előfeldolgozásának kérdése (standardizálás).
Irodalom: Deep Learning book Deep Learning könyv: 6.3, 6.4, Kiegészítésként (előadáson idő hiányában nem szerepelt, transfer learning NLP-s alapja): BERT cikk, valamint a szekvenciális hálókhoz feljesztett Tensor2Tensor könyvtár minta notebookja. Előadás lapjai
 
11. hét:
 
Batch normalizáció (motivációja, optimalizációra gyakorolt hatása, regularizációs hatása, alkalmazása tanítási, illetve következtetési / tesztelési fázisban), dorpout (motiváció Bayes-i modell átlagolás, illetve a szakértő együttesek megközelítéséből, regularizáció hatása, következtetés során alkalmazása - klasszikus dropout, Monte Carlo dropout), Xavier Glorot súlyinicializációs eljárása (tanh nemlinearitásra levezetve).
Irodalom: Deep Learning könyv: 6.3, 6.4, 7.11, 7.12, 8.7.1, Batch normalization cikk, MC dropout cikk, Súlyok inicializációja: https://arxiv.org/pdf/1704.08863.pdf
 
12. hét:
 
Mintaaugmentáció és a transfer learning motivációja, használata, működése. Optimalizációs módszerek mély neurális hálózatok esetén: mádorendű (Newton iteráció, Levenberg-Marquardt), kvázi Newton (BFGS, L-BFGS), konjugált gradiens módszerek jellemzői, alkalmazásuk korlátjai mély hálók esetén. Elsőrendű optimalizáló módszerek: gradient descent, elsőrendű momentumos gd (Polyak, Nesterov), másodrendű momentumos eljárások (adagrad, rmsprop, adam) viselkedése, mély hálók tanítása során történő használata.
Irodalom: Deep Learning könyv 8. fejeztének releváns részletei. Előadás lapjai
 
Elsőrendű optimalizációs módszerek viselkedése különböző hibafelületeken. 2D konvolúciós neurális hálózatok új rétegei: 2D konvolúciós réteg (lépésközzel, dilatációval, mélységi irányú szeparábilis kivitelben) motivációja, jellemzői.
Irodalom: Deep Learning könyv 9. fejezetének releváns részei. Előadás lapjai
 
13. hét:
 
Konvolúciós neurális hálózatok felépítése: pooling réteg, transzponált konvolúció, flatten réteg. Augmentálás, transfer learning kérdésköre. Ismertebb mély CNN architektúrák jellemzői, motivációja: AlexNet, VGG, GoogleNet (Inception), ResNet, Stochastic Depth, DenseNEt, SENet, U-net, DeepLab-v3. CNN alapú objektumdetektálás módszerei: csúszóablakos osztályozás, Régió alapú CNN, Fast-RCNN, Faster R-CNN, Yolo v3, v3, RetinaNet. Szegmentálás CNN-el. Kiegészítésként (nem vizsgaanyag): eloszlások mintákból tanulása.
 Segédanyag: diasor
 
Hivatkozott irodalom:

Altrichter, Horváth, Pataki, Strausz, Takács, Valyon: "Neurális hálózatok” Panem, Budapest, 2007. Elektronikus változata (Chrome alapú böngészőkben a matematikai összefüggések megjelenítéséhaz a MathML szükséges)

Ian Goodfellow, Yoshua Bengio, Aaron Courville: "Deep Learning" MIT Press, 2016. Elérhető:  http://www.deeplearningbook.org/

Stephen Boyd, Lieven Vandenberghe: "Convex Optimization" Cambridge University Press Elektronikus változat

Tárgy tematikája heti bontásban 2019 tavaszi félév:

1. hét

Adminisztratív információk ismertetése, neuronhálók fejlődésének történeti áttekintése: biológiai modellektől a deep hálókig.
Rosenblatt perceptron felépítése, képessége, tanításának módja, tanuló eljárás működésének interpretációja, konvergencia tulajdonságai.
Irodalom: Neurális hálózatok könyv bevezetése, 3.1. fejezete.

Perceptron modellező képessége, perceptron kapacitás. Adaline felépítése, tanítása: Wiener-Hopf egyenlet, gradient descent (legmeredekebb lejtő) eljárással történő tanítása. Négyzetes hibafelület értelmezése, GD alapú optimalizációja
Irodalom: Neurális hálózatok könyv 3.2., 2.5. "szélsőérték keresés legmeredekebb lejtő módszerével" résszel bezáróan
 
2.hét:
 
Négyzetes hibafelületen GD alapú optimalizáció tulajdonságai. Hiabfelület kondícionálása adatok előfeldolgozásával. Adaline tanítása SGD (LMS) eljárással. SGD konvergenciájának feltétele, viselkedése az optimum közelében. Teljesen összekötött, többrétegű neurális hálózatok (Multi Layered Perceptron / Fully Connected Network) architektúrája. Tanítása (S)GD eljárással - hibavisszaterjesztéses eljárás származtatása. Delta szabály származtatása. MLP képessége.
Irodalom:  Neurális hálózatok könyv 2.5 "Az LMS algoritmus és néhány változata" része, 3.3, 4.1, 4.2
 
MLP konstrukciójával kapcsolatos kérdések: hálózatok képessége, hálózat méretének meghatározása, hálózat bővítése, betanított hálózat nyesése: neuronok kivágása, súlyok eliminálása (Optimal Brain Surgeon/Damage alapötlete). MLP hibafüggvényének direkt regularizációja súlyok ritkítása érdekében (L1, L0). Hibafelület jellege, GD alapú optimalizáció paramétereinek megválasztása (kezdeti súly inicializáció, bátorsági tényező). Korai leállás alapú tanítás.
Irodalom: Neurális hálózatok könyv 4.3. fejezetének ide vonatkozó részei, OBS cikk
 
3.hét:
 
MLP konstrukciójával kapcsolatos további kérdések: korai leállás értelmezése, mintaszám kérdése (augmentáció), kereszt kiértékelés használatán alapuló szakértőegyüttes konstrukciója, sztochasztikus optimalizáció alapú tanítás értelmezése (batch méret megválasztásának hatásai, bátorsági tényező hangolása), alkalmazott numerikus optimalizációs módszerek, és azok felületes vizsgálata (GD: Polyak momentum, Nesterov momentum; mádosrendű: Newton iteráció, Levenberg Marquardt, kvázi Newton - Armijo backtracking line search alapú Newton iteráció).
Irodalom: Neurális hálózatok könyv 4.3. fejezetének ide vonatkozó részei, 2.5. fejezet ide vonatkozó részei. Armijo bactracking line search cikk ((2)-es szabály)
 
Radiális bázisfüggvényes hálók: architektúrájuk, nemlineáris dimenziónövelő bázistranszfromáció és a lineáris szeparabilitás kapcsolata, súlyvektorának tanítása, bázisfüggvények kiválasztásának lehetséges módszerei (minden tanítópontra / hibavisszaterjesztés, K-means, OLS alapú szelekció). RBF hálók képessége, működésük értelmezése, viselkedésük összevetése az MLP-vel (lokális általánosítás előnyei és hátrányai).
Irodalom: Neurális hálózatok könyv 5.1, 5.3
 
4. hét:
 
Kernel gépek architektúrája, konstrukciójuk kérdései. Kernel trükk, kernel függvényekre vonatkozó Mercer tétel, kernel függvények többségének általános tualjdonságai. Nevezetesebb kernel függvények, azok jellemzőtérbeli reprezentációja (lineáris, polinomiális, Gauss). Szupport vektor gépek (SVM) motivációja, szeparálási tartalék és a súlyvektorok közötti kapcsolat, lineáris SVM optimalizációs problémája. Feltételes szélsőértékkeresési feladatok duálisainak értelmezése (duális probléma definíciója, geometriai értelmezése, ebből a KKT feltételek származtatása).
Irodalom: Neurális hálózatok 6.1, 6.2, 6.3 eleje (6.29-es összefüggésig), Stephen Boyd, Lieven Vandenberghe : "Convex Optimization" 5. fejezete
 
SVM alaklamzása osztályozási feladatokra: lineáris, nemlineáris, gyengített SVM. Tanítás, mint optimalizációs feladat értelmezése (primál / duál optimalizációs feladata). Optimalizációs feladatok elemezése, háló válaszának kifejezése, háló működésének értelmezése a bemeneti / jellemző tartományban.
Irodalom: Neurális hálózatok 6.3.1-6.3.3 (kivéve a "A maximális margójú lineáris szeparálás általánosítóképessége" részt). 
 
5. hét:
 
SVM regressziós célú alkalmazása: gyengített SVR primál problémája (eps. érzéketlenségi sávos abszolútérték hibafüggvény), duális problémájának származtatása. Regresszió viselkedésének elemzése KKT CS feltételeiből. Alkalmazott regularizáció motivációja. Regresszió viselkedése eps megválasztásának függvényében.
Gyengített SVC duális QP feladatának megoldása az SMO eljárással.
Irodalom:  Neurális hálózatok könyv 6.3.4, 6.3.6. SMO cikk (alapötlete, (13)-as összefüggés utáni formális részeknek nem szerepeltek az előadáson)
 
SVM összehasonlítása az eddig tanult neurális megközelítésekkel (perceptron, adaline, MLP, RBF háló). SVM általánosításának kérdésköre, szabályozása, kernel tanulás alapelve. Statisztikus tanuláselmélet: torzítás variancia dilemma, annak következményei: túlilleszkedés, alulilleszkedés fogalma.
Irodalom: Neurális hálózatok könyv 6.3.5, 6.6, 2.1. SVM / DNN kérdéshez kapcsolódó ábra (felső kép szövege is ellentmondásos).
 
6.hét:
 
Vapnik - Chervonenkis (ВЧ) elmélet: empirikus kockázatminimalizálás (ERM) konzisztenciájának szükséges és elégséges feltétele, gyakorlati megvalósítása, empirikus, illetve a valódi kockázat alakulása a tanítóhalmaz méretének függvényében. Indikátor fgv, diverzitás, függvényosztály entrópiája, VC entrópia, növekedési függvény definíciója. ERM konz. elégséges feltétele a növekedési függvény alapján, VC dimenzió definíciója. Osztályozók kockázatának felsőbecslése. Túl / alulilleszkedés definíciója. Lineáris osztályozó, illetve SVM VC dimenzióója. Struktúrális kockázatminimalizálás (SRM) elve, MLP valamint az SVM és a stat. tanuláselmélet kapcsolata.
Irodalom: Neurális hálózatok könyv 2.3, téma iránt mélyebben érdeklődőknek: Vladimir N. Vapnik: Statistical Learning Theory, ISBN: 0-471-03003-1 (1998), V. N. Vapnik: The Nature of Statistical Learning Theory, ISBN: 0-387-98780-0 (1995)
 
7. hét:
 
Tanulás statisztikai becslési problémaként történő értelmezése: Maximum Likelihood megközelítés - ismertebb veszteségfüggvények származtatása (bináris, kategorikus keresztentrópia), hozzájuk tartozó zajeloszlások (négyzetes, abszolút, eps érzéketlenségi sávos abszolútérték). ML becslés és az ERM kapcsolata, megközelítés korlátja. MAP becslés - regularizáció motivációja, valószínűségi értelmezései, explicit regularizáció tipikus függvényei (L2^2 - Tyihonov, L1 - Lasso, L2, L0) ezek posteriorjának vizsgálata (proximity operátorral).
Irodalom: Neurális hálózatok könyv 2.4, Deep Learning book 5. fejezetének részei (5.5, 5.6, 5.7), Parkih, Boyd: "Proximal Algorithms" cikk csak a proximal operátor kell belőle
 
Regularizáció általános célja, kapcsolata a statisztikai tanuláselmélet fogalmaival. Bayes-i modellátlagolás (nem összekeverendő a Bayes becsléssel). Dinamikus nemlináris rendszerek modellezése neurális hálókkal: NFIR, NARX, NOE, NARMAX leírások, állapotváltozós modell. Dinamikus hálók tipikus alkalmazási területei. Ezek jellemzői, nehézségei, illetve a belőlük eredő korlátok.
Irodalom: Neurális hálózatok könyv: 2.4, 8. fejezet bevezető, 8.1; Bayes-i modellátlagolás cikk (előadáson csak az első ö.f.-ig jutottunk)
 
8. hét:
 
Regresszorvektor választás Lipschitz index alapján (modell mentes), valamint maradék hiba autokorrelációja, és bemenettel számított keresztkorrelációja alapján (modell alapú megközelítés). FIR MLP konstrukciója, neuronok válaszainak definíciója. Hibavisszaterjesztéses eljárással történő tanításuk kiterítéssel (Back Propagation Through Time), valamint gradiens sztochasztikus becslése alapján (Temporal Backpropagation). Delta szabály módosítása.
Irodalom: Neurális hálózatok könyv 8.6.1, 8.3
 
Visszacsatolt neurális hálók MLP-vel történő megvalósítása, ezek tanító eljárásai (kiterítéssel - BPTT, valós idejú eljárással - RTRL). Cella alapú megközelítése jellemző architektúrái (SISO, MISO, SIMO, MIMO) és ezek alkalmazási területei. RNN cella felépítése, használatának korlátai (hosszú távú emlékezet problematikája).
Irodalom: Neurális hálózatok könyv 8.4, Deep Learning book 10.1, 10.2, 10.4, 10.7
 
9. hét:
 
Cella alapú visszacsatolt hálónál a hosszútávú emlékezet kialakításának problémái: gradiens alapú optimalizáció korlátjai, gradient clipping, büntetőfüggvény regularizációja (csak említésként szerepelt)). Visszacsatolás felvágása - teacher forcing, annak praktikus alkalmazása. Echo State Network (ESN) felépítése, működése, tervezésének kérdései, általános motivációja. Kapuzott cella alapú RNN-ek (LSTM, GRU) felépítése, működésük, hosszútávú emlékezet céljából alkalmazott strukturális átalakításaik. Mély cella alapú visszacsatolt eszközök felépítésének kérdései.
Irodalom: Deep Learning book 10.5, 10.7, 10.8, 10.9, 10.11, 10.12, 10.13 10.2 (10.8 összefüggés körüli részek - Teacher Forcing),
Segédanyag: Stanford CS231n RNN-es diasora (kiterített LSTM a 100 - 104. diákon) 
 
Természetes nyelvű szövegfeldolgozás (NLP): bidirekcionális visszacsatolt cella, alacsony dimenziós beágyazás (word2vec) jellemzői, előnyei, hátrányai. Seq2seq megközelítés korlátjai, ezek meghaladására avasolt konkrét architektúráka: FIR MLP alapú szövegosztályozás, Attention layer alkalamzása rekurrens cellák esetén, Self Attention motivációja, konstrukciója, alaklamazása , multihead attention (Transformer Network).   
Irodalom: Deep Learning book 10.3, 10.2.3
FIR MLP alapú osztályozás cikk, Attention mechanism cikk, Transformer Network cikk
Kiegészítésként (előadáson idő hiányában nem szerepelt, transfer learning NLP-s alapja): BERT cikk, valamint a szekvenciális hálókhoz feljesztett Tensor2Tensor könyvtár minta notebookja.
 
11. hét:
 
Mély neurális hálók: konstrukciójuk fő motivációja (reprezentáció tanulás), háló mélységére, rétegek szélességére vonatkozó megfontolások. Mély hálók architektúrális módosításai, új elemei: aktivációs függvények, és azok optimalizációra, illetve modellezőképességre gyakorolt hatásaik (logisztikus szigmoid, tanh, ReLU, LeakyReLU, ELU, Maxout), minták előfeldolgozásának kérdése (standardizálás), batch normalizáció (motivációja, optimalizációra gyakorolt hatása, regularizációs hatása, alkalmazása tanítási, illetve következtetési / tesztelési fázisban), dorpout (motiváció Bayes-i modell átlagolás, illetve a szakértő együttesek megközelítéséből, regularizáció hatása, következtetés során alkalmazása - klasszikus dropout, Monte Carlo dropout).
Irodalom: Deep Learning könyv: 6.3, 6.4, 7.11, 7.12, 8.7.1, Batch normalization cikk, MC dropout cikk
 
Mély neurális hálók konstrukciója: változók inicializálása (Xavier Glorot inicializáció), tudástranszfer. Tanítás során alkalmazott numerikus optimalizációs módszerek áttekintése, viselkedésük analízise: Másodrendű (Newton, BFGS, Konjugált gradiens), Elsőrendű: gradient descent, momentumos grad. desc. viselkedése, konvergencia tulajdonságai, motivációja (Polyak, illetve Nesterov momentum), adaptív gradiens módszerek: motivációjuk, Adaptive Grad (Adagrad) eljárás, alkalmazásának korlátjai.
Irodalom: Deep Learning könyv: 15.2, 8.2, 8.3, 8.4, 8.5.1, 8.6 Súlyok inicializációja: https://arxiv.org/pdf/1704.08863.pdf
 
12. hét:
 
Adaptív gradiens módszerek folytatása: RMS Prop (motiváció, működése), ADAM (Adaptív Momentum) motivációja, definíciója, viselkedése. Taglalt, elsőrendű optimalizációs módszerek viselkedése neurális hálók hibafelületeinek tipikus részein. Mély hálók hibafelületeinek általános jellemzői, ciklikus bátorsági tényező alkalmazása szakértőegyüttes létrehozására. Konvolúciós neurális hálózatok motivációja, felépítése. Új rétegtípusok: 2D konvolúciós réteg (lépésközzel, dilatációval, mélységi irányú szeparábilis kivitelben) motivációja, jellemzői; pooling rétegeke (max, avg) motivációja, működése; sorosító réteg szerepe.
Irodalom: Deep Learning könyv: 8.5.2, 8.5.3, 8.5.4. 9.1, 9.2, 9.3, 9.4, 9.5 Ciklikus bátorsági tényezőhöz kapcsolódó cikk , optimalizációhoz kapcsolódó diasor (nem szorosan ezt követte az idei előadás), 

13. hét:

Konvolúciós neurális hálózatok felépítése: transzponált konvolúció definíciója, motivációja. Adat augmentálás kérdésköre. Ismertebb, mély CNN architektúrák jellemzői, motivációjuk: AlexNet, VGG, GoogleNet (Inception), ResNet, Stochastic Depth, DenseNet, SENet, U-net, DeepLab-v3. CNN alapú objektumdetektálás általánosabb módszerei: csúszóablakos osztályozás, Régió alapú CNN (RCNN), Fast R-CNN, Faster R-CNN, Yolo v2, v3, RetinaNet.
Segédanyag: diasor

Szegmentálás konvolúciós neurális hálózatokkal: csúszóablakos megközelítés, fully convolutional NN-ek (U-net, DeepLab-v3). Eloszlások mintákból történő tanulásának motivációja, alkalmazhatósága. Együttes eloszlások faktorizáció alapú mintavétele (szekvenciális neurális hálókkal), Autoenkóder hálózatok motivációja, tipikus felépítése, Variációs Autoenkóderek (motivációjuk, veszteségfüggvényük származtatása, viselkedésük összevetése az autoenkóderekkel), Generative Adversarial Network-ök: motivációjuk, működésük főbb elve, gyakorlati alkalmazásuk technikai korlátai.
Segédanyag: diasor (az előadáson nem szereplő diák fejlécében *-van)  

 

 

 

Ellenőrző kérdések a tárgyhoz itt találhatók (2017-es változat).

Ajánlott irodalom:

Altrichter, Horváth, Pataki, Strausz, Takács, Valyon: "Neurális hálózatok” Panem, Budapest, 2007.

Részletesebb információ itt (A könyv nyomtatott formában már nem vásárolható meg.) Hibajegyzék

A könyv elektronikus változata hozzáférhető egyetemi belépéssel rendelkezők számára. Az elektronikus változat az ismert hibákat nem tartalmazza.

Ian Goodfellow, Yoshua Bengio, Aaron Courville: "Deep Learning" MIT Press, 2016. Elérhető:  http://www.deeplearningbook.org/

Haykin, S.: "Neural Networks. A Comprehensive Foundation" Second Edition, Prentice Hall. 1999.

Hassoun, M. H.: "Fundamentals of Artificial Neural Networks" MIT press, Cambridge, 1995

Elérhető elektronikusan is: http://neuron.eng.wayne.edu/tarek/MITbook/t_contents.html

Mitchell, T. "Machine Learning" McGraw Hill, New York, 1997.

Schölkopf, B, Buges, C.J.C., Smola, A. J.: "Advances in Kernel Methods, Support Vector Learning" MIT Press, Cambridge, MA. 1999.

Schölkopf, B,  Smola, A. J: Learning with Kernels, MIT Press, 2002. (Egy része elektronikusan is elérhető) 

A Méréstechnika és Információs Rendszerek Tanszék WWW szerverén található összefoglaló anyag.

Kiegészítő anyag a CMAC hálóhoz

Kiegészítő anyag a CMAC háló általánosítási hibájáról

Rövid összefoglaló az LS SVM és egyéb SVM verziókról

Kiegészítő anyag a kernel gépekről

Összefoglaló cikk a Kernel PCA-ról

Áttekintő cikk a statisztikus tanuláselméletről:

V. Vapnik: "An overview of statistical learning theory" IEEE Trans. on Neural Networks,  vol. 10. No. 5. pp. 988-1000. 1999.) 

Elektronikusan elérhető az egyetem területéről az IEEE Xplore-on keresztül.

Több, a témakörhöz kapcsolódó tutorial az alábbi címen érhető el:

http://ewh.ieee.org/cmte/cis/mtsc/ieeecis/tutorial_ppt.htm

A tárgyhoz kapcsolódó fólia készlet

 

© 2010-2020 BME MIT