Jegyzetek
Tárgy tematikája heti bontásban 2024 tavaszi félévben:
Adminisztratív infomrációk ismertetése, neuronhálók fejlődésének áttekintése: biológiai modellektől a mély hálókig. Rosenblatt perceptron architektúrája, képessége, tanító eljárása, tanítás geometriai interpretációja, konvergenciájának tulajdonságai. Perceptron modellező képessége, perceptron kapacitás
Irodalom: Neurális hálózatok könyv bevezetése, 3.1. fejezete.
Adaptív lineáris neuron (Adaline) architektúrája, tanítása: Wiener-Hopf egyenlet, gradient descent (legmeredekebb lejtő) alapú optimalizáció - konvergencia feltétele. Adaline hibafelületének geometriai interpretációja. Adaline négyzetes kritériumfüggvény szerinti hibafelületének vizsgálata, annak kondícionálása adatok (lineáris) előfeldolgozásával. Adaline SGD (LMS) eljárással történő tanítása, tanítás konvergenciájának feltétele, konvergencia sebességének függvénye, viselkedése az optimum közelében. Adaline képességének összevetése a Perceptronéval. Elemi, szigmoidos neuron felépítése, logisztikus szigmoid, tanh nemlinearitás motivációja.
Irodalom: Neurális hálózatok könyv 3.2, 2.5, 3.3.
Teljesen összekötött többrétegű neurális hálózatok (Multi Layered Perceptron / FCN / Feed Forward Neural Network ) architektúrája. Tanítása négyzetes hiba esetén (S)GD eljárással - hibavisszaterejsztés származtatása (delta szabály). MLP konstrukciójával kapcsolatos kérdések: hálózatok képessége (univerzális approximátor / osztályozó), hálózat méretének meghatározása (hálózat bővítése, betanított hálózat nyesése: neuronok kivágása, súlyok eliminálása - Optimal Brain Surgeon/Damage alapötlete). MLP direkt regularizációja súlyok ritkítása érdekében (L1, L0). Hibafelület jellege. Telítődő nemlinearitás hatása a tanulásra. MLP esetén a súlyok inicializációjának kérdése. Másodrendű optimalizációs módszerek hálók konstrukciója során: Newton iteráció működése, összevetése a Gradient Descenttel, Bactracking Line Search alapú Newton iteráció (Armijo szabály). Newton iteráció numerikus stabilitása, kondícionálása kvázi Newton módszerekkel: Levenberg Marquardt eljárás. Elsőrendű optimalizációs módszerek módosítása: Polyak momentum, Nesterov momentum. MLP tanítása Early stopping módszerrel (annak regularizációra gyakorolt hatása - kvadratikus hbafelület esetén működésének az értelmezése). MLP tanítása sztochasztikus optimalizáló eljárásokkal (SGD jellemzői, optimalizációra gyakorolt hatása), batch méret és bátorsági tényező megválasztásának kérdése. Négyzetes veszteségfüggvény esetén a Perceptron, Adaline, MLP hibafelülete.
Irodalom: Neurálsi hálózatok könyv 4.1, 4.2, 4.3 fejezetei, OBS cikk, Armijo bactracking line search cikk ((2)-es szabály), hibafelületekről diák.
Radiális bázifüggvényes hálók (RBF): architektúrájuk, nemlineáris dimenziónövelő bázistranszfromáció és a lineáris szeparabilitás kapcsolata, súlyvektorának meghatározása (Moore-Penrose pseudo inverz) analitikusan, Orthogonal Least Squares eljárással, K-means eljárással. RBF hálózatok MLP-vel való összevetése, képességük, jellemző viselkedésük összehasonlítása.
Irodalom: Neurális hálózatok könyv 5.1, 5.3 fejezetek ide vonatkozó részei
Kernel gépek általános felépéítése, konstrukciójuk kérdése. Kernel trükk, kernel függvényekre vonatkozó Mercer tétel, kernel függvények többségének általános tualjdonságai. Nevezetesebb kernel függvények, azok jellemzőtérbeli reprezentációja (lineáris, polinomiális, Gauss). Szupport vektor gépek motivációja, felépítésük. Egyenlőtelnség kényszeres feltételes szélsőérték keresés. Lagrange duális optimalizálási feladat, annak geometriai értelmezése (KKT feltételek áttekintése, gyenge valamint erős dualitás tételek származtatása). Lineáris, osztályozó SVM (SVC) optimalizációs problémájának származtatása, viselkedésének az értelmezése. Nemlineáris, gyengített SVM osztályozó (C-SVC) optimalizációs problémájának származtatása, viselkedésének analízisa, C paraméter hatásának értelmezése. Regressziós SVM (eps. érzéketlenségi sávos abs. veszteségfüggvénnyel) optimalizációs problémájának származtatása, viselkedésének analízise, súlyvektor normaredukciójának motivációja. C-SVC duális feladatának hatékony megoldása SMO optimalizációval. SVM-ek összegzése.
Irodalom: Stephen Boyd, Lieven Vandenberghe : "Convex Optimization" 5. fejezete; Neurális hálózatok könyv: 6. fejezet bevezetője, 6.1, 6.2, 6.3 releváns részei, 6.6 releváns részei; SMO eljárás alapötlete.
Tanulás, mint statisztikai becslési probléma: maximum likelihood becslések elve, regressziós veszteségfüggvényekhez tartozó likelihood függvények (négyzetes, abs érték, eps érzéketlenségi sávos abs. érték veszteségfüggvény). Maximum likelihood becslésekből származtatott veszteségfüggvények osztályozási feladatokhoz (bináris, kategorikus keresztentrópia, hinge loss). Regularizáció - Maximum a Posterior-i beclések motivációja, illeszkedése a stat. tanuláselmélet témakörébe, klasszikus explicit súlyregularizációk: Tyihononv, Lasso, L0 priorjaik, proximity operátor alapú analízisük, súlyokra gyakorolt posterior hatásuk. Bayes-i modellátlagolás (nem összekeverendő a Bayes becsléssel), posterior becslés neurális hálózatokkal.
Irodalom: Neurális hálózatok Neurális hálózatok 2.1. releváns részei, 2.3, 2.4, Deep Learning book 5. fejezetének részei (5.4, 5.5, 5.6, 5.7), Parkih, Boyd: "Proximal Algorithms" cikk (proximal operator); Bayes-i modellátlagolás cikk . Téma iránt mélyebben érdeklődőknek: Vladimir N. Vapnik: Statistical Learning Theory, ISBN: 0-471-03003-1 (1998), V. N. Vapnik: The Nature of Statistical Learning Theory, ISBN: 0-387-98780-0 (1995).
Altrichter, Horváth, Pataki, Strausz, Takács, Valyon: "Neurális hálózatok” Panem, Budapest, 2007. Elektronikus változata (Chrome alapú böngészőkben a matematikai összefüggések megjelenítéséhaz a MathML szükséges)
Ian Goodfellow, Yoshua Bengio, Aaron Courville: "Deep Learning" MIT Press, 2016. Elérhető: http://www.deeplearningbook.org/
Tárgy tematikája heti bontásban 2023 tavaszi félévben:
Adminisztratív infomrációk ismertetése, neuronhálók fejlődésének áttekintése: biológiai modellektől a mély hálókig. Rosenblatt perceptron architektúrája, képessége, tanító eljárása, tanítás geometriai interpretációja, konvergenciájának tulajdonságai. Perceptron modellező képessége, perceptron kapacitás
Irodalom: Neurális hálózatok könyv bevezetése, 3.1. fejezete.
Adaptív lineáris neuron (Adaline) architektúrája, tanítása: Wiener-Hopf egyenlet, gradient descent (legmeredekebb lejtő) alapú optimalizáció - konvergencia feltétele. Adaline hibafelületének geometriai interpretációja. Adaline négyzetes kritériumfüggvény szerinti hibafelületének vizsgálata, annak kondícionálása adatok (lineáris) előfeldolgozásával. Adaline SGD (LMS) eljárással történő tanítása, tanítás konvergenciájának feltétele, konvergencia sebességének függvénye, viselkedése az optimum közelében. Adaline képességének összevetése a Perceptronéval. Elemi, szigmoidos neuron felépítése, logisztikus szigmoid, tanh nemlinearitás motivációja.
Irodalom: Neurális hálózatok könyv 3.2, 2.5, 3.3.
Teljesen összekötött többrétegű neurális hálózatok (Multi Layered Perceptron / FCN / Feed Forward Neural Network ) architektúrája. Tanítása négyzetes hiba esetén (S)GD eljárással - hibavisszaterejsztés származtatása (delta szabály). MLP konstrukciójával kapcsolatos kérdések: hálózatok képessége (univerzális approximátor / osztályozó), hálózat méretének meghatározása (hálózat bővítése, betanított hálózat nyesése: neuronok kivágása, súlyok eliminálása - Optimal Brain Surgeon/Damage alapötlete). MLP direkt regularizációja súlyok ritkítása érdekében (L1, L0). Hibafelület jellege. Telítődő nemlinearitás hatása a tanulásra. MLP esetén a súlyok inicializációjának kérdése. Másodrendű optimalizációs módszerek hálók konstrukciója során: Newton iteráció működése, összevetése a Gradient Descenttel, Bactracking Line Search alapú Newton iteráció (Armijo szabály). Newton iteráció numerikus stabilitása, kondícionálása kvázi Newton módszerekkel: Levenberg Marquardt eljárás. Elsőrendű optimalizációs módszerek módosítása: Polyak momentum, Nesterov momentum. MLP tanítása Early stopping módszerrel (annak regularizációra gyakorolt hatása - kvadratikus hbafelület esetén működésének az értelmezése). MLP tanítása sztochasztikus optimalizáló eljárásokkal (SGD jellemzői, optimalizációra gyakorolt hatása), batch méret és bátorsági tényező megválasztásának kérdése. Négyzetes veszteségfüggvény esetén a Perceptron, Adaline, MLP hibafelülete.
Irodalom: Neurálsi hálózatok könyv 4.1, 4.2, 4.3 fejezetei, OBS cikk, Armijo bactracking line search cikk ((2)-es szabály), hibafelületekről diák.
Radiális bázifüggvényes hálók (RBF): architektúrájuk, nemlineáris dimenziónövelő bázistranszfromáció és a lineáris szeparabilitás kapcsolata, súlyvektorának meghatározása (Moore-Penrose pseudo inverz) analitikusan, Orthogonal Least Squares eljárással, K-means eljárással. RBF hálózatok MLP-vel való összevetése, képességük, jellemző viselkedésük összehasonlítása.
Irodalom: Neurális hálózatok könyv 5.1, 5.3 fejezetek ide vonatkozó részei
Kernel gépek általános felépéítése, konstrukciójuk kérdése. Kernel trükk, kernel függvényekre vonatkozó Mercer tétel, kernel függvények többségének általános tualjdonságai. Nevezetesebb kernel függvények, azok jellemzőtérbeli reprezentációja (lineáris, polinomiális, Gauss). Szupport vektor gépek motivációja, felépítésük. Egyenlőtelnség kényszeres feltételes szélsőérték keresés. Lagrange duális optimalizálási feladat, annak geometriai értelmezése (KKT feltételek áttekintése, gyenge valamint erős dualitás tételek származtatása). Lineáris, osztályozó SVM (SVC) optimalizációs problémájának származtatása, viselkedésének az értelmezése. Nemlineáris, gyengített SVM osztályozó (C-SVC) optimalizációs problémájának származtatása, viselkedésének analízisa, C paraméter hatásának értelmezése. Regressziós SVM (eps. érzéketlenségi sávos abs. veszteségfüggvénnyel) optimalizációs problémájának származtatása, viselkedésének analízise, súlyvektor normaredukciójának motivációja. C-SVC duális feladatának hatékony megoldása SMO optimalizációval. SVM-ek összegzése.
Irodalom: Stephen Boyd, Lieven Vandenberghe : "Convex Optimization" 5. fejezete; Neurális hálózatok könyv: 6. fejezet bevezetője, 6.1, 6.2, 6.3 releváns részei, 6.6 releváns részei; SMO eljárás alapötlete.
Tanulás, mint statisztikai becslési probléma: maximum likelihood becslések elve, regressziós veszteségfüggvényekhez tartozó likelihood függvények (négyzetes, abs érték, eps érzéketlenségi sávos abs. érték veszteségfüggvény). Maximum likelihood becslésekből származtatott veszteségfüggvények osztályozási feladatokhoz (bináris, kategorikus keresztentrópia, hinge loss). Regularizáció - Maximum a Posterior-i beclések motivációja, illeszkedése a stat. tanuláselmélet témakörébe, klasszikus explicit súlyregularizációk: Tyihononv, Lasso, L0 priorjaik, proximity operátor alapú analízisük, súlyokra gyakorolt posterior hatásuk. Bayes-i modellátlagolás (nem összekeverendő a Bayes becsléssel), posterior becslés neurális hálózatokkal.
Irodalom: Neurális hálózatok Neurális hálózatok 2.1. releváns részei, 2.3, 2.4, Deep Learning book 5. fejezetének részei (5.4, 5.5, 5.6, 5.7), Parkih, Boyd: "Proximal Algorithms" cikk (proximal operator); Bayes-i modellátlagolás cikk . Téma iránt mélyebben érdeklődőknek: Vladimir N. Vapnik: Statistical Learning Theory, ISBN: 0-471-03003-1 (1998), V. N. Vapnik: The Nature of Statistical Learning Theory, ISBN: 0-387-98780-0 (1995).
Ellenőrző kérdések a tárgyhoz itt találhatók (2017-es változat).
Ajánlott irodalom:
Altrichter, Horváth, Pataki, Strausz, Takács, Valyon: "Neurális hálózatok” Panem, Budapest, 2007.
Részletesebb információ itt (A könyv nyomtatott formában már nem vásárolható meg.) Hibajegyzék
A könyv elektronikus változata hozzáférhető egyetemi belépéssel rendelkezők számára. Az elektronikus változat az ismert hibákat nem tartalmazza.
Ian Goodfellow, Yoshua Bengio, Aaron Courville: "Deep Learning" MIT Press, 2016. Elérhető: http://www.deeplearningbook.org/
Haykin, S.: "Neural Networks. A Comprehensive Foundation" Second Edition, Prentice Hall. 1999.
Hassoun, M. H.: "Fundamentals of Artificial Neural Networks" MIT press, Cambridge, 1995
Elérhető elektronikusan is: http://neuron.eng.wayne.edu/tarek/MITbook/t_contents.html
Mitchell, T. "Machine Learning" McGraw Hill, New York, 1997.
Schölkopf, B, Buges, C.J.C., Smola, A. J.: "Advances in Kernel Methods, Support Vector Learning" MIT Press, Cambridge, MA. 1999.
Schölkopf, B, Smola, A. J: Learning with Kernels, MIT Press, 2002. (Egy része elektronikusan is elérhető)
A Méréstechnika és Információs Rendszerek Tanszék WWW szerverén található összefoglaló anyag.
Kiegészítő anyag a CMAC hálóhoz
Kiegészítő anyag a CMAC háló általánosítási hibájáról
Rövid összefoglaló az LS SVM és egyéb SVM verziókról
Kiegészítő anyag a kernel gépekről
Összefoglaló cikk a Kernel PCA-ról
Áttekintő cikk a statisztikus tanuláselméletről:
V. Vapnik: "An overview of statistical learning theory" IEEE Trans. on Neural Networks, vol. 10. No. 5. pp. 988-1000. 1999.)
Elektronikusan elérhető az egyetem területéről az IEEE Xplore-on keresztül.
Több, a témakörhöz kapcsolódó tutorial az alábbi címen érhető el:
http://ewh.ieee.org/cmte/cis/mtsc/ieeecis/tutorial_ppt.htm
A tárgyhoz kapcsolódó fólia készlet
Altrichter, Horváth, Pataki, Strausz, Takács, Valyon: "Neurális hálózatok” Panem, Budapest, 2007. Elektronikus változata (Chrome alapú böngészőkben a matematikai összefüggések megjelenítéséhaz a MathML szükséges)
Ian Goodfellow, Yoshua Bengio, Aaron Courville: "Deep Learning" MIT Press, 2016. Elérhető: http://www.deeplearningbook.org/