Eine kurze Einführung in die Statistische Lerntheorie (Prof. Dr. Jochen Giesen, FSU Jena)

Zusammenfassung: Ein praktisches Ziel des maschinellen Lernens ist es mittels Daten gute Vorhersagen zu machen. Formal beobachtet man dabei Daten in Paaren (x,y), wobei x ein Merkmalsvektor und y ein Label ist.
Merkmalsvektoren können z.B. die Pixel in einem Bild sein und das zugehörige Label ist 1, wenn das Bild eine Katze enthält, und 0, andernfalls. Gesucht ist eine Funktion, die fuer jeden möglichen Merkmalsvektor ein Label vorhersagt. In unserem Beispiel, eine Funktion die den Wert 1 annimmt, wenn das Eingabebild eine Katze enthält, und andernfalls den Wert 0. Gegeben eine endliche Menge von Datenpaaren, wie kann man man mittels der Daten aus der großen Klasse von Funktionen, die Merkmalsvektoren auf Label abbilden, eine Funktion auswählen, die gute Vorhersagen auf zuvor noch nicht gesehenen Merkmalsvektoren macht? Auf den ersten Blick scheint eine Lösung dieses Auswahlproblems hoffnungslos? Zwischen 1960 und 1990 haben Vladimir Vapnik und Alexey Chervonenkis in der Sowjetunion und Leslie Valiant in den USA Theorien entwickelt, die es erlauben zu verstehen, was eine gute Auswahl der Vorhersagefunktion ausmacht. In meinem Vortrag werde ich die Grundideen dieser Theorien und ihre erstaunliche praktische Bedeutung vorstellen.