Oliver Zeigermann

Machine Learning – kurz & gut


Скачать книгу

Gruppen bzw. »Klumpen« oder »Haufen« (Cluster). Die Kategorisierung geschieht dabei anhand ähnlicher Eigenschaften. Nehmen wir als Beispiel an, dass wir von einer Gruppe von Hunden die Größe und das Gewicht kennen. Wir nehmen dazu ein Koordinatensystem mit einer x-Achse, auf der wir die Größe auftragen, und einer y-Achse für das Gewicht. Versehen wir nun jeden Hund mit einem Punkt, der seinem Gewicht und seiner Größe entspricht, ergibt sich eine Verteilung der Hunde, wie in Abbildung 1-2 zu sehen.

       Abbildung 1-2: Verteilung von Hunden (jeder Punkt ist ein Hund)

      Ebenso wie wir als Menschen in der Lage wären, hier Gruppen einzutragen, ohne Ahnung von Hunden zu haben, kann das auch ein Clustering-Verfahren. Erst die Interpretation der Gruppen erfordert wieder menschliches Zutun. Ein mögliches Ergebnis ist in Abbildung 1-3 dargestellt. Andere Clusterungen sind natürlich möglich – das hängt vom jeweiligen Menschen oder Clustering-Verfahren ab.

      Als kleine Übung bitten wir dich, den jeweiligen Clustern Interpretationen zu geben. Was für eine Gruppe könnte z.B. die Gruppe ganz rechts unten sein?

       Abbildung 1-3: Automatisches Clustering der Hundegruppe (ohne Interpretation)

       Vereinfachung von Daten – Reduktion von Dimensionen

      Zum Unsupervised Learning gehört auch die sogenannte Principal Component Analysis (PCA, Hauptkomponentenanalyse, https://de.wikipedia.org/wiki/Hauptkomponentenanalyse). Durch eine Reduzierung der Dimensionen (d.h. der Anzahl der Variablen in den Datensätzen) werden dabei umfangreiche Datensätze vereinfacht, ohne dass wichtige Informationen verloren gehen. Dies werden wir ebenfalls für die Feature-Auswahl in Kapitel 5 nutzen. Das heißt, dieses Verfahren kann auch für die Datenvorverarbeitung beim Supervised Learning genutzt werden.

      Als Beispiel für eine PCA kann man ICE-Fahrten von Berlin nach Hamburg betrachten. Kennt man die Abreisezeit, ist die ungefähre geplante Ankunftszeit daraus ableitbar. Beide Dimensionen in seinen Datensätzen zu halten, wäre unnötig. Dies herauszufinden und den Datensatz in seiner Dimension zu reduzieren (in unserem Fall von 2 auf 1), ist Aufgabe der PCA.

      Kapitel 8, Unsupervised Learning mit Autoencodern, zeigt über diese Beispiele hinaus mit Autoencodern Techniken auf Basis von neuronalen Netzen.

       Reinforcement Learning

      Reinforcement Learning (bestärkendes Lernen oder verstärkendes Lernen, https://de.wikipedia.org/wiki/Best%C3%A4rkendes_Lernen) wird häufig in Spielsituationen verwendet. Ein System soll anhand von positiver oder negativer Rückmeldung auf eine ausgeführte Aktion ein optimales Verhalten innerhalb einer Situation erlernen. Diese Situation wird dem System anhand gewisser Eingabeparameter zusammen mit einer Bewertung des Spielstands mitgeteilt. Eine solche Bewertung kann zum Beispiel der Punktestand innerhalb eines Arcade-Spiels sein. Mit diesem könnte zusammen mit der Videodarstellung eines Spiels ein solches System gefüttert werden. Führt das System eine Aktion aus, z.B. Schießen, und führt dies zu einem höheren Punktestand, wird das Verhalten verstärkt.

      Reinforcement Learning mit neuronalen Netzen wird in Kapitel 9 beschrieben.

       Visualisierung

      Unsere Gehirne sind großartig darin, Muster in visuellen Darstellungen zu erkennen. Nicht so großartig sind wir darin, lange Datenkolonnen auszuwerten und daraus interessante Informationen abzuleiten. Sieh dir dazu einmal den Auszug aus Datensätzen über Flüge in Google Sheets in Abbildung 1-4 an.

      Wie viele Informationen kann man als Mensch aus so einer Tabelle herausziehen? Nicht besonders viele. Und verlockend ist die Aufgabe auch nicht gerade.

       Abbildung 1-4: Rohe Datensätze in Google Sheets

      Wie sieht das nun mit einer Grafik aus, die die Verteilung von Verspätungen aus diesen Datensätzen aufbereitet? Diese haben wir als Diagramm aus den Google Sheets in Abbildung 1-5 aufbereitet.

       Abbildung 1-5: Verteilung von Verspätungen als Google-Sheets-Diagramm

      Auch wenn diese automatisch erzeugte Grafik noch einige Punkte zu wünschen übrig lässt, sehen wir sofort, dass die meisten Verspätungen (über 300) in dem ersten Balken liegen. Die meisten Flüge aus unseren Daten sind also entweder gar nicht oder nur gering verspätet.

      Auch die weitere Verteilung der Verspätungen können wir auf einen Blick erfassen. Eine Häufung am rechten Rand fällt noch auf. Manche Flüge scheinen extrem verspätet. Ohne genauer auf die Interpretation dieser Daten einzugehen: Dies aus einer Menge von rohen Datensätzen herauszulesen, wäre uns vermutlich ohne den Umweg über eine – eventuell von Hand gezeichnete – Grafik nicht möglich gewesen.

      Aus diesem Grund werden wir immer wieder Visualisierungen unserer Daten mit Python erzeugen und auch in dieses Buch einbinden. Wie das geht, lernst du Schritt für Schritt in jedem Kapitel ein wenig mehr.

       KAPITEL 2

       Quick-Start

      In diesem Buch werden wir das auf Python basierende Framework Scikit-Learn (http://scikit-learn.org) verwenden. Oft wird auch nur der abgekürzte Name Sklearn genutzt.

      Anhand eines kompletten und durchgängigen Beispiels kannst du dich hier schon einmal mit dem Vorgehen beim Machine Learning vertraut machen.

       Unser erstes Python-Notebook

      Damit du wirklich lauffähigen Code hast, aber keine Installationsarie durchlaufen musst, haben wir für dich ein sogenanntes Notebook erstellt. Das Notebook erfordert nur einen Browser für seine Darstellung. Der tatsächliche Code wird auf einem Server, auf dem auch sämtliche Software installiert ist, ausgeführt.

      Für jedes Kapitel haben wir ein Notebook vorbereitet. Diese sind unter der URL https://github.com/DJCordhose/buch-machine-learning-notebooks (https://bit.ly/ml-kug) öffentlich erreichbar.

      Dort kannst du dir das Notebook in der Vorschau inklusive aller Anmerkungen und Ergebnisse ansehen. Du kannst es aber auch auf deinen eigenen Computer herunterladen oder es direkt ohne Installation über die dort vorbereiteten