Schmidt Jutta

Smart Data statt Big Data


Скачать книгу

kleinere Unternehmen und nicht kommerzielle Organisationen in der Lage, sich mit Analysen zu beschäftigen, die bis dahin ausschließlich großen Unternehmen vorbehalten waren. Da der Begriff Data Science heutzutage für so gut wie alles verwendet wird, was mit einer Analyse unternehmensbezogener Daten zu tun hat, wird er häufig mit den Techniken des Data-Minings gleichgesetzt, zu denen beispielsweise die künstliche Intelligenz (KI), die Clusterbildung und das Erkennen von Ausreißern gehören. Dank der fulminanten, auf Transaktionen beruhenden Vermehrung von Unternehmensdaten haben diese rechenintensiven Techniken in den letzten Jahren einen Fuß in die Tür von Unternehmen bekommen, für die es sich bis dahin nicht gelohnt hat, so etwas produktiv zu verwenden.

      Ich vertrete in diesem Buch eine sehr weit gefasste Definition des Begriffs Data Science. Sie sieht so aus:

      Data Science ist die Umwandlung von Daten mithilfe der Mathematik und statistischer Methoden in wertvolle Erkenntnisse, Entscheidungen und Produkte.

      Dies ist eine unternehmensbezogene Definition. Dort geht es um ein nützliches und wertvolles Endergebnis, das aus Daten abgeleitet wird. Warum? Mir geht es hier weder um Marktforschung noch glaube ich, dass Daten ästhetische Werte aufweisen. Ich kümmere mich um Data Science, damit mein Unternehmen besser funktioniert und Werte hervorbringt. Und ich kann mir vorstellen, dass es Ihnen ähnlich ergeht.

      Dieses Buch nimmt obige Definition als Grundlage und behandelt zentrale Analysetechniken, zu denen nicht nur Optimierung, Prognosen und Simulationen, sondern auch »heißere« Themen wie künstliche Intelligenz, Netzwerkdiagramme, Clusterbildung und das Entdecken von Ausreißern gehören.

      Einige dieser Techniken sind Jahrzehnte alt. Andere wurden erst in den letzten fünf Jahren entwickelt. Und Sie werden sehen, dass Alter nichts mit Problemen oder Nutzen zu tun hat. Alle vorgestellten Techniken sind unabhängig davon, wie aktuell sie gerade sind, im richtigen Unternehmensumfeld gleich nützlich.

      Damit kennen Sie auch schon den Grund dafür, warum Sie verstehen müssen, wie diese Techniken funktionieren, wie Sie die für ein Problem geeignete Technik auswählen und damit erste Schritte unternehmen können. Dort draußen gibt es viele Typen, die sich zwar mit einer oder zwei dieser Techniken auskennen, die aber den Rest nicht auf ihrem Radar haben. Wenn es in meiner Werkzeugkiste nur einen Hammer gibt, neige ich – wie mein zweijähriger Sohn – dazu, alle Probleme dadurch zu lösen, dass ich hart zuschlage.

      Da ist es doch wohl besser, ein paar zusätzliche Werkzeuge zur Auswahl zu haben.

      Was hat es denn mit Big Data auf sich?

      Höchstwahrscheinlich sind Sie öfter über Big Data als über Data Science gestolpert. Handelt dieses Buch von Big Data?

      Das hängt davon ab, wie Sie Big Data definieren. Wenn Sie unter Big Data das Berechnen einfacher, zusammenfassender Statistiken anhand unstrukturierter Daten verstehen, die in riesigen, horizontal skalierbaren Datenbanken liegen, die nichts mit SQL zu tun haben, dann hat dieses Buch nichts mit Big Data zu tun.

      Wenn Sie Big Data aber als Umwandlung geschäftlicher Daten in Entscheidungen und Erkenntnisse definieren, wobei für diese Umwandlung (ohne Rücksicht darauf, wo die Daten gespeichert sind) innovative Analysemethoden verwendet werden, dann handelt dieses Buch auch von Big Data.

      Dieses Buch beschäftigt sich nicht mit Datenbanktechnologien wie MongoDB oder HBase. Dieses Buch behandelt auch keine Projekte zur Data-Science-Kodierung wie Mahout, NumPy, die verschiedenen R-Bibliotheken und so weiter. Um diese Themen kümmern sich andere Bücher.

      Und das ist auch gut so. Dieses Buch ignoriert die Werkzeuge, die Speicherung und den Code. Stattdessen konzentriert es sich so weit wie möglich auf die Techniken. Dort draußen gibt es viele Menschen, die glauben, dass Big Data nichts als Datenspeicherung und Datenabfrage ist, wobei die Daten ein wenig bereinigt und zusammengefasst werden.

      Sie irren. Dieses Buch bringt Sie auf eine Ebene, die über dem liegt, was Sie von den Verkäufern von Big-Data-Software und von Bloggern zu hören bekommen, und es zeigt Ihnen, was Sie wirklich aus Ihren Daten herausholen können. Und das Beste daran ist, dass der Umfang Ihrer Daten für die meisten dieser Techniken keine Rolle spielt. Sie müssen nicht erst über ein Petabyte an Daten verfügen und die entsprechenden Kosten bewältigen, bevor Sie sich mit den Interessen Ihrer Kunden auseinandersetzen dürfen. Wenn Sie einen großen Datenbestand haben, ist das prima, aber genauso gibt es Unternehmen, die so etwas nicht aufweisen, nicht benötigen und niemals haben werden. Wie das zum Beispiel bei meinem Metzger der Fall ist. Das bedeutet aber noch lange nicht, dass sein E-Mail-Marketing nicht von einem Würstchen-im-Vergleich-mit-Schinken-Cluster profitieren könnte.

      Wenn Bücher über Data Science Trainingsunterlagen wären, hätten Sie es nur mit Lockerungsübungen zu tun – keine Gewichte, nichts Ergometrisches. Wenn ein Buch aber weiter geht und Sie verstanden haben, wie Sie die Techniken nur mit einem Grundstock an Werkzeugen implementieren können, sind Sie auch in der Lage, diese Implementierungen in einer Vielzahl von Technologien vorzunehmen, auf ihnen problemlos etwas aufzubauen, bei Beratern die richtigen Data-Science-Produkte zu erwerben, Ihren Entwicklern die richtige Vorgehensweise an die Hand zu geben und so weiter.

      Wer bin ich?

      Gönnen Sie mir eine kurze Unterbrechung, um Ihnen etwas über mich zu erzählen. Es würde zu weit gehen, Ihnen zu erklären, warum ich Data Science so lehre, wie ich das tue. Bis vor einigen Jahren war ich Unternehmensberater. Ich beschäftigte mich bei Organisationen wie dem FBI, dem US-amerikanischen Verteidigungsministerium, der Coca-Cola Company, der Intercontinental Hotels Group und der Royal Caribbean International mit Analyseproblemen. Und jedes Mal, wenn ich irgendwo wegging, verstärkte sich das Gefühl, dass viel mehr Menschen als nur die, die hauptberuflich als Data Scientists arbeiten, Data Science verstehen sollten.

      Ich habe mit Managern zusammengearbeitet, die Simulationen gekauft haben, obwohl sie Optimierungsmodelle benötigten. Ich habe mit Analysten zusammengearbeitet, die ausschließlich mit Gantt-Diagrammen umgehen konnten, weshalb alles über Gantt-Diagramme gelöst werden musste. Ein Berater konnte leicht einen Kunden mit einer alten Publikation und einer gekonnt gemachten PowerPoint-Präsentation beeindrucken, der KI nicht von BI unterscheiden kann.

      In diesem Buch geht es darum, ein größeres Publikum in die Lage zu versetzen, Data-Science-Techniken zu verstehen und zu implementieren. Ich habe nicht die Absicht, aus Ihnen gegen Ihren Willen einen »Datenwissenschaftler« zu machen. Ich möchte nur die Rolle, die Sie bisher im Unternehmen spielen, um die Fähigkeiten erweitern, mit Data Science umzugehen.

      Wer sind Sie?

      Keine Angst, aber ich habe nicht vor, Sie mithilfe von Data Science auszuspionieren. Ich habe keine Ahnung, wer Sie sind, aber vielen Dank dafür, dass Sie für dieses Buch Geld ausgegeben haben. Vielleicht unterstützen Sie aber auch Ihre örtliche Bibliothek. Das wäre auch gut.

      Hier ein paar Archetypen (oder Personas, wie sie in Marketingkreisen genannt werden), die in meinem Kopf herumspukten, als ich dieses Buch schrieb. Vielleicht sind Sie:

      ● Die stellvertretende Leiterin der Marketingabteilung, die die Daten der geschäftlichen Transaktionen strategischer als bisher für die Preisgestaltung und die Einteilung der Kunden nutzen möchte. Aber Sie verstehen die Vorgehensweise Ihrer Entwickler und der überbezahlten Berater nicht.

      ● Die Person, die Bedarfsprognosen untersucht und die weiß, dass sich in den Verkaufsdaten des letzten Quartals mehr über die Kunden des Unternehmens verbirgt als nur eine Vorschau für das nächste Quartal. Aber Sie wissen nicht, wie Sie an diese verborgenen Schätze gelangen können.

      ● Die Geschäftsführerin eines Online-Start-ups, die auf der Basis der letzten Einkäufe eines Kunden vorhersagen möchte, ob dieser Kunde auch am Kauf eines anderen Artikels interessiert sein könnte.

      ● Der für die Business Intelligence zuständige Analyst, der zusieht, wie viel Geld für Infrastrukturmaßnahmen und die Lieferkette des Unternehmens sinnlos ausgegeben wird, der aber nicht weiß, wie kostensparende Entscheidungen systematisch gefällt werden.

      ● Der Fachmann für Onlinemarketing, der mehr mit den E-Mail- oder Facebook- und Twitter-Reaktionen von Kunden anfangen möchte,