>
John W. Foreman
Big Data smart mit Excel analysieren
Bibliografische Information der Deutschen Nationalbibliothek
Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über http://dnb.d-nb.de abrufbar.
1. Auflage 2015
© 2015 WILEY-VCH Verlag GmbH & Co. KGaA, Weinheim
All rights reserved including the right of reproduction in whole or in part in any form. This translation published by arrangement with John Wiley and Sons, Inc.
Copyright der englischsprachigen Originalausgabe »Data Smart« © 2014 by John Wiley and Sons, Inc.
Alle Rechte vorbehalten inklusive des Rechtes auf Reproduktion im Ganzen oder in Teilen und in jeglicher Form. Diese Übersetzung wird mit Genehmigung von John Wiley and Sons, Inc. publiziert.
Wiley, das Wiley-Logo und das Sybex-Logo sind Marken oder eingetragene Marken von John Wiley & Sons, Inc., USA, Deutschland und in anderen Ländern und dürfen nicht ohne schriftliche Genehmigung genutzt werden. Alle anderen Marken sind Eigentum ihrer jeweiligen Inhaber. John Wiley & Sons, Inc. und WILEY-VCH Verlag GmbH & Co. KGaA stehen in keiner Verbindung zu den in diesem Buch erwähnten Produkten und Herstellern.
Das vorliegende Werk wurde sorgfältig erarbeitet. Dennoch übernehmen Autoren und Verlag für die Richtigkeit von Angaben, Hinweisen und Ratschlägen sowie eventuelle Druckfehler keine Haftung.
Wir möchten Sie mit diesem Buch optimal unterstützen und freuen uns daher über Ihre Anregungen und Verbesserungsvorschläge. Notwendige Korrekturen veröffentlichen wir im Interesse aller Leser umgehend unter www.sybex.de und berücksichtigen sie bei der nächsten Auflage. Herzlichen Dank für Ihre Unterstützung!
Ihr Sybex-Lektoratsteam
Print ISBN 978-3-527-76060-2
ePub ISBN: 978-3-527-69224-8
mobi ISBN: 978-3-527-69223-1
Coverfoto © Kumbabali – Fotolia.com
Umschlaggestaltung Torge Stoffers Grafik-Design, Leipzig
Korrektur Petra Heubach-Erdmann und Jürgen Erdmann, Düsseldorf
Satz inmedialo Digital- und Printmedien UG, Plankstadt
Über den Autor
John W. Foreman ist der Chief Data Scientist von MailChimp.com. Davor hat er als Managementberater nicht nur in großen Unternehmen (wie Coca-Cola, Royal Caribbean, Intercontinental Hotels), sondern auch für die US-Regierung (wie das Verteidigungsministerium, die Bundessteuerbehörde, das Ministerium für innere Sicherheit DHS und das FBI) als Analytiker gearbeitet. John W. Foreman ist ein gern gehörter Redner, wenn es darum geht, über die Möglichkeiten und Probleme zu informieren, die die Einrichtung von Analysesoftware in Unternehmen mit sich bringen kann.
Wenn er nicht gerade mit Daten herumspielt, verbringt er seine Zeit mit Wandern, dem Abhängen vor dem Fernseher, dem Verputzen richtig ungesunder Nahrungsmittel und dem Aufziehen von drei prima Jungen.
Einführung
Was mache ich hier?
Möglicherweise sind Sie in den Medien, in Büchern, die sich mit unternehmensbezogenen Themen beschäftigen, in Zeitschriften oder auf Konferenzen schon einmal über den Begriff Data Science gestolpert. Data Science (oder – grob übersetzt – die Wissenschaft von den Daten) ist in der Lage, Präsidentschaftswahlkämpfe in Hektik zu versetzen, mehr über Ihre Kaufgewohnheiten aufzudecken, als Sie von sich selbst wissen, und präzise Auskunft darüber zu geben, seit wie vielen Jahren diese ausgesprochen leckeren Käse-Cracker für Ihren Cholesterinspiegel verantwortlich sind.Data Scientists, die »Datenwissenschaftler«, die gleichzeitig die Elite derer bilden, die die Kunst der Data Science praktizieren, sind in einem Artikel im Harvard Business Review sogar schon als »sexy« bezeichnet worden. Dies sollten Sie nicht zu ernst nehmen, denn der Stellenwert dieser Behauptung lässt sich mit dem Stellenwert von Aussagen wie der vergleichen, dass ein Einhorn sexy sei. Dieser Teil des Artikels kann im Moment nicht bestätigt werden, aber wenn Sie mich dabei beobachten könnten, wie ich dieses Buch schreibe, mit zerwühlten Haaren und den müden Augen eines Vaters von drei Jungen, können Sie sich sicherlich vorstellen, dass sexy ein wenig übertrieben ist.
Aber ich schweife ab. In Wirklichkeit geht es darum, dass heutzutage ziemlich viel Wirbel um Data Science gemacht wird, was wiederum ziemlich viel Druck auf bestimmte Geschäftszweige ausübt. Wenn Sie sich nicht um Data Science kümmern, hängt Sie der Wettbewerb ab. Irgendjemand bringt ein neues Produkt mit dem Namen »BlahBlahBlahBigDataGraphDing« auf den Markt und macht damit Ihr Unternehmen kaputt.
Atmen Sie ganz tief durch.
Die Wahrheit sieht so aus, dass die meisten Menschen falsche Vorstellungen von Data Science haben. Das beginnt damit, dass sie sich die entsprechenden Werkzeuge kaufen und Berater anheuern. Sie geben ihr ganzes Geld aus, bevor sie überhaupt wissen, was sie wollen, weil heute in vielen Unternehmen schon ein Kaufauftrag mit Erfolg gleichgesetzt wird.
Wenn Sie dieses Buch lesen, bekommen Sie diesen Spaßvögeln gegenüber einen großen Vorteil, weil Sie hier genau erfahren, was es mit den Techniken der Data Science auf sich hat und wie Sie sie anwenden können. Wenn dann die Zeit der Planung, des Anheuerns von Beratern und des Einkaufens gekommen ist, wissen Sie bereits, wie Sie herausfinden können, was in Ihrer Organisation an Data Science möglich ist.
Dieses Buch hat den Sinn, Ihnen die Data-Science-Praxis auf angenehme Weise und unterhaltsam vorzustellen. Wenn Sie das Buch durchgelesen haben, hoffe ich, dass viele Ängste, die mit Data Science zu tun haben, durch Neugier und Ideen darüber ersetzt worden sind, was Sie mit Daten machen können, um Ihr Unternehmen weiter nach vorn zu bringen.
Eine brauchbare Definition von Data Science
Der Ausdruck Data Science dient in gewisser Weise auch als Synonym für Begriffe wie Business Analytics (betriebswirtschaftliche Auswertungen), Operations Research(Unternehmensforschung), Business Intelligence (mit diesem Begriff werden Verfahren und Prozesse zur systematischen Analyse von Daten bezeichnet; er wird auch als BI abgekürzt), Competitive Intelligence (was mit Wettbewerbsforschung oder – analyse übersetzt werden könnte), Data Analysis And Modeling (Datenanalyse und Datenmodellierung) und Knowledge Extraction (das Extrahieren von Erkenntnissen, was auch Knowledge Discovery In Databases oder KDD genannt wird). Letztendlich handelt es sich bei Data Science nur um eine neue Bezeichnung für etwas, das in Unternehmen schon seit Langem getan wird – und das auch im Deutschen gerne mit englischen Ausdrücken belegt wird. Diese Ausdrücke haben sich inzwischen oft zu Fachbegriffen gemausert, die wir, wie hier, zumindest einmal mit einer deutschsprachigen Entsprechung versehen und in den Index aufgenommen haben, damit Sie eine bessere Vorstellung davon bekommen, worum es geht. Nun ist aber auch im Umfeld der Datenanalyse nicht alles englisch, was glänzt. Wenn es im fachspezifischen Umfeld (womit nicht populärwissenschaftliche Artikel in Computer- und Managementzeitschriften, sondern primär Wissenschaft und Unternehmen gemeint sind, die sich hauptberuflich mit unserer Thematik beschäftigen) »normal« ist, deutschsprachig zu agieren, wird in der Übersetzung auf Denglisch insoweit verzichtet, als dass die deutschsprachigen Begriffe verwendet werden und ihre englische Entsprechung zumindest einmal als Information aufgeführt wird. Auch in diesem Fall hilft der Index dabei, sich zurechtzufinden.
Seit der Blütezeit dieser »synonymen« Begriffe hat es eine nicht unbeträchtliche technologische Weiterentwicklung gegeben. Diese Weiterentwicklungen bei der Hardware und der Software haben dafür gesorgt, dass das Sammeln, Speichern und Auswerten großer Datenmengen aus dem Vertrieb und dem Marketing, aus HTTP-Anfragen