Томас Дэвенпорт

О чем говорят цифры. Как понимать и использовать данные


Скачать книгу

или иной переменной в определенный момент в будущем на основе данных о ее динамике в прошлом;

      интеллектуальный анализ данных (Data mining) – автоматизированное или полуавтоматизированное выявление ранее неизвестных зависимостей в больших массивах данных с помощью специальных вычислительных алгоритмов или статистических методов;

      интеллектуальный анализ текстов – выявление неизвестных зависимостей или тенденций в тексте методами, подобными интеллектуальному анализу данных;

      оптимизация – использование математических методов для того, чтобы найти оптимальные решения на основе заданных критериев и установленных ограничений.

      эксперимент – формирование тестовой и контрольной групп методом случайного отбора и выявление причин и степени влияния независимых переменных на зависимую переменную.

      В этом списке приведены широко известные аналитические методы, причем многие из них используют одни и те же аналитические приемы и процедуры. Например, регрессионный анализ – наиболее распространенный аналитический прием в предсказательной аналитике – не менее популярен и в статистике, прогнозировании и интеллектуальном анализе данных. Точно так же анализ временных рядов, специальная аналитическая процедура из арсенала статистики, предназначенная для анализа меняющихся во времени значений переменных, используется не только в статистике, но и в прогнозировании.

      Учетные данные, помогающие принимать решения по персоналу (мы уже говорили о них), являются структурированными (легко представляются в виде таблицы), количественными и относительно небольшими по объему (не более терабайта или двух даже в очень крупных компаниях). Такие данные традиционно использовались в аналитике, поэтому назовем их малыми данными. Долгое время аналитики ни с чем другим дела не имели.

      Но сегодня крупные компании, некоммерческие организации и даже стартапы сталкиваются с так называемыми большими данными – неструктурированными массивами информации колоссальных объемов. Их источниками могут быть онлайновые дискуссии в интернете, видеоматериалы или данные анализа ДНК пациентов больницы. У данных такого рода объем намного больше – иногда тысячи петабайт[3]. Например, Google обрабатывает порядка 24 петабайт интернет-данных ежедневно, а AT&T[4] передает по телекоммуникационным сетям около 30 петабайт музыки и прочих данных в день. Благодаря новым прикладным компьютерным программам и техническим новшествам мы можем анализировать огромные массивы данных и извлекать из них полезную информацию.

Что такое большие данные

      Термин большие данные применяется для обозначения данных уникально большого объема или неструктурированных данных. Приведем несколько примеров:

      • За месяц 600 миллионов пользователей Facebook добавили в сеть 30 миллиардов единиц контента.

      • Компания Zynga, занимающаяся сетевыми виртуальными играми, ежедневно