Цзыпэй Ту

Big data изменяют Китай


Скачать книгу

Во время следующего чемпионата магазины могли давать уже более предметную рекламу, они смогли не только более точно сфокусировать рекламные объявления исходя из адресата рекламы, выбор продвигаемых в них товаров также стал более адресным. Когда догадка выросла в знание, знание создало прибыль.

      Помимо описанного выше применения в коммерции всё более распространённым становится использование интеллектуального анализа данных для решения общественных проблем. В июне 2013 года появились сообщения, что некая девушка из Восточно-китайского педагогического университета получила смс от администрации университета следующего содержания: «Уважаемый студент, мы обнаружили, что в прошлом месяце ваши затраты на питание в столовой были сравнительно небольшими. Возможно, вы испытываете финансовые трудности?» [11] Происхождение этого заботливого сообщения также объясняется интеллектуальным отбором данных: в результате анализа данных о тратах, полученных с университетских карточек на питание, администрация обнаружила, что затраты девушки на каждый приём пищи оказались сниженными, что и вылилось в отправку приведённого выше участливого сообщения. Впоследствии, однако, обнаружилось, что была допущена прекрасная ошибка: в действительности девушка просто хотела похудеть. Можно подумать, что причина возникновения ошибки в том, что данные были недостаточно «большими». Особенность больших данных в том, что помимо «большого объёма» они также являются «многоисточниковыми». Если бы помимо карточек на питание были проанализированы другие вспомогательные источники данных, вывод, вероятно, был бы более точным.

      Несмотря на расцвет интеллектуального анализа данных, в определённой степени он уже не является передовым и горячим направлением в рамках больших данных, на лидирующих позициях его сменило машинное обучение. Интенсивно развивающееся в настоящий момент машинное обучение также опирается на компьютерные алгоритмы, но его алгоритмы, по сравнению с алгоритмами, использующимися в data mining, вовсе не являются фиксированными, они содержат саморегулирующиеся параметры, то есть в процессе машинного обучения по мере увеличения количества выполненных вычислений и анализов данных параметры алгоритмов непрерывно саморегулируются, вследствие чего результат анализа данных и прогнозирования становится более точным. Кроме того, предлагая компьютеру большой объём данных, мы даём ему возможность, подобно человеку, путём обучения постепенно самосовершенствоваться, поэтому данная технология и получила название «машинное обучение».

      Наравне с интеллектуальным анализом данных и машинным обучением очень зрелыми являются также технологии анализа и применения данных, сформировавшие при этом единую систему. Хранилища данных, интерактивная аналитическая обработка (OLAP), визуализация данных, анализ машинной памяти – всё это важные составные элементы данной системы, и в процессе развития технологий сбора и обработки данных они все сыграли