Цзыпэй Ту

Big data изменяют Китай


Скачать книгу

площадки для бесчисленного количества пользователей Интернета со всего мира, благодаря чему они могут в любое удобное время и в любом удобном месте фиксировать свои поступки и мысли. Это фиксирование, по сути своей, и является тем, что вносит вклад в производство данных. Выше мы уже говорили о том, что все данные являются искусственно произведёнными, все данные – это выполняемые нами в отношении реального мира измерения, фиксации и вычисления. Начиная с 1946 года, когда с изобретением вычислительного устройства человечество вошло в информационную эру и ещё не были созданы социальные медиа, данные главным образом производили и собирали информационные системы и датчики. Однако в связи с внезапным появлением социальных медиа человек начал и сам производить данные в Интернете. Публикуемые пользователями записи в Weibo и отправляемые ими через WeChat сообщения, фиксирующие личные действия и поступки, – такие данные получили название «поведенческие», их отношение к другим типам данных показано на рисунке 1.6.

      Благодаря появлению социальных медиа пользователи Интернета со всего мира начали становиться создателями данных. Каждый из нас, будто информационная система или датчик, непрерывно создаёт данные. Это повлекло за собой беспрецедентный по своему размаху «взрыв данных».

      Помимо резкого увеличения объёма данных социальные медиа привели также к усложнению устройства вселенной данных. Кто-то, создавая пост в микроблоге, прикрепляет изображение, кто-то – видео, произведённые ими данные и по размеру, и по структуре совершенно различны. В связи с отсутствием строгой структуры данные, созданные в социальных медиа, называются также неструктурированными.

      Рисунок 1.6. Разные данные с точки зрения размера и типа

      Примечание: взаимное влияние разных типов данных. Коммерческие данные могут естественным образом содержать в себе и производить данные о поведении человека и окружающей природной среде, точно так же данные о поведении человека и окружающей природной среде являются взаимовключающимися, перекрёстными и взаимовлияющими. В прошлом мы фиксировали что-либо, только предварительно выбрав, что именно должно быть зафиксировано. В эпоху больших данных мы выбираем то, что зафиксировано быть не должно, и затем удаляем запись об этом. По мере непрерывного расширения сферы фиксирования можно быть уверенным: в будущем совокупный объём данных, имеющихся в распоряжении человека, будет нарастать подобно снежному кому.

      Обработка подобных данных несопоставимо сложнее, чем обработка данных, имеющих строгую структуру. 15 марта 2019 года сервис микроблогов Sina Weibo опубликовал «Отчёт о развитии пользователей Weibo в 2018 году», согласно которому по состоянию на четвёртый квартал 2018 года среднее количество текстов, которые пользователи сервиса публиковали в сутки, составил 130 миллионов, среднее количество публиковавшихся за сутки изображений – 120 миллионов, среднее количество публиковавшихся за сутки видео и проведённых