Скачать книгу

такие данные на основе специальных алгоритмов: сначала данные фильтруются по условиям, которые задаёт исследователь, сортируются и распределяются между отдельными компьютерами (узлами). После этого узлы параллельно рассчитывают свои блоки данных и передают результат вычислений на следующий этап.

      Характеристики больших данных

      По разным источникам, большие данные характеризуются тремя, четырьмя, а по некоторым мнениям пятью, шестью и даже восемью компонентами. Но давайте остановимся на самой, как мне кажется, разумной концепции из четырех компонентов.

      – Volume (объём): информации должно быть много. Обычно говорят о количестве от 2 терабайт. Компании могут собирать огромное количество информации, размер которой становится критическим фактором в аналитике.

      – Velocity (скорость): данные должны обновляться, иначе они устаревают и теряют ценность. Практически всё происходящее вокруг нас (поисковые запросы, социальные сети) производит новые данные, многие из которых можно использовать для анализа.

      – Variety (разнообразие): генерируемая информация неоднородна и может быть представлена в различных форматах: видео, текст, таблицы, числовые последовательности, показания датчиков.

      – Veracity (достоверность): качество анализируемых данных. Они должны быть достоверными и ценными для анализа, чтобы им можно было доверять. Также данные с низкой достоверностью содержат высокий процент бессмысленной информации, которая называется шумом и не имеет ценности.

      Ограничения на пути внедрения Big Data

      Основное ограничение – качество исходных данных, критическое мышление (а что мы хотим увидеть? какие боли? – для этого делаются онтологические модели), правильный подбор компетенций. Ну, и самое главное – люди. Работой с данными занимаются дата-саентисты. И тут есть одна расхожая шутка: 90% дата-сайентистов – это дата-сатанисты.

      Цифровые двойники

      Цифровой двойник – это цифровая/виртуальная модель любых объектов, систем, процессов или людей. По своей концепции она точно воспроизводит форму и действия физического оригинала и при этом синхронизирована с ним. Погрешность между работой двойника и реальным объектом не должна превышать 5%.

      При этом надо понимать, что создать абсолютный цифровой двойник практически невозможно, поэтому важно определить, какую область рационально моделировать.

      Впервые концепцию цифрового двойника описал в 2002 году Майкл Гривс, профессор Мичиганского университета. В книге «Происхождение цифровых двойников» он разложил их на три основные части:

      – физический продукт в реальном пространстве;

      – виртуальный продукт в виртуальном пространстве;

      – данные и информация, которые объединяют виртуальный и физический продукт.

      Сам же цифровой двойник может быть:

      – прототипом – аналогом реального объекта в виртуальном мире, который содержит все данные для производства