Тимур Машнин

Технология хранения и обработки больших данных Hadoop


Скачать книгу

давайте вернемся к исходной веб-странице, странице приветствия, и нажмем Start Tutorial.

      И этот урок предложит нам введение в стек Cloudera.

      На этой странице говорится, что в этом уроке представлены примеры в контексте созданной корпорации под названием DataCo.

      И вопрос первого упражнения – какие продукты любят покупать клиенты корпорации?

      Чтобы ответить на этот вопрос, вы можете посмотреть на данные транзакций, которые должны указать, что клиенты покупают.

      Вероятно, вы можете это сделать в обычной реляционной базе данных.

      Но преимущество платформы Cloudera заключается в том, что вы можете делать это в большем масштабе при меньших затратах.

      Здесь сбоку есть информация о Scoop.

      Это инструмент, который использует Map Reduce для эффективной передачи данных между кластером Hadoop и реляционной базой данных.

      Он работает путем порождения нескольких узлов данных, чтобы загружать различные части данных параллельно.

      И по окончании, каждый фрагмент данных будет реплицирован для обеспечения доступности и распределения по кластеру, чтобы вы могли параллельно обрабатывать данные в кластере.

      И в платформу Cloudera включены две версии Sqoop.

      Sqoop1 – это толстый клиент.

      И Scoop2 состоит из центрального сервера и тонкого клиента, который вы можете использовать для подключения к серверу.

      Ниже, вы можете посмотреть структуру таблицы данных.

      Чтобы проанализировать данные транзакций на платформе Cloudera, нам нужно ввести их в распределенную файловую систему Hadoop (HDFS).

      И нам нужен инструмент, который легко переносит структурированные данные из реляционной базы данных в HDFS, сохраняя при этом структуру.

      И Apache Sqoop является этим инструментом.

      С помощью Sqoop мы можем автоматически загружать данные из MySQL в HDFS, сохраняя при этом структуру.

      Вверху в меню откроем терминал, и запустим это задание Sqoop.

      Эта команда запускает задания MapReduce для экспорта данных из базы данных MySQL и размещения этих файлов экспорта в формате Avro в HDFS.

      Эта команда также создает схему Avro, чтобы мы могли легко загрузить таблицы Hive для последующего использования в Impala.

      Impala – это механизм аналитических запросов.

      И Avro – это формат файлов, оптимизированный для Hadoop.

      Таким образом, мы скопируем код и запустим команду в терминале.

      После выполнения задания, чтобы подтвердить, что данные существуют в HDFS, мы скопируем следующие команды в терминал.

      Которые покажут папку для каждой из таблиц и покажут файлы в папке категорий.

      Инструмент Sqoop также должен был создать файлы схемы для этих данных.

      И эта команда должна показать avsc схемы для шести таблиц базы данных.

      Таким образом, схемы и данные хранятся в отдельных файлах.

      И схема применяется к данным, только когда данные запрашиваются.

      И это то, что мы называем схемой на чтение.

      Это дает гибкость при запросе данных с помощью SQL.

      И