Дэвид Рид

Нейросети. Основы


Скачать книгу

в исходном пространстве, и раздельные расстояния между точками, которые были далеко друг от друга.

      Основные шаги t-SNE включают:

      1. Вычисление вероятностей: Для каждой пары точек в высокоразмерном пространстве вычисляются вероятности близости.

      2. Оптимизация: В новом пространстве меньшей размерности t-SNE находит такие расположения точек, чтобы вероятности близости были максимально похожи на исходные.

      3. Минимизация Kullback-Leibler расхождения: Процесс оптимизации включает минимизацию расхождения Kullback-Leibler между распределениями вероятностей в исходном и новом пространствах.

      t-SNE особенно полезен для выявления кластеров и локальных структур в данных, что делает его популярным инструментом для визуализации данных в биоинформатике, нейронауках и других областях.

      UMAP (Uniform Manifold Approximation and Projection)

      UMAP (Uniform Manifold Approximation and Projection) – это современный метод снижения размерности, который, подобно t-SNE, фокусируется на сохранении локальной структуры данных. Однако UMAP часто работает быстрее и лучше масштабируется на большие наборы данных. Основной принцип UMAP заключается в предположении, что данные лежат на многообразии меньшей размерности в исходном пространстве, и стремится сохранять топологическую структуру этого многообразия при проекции в пространство меньшей размерности.

      Основные этапы UMAP включают:

      1. Построение графа k-ближайших соседей: Определяется граф, где точки связаны с их ближайшими соседями.

      2. Оптимизация графа: Граф оптимизируется, чтобы минимизировать расхождение между распределениями расстояний в высокоразмерном и низкоразмерном пространствах.

      3. Проекция данных: Данные проецируются в новое пространство меньшей размерности, сохраняя топологические свойства исходного пространства.

      UMAP используется для визуализации данных, выявления кластеров и структур в данных, а также как этап предварительного анализа перед применением других методов машинного обучения. Благодаря своей скорости и способности работать с большими наборами данных, UMAP становится все более популярным в различных областях науки и индустрии.

      3. Ассоциативные правила

      Ассоциативные правила – это метод выявления частых закономерностей в больших наборах данных. Этот метод особенно полезен в анализе корзины покупателя, где необходимо выявить, какие товары часто покупаются вместе.

      Алгоритм Apriori

      Алгоритм Apriori является одним из самых известных и широко используемых методов для выявления частых наборов элементов и создания ассоциативных правил в больших наборах данных. Этот алгоритм используется в анализе транзакционных баз данных для поиска интересных корреляций и закономерностей, таких как "если покупатель купил товар A, то он, вероятно, купит товар B".

      Основная идея алгоритма Apriori заключается в итеративном подходе для нахождения частых наборов элементов. Он использует принцип "подмножество частого множества также является частым" (если набор элементов является частым, то все его подмножества также являются частыми).