основан на корреляции предикторов, при котором ищут сильную корреляцию между целевой функцией и предикторами и слабую корреляцию между предикторами.
Для предсказательных моделей, а не объясняющих, есть два важных положения:
– большая часть критики методов обертки основана на использовании гипотез статистических тестов;
– методологии, основанные на сомнительных статистических принципах, все же могут привести к очень точным моделям в случае полного, методического процесса проверки с независимыми данными.
Следующие подразделы описывают различные методы поиска для использования с методами обертки.
11.3.1. Выбор вперед, обратный и пошаговый
Пошаговый выбор – популярная модификация, в которой после добавления предиктора к модели, переоценивается каждый параметр для удаления из модели. В некоторых случаях порог р-значения для добавления и удаления предикторов может сильно отличаться. В обратном выборе начальная модель содержит все предикторы P, которые затем многократно удаляются для определения тех, которые не значительно способствуют модели. Эти процедуры могут быть улучшены путем использования, например, статистики AIC для добавления или удаления предикторов из модели.
Имеется разновидность обратного алгоритма выбора, названная рекурсивным устранением предиктора. При создании полной модели вычисляется мера значимости предиктора, по которой упорядочиваются предикторы от самого важного предиктора до наименее важного. Вычисления значимости могут быть основаны на модели (например, критерий значимости случайного леса) или на использовании более общего подхода, который независим от полной модели. На каждом этапе поиска наименее важные предикторы многократно устраняются до восстановления модели. Как прежде, при создании новой модели оценивается целевая функция для модели. Процесс продолжается для некоторой предопределенной последовательности, и отобранное подмножество, соответствующий оптимальному значению целевой функции, используется в качестве заключительной модели.
11.3.2. Генетические алгоритмы
Генетические алгоритмы (ГА) оптимизации основаны на эволюционных принципах биологических совокупностей и, как признается, были эффективны при обнаружении оптимальных решений сложных, многомерных функций. Определенно, ГА создавались для подражания эволюционному процессу, при котором воспроизводится текущая совокупность решений, генерирующая дочерние элементы, которые конкурируют за выживаемость. Самым живучим разрешают воспроизводство, создавая следующее поколение дочерних элементов. По истечении времени поколения сходятся к пригодному варианту, и может быть выбрано оптимальное решение.
Как мы видели к настоящему времени, проблема выбора предиктора является, по сути, комплексной проблемой оптимизации, в которой ищут комбинацию предикторов, обеспечивающую оптимальное предсказание отклика.
11.4.