Александр Фоменко

Предсказываем тренды. С Rattle и R в мир моделей классификации


Скачать книгу

кривыми. Теоретически она изменяется от 0 до 1.0, но, поскольку модель всегда характеризуются кривой, расположенной выше положительной диагонали, то обычно говорят об изменениях от 0.5 («бесполезный» классификатор) до 1.0 («идеальный» классификатор). Эта оценка может быть получена непосредственно вычислением площади под многогранником, ограниченным справа и снизу осями координат и слева вверху – экспериментально полученными точками (рис. 5.3). Численный показатель площади под кривой называется AUC (Area Under Curve). В нашем случае мы получили следующие величины:

      Area under the ROC curve for the ada model on zz_1_5 [validate] is 0.8702

      Area under the ROC curve for the rf model on zz_1_5 [validate] is 0.8904

      Площадь под кривой ROC для модели rf равна 0.8904, а для модели ada равна 0.8702, что подтверждает визуальное наблюдение.

      С большими допущениями можно считать, что чем больше показатель AUC, тем лучшей прогностической силой обладает модель. Однако следует знать, что:

      – показатель AUC предназначен скорее для сравнительного анализа нескольких моделей;

      – AUC не содержит никакой информации о чувствительности и специфичности модели.

      В литературе иногда приводится следующая экспертная шкала для значений AUC, по которой можно судить о качестве модели:

      Таблица 5.2. Шкала значений AUC

      Идеальная модель обладает 100% чувствительностью и специфичностью. Однако на практике добиться этого невозможно, более того, невозможно одновременно повысить и чувствительность, и специфичность модели. Компромисс находится с помощью порога отсечения, т.к. пороговое значение влияет на соотношение Se и Sp. Можно говорить о задаче нахождения оптимального порога отсечения (optimal cut-off value).

      Порог отсечения нужен для применения модели на практике: относить новые наблюдения к одному из двух классов. Для определения оптимального порога нужно задать критерий его определения, так как в разных задачах присутствует своя оптимальная стратегия. Критериями выбора порога отсечения могут выступать:

      – требование минимальной величины чувствительности (специфичности) модели. Например, нужно обеспечить чувствительность теста не менее 80%. В этом случае оптимальным порогом будет максимальная специфичность (чувствительность), которая достигается при 80% (или значение, близкое к нему «справа» из-за дискретности ряда) чувствительности (специфичности);

      – требование максимальной суммарной чувствительности и специфичности модели, т.е.

      Cut_off = max (Se + Sp)

      – Требование баланса между чувствительностью и специфичностью, т.е. когда Se примерно равно Sp:

      Cut_off = min (Se – Sp)

      Второе значение порога обычно предлагается пользователю по умолчанию. В третьем случае порог есть точка пересечения двух кривых, когда по оси X откладывается порог отсечения, а по оси Y – чувствительность и специфичность модели. Пересечение этих двух кривых и даст порог отсечения.

      6. Линейные классификационные модели

      Методы классификации стремятся классифицировать наблюдения в группы,