– инструмент, который делает линейные модели более устойчивыми и удобными для работы, особенно при большом количестве признаков.
Когда модель машинного обучения показывает отличные результаты на тренировочных данных, но плохо работает на новых примерах, это называется переобучением. Такая модель не способна выявлять общие закономерности, а лишь запоминает конкретные примеры, что приводит к низкой обобщающей способности.
Переобучение возникает, когда модель слишком сложная для имеющихся данных. Например, если в модели слишком много параметров, она может запомнить все нюансы обучающего набора, включая случайные шумы и выбросы. Это приводит к тому, что при работе с новыми данными модель делает ошибочные предсказания, поскольку не может применить знания в более широком контексте.
Одним из основных признаков переобучения является большая разница между ошибками на тренировочных и тестовых данных. Если ошибка на тренировочной выборке очень мала, но на тестовой – велика, значит, модель слишком точно подстроилась под обучающие данные, но не научилась решать задачу в общем смысле.
Одной из причин переобучения может быть избыточное количество признаков. Если их слишком много, модель начинает искать зависимости даже там, где их нет. Например, в задаче предсказания стоимости квартиры можно добавить случайный параметр, например, число букв в названии ближайшего магазина. Если модель окажется слишком гибкой, она может решить, что этот параметр влияет на цену, и будет использовать его в предсказаниях, хотя на самом деле никакой связи нет.
Конец ознакомительного фрагмента.
Текст предоставлен ООО «Литрес».
Прочитайте эту книгу целиком, купив полную легальную версию на Литрес.
Безопасно оплатить книгу можно банковской картой Visa, MasterCard, Maestro, со счета мобильного телефона, с платежного терминала, в салоне МТС или Связной, через PayPal, WebMoney, Яндекс.Деньги, QIWI Кошелек, бонусными картами или другим удобным Вам способом.