значениями зависимой переменной.
Линейная регрессия может быть однофакторной (с одной независимой переменной) или многофакторной (с несколькими независимыми переменными). Она может использоваться для прогнозирования значений на основе новых данных или для анализа влияния отдельных переменных на зависимую переменную. Кроме обычной линейной регрессии, существуют различные варианты этого метода, которые могут решать специфические задачи или учитывать особенности данных. Например, существуют регуляризованные модели линейной регрессии, такие как Ridge (гребневая регрессия) и Lasso (лассо-регрессия), которые добавляют штрафы к коэффициентам модели для борьбы с переобучением и улучшения обобщающей способности.
Линейная регрессия также может быть расширена для работы с нелинейными связями между переменными путем добавления полиномиальных или других нелинейных функций признаков. Это называется полиномиальной регрессией или нелинейной регрессией.
Одним из преимуществ линейной регрессии является ее простота и интерпретируемость. Коэффициенты модели позволяют оценить вклад каждой независимой переменной и понять, как они влияют на зависимую переменную. Кроме того, линейная регрессия требует меньше вычислительных ресурсов по сравнению с некоторыми более сложными моделями.
Однако линейная регрессия имеет свои ограничения. Она предполагает линейную связь между переменными, и если это предположение нарушено, модель может быть неправильной. Кроме того, она чувствительна к выбросам и может давать неверные предсказания в случае наличия значительных отклонений в данных.
2.2 Логистическая регрессия
Логистическая регрессия – это алгоритм классификации, используемый для прогнозирования вероятности принадлежности наблюдения к определенному классу. Она часто применяется в задачах бинарной классификации, где требуется разделить данные на два класса.
В логистической регрессии используется логистическая функция (сигмоид), которая преобразует линейную комбинацию независимых переменных в вероятность принадлежности к классу. Функция имеет следующий вид:
p = 1 / (1 + e^(-z))
где p – вероятность принадлежности к классу, z – линейная комбинация независимых переменных.
Модель логистической регрессии оценивает коэффициенты модели с использованием метода максимального правдоподобия. Она стремится максимизировать вероятность соответствия фактическим классам наблюдений.
Логистическая регрессия может быть расширена на многоклассовую классификацию с использованием подходов, таких как one-vs-rest или softmax. Логистическая регрессия является популярным алгоритмом классификации по нескольким причинам. Во-первых, она проста в понимании и реализации. Во-вторых, она обладает хорошей интерпретируемостью, поскольку коэффициенты модели позволяют определить вклад каждой независимой переменной в вероятность классификации. В-третьих, логистическая регрессия может обрабатывать как категориальные, так и числовые признаки, что делает ее гибкой для различных