Вадим Николаевич Шмаль

Интеллектуальный анализ данных. Учебник


Скачать книгу

отклонение связано с конкретным, случайным процессом. В соответствии с этим предположением аномалии можно рассматривать как аномалии данных, генерируемых процессом. Однако аномалия не обязательно связана с процессом обработки данных.

      Понимание аномалии данных

      В контексте оценки аномалий данных важно понимать распределение вероятности и ее вероятность. Также важно знать, распределена ли вероятность приблизительно или нет. Если она приблизительно распределена, то вероятность, скорее всего, будет примерно равна истинной вероятности. Если оно не распределено приблизительно, то есть вероятность, что вероятность отклонения может быть немного больше, чем истинная вероятность. Это позволяет интерпретировать аномалии с возможностью большего отклонения как аномалии большей величины. Вероятность аномалии данных можно оценить с помощью любой меры вероятности, такой как вероятность выборки, правдоподобие или доверительные интервалы. Даже если аномалия не связана с конкретным процессом, все же можно оценить вероятность отклонения.

      Эти вероятности необходимо сравнить с естественным распределением. Если вероятность намного больше естественной вероятности, то существует вероятность того, что отклонение не такой же величины. Однако маловероятно, чтобы отклонение намного превышало естественную вероятность, поскольку вероятность очень мала. Следовательно, это не свидетельствует о фактическом отклонении от распределения вероятностей.

      Выявление значимости аномалий данных

      В контексте оценки аномалий данных полезно определить соответствующие обстоятельства. Например, если есть аномалия в количестве задержанных рейсов, может случиться так, что отклонение будет довольно небольшим. Если задерживается много рейсов, более вероятно, что количество задержек очень близко к естественной вероятности. Если есть несколько рейсов, которые задерживаются, маловероятно, что отклонение намного превышает естественную вероятность. Следовательно, это не будет свидетельствовать о значительно более высоком отклонении. Это говорит о том, что аномалия данных не имеет большого значения.

      Если процентное отклонение от нормального распределения значительно выше, то есть вероятность, что аномалии данных связаны с процессом, как в случае с этой аномалией. Это является дополнительным свидетельством того, что аномалия данных является отклонением от нормального распределения.

      После анализа значимости аномалии важно узнать, в чем причина аномалии. Связано ли это с процессом, сгенерировавшим данные, или не связано? Возникла ли аномалия данных в ответ на внешнее воздействие или она возникла внутри? Эта информация полезна при определении того, каковы перспективы получения дополнительной информации о процессе.

      Причина в том, что не все отклонения связаны с изменчивостью процесса и по-разному влияют на процесс. В отсутствие