Никита Сергеев

Аналитика и Data Science. Для не-аналитиков и даже 100% гуманитариев…


Скачать книгу

(H0) и альтернативной (H1) гипотез. H0 говорит, что обнаруженных закономерностей, взаимосвязей или отличий в генеральной совокупности нет – это исключительно случайность, которая имеет место только в исследуемой Вами выборке. Только если вероятность H0 крайне низка – принимается альтернативная гипотеза (H1), что закономерность имеет место в генеральной совокупности.

      Т.е., в практике мы пытаемся в первую очередь ответить на вопрос – какова вероятность, что выведенная нами взаимосвязь между параметрами или закономерность является случайной и ее на самом деле нет в генеральной совокупности?

      Например, криминалист, собрав все известные случаи, видит вроде как закономерность, что серийные маньяки орудуют в пределах трех кварталов от места жительства. Можно ли это распространить на всю генеральную совокупность? Или это просто случайное «стечение обстоятельств» в его выборке данных?

      Конечно, проще всего было бы взять еще пару выборок из генеральной совокупности и убедиться, что в них также наблюдается такая связь. Но это не всегда возможно. И все равно ответ не может быть точным, пока не будет изучена вся генеральная совокупность.

      Для того, чтобы чувствовать себя поувереннее, распространяя полученные на выборке закономерности на всю генеральную совокупность, используется очень узкий интервал – не более 5% вероятности ошибки.

      Все закономерности (взаимосвязи, различия), вероятность ошибки по которым ниже этого интервала (т.е. менее 5%), считаются статистически значимыми. В англоязычной литературе обозначаются Sig., Significant.

      Именно наличие значимых закономерностей позволяет распространять полученные на выборке результаты на всю генеральную совокупность.

      Как это работает? Например, мы хотим выяснить, проводят ли женщины больше времени в соцсетях, чем мужчины. Мы взяли определенную выборку из 1000 женщин и мужчин и обнаружили, что мужчины в среднем проводят в сетях 5 часов в неделю, а женщины 7 часов. Получается, что женщины на 2 часа (на 40%!) больше сидят в сетях.

      Но можем ли мы на этих результатах утверждать, что в принципе все другие женщины больше сидят в соцсетях, чем мужчины? Возможно, мы получили различие случайно, и оно характеризует только эту выборку, а не всю генеральную совокупность…

      И вот тут мы сначала определяем вероятность для H0: что разницы по «просиживанию» в соцсети между мужчинами и женщинами нет. Или, другими словами, рассчитываем вероятность ошибки насчет того, что женщины сидят в соцсети больше мужчин.

      И если вероятность ошибиться будет менее 5%, то мы можем говорить о том, что обнаружили статистически значимое различие – и таки можем говорить, что все женщины проводят в сети больше времени.

      Почему берется такое низкое значение вероятности ошибки? Скажу, что на самом деле часто используют даже ниже 1% или менее. От чего зависит? На самом деле от отрасли и сложившейся в ней практики. Например, в медицине цена ошибки