мы увидим, какая в них степень разброса и какое распределение. Для этого и существуют методы построения доверительного интервала и проверки статистической гипотезы.
Но журналисты в интернете редко нам предоставляют данные об исследованиях очередных британских ученых, так что мы редко можем что-либо посчитать и что-то утверждать. Можем только всегда отмахнуться, что «этого было недостаточно», если результаты исследований нам не нравятся.
А для себя можно пользоваться практически шуточным законом Парето, который утверждает, что 80% результата вызваны 20% усилий, остальные 20% результата – 80% усилий. И на практике эта шутка выполняется с завидной частотой. Например, 20% населения Земли владеют 80% ресурсов, часто 20% клиентов приносят 80% дохода, другие 20% приносят 80% жалоб, а 20% совокупности дадут 80% данных. То есть в опросах достаточно спросить каждого пятого. Если опрос не среди пяти человек, конечно. Если всего в совокупности пять человек, то можно уже не полениться и спросить всех.
Второй тип ошибок – ошибки регистрации – связан с установлением ложных фактов, случайным, систематическим или преднамеренным. Можно случайно дописать нолик в строчку, можно перепутать килограммы с граммами и везде ошибиться на тысячу, а можно ошибиться на пару миллионов, но лишь в ячейке собственной зарплаты, по чистой случайности, конечно. Чтобы избежать таких ошибок, необходимо проводить чистку от аномальных данных и собирать данные не в одиночку. В научных кругах результаты нескольких таких независимых сборщиков объединяются в метаанализ. И только такие метаанализы считаются мало-мальски добросовестными и надежными, свободными от ошибок регистрации и фальсификаций.
В качестве яркой истории фатальности ошибок регистрации приведу историю, как в 1905 году доктор Дункан Макдугалл провел серию экспериментов в попытке измерить массу души. Используя самодельные кровати-весы, он мерил вес умирающих от туберкулеза больных, в крайней стадии они практически неподвижны. Первый испытуемый в момент смерти потерял 21 граммов, что и попало на обложку New York Times вскоре, однако сейчас уже мало кто вспоминает, что результаты второго испытуемого вообще не были записаны, третий потерял 41 грамм, на четвертом ассистенты рассорились из-за аморальности исследования и результаты также считаются недействительными, пятый вообще набрал 12 граммов, потом потерял их, потом снова набрал, а шестой умер, пока производилась настройка весов. Очевидно, такой уровень технологий и организации не позволял произвести измерения необходимой точности. Эксперимент пытались повторить, но безуспешно, а многие до сих пор уверены, что это правда, и даже снимают фильмы по этому поводу, продлевая жизнь этому ложному культурному наследию.
Также, чтобы избежать ситуации, когда «чиновники едят мясо, я – капусту, а в среднем мы едим голубцы», следует провести очистку данных от аномальных чиновников. Одним из таких примеров является как раз показатель среднего