на сайте Spurious Correlations можно обнаружить множество примеров совпадений самого странного рода. Например, связь между объемом дотаций США на науку, космос и технологии и количеством суицидов через повешение и удушение (степень совпадения – 99,79%).
Между количеством людей, утонувших от падения с рыбацкой лодки, и количеством свадеб в Кентукки (95,24%).
Или между количеством утонувших в бассейне и количеством фильмов, в которых снялся Николас Кейдж (66,6%).
Кому-то эти зависимости могут показаться интересными, кто-то может даже найти объяснение некоторым из них, однако даже это не может свидетельствовать о причинно-следственной связи. Статистика не может утверждать, что Николас Кейдж топит людей в бассейнах после съемок, статистика может только указывать, намекать на это, а проверено это будет уже в ходе эксперимента – скорее всего, следственного. Где путем специального приглашения Николаса на съемки будет проведен мониторинг всех бассейнов в округе.
2. Классификация, иными словами, кластерный анализ. Попытка разделения массива на группы.
Ложные разделения при их обнаружении мы называем дискриминацией, самые известные случаи – дискриминация по половому и расовому признаку. Долгое время считалось, что раса и пол влияют на интеллектуальные способности человека, и эксперименты это подтверждали, однако толком объяснить, почему так происходит, не удавалось. Наоборот, выяснилось, что зависимость прослеживается ввиду других факторов. И если мы учтем влияние стереотипов, уровень образования, гормоны, здоровье, питание и воспитание, влияние которых объяснить легко, то увидим, что ущемленные группы покажут даже лучшие результаты, так как подвергаются большему давлению и, соответственно, прикладывают больше усилий.
Даже нейронные сети могут допускать ошибки такого рода. Так, нейросеть для оценки резюме, созданная компанией Amazon, из-за того что была обучена на имеющихся данных, на текущем положении вещей в компании, отбраковывала соискателей женского пола на позицию программистов. Женщин-программистов практически не было в компании на тот момент. «Значит, они плохо программируют», – подумала нейронная сеть. Из-за чего компанией было принято решение закрыть данный проект.
И даже «справедливость» в этих вопросах не будет означать равенства. Так, в Австралии в 2017 году вместо гендерных квот ввели слепые резюме, в которых не указывался пол соискателя, что привело только к снижению предпочтительности женщин в работе.
И, чтобы уравнять ситуацию, мы должны уравнивать условия среды для всех, а не вводить искусственные квоты, слепые резюме, закрывая на проблему глаза.
Кроме того, что в классификации, так же как и в корреляции,