Андрей Вяльцев

Базовая оценка минерализации. Ресурсный геолог


Скачать книгу

для оценки дисперсии выборки

      То есть выборочная дисперсия – среднее из квадратов отклонения случайной величины от ее среднего значения.

      Считается (и доказывается в классических статистических работах), что выборочная дисперсия является смещенной оценкой дисперсии генеральной совокупности. Для оценки дисперсии генеральной совокупности используется чуть более сложная формула:

      Формула для оценки дисперсии генеральной совокупности

      Выше мы с помощью несложных логических рассуждений вывели формулу дисперсии. Было бы нелишним понимать смысл этой формулы, но строгого запоминания этих формул не требуется, поскольку они заложены во всем ПО, работающем с данными (по крайней мере, авторам не встречалось ПО, где бы эти формулы не были заложены).

      Выше приведены две формулы расчета дисперсии. Необходимо обратить внимание на то, что в задачах моделирования практически всегда мы имеем дело не с генеральными совокупностями, а со случайными выборками из генеральной совокупности. Поэтому мы не имеем точного значения дисперсии, а только ее оценку. В учебниках по математической статистике5 указано, что верхняя формула (где выполняется деление на численность выборки) дает смещенную оценку дисперсии, а нижняя (где деление выполняется на численность выборки минус 1) – несмещенную. Вторую формулу используют для оценки дисперсии генеральной совокупности.

      Теперь о том, какую дисперсию считает ПО, которым мы имеем счастье пользоваться:

      – Первым пунктом идет, естественно, великий и ужасный Excel6. В Excel существует две формулы для расчета дисперсии (на самом деле, больше, но глобально – две, остальные – это вариации на тему «использовать логические значения / не использовать логические значения»): ДИСП. В и ДИСП. Г. Причем вторая, как сказано в ее кратком описании, рассчитывает дисперсию генеральной совокупности. Вот, казалось бы, «щасстье привалило». Однако нет: ручная проверка показывает, что результат работы функции ДИСП. Г совпадает с формулой смещенной оценки. В чем же проблема? А проблема очень простая: функция ДИСП. Г считает, что то, что она получила на вход, это и есть генеральная совокупность. А при генеральной совокупности – таки да, надо делить на численность генеральной совокупности. Но у нас-то не генеральная! Хорошо, если генеральная совокупность выглядит как «непьющие мужчины за 40 деревни Чуево-Кукуево» – там вообще считать нечего. Но в моделировании мы практически всегда имеем дело со случайной выборкой. Поэтому функцию ДИСП. Г мы забываем, как страшный сон.

      Вывод: Excel для выборочной дисперсии (ДИСП. В) приводит ее несмещенную оценку.

      – Google таблицы7 – аналогично: функция VAR рассчитывает несмещенную оценку, функция VARP совершенно аналогична ДИСП. Г Excel.

      – Datamine. Дает смещенную оценку.

      – Snowden