Никита Сергеев

Аналитика и Data Science. Для не-аналитиков и даже 100% гуманитариев…


Скачать книгу

генеральную совокупность, чаще всего используют три основных подхода:

      1. Случайный: когда объекты для изучения отбираются из генеральной совокупности случайным образом.

      2. Стратифицированный: когда генеральную совокупность разбивают на группы (страты) по важным для модели признакам (например, пол, возраст, отрасли, поведение, использование продукта с определенной частотой, частота посещения церкви и т.д.). Объём (%) каждой группы задает то количество объектов / наблюдений, которые надо отобрать из каждой группы. Получаются квоты на отбор тех или иных объектов.

      3. Серийный: когда изымают партию товара, выбирают людей, проживающих в многоквартирном доме на конкретной улице, или берут целиком отдельные отделы в компании и т. д.

      Соответсвенно, генеральная совокупность и выборка связаны напрямую: чтобы отобрать репрезентативную выборку, главное иметь правильное представление о всей генеральной совокупности.

      Переменные

      Данные обычно состоят из большого количества отдельных показателей, которые называют переменными. Это, например, доход, количество клиентов, город или страна, отдел, род войск, зарплата, пол, частота курения, количество посещений или часов порносайтов, частота занятия сексом в неделю, количество детей, социальный статус и т. д.

      Переменная имеет свое значение для того или иного объекта /случая / наблюдения.

      По большому счету переменная – это характеристика объекта / случая / наблюдения. Например, цвет глаз у каждого человека будет свой.

      Т.о., каждый случай, объект или наблюдение имеют свои характеристики, т.е., имеет свое значение той или иной переменной. Переменные описывают объект.

      Например, на рис. 11 в качестве примера приведены Валя и Иван – это объекты / случаи / наблюдения.

      Рис. 11. Объекты и переменные

      А их рост, цвет глаз, доход, место проживания, частота путешествий и другие характеристики – это переменные.

      Например,

      · Валя -женщина, Иван – мужчина.

      · Рост Вали = 1,7 метра, а Ивана 1,82.

      · У Вали глаза голубые, у Ивана зеленые.

      · Валя живет в Омске, Иван в Москве.

      · Месячный доход Вали – 80.000 руб, а Ивана – 200.000 руб.

      · Валя ездит на отдых за границу редко – раз в несколько лет, Иван часто – несколько раз в год.

      Шкалы для измерения переменных

      Каждая переменная может принимать различные значения. Значения переменных варьируются и отличаются от случая к случаю, от объекта к объекту.

      Ну и Вы уже наверняка заметили, что они могут быть измерены в различных шкалах.

      Например, пол – 0 и 1 или 1 и 0. Т.е, мужчина или женщина.

      Доход, который выражается в рублях и может принимать большое количество разных значений, хоть до копеек.

      Или частота поездок за границу, курения, использования интернета…

      Разные шкалы имеют разную информативность. От того, какая