Денис Владимирович Соломатин

Основы статистической обработки педагогической информации


Скачать книгу

aes(carat, price)) +

      geom_hex()

      ggsave("алмазы.pdf")

      write_csv(diamonds, "алмазы.csv")

      И сохраните файл, назвав его «алмазы.R». Далее, запустите этот скрипт, чтобы создать файлы PDF и CSV в каталоге проекта. Не беспокойтесь о деталях, их разберем подробнее чуть позже. А пока, выйдите из RStudio и откройте папку проекта, обнаружите там файл «практикум по статистике» с расширением «.Rproj». Дважды кликните по нему для повторного открытия проекта. Заметьте, что вернулись на место, где остановились, это тот же самый рабочий каталог и история команд, открылись все файлы, над которыми работали. Следуя описанным инструкциям имейте ввиду, что начинать новый проект лучше с пустого системного окружения, как чистого листа.

      Если теперь выполнить поиск файл алмазы.pdf, то найдется PDF рядом со скриптом, который его создал (алмазы.R). Одновременно сохранились график и данные, по которым он строился. Предпочтительно сохранять данные кодом R, а не с помощью мыши или через буфер обмена, чтобы не исказить информацию.

      Проекты RStudio формируют крепкую основу рабочего процесса. Для повышения эффективности стоит придерживаться следующих рекомендаций:

      • Создавать отдельный проект RStudio для каждого аналитического проекта.

      • Хранить файлы данных в папке проекта, для удобной загрузки их в R.

      • Храните там же и скрипты, редактируя их, запуская по частям или целиком.

      • Сохранять там же и выходных данных (графики, очищенные данные).

      • Использовать только относительные пути, а не абсолютные.

      В результате, всё необходимое для работы будет находится в одном месте, изолированном от других проектов.

      §4. Статистический анализ данных

      Эта глава посвящена освоению основных приёмов статистического анализа информации, полученной средствами визуализации и преобразований, при систематическом изучении педагогических данных. Основная задача отдельной дисциплины, называемой «исследовательский анализ данных», заключается в открытии новых характеристик данных, и решается неоднократным повторением следующих трех шагов:

      1) Сформулируйте вопросы о ваших данных.

      2) Ищите ответы с помощью визуализации, преобразований и моделирования.

      3) Используйте обнаруженные закономерности, чтобы уточнить имеющиеся вопросы и сформулировать новые.

      Описанное не является формальным процессом со строгим набором правил, это скорее «состояние ума». Во время первого этапа нужно чувствовать себя свободно, чтобы исследовать каждую идею, что приходить на ум. Некоторые из идей будут реализованы, другие заведут в тупик, но поскольку исследование продолжится, то можно будет сконцентрироваться на нескольких особо продуктивных направлениях, которые в конечном итоге разовьются при общении с другими людьми.

      Визуализация и преобразования являются важной частью любого анализа данных, даже если данные представлены «на блюдечке с голубой каёмочкой», всегда нужно исследовать качество исходных данных.