Валентин Юльевич Арьков

Частотный анализ числовых и текстовых данных. Учебное пособие


Скачать книгу

документировать ход работы. Так что у нас одновременно появляются и сама программа, и документация – описание к ней.

      Зададим начальное состояние генератора случайных чисел. Вызываем функцию seed из встроенного модуля random. В качестве параметра укажем номер зачетной книжки, см. рис. Задавая одно и то же начальное состояние генератора, мы будет каждый раз получать один и тот же набор данных. На самом деле это псевдослучайные числа, которые получают путём вычислений. Внешне они выглядят как случайные.

      Рис. Инициализация генератора

      После выполнения ячейки слева от неё появляется зеленый символ «галочка». Кроме того, в квадратных скобках указано число. Оно указывает, в каком порядке выполнялись ячейки. В блокноте Jupyter можно выполнять ячейки в любом порядке, причем можно запускать их много раз.

      Во время работы с блокнотом советуем регулярно нажимать комбинацию клавиш [Ctrl + S] для сохранения. Блокнот сохраняется на вашем облачном диске Google Drive.

      Теперь мы вызываем генератор случайных чисел и передаем ему параметры распределения и объем выборки, см. рис.

      Рис. Генерируем выборку

      Выводим на экран первые 10 элементов массива x. Мы не указываем начальный индекс, поэтому используется нулевой элемент. После символа двоеточия указан номер 10, но элемент с номером 10 не выводится. Мы увидим только элементы с номерами от нуля до девяти – это особенность Python.

      При работе в блокноте нам не обязательно использовать функцию print. Достаточно указать имя переменной, см. рис.

      Рис. Начало массива

      2.2. Гистограмма

      Переходим к построению гистограммы.

      Для создания графиков мы будем использовать библиотеку matplotlib. Из этой библиотеки мы загружаем модуль pyplot и назначаем ему псевдоним plt.

      Теперь мы можем вызвать функцию построения гистограммы hist. В качестве параметра передаём имя нашего массива x. На экране появляется изображение гистограммы, причём количество интервалов группировки и их границы выбираются автоматически.

      Над графиком выводится дополнительная информация: абсолютное частоты попадания в каждый интервал и границы интервалов группировки, см. рис.

      Рис. Гистограмма: настройки по умолчанию

      При построении гистограммы мы не указали количество интервалов группировки. По умолчанию используется 10 интервалов. Чтобы задать другое значение, укажем параметр bins, см. рис. Нам нужно подобрать «приемлемое» количество интервалов – не слишком мало и не слишком много. Меняем значение n и запускаем нашу ячейку на выполнение.

      Обратим внимание, что при вызове функций в Python мы можем передавать им параметры в любом порядке и даже можем их пропускать. Чтобы справиться с такими ситуациями, мы явно указываем название параметра, затем ставим знак равенства и даём его значение, например, bins=n.

      Команда plt.show () подавляет вывод служебной информации на экран. В этом случае мы выводим на экран