Мэттью Джокерс

Код бестселлера


Скачать книгу

id="n44">

      44

      The Goldfinch, Donna Tartt.

      45

      Сокращение расшифровывается как «Стандарты и обмен информацией в книжном деле».

      46

      On Writing: A Memoir of the Craft, Stephen King.

      47

      To Kill a Mockingbird, Harper Lee.

      48

      В отдельных случаях примеры адаптированы для русского читателя. (Примеч. ред.)

      49

      Мы использовали латентное размещение Дирихле – алгоритм моделирования тем, предложенный Дэвидом Блеем, сотрудником Колумбийского университета. Слово «латентный» в названии метода Блея отражает то, что некоторые темы могут присутствовать в тексте в неявном виде. (Примеч. авторов.)

      50

      В 8-й главе своей книги «Macroanalysis: Digital Methods and Literary History» (UIUC Press, 2013) Мэтт более подробно описывает алгоритм моделирования тем. В 13-й главе своей книги «Text Analysis with R for Students of Literature» (Springer, 2014) Мэтт объясняет читателям, как проводить моделирование тем на алгоритмическом языке R (и как создавать словесные облака, которые вы увидите на этих страницах). Мэтт также опубликовал несколько объяснений для неспециалистов у себя в блоге (www.matthewjockers.org), в том числе: «The LDA Buffet is Now Open; or, Latent Dirichlet Allocation for English Majors» (29.09.2011) и «“Secret” Recipe for Topic Modeling Themes» (12.04.2013). (Примеч. авторов.)

      51

      A Clockwork Orange, Anthony Burgess. Использован перевод «Заводного апельсина», сделанный Е. Г. Синельщиковым.

      52

      A River Runs through It, Norman Maclean.

      53

      Rogue Lawyer, John Grisham.

      54

      All the Light We Cannot See, Anthony Doerr.

      55

      The Girl on the Train, Paula Hawkins.

      56

      Go Set a Watchman, Harper Lee.

      57

      The Nightingale, Kristin Hannah.

      58

      O Alquimista, Paulo Coelho.

      59

      Ready Player One, Ernest Cline.

      60

      Роман Селесты Инг. Everything I Never Told You, Celeste Ng.

      61

      Роман Кристины Бейкер Кляйн. Orphan Train, Christina Baker Kline.

      62

      Роман Колма Тойбина. Brooklyn, Colm Tóibín.

      63

      House Rules, Jodi Picoult.

      64

      Точность измеряется с помощью перекрестной проверки. В этом случае мы использовали два типа перекрестной проверки: в первом (скажем для читателей, которых интересуют подробности) сначала использовалось многократное обучение на случайной выборке 90 % книг, а затем проверка результатов на оставшихся 10 %. Во втором мы использовали принцип «все, кроме одной», заключавшийся в том, что мы обучали модель на множестве всех книг, изымая оттуда лишь по одной книге единомоментно. В обоих экспериментах успехом считалось, когда машина правильно угадывала класс (бестселлер или небестселлер) изъятой книги (или книг, при первом подходе). Это длительный и кропотливый процесс, включающий в себя обучение и испытание множества моделей. При обучении этих моделей нам приходилось использовать уже изданные книги, про которые было известно, стали они бестселлерами или нет. Первая модель была построена в 2011 г. Добавив в корпус текстов все бестселлеры и некоторое количество небестселлеров, вышедшие за следующие пять лет, мы смогли снова испытать модель и в каком-то смысле проверить, работают ли наши наблюдения, сделанные в 2011-м, для 2015 г. О