Мэттью Джокерс

Код бестселлера


Скачать книгу

были приметами стиля, другие помогали что-то узнать о сюжете и месте действия, а третьи поясняли, о чем, собственно, книга. Оказалось, что не все эти параметры помогают отличить книгу, набравшую миллионы читателей, от той, которая, несмотря на все свои уникальные достоинства, провалилась. Например, выяснилось, что использование чисел в заглавии – «911», «1984», «867–5309», «$ 1 000 000» – никак не стимулирует продажи. Аналогичным образом мы потратили много времени, обучая компьютер распознавать место действия (например, действие книги «Дьявол носит Prada»[35] происходит целиком в Нью-Йорке, а действие «Исчезнувшей» начинается в Нью-Йорке, а потом переносится в штат Миссури), но оказалось, что, за малыми исключениями, географическое положение героев совершенно не влияет на популярность у читателей. В Нью-Йорке происходит действие как бестселлеров, так и книг, не имевших никакого успеха. Литературные мегахиты, действие в которых разворачивается в этом городе, – взять хотя бы «Обнаженную для тебя» Сильвии Дэй, «Костры амбиций»[36] Тома Вулфа, «По-быстрому»[37] Джеймса Паттерсона, «Жутко громко и запредельно близко»[38] Джонатана Сафрана Фоера – явно (намеренно со стороны автора или случайно) обладают какими-то иными, более важными «генами бестселлера».

      В конце концов мы отфильтровали свой список параметров, оставив от 20 тысяч примерно 2800, которые помогают отличить популярные у читателей книги от предназначенных для – будем честны – узкой читательской ниши. Сначала мы научили компьютеры читать книги и извлекать из них нужные данные, а затем проанализировали эти данные, используя другой набор компьютерных программ – для обнаружения и исследования скрытых закономерностей. В этой фазе анализа мы использовали процесс, весьма метко называемый машинным обучением. При анализе текстов бывает нужно сортировать или классифицировать их по сходству и различию. Например, мы хотим отличать спам от обычных сообщений в электронной почте. Поскольку у спамерских посланий много общего – искаженное написание слов, частое упоминание виагры и т. д., – можно написать программу, которая будет определять, с какой вероятностью данное сообщение окажется спамом. Сортировка романов на бестселлеры и небестселлеры очень похожа на действия, выполняемые спам-фильтром в электронной почте. Допустим, у нас есть новая книга, которую мы видим в первый раз, и мы хотим понять, может ли она стать бестселлером. Если у нас уже есть куча бестселлеров («не спам») и куча книг, которые бестселлерами не стали («спам»), мы можем ввести их все в компьютер и научить его отличать книги одной категории от другой по определенным параметрам. Именно так мы и поступили. Более того, мы проделали это тремя разными способами, усреднили результаты и обнаружили, что в 80 % случаев наша система правильно определяла, какой текст из нашего корпуса – бестселлер, а какой – нет[39].

      Этот средний показатель 80 % означает, что, если взять наугад из недавно опубликованных книг 50 бестселлеров и 50 так и не ставших