алгоритму моделирования тем мы получаем два важных результата. Во-первых, компьютер сообщает, какие темы есть в нашем корпусе текстов (в том числе – какие слова составляют каждую из них; примеры мы только что видели в словесных облаках слов «бар» и «тело»). Во-вторых, компьютер определяет долю содержания каждой темы в каждой книге. Мы задали список из пятисот возможных тем, так что вариации тематического состава могут быть огромны. Узнав эти пропорции, мы можем начать поиск закономерностей, типичных для бестселлеров. Это нечто вроде обратного конструирования. Возьмем в качестве метафоры тарелку супа. Компьютер сначала делит его на составляющие – мясо, бульон, капуста, лук, специи, – а затем тщательно измеряет количество каждого ингредиента.
Измерив таким образом содержание ингредиентов, мы начинаем задавать вопросы. Например, можно спросить, какие банки чаще попадаются на страницах бестселлеров – те, что с деньгами, или те, что с вареньем. Или какого типа описания секса чаще встречаются в бестселлерах – совсем откровенные или более сдержанные. Кстати, если вам интересно: чтобы попасть в список бестселлеров NYT, лучше выбирать банки с деньгами, а любовные сцены (если уж без них никак нельзя) – те, которые рисуют душевную близость, а не насилие. Откровенная сцена поможет попасть в бестселлеры, если она продвигает вперед сюжет и взаимоотношения между персонажами. Если сцена добавлена автором для «оживляжа» и на самом деле не нужна для развития сюжета, она, скорее всего, не поможет книге продаваться и, следовательно, лишняя. Возможно, это объясняет, почему доля сексуальной темы в бестселлерах немного ниже по сравнению со всем корпусом текстов.
Конечно, нельзя создать книгу из одной темы. Возьмем, например, «Там, где течет река»[52] Нормана Маклина. Можно сказать, что она – про рыбалку и про деньги, но она также про религию и про отношения между братьями. У каждого романа есть свой собственный тематический профиль, отражающий не только набор тем, направленный на создание определенного переживания у читателей, но и точную пропорцию, в которой эти темы появляются в романе. В плане тематики для успеха книги важно и то и другое. Можем ли мы, глядя на рукопись, понять, насколько ее тематический профиль обеспечит ей успех?
Легко предположить вслед за многими редакторами, что роман об убийствах, расследованиях и командном спорте скорее понравится массовому читателю, чем роман о коллекционировании рептилий, космических ракетах и университетской жизни. Но для настоящего прогноза нужно задаться вопросом: существуют ли темы, общие для большинства бестселлеров? И в то же время необходимо доказать, что эти темы реже встречаются в романах, которые в список бестселлеров не попадают. Это сложная задача. При поверхностном взгляде на любой недельный список бестселлеров кажется, что набор тем совершенно случаен и ничего общего в них нет.
Возьмем список за текущую неделю. Сейчас, когда мы пишем эти строки, на первом месте среди романов в твердом переплете