Михаил Копотев

Введение в корпусную лингвистику


Скачать книгу

единица без учета лексических различий. Например, полные омонимы типа ключ будут приписаны при морфологическом аннотировании одной лемме, хотя никто никогда не назовет их одной лексемой.

      Однако бывает, что и лемматизации недостаточно для того, чтобы явно указать, что текстоформы относятся к разным лексемам. Рассмотрим следующий пример:

      По дороге шел боксер

      В пиджаке и шляпе.

      По дорожке шел боксер

      С пятнышком на лапе.

(М. Яснов)

      Боксер и боксер – разные лексемы с совпадающими начальными (да и всеми остальными) формами, однако лемма у них одна, поскольку все формы этих слов совпадают, а разница в лексических значениях на морфологическом уровне не учитывается. Лемма – это результат автоматического сведения текстоформ к одной обобщающей единице, отличающийся от начальной формы тем, что для компьютерной морфологии не важны различия в семантике слов или в ударении, если эти различия никак не выражены в буквенной форме слов. Для того чтобы закрепить в корпусе разницу между разными боксерами, придется вводить новый уровень разметки – семантический, о котором пойдет речь дальше. Понятно, что поиск леммы боксер в морфологически размеченном корпусе будет выдавать все формы этих двух разных лексем русского языка. Особенно актуальна проблема определения лексемы для английского языка, в котором омонимия чрезвычайно часта.

      Английское предложение Fruit flies like a banana может быть переведено как: 1) Фруктовые мушки любят банан или 2) Фрукт летает как банан.

      1. flies ‘мухи’ – лемма fly

      flies ‘летит’ – лемма fly

      2. like ‘любят’– лемма like

      like ‘как’ – лемма like

      Согласитесь, трудно разобраться. Для решения проблемы достаточно указать, что текстоформы принадлежат разным частям речи (англ. parts of speech, POS). Такой тип аннотации был назван частеречная разметка (англ. POS-tagging), а значок, условно обозначающий морфологический признак, стал называться тег (англ. tag).

      Любопытство лингвистов росло, автоматические анализаторы развивались. Появились программы, которые умеют извлекать из цепочки букв морфологические характеристики текстоформы. Программы, автоматически анализирующие морфологию слов, назвали лингвистическими аннотаторами, или теггерами (от англ. tagger). Получая на входе текстоформу, такая программа выдает полную морфологическую характеристику в виде набора тегов, или тегсета (англ. tagset).

      Знаменитая фраза Л. В. Щербы Глокая куздра штеко будланула бокра и курдячит бокрёнка прекрасно иллюстрирует возможность морфологического анализа псевдослов без обращения к лексическому значению:

      ● Глокая – глокий (прил., жен. р., ед. ч., им. пад.)

      ● куздра – куздра (сущ., жен. р., ед. ч., им. пад.)

      Существует несколько способов (алгоритмов), лежащих в основе таких морфологических анализаторов:

      1. Бессловарный метод является самым примитивным. Строго говоря, он не обходится без