Михаил Копотев

Введение в корпусную лингвистику


Скачать книгу

разбор хотя бы ста тысяч слов!

      Если вы создаете корпус для себя или для маленькой исследовательской группы, то разметка может быть понятной только вам и вашим друзьям. Однако многие корпуса публикуются в интернете, с ними работают люди, незнакомые не только с вами, но и с вашей теорией. В таком случае прозрачность и ясность разметки становится ключевым фактором для успешной работы. По словам Дж. Лича (Leech 1991), разметка общедоступного корпуса должна подчиняться нескольким принципам.

      ● Разметка должна основываться на доступной для пользователя в виде руководства или инструкции схеме анализа, в которой введение каждого параметра должно быть мотивировано.

      ● Разметка общедоступного корпуса должна быть «теоретически нейтральна», то есть схема разметки по возможности должна не разрывать с традицией, а опираться на знакомую всем систему понятий. Если корпус предназначен не для конкретного проекта, то при его разметке стоит избегать пусть и строгих, но авторских, необщеприняых классификаций, которые требуют предварительного знакомства с той или иной теорией.

      ● Должно быть ясно, кто и как разрабатывает схему аннотации и каковы ограничения, например юридические или технические, при пользовании корпусом.

      Соблюдение этих принципов максимально расширяет круг потенциальных пользователей корпуса и существенно облегчает взаимодействие с информационным ресурсом, хотя может вызвать упреки в «ненаучности». Однако подход к созданию корпуса, не принуждающий авторов нести всю ответственность за логичность и последовательность разметки, а опирающийся на существующие классификации, позволяет заодно выявлять лакуны в описаниях языка, обнаруживать дефекты и противоречия в разных подходах к языку. Конечно, существует множество очень специализированных корпусов, с которыми невозможно работать без предварительной серьезной подготовки. Но по-прежнему верным остается старый принцип Уильяма Оккама: «Не следует множить сущее без необходимости».

      В этой главе речь пойдет только о лингвистическом аннотировании, то есть о типах лингвистической информации, приписанной той или иной языковой единице. Типы лингвистического аннотирования в целом совпадают с уровнями языка:

      ● звуковой: звук (аллофон);

      ● просодический: фонетическое слово (или фраза);

      ● словообразовательный: морфема;

      ● морфологический: словоформа;

      ● лексический: лексема;

      ● синтаксический: предложение.

      Очередность появления разных типов разметок не соответствовала этой уровневой структуре, а зависела от возможностей компьютеров и программ, способных упростить и ускорить аннотирование. Основные этапы развития автоматического анализа связаны с постепенным углублением в анализ конкретной цепочки букв: движением от определения начальной формы до установления семантических связей.

      Адам Килгарифф (Adam Kilgariff) выделил следующие этапы развития автоматического анализа текста:

      ● токенизация (англ.