Михаил Копотев

Введение в корпусную лингвистику


Скачать книгу

оказывается (во всяком случае сейчас и в обозримом будущем) или непоследовательным, или теоретически не нейтральным. К этому добавляется и проблема «большой» лингвистики. Если взгляды на морфологию в лингвистике более-менее совпадают, то в основе алгоритмов синтаксического разбора часто лежат разные теории. Еще больше сложностей возникает при описании семантического компонента языковых единиц. Эклектичность и неравномерная представленность разных языковых уровней в языковых корпусах выявляет две реально существующие проблемы современной лингвистики: отсутствие полных теоретически обоснованных и общепринятых классификаций, с одной стороны, и сложность (граничащая с невозможностью) автоматического аннотирования на основе этих классификаций – с другой. Всякий языковой корпус в силу необходимости тотального описания материала кристаллизует проблемные области в описании того или иного языка. И в этом смысле корпус является не только инструментом для быстрого поиска примеров, но и источником совершенствования и теоретических, и чисто дескриптивных подходов к определенному языку.

Дополнительная литература

      1. Bird S., Liberman M. A formal framework for linguistic annotation // Speech communication. 2001. Vol. 33. № 1. P. 23–60.

      2. Ide N. Corpus Encoding Standard: SGML guidelines for encoding linguistic corpora // Proceedings of the First International Language Resources and Evaluation Conference. 1998. P. 463–470.

      3. Ide N., Romary L., de la Clergerie E. International standard for a linguistic annotation framework // Proceedings of the HLT-NAACL 2003 workshop on Software engineering and architecture of language technology systems. Vol. 8. Association for Computational Linguistics, 2003. P. 25–30.

      4. Leech G. Corpus annotation schemes // Literary and Linguistic Computing. 1993. № 8/4. Р. 275–281.

      5. Sperberg-McQueen C. M. et al. (ed.). Guidelines for electronic text encoding and interchange. Chicago and Oxford: Text Encoding Initiative, 1994. Vol. 1.

      6. TEI: Text Encoding Initiative. Доступно по адресу: www.tei-c.org.

Задания

      1. На странице выбора метаразметки НКРЯ (ruscorpora.ru/mycorpora-main.html) соберите подкорпус, максимально точно соответствующий вашему языковому опыту (возраст, пол, любимая тематика и т. д.). В полученном корпусе задайте поиск характерных для вас словечек или выражений. Нашли? Совпал ли ваш языковой опыт с данными корпуса? При желании сделайте такое же сравнение языкового опыта ваших родителей или бабушек и дедушек.

      2. Вспомните прослушанные вами курсы по фонетике и грамматике и подумайте, какие проблемы возникнут при анализе следующих единиц:

      a) на фонетическом уровне: быль,

      b) на словообразовательном уровне: вынуть,

      c) на морфологическом: Вась!,

      d) на синтаксическом: Ему весело.

      Подумайте и объясните, разметку какого уровня легче автоматизировать: звукового, морфологического, лексического или синтаксического. Почему?

      3*. В следующем фрагменте попробуйте указать формальные критерии (то есть строгие и однозначные), которые разделят текст на предложения и словоформы. Если сделать это не удалось, объясните, что вызвало проблемы.

      И блистали столетние липы

      Невозможной такой красотой.

      Здесь теперь обретаются VIP-ы,

      А была – слобода слободой.

      И юннат был мечтательным малым —

      Слава, праздность, любовь и т. п.

      Он сказал себе: «Что если надо

      Стать писателем?» Вот он и стал им.

(С. Гандлевский)

      Глава 6. Морфологическая разметка

      Я