оказывается (во всяком случае сейчас и в обозримом будущем) или непоследовательным, или теоретически не нейтральным. К этому добавляется и проблема «большой» лингвистики. Если взгляды на морфологию в лингвистике более-менее совпадают, то в основе алгоритмов синтаксического разбора часто лежат разные теории. Еще больше сложностей возникает при описании семантического компонента языковых единиц. Эклектичность и неравномерная представленность разных языковых уровней в языковых корпусах выявляет две реально существующие проблемы современной лингвистики: отсутствие полных теоретически обоснованных и общепринятых классификаций, с одной стороны, и сложность (граничащая с невозможностью) автоматического аннотирования на основе этих классификаций – с другой. Всякий языковой корпус в силу необходимости тотального описания материала кристаллизует проблемные области в описании того или иного языка. И в этом смысле корпус является не только инструментом для быстрого поиска примеров, но и источником совершенствования и теоретических, и чисто дескриптивных подходов к определенному языку.
1. Bird S., Liberman M. A formal framework for linguistic annotation // Speech communication. 2001. Vol. 33. № 1. P. 23–60.
2. Ide N. Corpus Encoding Standard: SGML guidelines for encoding linguistic corpora // Proceedings of the First International Language Resources and Evaluation Conference. 1998. P. 463–470.
3. Ide N., Romary L., de la Clergerie E. International standard for a linguistic annotation framework // Proceedings of the HLT-NAACL 2003 workshop on Software engineering and architecture of language technology systems. Vol. 8. Association for Computational Linguistics, 2003. P. 25–30.
4. Leech G. Corpus annotation schemes // Literary and Linguistic Computing. 1993. № 8/4. Р. 275–281.
5. Sperberg-McQueen C. M. et al. (ed.). Guidelines for electronic text encoding and interchange. Chicago and Oxford: Text Encoding Initiative, 1994. Vol. 1.
6. TEI: Text Encoding Initiative. Доступно по адресу: www.tei-c.org.
1. На странице выбора метаразметки НКРЯ (ruscorpora.ru/mycorpora-main.html) соберите подкорпус, максимально точно соответствующий вашему языковому опыту (возраст, пол, любимая тематика и т. д.). В полученном корпусе задайте поиск характерных для вас словечек или выражений. Нашли? Совпал ли ваш языковой опыт с данными корпуса? При желании сделайте такое же сравнение языкового опыта ваших родителей или бабушек и дедушек.
2. Вспомните прослушанные вами курсы по фонетике и грамматике и подумайте, какие проблемы возникнут при анализе следующих единиц:
a) на фонетическом уровне: быль,
b) на словообразовательном уровне: вынуть,
c) на морфологическом: Вась!,
d) на синтаксическом: Ему весело.
Подумайте и объясните, разметку какого уровня легче автоматизировать: звукового, морфологического, лексического или синтаксического. Почему?
3*. В следующем фрагменте попробуйте указать формальные критерии (то есть строгие и однозначные), которые разделят текст на предложения и словоформы. Если сделать это не удалось, объясните, что вызвало проблемы.
И блистали столетние липы
Невозможной такой красотой.
Здесь теперь обретаются VIP-ы,
А была – слобода слободой.
И юннат был мечтательным малым —
Слава, праздность, любовь и т. п.
Он сказал себе: «Что если надо
Стать писателем?» Вот он и стал им.
Глава 6. Морфологическая разметка
Я