Михаил Копотев

Введение в корпусную лингвистику


Скачать книгу

баз данных Интегрум

      www.integrum.ru

      Коммерческий интернет-ресурс, который включает большинство выходящих в настоящее время публицистических текстов (включая радиопередачи), законодательные документы, справочники, а также некоторое количество художественных текстов. В силу достаточно хорошо развитого языка запросов и удобного разделения материала по типам источников эта поисковая система вполне может быть использована как ежедневно пополняемый мониторинговый корпус. Опыт использования Интегрума в исследованиях разного рода представлен в книге (Никипорец-Такигава 2006).

      7. Русский интернет-корпус (I-RU)

      corpus.leeds.ac.uk/it

      Составленный С. Шаровым русский интернет-корпус является частью многоязыковой и многожанровой коллекции корпусов. Этот корпус содержит богатую метаразметку, а также морфологическую и частично синтаксическую и словообразовательную разметки, выполненные автоматически (Sharoff 2006).

      Следующая таблица обобщает основные особенности описанных корпусов.

      Таким образом, в распоряжении лингвиста, изучающего русский язык, имеется ряд возможностей обращаться к разным текстовым материалам, обладающим своими преимуществами и недостатками. Интегрум несопоставимо больше по объему, чем все остальные ресурсы (например, слово корпус в разных значениях встречается в нем свыше 2 млн раз; в Национальном корпусе – ок. 20 тыс., в ХАНКО – 3 раза). Однако Интегрум не предназначен специально для изучения русского языка и содержит только сплошные тексты без морфологической разметки. В Национальном корпусе можно осуществлять поиск на представительной выборке текстов XVIII–XXI веков, используя морфологические и семантические параметры и богатую систему жанровых и функциональных признаков текста. ХАНКО лучше подходит для целей преподавания, поскольку содержит более качественное и традиционное аннотирование.

Дополнительная литература

      1. Mitrenina О. The Corpora of Old and Middle Russian Texts as an Advanced Tool for Exploring an Extinguished Language // Scrinium. Revue de patrologie, d’hagiographie critique et d’histoire ecclésiastique. 10 (2014) [forthcoming]

      2. Mustajoki A. The Integrum database as a powerful tool in research on contemporary Russian // Integrum: mочные меmоды и гуманиmарные науки. М., 2006. С. 50–75.

      3. Sharoff, S. Open-source corpora: Using the net to fish for linguistic data // International Journal of Corpus Linguistics. 2006. № 11(4). P. 435–462. Доступно по адресу: corpus.leeds.ac.uk/serge/publications/ijcl06-11-4-proof.pdf

      4. Xiao R. Z. Well-known and influential corpora // Corpus Linguistics: An International Handbook. Vol. 1. Handbooks of Linguistics and Communication Science / Lüdeling A. & Kytö M. (eds.). Berlin: Mouton de Gruyter, 2008. P. 383–457.

      5. Грановский Д. В., Бочаров В. В., Бичинева С. В. Открытый корпус: принципы работы и перспективы // Компьютерная лингвистика и развитие семантического поиска в Интернете: Труды научного семинара XIII Всероссийской объединенной конференции «Интернет и современное общество». Санкт-Петербург, 19–22 октября 2010 г. / Под ред. В. Ш. Рубашкина. – СПб., 2010.

      6. Копотев М. В., Мустайоки А. Принципы создания Хельсинкского аннотированного корпуса русских текстов (ХАНКО) в сети Интернет // Научно-техническая информация. Сер. 2: Информационные системы и процессы. № 6. Корпусная лингвистика в России. 2003. Т. 2. С. 33–36.

      7. Копотев М. В., Янда Л. [Рецензия на НКРЯ] // Вопросы языкознания. 2006. № 5. С. 149–155.

      8. Резникова Т. И. Славянская корпусная лингвистика: