Михаил Копотев

Введение в корпусную лингвистику


Скачать книгу

содержит 13 древнерусских текстов с возможностью поиска по токену, лемме и по части речи.

      3) Рукописные памятники Древней Руси

      www.lrc-lib.ru

      Сайт содержит корпус древнерусских берестяных грамот, корпус русских летописей и некоторые древнерусские переводные тексты. Основная часть текстов доступна в формате PDF (c возможностью поиска), но часть содержит грамматическую разметку.

      4) Великие Четьи-Минеи митрополита Макария

      www.vmc.uni-freiburg.de

      Электронное издание 12 книг, содержащих жития, поучения и апокрифы, написанные на восточнославянском варианте церковнославянского языка.

      5) Проект «Манускрипт»

      manuscripts.ru

      Корпуса древнерусских и среднерусских текстов, написанных в основном на церковнославянском языке, включает жития, служебные тексты, летописи и т. д. Существует возможность поиска по токену.

      6) Корпус северно-русских житий СКАТ

      project.phil.spbu.ru/scat

      Корпус текстов XV–XVII веков объемом ок. 500 тыс. единиц с возможностью поиска токенов в словоуказателе и перехода к фрагментам текстов.

Корпуса русского языка

      В 1985 году в Институте русского языка им. В. В. Виноградова РАН был создан Отдел Машинного фонда русского языка. Это был масштабный проект, объединивший усилия ученых из десятков университетов. К началу 1990-х годов была собрана коллекция текстов художественной литературы, создана программа автоматической обработки текстов (UNILEX) и подготовлено несколько новых, по сути корпусных, словарей. Если бы проект был осуществлен в соответствии с задуманным, корпусные лингвисты уже в 1990-е годы получили бы прекрасные ресурсы и инструменты для работы. К сожалению, этого не произошло по внешним причинам, но менее чем через десять лет корпусные работы вновь стали активно развиваться. Уже в самом начале 2000-х годов возникли проекты БОКР (Большой корпус русского языка, руководитель – С. А. Шаров) и «Русский стандарт» (руководитель – В. А. Плунгян), которые позже стали основой Национального корпуса русского языка. Ниже кратко представлены основные русскоязычные корпуса (подробнее см. Копотев, Резникова 2005; Копотев, Янда 2006).

      1. Национальный корпус русского языка (НКРЯ)

      www.ruscorpora.ru

      Ресурс является крупнейшей коллекций русскоязычных корпусов, сопоставимой с национальными корпусами других языков. Коллекция включает диалектные и литературные, исторические и современные, письменные и устные, оригинальные и переводные тексты. Лингвистическая разметка представлена морфологической, синтаксической и семантической аннотациями. Общий объем доступных корпусов – около 500 млн слов. Дополнительной (и даже уникальной) особенностью этого корпуса является наличие стиховедческой разметки, позволяющей искать стихотворные тексты с заданными параметрами. В настоящее время работа над корпусом активно продолжается.

      2. Тюбингенский корпус (ТК)

      www.sfb441.uni-tuebingen.de/b1/rus/korpora.html

      В основе корпуса лежит старейший общедоступный русскоязычный Упсальский корпус русских текстов (www.slaviska.uu.se/korpus.htm), к материалам которого