вид. Но даже эти короткие фрагменты показывают, что некоторые n-граммы (например, не до) встречаются чаще, чем другие. Следовательно, такой корпус позволяет искать устойчивые сочетания. Примерами фрагментированного корпусов такого типа являются Google n-gram corpus (books.google.com/ngrams/datasets) и корпуса, составленные на основе НКРЯ (ruscorpora.ru/corpora-freq.html)
Конкордансы
Конкордансом (англ. concordance) в корпусной лингвистике называют список найденных примеров (вхождений) нужного токена или леммы в минимальном контексте. Обычно такой контекст представляет собой фрагмент из нескольких единиц слева и справа. Многие современные корпуса предлагают конкорданс в качестве дополнительной возможности вывода найденной информации на экран, такой формат вывода называется KWIC (читается «квик», англ. key word in context). Вообще, конкорданс – не столько корпус, сколько формат показа результатов. Вот пример конкорданса, составленного по запросу «Пушкин – наше»:
Метатекстовая разметка
Самый простой тип разметки – информация о текстах, вошедших в корпус: метатекстовая разметка, или метаданные (англ. metadata). Такая разметка содержит информацию о внешней истории текстов: обстоятельства создания, социальные и возрастные характеристики автора, правила использования корпуса и т. д. Одна из самых подробных схем метаразметки представлена в Национальном корпусе русского языка (она называется паспорт текста).
I.1.
● Автор текста: имя, пол, дата рождения (или примерный возраст)
● Название текста
● Время создания текста
● Объем текста
II.1. Художественные тексты
● Жанр текста: историко-приключенческая, криминальная, любовная литература, сатира и юмор, фантастика и т. п.
● Тип текста: анекдот, боевик, детектив, повесть, притча, рассказ, роман, сказка, триллер, эпопея, эссе и т. п.
● Хронотоп текста: доисторический период, античность, Средние века, Новое время, Россия: 19 век, Россия: 20 век (до 1914), Россия/СССР: война 1914–1918, революция, гражданская война, 20-е гг., 30-е гг., война 1941–1945, послевоенный период (до 1952), 50-е гг., 60–80 гг., перестройка, Россия: постсоветский период.
II.2. Нехудожественные тексты
● Сфера функционирования текста: бытовая, официально-деловая, производственно-техническая, публицистическая, учебно-научная, церковно-богословская.
● Тип текста: автобиография, акт, дневник, договор, документ, закон, заметка, заявление, инструкция, информационное сообщение, кодекс, комментарий, листовка, обзор, объявление, отзыв, отчет, очерк, письмо, постановление, проповедь, путеводитель, резюме, реклама, рекомендация, рецензия, рецепт, сочинение, справочник, статья, учебник, характеристика, хроника, эссе и т. п.
● Тематика текста: бизнес, коммерция, экономика, финансы; война и вооруженные конфликты; дом и домашнее хозяйство; здоровье и медицина; зрелища и развлечения; искусство; криминал; наука (по разделам и отраслям); политика и общественная жизнь; право; производство; сельское хозяйство;