Михаил Копотев

Введение в корпусную лингвистику


Скачать книгу

иверситета Арто Мустайоки за его содержательные комментарии, а также за финансовую поддержку издания в рамках гранта «Создание частотной грамматики русского языка». Мой смиренный поклон Ольге Митрениной, доценту кафедры математической лингвистики Санкт-Петербургского университета, согласившейся стать вторым рецензентом и нещадно критиковавшей меня как за незнание предмета, так и за незнание правил русского языка. Моя благодарность Дарье Кормачёвой, моей аспирантке, выпускнице той же петербургской кафедры, за то, что она собрала библиографию, подготовила словарь и убедилась, что все задания выполнимы. Наконец, я благодарен двум людям, превратившим текст в книгу: редактору, сотруднику Института русского языка им. В. В. Виноградова Наталии Занегиной, убравшей все неточности, повторы и ошибки, и художнице Марии Заборовской, лаконично и ясно визуализировавшей мои многословные объяснения. Спасибо вам!

      Естественно, все не замеченные ими ошибки остаются на моей совести, с которой можно связаться по адресу: [email protected].

      Предисловие

      Корпусная лингвистика – это лингвистика корпусов, то есть собраний текстов. Для начала такого «определения» вполне достаточно. Такое направление лингвистики существует чуть более полувека, а в России это, по сути, наука XXI века: ее активное развитие пришлось на самое начало третьего тысячелетия.

      О «молодости» этой дисциплины говорит, в частности, неустойчивость ударения и морфологических форм самого термина корпус и его производных: кóрпусы – корпусá, кóрпусная – корпуснáя. По моим наблюдениям, в устной речи специалисты по корпусной лингвистике предпочитают говорить корпусá, корпуснáя. Письменная норма менее стабильна: в пяти русскоязычных сборниках по корпусной лингвистике встретилось 24 формы корпуса и 27 – корпусы.

      Говоря о корпусной лингвистике, следует иметь в виду два ее направления:

      ● создание корпусов,

      ● корпусные исследования, то есть исследование языка с помощью корпусных методов.

      Четкой границы между ними не существует, и практически все создатели корпусов проводят в то же время и собственно лингвистические исследования. В целом, корпусная лингвистика в первом значении более технологична и предполагает совместную работу лингвистов и специалистов по компьютерным технологиям. Это не столько теоретическое направление лингвистики, сколько технология. Корпусная лингвистика во втором значении – дело лингвистов, в том числе и специалистов по статистической обработке языка. Говоря о корпусной лингвистике, часто имеют в виду второе значение (‘корпусные исследования’), но необходимо помнить, что без первого в принципе не существовало бы и второго. В настоящем учебнике речь пойдет обо всех составляющих корпусной работы.

      Главная задача учебника – введение в новую тему, многогранную и динамичную. Я старался построить его не как путеводитель по корпусам и программам (хотя ссылок в нем немало), а как рассказ об общих особенностях этого направления современной лингвистики. Идеальный читатель этого учебника – студент-филолог, который уже прослушал курсы по грамматике и еще не успел забыть школьную математику. Я строил этот учебник так, чтобы не перегрузить его сложным материалом, но совсем обойтись без сложностей (особенно математических) невозможно. В этой книге я рассмотрю следующие темы:

      ● определение и особенности языкового корпуса;

      ● история создания и классификация корпусов;

      ● различные виды корпусной разметки;

      ● одноязычные и многоязычные корпуса;

      ● интернет как корпус;

      ● создание собственного корпуса;

      ● количественные методы в корпусных исследованиях;

      ● вклад корпусной лингвистики в общую теорию языка.

      Каждая глава сопровождается списком литературы и заданиями, позволяющими закрепить навыки или расширить представление о темах, обсуждаемых в соответствующей главе. Зведочкой (*) помечены задания повышенной сложности и задания для дискуссии.

      Ниже приведен список англоязычных книг, которые я рекомендую для дополнительного чтения. Первые четыре – это современные учебники и словарь терминов; четыре последние – статьи и монографии, успевшие стать классическими за недолгую историю нашей дисциплины.

      1. Biber D., Conrad S., Reppen R. Corpus linguistics: Investigating language structure and use. Cambridge University Press, 1998.

      2. McEnery T., Hardie A. Corpus linguistics: method, theory and practice. Cambridge University Press, 2011.

      3. Xiao R., Tono Y. Corpus-based language studies: An advanced resource book. Taylor & Francis, 2006.

      4. Baker P., Hardie A., McEnery T. A glossary of corpus linguistics. Edinburgh: Edinburgh University Press, 2006.

      5. Sampson G., McCarthy D. (ed.). Corpus linguistics: readings in a widening discipline. Continuum: International Publishing Group, 2005.

      6. Sinclair J. Corpus, concordance, collocation. Oxford University Press, 1991.

      7. Stubbs M. Text and corpus analysis: Computer-assisted studies of language and culture. Oxford: Blackwell, 1996.

      8. Tognini-Bonelli E. Corpus linguistics at work. John Benjamins, 2001.

      Глава 1. Что такое корпус?

      Латинское