Manfred Stede

Korpusgestützte Textanalyse


Скачать книгу

ed Stede

      Korpusgestützte Textanalyse

      Grundzüge der Ebenen-orientierten Textlinguistik

      A. Francke Verlag Tübingen

      [bad img format]

      © 2019 • Narr Francke Attempto Verlag GmbH + Co. KG

      Dischingerweg 5 • D-72070 Tübingen

      www.francke.de[email protected]

      Das Werk einschließlich aller seiner Teile ist urheberrechtlich geschützt. Jede Verwertung außerhalb der engen Grenzen des Urheberrechtsgesetzes ist ohne Zustimmung des Verlages unzulässig und strafbar. Das gilt insbesondere für Vervielfältigungen, Übersetzungen, Mikroverfilmungen und die Einspeicherung und Verarbeitung in elektronischen Systemen.

      E-Book-Produktion: pagina GmbH, Tübingen

      ePub-ISBN 978-3-8233-0154-7

       Für Brigitte, Leonie und Tim

      Vorworte

      Vorwort zur 2. Auflage

      Als im Jahr 2006 die erste Ausgabe dieses Buches entstand, waren korpusbasierte Ansätze in der Linguistik bereits recht weit verbreitet, doch für die Beschreibungsebene Text gab es nur wenige Korpora, die mit textlinguistisch relevanten Phänomenen annotiert waren – zumal für die deutsche Sprache. Das lag in erster Linie daran, dass diese Phänomene (wie etwa die Koreferenz zwischen Nominalphrasen oder die Gliederung eines Textes in seine Diskursstruktur) einerseits für eine automatische Analyse zu schwierig waren und andererseits eine manuelle Annotation mit hohem Aufwand verbunden war. Insofern war der Titel Korpusgestützte Textanalyse seinerzeit vor allem als programmatisch zu verstehen. Seither hat sich das Forschungsfeld jedoch kräftig weiter entwickelt: Auch für das Deutsche sind eine ganze Reihe interessanter Korpora entstanden, annotiert mit vielfältigen textlinguistischen Phänomenen, sowie leistungsfähige Software-Werkzeuge, die eine komfortable Recherche in diesen Korpora ermöglichen. Die vorliegende Neuauflage greift diese Entwicklungen auf und berichtet an vielen Stellen über die Möglichkeiten des Erkenntnisgewinns mit Hilfe solcher Werkzeuge. Insbesondere steht nun das frei zugängliche Potsdamer Kommentarkorpus, implementiert in der linguistischen Datenbank ANNIS3, mit seiner Mehrebenen-Annotation für praktische Übungen zur Verfügung; hier danke ich Peter Bourgonje und Thomas Krause für die technische Unterstützung.

      Darüber hinaus sind alle Kapitel gründlich durchgesehen und teilweise ergänzt worden, um neuere Entwicklungen der Textanalyse zu integrieren.

      Potsdam, im Juni 2018 Manfred Stede

      Vorwort zur 1. Auflage

      Dieses Buch nähert sich der Aufgabe Textanalyse aus zwei verschiedenen Richtungen: Das grundsätzliche Anliegen, Strukturen in Texten aufzudecken und nach der Entstehung von Kohärenz zu fragen, ist das der Textlinguistik. Auch die Idee, dafür eine Reihe unterschiedlicher Ebenen heranzuziehen, wird von verschiedenen Autor/innen der Textlinguistik vertreten. Sie ist jedoch ebenso in der Computerlinguistik prominent, und damit geht der Versuch einher, die Aufteilung in Ebenen und die Untersuchung ihrer Zusammenwirkung möglichst systematisch zu betreiben. Hinzu kommt die Betonung der Rolle eines datenorientierten Vorgehens, das (neben der Korpuslinguistik, per definitionem) gleichfalls in der Computerlinguistik seit vielen Jahren gründlich verankert ist. Während meiner Beschäftigung mit der Thematik fiel mir auf, wie merkwürdig separat die Disziplinen Textlinguistik und Computerlinguistik allerdings nebeneinander zu existieren scheinen: Die Textlinguistik nimmt kaum einmal die durchaus interessanten Ergebnisse der textbezogenen Computerlinguistik auf. Und in der Computerlinguistik werden mitunter Räder neu erfunden, die vor vielen Jahren in der Textlinguistik bereits bekannt waren, wenn auch möglicherweise noch nicht hinreichend formalisiert. Diese Entwicklung ist bedauerlich, und es erscheint mir wichtig, die beiden Disziplinen stärker aufeinander aufmerksam zu machen. Sollte das Buch dazu einen Beitrag leisten, so wäre ein Ziel erreicht.

      Das Buch möchte Studierenden einen Überblick über die verschiedenen Ebenen der linguistischen Textanalyse vermitteln. Weil am Ende die Einsicht in das Zusammenwirken der unterschiedlichen Ebenen stehen soll, ist das Unterfangen relativ „breit“ angelegt – wir behandeln eine ganze Reihe recht unterschiedlicher Themen. Dies bedingt, dass bei der Diskussion der Einzelebenen einiges nur kursorisch besprochen wird, was von Fall zu Fall unbefriedigend erscheinen mag. Ich habe jedoch versucht, am Ende jedes Kapitels Hinweise auf geeignete weiterführende Lektüre zur jeweiligen Ebene anzugeben.

      Das Buch entstand im Verlauf dreier Veranstaltungen des Proseminars Textstrukturen an der Universität Potsdam. Allerlei Anregungen aus den Diskussionen mit Seminarteilnehmer/innen flossen in die Überarbeitungen ein. Besonders bedanken möchte ich mich bei Eva Breindl, Christian Chiarcos, Stefanie Dipper, Michael Grabski, Alexander Mehler und Georg Rehm für ihre wertvollen Hinweise zur Verbesserung früherer Versionen einzelner Kapitel. Andreas Peldszus half bei einigen technischen Problemen und der Gestaltung von Abbildungen. Doch wie immer gilt: Für alle verbleibenden Fehler ist allein der Autor verantwortlich.

      Potsdam, im März 2007 Manfred Stede

      Teil I Einführung und Grundbegriffe

      1 Einleitung und Übersicht

      1.1 Motivation

      Texte sind vielschichtige Objekte. Lesen wir einen, so geschehen vielerlei Dinge mit uns: Unter anderem rufen wir die einzelnen Wörter oder Phraseme (Mehrworteinheiten) in unserem mentalen Lexikon ab; analysieren wir seine Sätze und ihre Bestandteile mit Hilfe unseres grammatischen Wissens; machen uns ein Bild von der Bedeutung der Sätze; stellen dazu Zusammenhänge zu anderen Sätzen her (z.B. beim Verstehen eines Pronomens); setzen auch die einzelnen Satzbedeutungen zueinander in Beziehung (z.B. beim Herstellen eines Kausalzusammenhangs, der nicht explizit ausgedrückt ist); stellen fest, „worum es geht“ und registrieren Themen-Wechsel an bestimmten Textstellen; nehmen den Stil des Textes wahr: auf welche Weise spricht die Autorin oder der Autor mit uns; identifizieren wir gelegentlich versteckte Präsuppositionen und interpretieren unscheinbare Andeutungen; erkennen wir (oder glauben zu erkennen), was man uns mit diesem Text wirklich sagen will, welchen Zweck der Text erfüllen soll. All dies und mehr geschieht sehr schnell und zur gleichen Zeit – der Text geht nicht wie ein Computerprogramm „Schritt für Schritt“ vor und serviert uns solcherlei Informationseinheiten und Verarbeitungsanweisungen in sauberer Reihenfolge, sondern lässt uns in hohem Maße parallel arbeiten, also rezipieren und konstruieren. Ein Blick auf die Etymologie des Wortes TextTextEtymologie, wie ihn etwa Mistrik (1973, S. 10) vornahm, verdeutlicht die Komplexität:

      Das Verständnis dieses Begriffes wird uns durch den Rückgriff auf die ursprüngliche Bedeutung des lateinischen Verbums texo, texere und des lateinischen Substantivums textus erleichtert: texo, texere heißt weben, flechten, zusammenfügen, bauen; textus heißt Gewebe, Geflecht, Zusammenhang, Gefüge. Ein Text ist also ein kompaktes Ganzes, dessen Inneres auf eine bestimmte Weise geflochten, d.h. aus der Fügung sprachlicher Elemente entstanden ist. Er ist eine in sich geschlossene sprachliche Äußerung im allgemeinen Sinne.

      Mistrik betont hier auch, dass bei aller Komplexität ein (guter) Text am Ende die verschiedenen Fäden wieder zusammen laufen lässt, den Eindruck der Abgeschlossenheit vermittelt. Nach der Lektüre kann der Leser mit der Autorin übereinstimmen oder nicht, kann feststellen, dass vielleicht einige inhaltliche Fragen offen geblieben sind; doch das Lese-Erlebnis als solches ist erfolgreich beendet, wenn sich das Gefühl einstellt, das Anliegen des Textes insgesamt verstanden zu haben.

      Wie aber „funktioniert“ ein solch komplexes Lese-Erlebnis? Wie gelingt es dem Text, uns ein solches Erlebnis zu verschaffen? Aus linguistischer Sicht ist dies bislang nur in einzelnen Ansätzen verstanden. Es gibt relativ gut ausgearbeitete Modelle für bestimmte Aspekte (z.B., wie finden wir ein Antezedens für ein Personalpronomen), aber es gibt keine umfassende Erklärung für das Zusammenwirken der verschiedenen Teilaufgaben, die wir beim Lesen bearbeiten. Dass man sich für