Stefan Hartmann

Deutsche Sprachgeschichte


Скачать книгу

Anmeldung genutzt werden kann4, während für DECOW eine Freischaltung erforderlich ist. Bei der Erarbeitung von WaCkY wurde ähnlich vorgegangen wie bei der Zusammenstellung der COW-Korpora: Um sicherzustellen, dass das Korpus im Hinblick auf Genre und Register möglichst breit gefächert ist, wurden zufällig generierte Paare aus zufällig ausgewählten Wörtern (fürs Deutsche u.a. mittelfrequente Wörter aus der „Süddeutschen Zeitung“) als sog. „Seeds“ gewählt, nach denen dann mit Hilfe einer Suchmaschine gesucht wurde (vgl. Baroni et al. 2009). Nach dem sog. „Crawlen“ wurde dann der Boilerplate-Text, also standardisierte, immer wieder verwendete Textelemente, entfernt (z.B. die Navigationsleiste einer Homepage, vgl. Schäfer & Bildhauer 2013: 47f.). Dadurch wird vermieden, dass bestimmte Wörter und Wortkombinationen wie etwa „Zur Startseite“ in den Daten überrepräsentiert sind.

      Zum Weiterlesen

      Passend zu den verwegenen Namen der Korpora, ist das Gebiet „Web als Korpus“ noch immer eines, auf dem viel Pioniergeist herrscht – deshalb gibt es derzeit auch wenig Literatur, die „Best Practice“-Empfehlungen zum Umgang mit den Massen an Daten gebündelt präsentieren könnte. Lemnitzer & Zinsmeister (2015) gehen kurz und eher kritisch auf Webkorpora ein; ansonsten empfiehlt es sich, einige Aufsätze zu lesen, die von den Korpora Gebrauch machen – auf corporafromtheweb.org gibt es eine Übersicht.

      Auf der Suche nach dem perfekten Korpus

      Welches Korpus ist das richtige? Lohnt es sich, ein eigenes Korpus zusammenzustellen, oder sollte man auf ein bestehendes Korpus zurückgreifen? Die Antwort auf diese Fragen hängt immer von der jeweiligen Fragestellung ab. Daher gilt stets das Prinzip: Zuerst die Fragestellung – dann die Methode.

      Die Vielfalt der Abfragesysteme und die jeweiligen Einschränkungen bezüglich Abfrage- und Exportmöglichkeiten schaffen leider teilweise unnötige Hürden bei der Korpusnutzung. Das liegt zum Teil auch am derzeit noch sehr restriktiven deutschen Urheberrecht, das leider dazu führt, dass ernstzunehmende Korpuslinguistik in Deutschland teilweise nur in rechtlichen Grauzonen möglich ist. Zum Beispiel machen die Zugangsbeschränkungen des Abfragesystems COSMAS II das größte Korpus der deutschen Gegenwartssprache, das DeReKo, für viele quantitativ basierte korpuslinguistische Methoden faktisch unbrauchbar. Die folgenden Anmerkungen werden wahrscheinlich für die meisten Studierenden irrelevant sein, können sich aber ggf. für Promovierende als hilfreich erweisen, die in etwas größerem Rahmen ein eigenes Korpus erstellen. Wer in die Verlegenheit kommt, ein eigenes Korpus zu erstellen und zu publizieren, sollte aus Rücksicht auf spätere Benutzer idealerweise

      1 sofern es die urheberrechtliche Lage zulässt, die Daten vollständig in einem programm- und plattformunabhängigen Dateiformat (z.B. .txt-Dateien für einfache, unannotierte Texte; XML für Text und Annotationen; keine proprietären Formate wie z.B. .doc(x) oder .xls(x)!) der Forschungsöffentlichkeit zugänglich machen. In vielen Fällen ist das nicht möglich, weil die Rechteinhaber nicht möchten, dass ihre Texte vollständig zugänglich sind. In diesem Fall ist der nächste Punkt umso wichtiger – aber auch unabhängig davon, ob man die Rohdaten zur Verfügung stellen kann oder nicht, sollte man idealerweise

      2 das Korpus über eine benutzerfreundliche Schnittstelle zugänglich machen, die reguläre AusdrückeReguläre Ausdrücke unterstützt und den Export möglichst vieler Belege im Key Word in Context-Format (KWIC) erlaubt. Ein gutes Vorbild sind hier die COW-Korpora: Sie machen von der quelloffenen NoSketchEngine Gebrauch, in der man die recht intuitive und einfach zu lernende CQP-Syntax verwenden kann. Auch lassen sich bis zu 100.000 Belege im KWIC-Format exportieren, was im Vergleich zu anderen Korpora eine erfreulich hohe Zahl ist. Erfreuliche Entwicklungen sind auch beim DWDS und bei den „Deutsch Diachron Digital“-Korpora zu verzeichnen. Das DWDS hat zwar eine m.E. etwas weniger intuitive, aber ähnlich mächtige Suchabfragesprache und verfügt seit kurzem über sehr nützliche und bedienerfreundliche Exportoptionen. Die Referenzkorpora Altdeutsch und Mittelhochdeutsch nutzen das Korpusabfragesystem ANNIS, das sich für Korpora mit komplexer Mehrebenenannotation anbietet. Erfreulicherweise steht hier neben einer Reihe anderer Exporter mit teils sehr simplem, teils sehr komplexem Output seit kurzem auch die Möglichkeit des KWIC-Exports zur Verfügung (mit dem TextColumnExporter ab Version 3.5; im Referenzkorpus Altdeutsch bereits implementiert, im Referenzkorpus Mittelhochdeutsch – Stand September 2017 – noch nicht).

       Infobox 4: Handwerkszeug – Software für korpuslinguistische Studien

      Wer Korpuslinguistik betreiben möchte, darf keine Angst davor haben, sich mit neuer Software und idealerweise mit Programmiersprachen vertraut zu machen. Für AnfängerInnen ist die Hemmschwelle oft hoch, aber die Tutorials im Begleitmaterial versuchen, Ihnen den Umgang mit Korpora und die Auswertung von Korpusdaten so einfach wie möglich zu machen. Ebenfalls sehr empfehlenswert zum Einstieg ins korpuslinguistische Arbeiten ist die Website von Noah Bubenhofer (http://www.bubenhofer.com/korpuslinguistik/kurs/, zuletzt abgerufen am 20.09.2017).

      Folgende Programme sollten Sie auf jeden Fall installieren, wenn Sie korpuslinguistisch arbeiten möchten:

       einen guten Texteditor. Die bei Windows und Mac nativ vorhandenen Texteditoren sind für korpuslinguistische Zwecke suboptimal. Ich empfehle Notepad++ für Windows und TextWrangler für Mac, für Linux gibt es z.B. Notepadqq. Alle drei sind kostenlos erhältlich.

       ein Tabellenkalkulationsprogramm. Die meisten von Ihnen werden mit Microsoft Excel vertraut sein; eine gute freie Alternative ist LibreOffice Calc. Während Letzteres nicht alle Funktionen von Excel umfasst, hat es den Vorteil, dass es etwas besser mit Unicode-Sonderzeichen umgehen kann, denen wir bei der Arbeit mit historischen Textdaten häufig begegnen.

       Das Statistikprogramm R ist mittlerweile in der (quantitativen) Korpuslinguistik zum Standard geworden, wenn es um die Auswertung von Daten geht. Aber auch für die Aufbereitung von Daten eignet es sich hervorragend, auch wenn man relativ viel Zeit braucht, um sich einzuarbeiten, wenn man noch keine Programmiererfahrung hat. Als grafische Benutzeroberfläche empfehle ich RStudio, ebenfalls kostenlos erhältlich. Die Skripte im digitalen Begleitmaterial lassen sich allesamt weitgehend ohne jegliche Vorkenntnisse benutzen. Wer sich tiefer einarbeiten möchte, kann z.B. zu Gries (2016) greifen.

       Infobox 5: Best Practice – Wie berichte ich eine Korpusrecherche?

      Daten zu sammeln und auszuwerten, ist immer nur der erste Schritt im Forschungsprozess. Ebenso wichtig ist das Berichten der Ergebnisse. Dabei sollten die Ergebnisse so aufbereitet werden, dass die für die jeweilige Fragestellung relevanten Befunde (und nur diese) konzise, zugleich aber maximal informativ präsentiert werden. Folgende Prinzipien sollten dabei beachtet werden:

      1 Ergebnisorientierung. Der Weg von der Hypothese zur Korpusrecherche und ihrer Analyse ist oft kein geradliniger: So kann es vorkommen, dass verschiedene Suchanfragen oder verschiedene Annotationsvarianten ausprobiert und wieder verworfen werden. Dieser Prozess ist in vielen Fällen zwar nicht uninteressant, für die Leserin aber in aller Regel nicht relevant. Stattdessen sollten konzise und an der Fragestellung orientiert die wichtigsten W-Fragen beantwortet werden: Was wurde untersucht? Warum wurde es untersucht (Motivation, Fragestellung)? Wie genau wurde dabei vorgegangen? Welche Ergebnisse wurden erzielt? Was sagen uns diese Ergebnisse?

      2 Nachvollziehbarkeit. Die Durchführung und die Ergebnisse sollten so berichtet werden, dass der Leser sie nachvollziehen und ggf. auch selbst replizieren kann. Um die Replizierbarkeit zu gewährleisten, muss auf jeden Fall präzise angegeben werden, mit welchem Korpus gearbeitet wurde und wonach genau in dem Korpus gesucht wurde. Um sicherzustellen, dass der Leser die Ergebnisse auch nachvollziehen kann, ohne die Studie gleich selbst replizieren zu müssen, ist es unter anderem wichtig, stets Grundgesamtheiten zu nennen (wie groß ist mein Korpus / meine Stichprobe), anstatt nur mit relativen Frequenzen zu arbeiten. So ändert sich die Aussagekraft eines Befunds wie „Das Wort