genau einen Korpustreffer.
Eine Spalte = eine Kategorie. Jede Spalte enthält eine spezifische Sorte Daten. So gibt es eine Spalte für den linken Kontext, für das Keyword, für den rechten Kontext, ebenso je eine Spalte für Metainformationen wie Textsorte und Jahr.
Eine Zelle = eine Beobachtung. Jede Zelle gibt die Information über die Kategorie, der die Spalte zugeordnet ist, zum Beleg, der in der Zeile erfasst ist, an.
Fig. 7 zeigt ein Beispiel für eine weniger gelungene Konkordanz (die allerdings ungefähr den Exportdateien von COSMAS II entspricht). Textsorte und Jahr nehmen hier eine eigene Zeile in Anspruch, der Grundsatz „eine Zeile = ein Beleg“ wird also verletzt. Auch teilen sich Textsorte und Jahr mit der Nummerierung der Belege eine Spalte, der Grundsatz „eine Spalte = eine Kategorie“ wird also ebenfalls nicht eingehalten. Zudem ist in der zweiten Zeile von unten (leere Zeilen nicht mitgezählt) das Keyword in Spalte B aufgeführt, in allen anderen in Spalte C.
Fig. 7: Beispiel für eine für die quantitative Auswertung wenig geeignete Konkordanz.
Diese Unzulänglichkeiten sind in der Tabelle in Fig. 8 beseitigt, die den oben genannten Faustregeln folgt und die problemlos um eine weitere Spalte etwa mit semantischer Annotation erweitert werden kann.
Fig. 8: Beispiel für eine gute Konkordanz nach den oben genannten Faustregeln.
COWboys im WaCkY Wide Web: Korpuslinguistik im Internet
Durch das Internet haben wir heute Zugriff auf Sprachdaten in einem Ausmaß, das vor einigen Jahrzehnten wohl noch unvorstellbar war – Kilgarriff & Grefenstette (2003: 345) bezeichnen es daher als „a fabulous linguists’ playground“. Insbesondere erlaubt uns die Nutzung von Internetquellen, konzeptionell nähesprachliche Register zu berücksichtigen und dadurch Phänomenen auf den Grund zu gehen, die in lektorierter Zeitungssprache selten bis gar nicht zu finden sind. So sind Kurzformen des Indefinitartikels wie n oder nen für ein(en) in Zeitungstexten eher selten anzutreffen. Beispielsweise untersucht Vogel (2006) das Vorkommen der „erweiterten Kurzform“ nen anstelle von n (in Kontexten wie ich hab da nen kleines Problem) auf Grundlage von Chatdaten, während Schäfer & Sayatz (2014) auf Grundlage eines mehrere Milliarden Wörter umfassenden Webkorpus unter anderem klitisierte Formen des Indefinitartikels wie auf’m oder in’n näher betrachten.
Um die Jahrtausendwende herum erschienen einige linguistische Aufsätze, die Trefferzahlen in kommerziellen Suchmaschinen wie Google als Datenquelle auswerten (vgl. Kilgarriff 2007: 147, der einige Beispiele nennt). Dieses Vorgehen ist jedoch nicht unproblematisch. Selbst wenn man nur an reinen Tokenfrequenzen interessiert ist – viel mehr ist mangels Lemmatisierung und Tagging ohnehin nicht möglich – gilt es unter anderem zu bedenken, dass die Trefferanzahlen in Google keine Tokenfrequenzen darstellen, sondern vielmehr die Anzahl an Seiten, auf denen das Gesuchte gefunden wurde. Das lässt sich an einem einfachen Beispiel illustrieren: Ein Artikel wie der, die, das oder ein Konnektor wie und wird in den allermeisten Texten sicherlich mehr als einmal anzutreffen sein. Hingegen wird man eine Formulierung wie die Terrormiliz „Islamischer Staat“ in vielen Texten nur einmal antreffen, während im weiteren Verlauf des Textes einfach mit der IS auf die islamistische Organisation Bezug genommen wird.
Ein weiteres Problem stellen Duplikate dar: Viele Texte finden sich mehrfach im Netz und werden unter Umständen bei der Google-Anfrage auch mehrfach gefunden. So ist die Wahrscheinlichkeit hoch, dass die Trefferanzahl bei einer beliebigen Suchmaschine für das Kompositum Knabenmorgen-Blütenträume zwar durchaus beträchtlich ist, die meisten Treffer allerdings Seiten sind, die entweder Goethes Gedicht „Prometheus“ enthalten oder aber aus diesem zitieren. Da die Anbieter kommerzieller Suchmaschinen ihre Algorithmen in aller Regel nicht offenlegen, steht man weiterhin vor dem Problem, dass unklar ist, wie genau eigentlich die Ergebnisse zustande kommen. So werden bei Google häufig Ergebnisse, die der Suchanfrage ähnlich sind, mitgefunden und müssten daher mühsam manuell ausgeschlossen werden. Beispielsweise fördert die Suche nach dem fiktionalen Filmcharakter Hedley Lamarr auch den Wikipedia-Eintrag zur Schauspielerin Hedy Lamarr zutage.
Das Ziel von Webkorpora ist es, das Potential, das allein schon die schiere Menge an Internettexten birgt, zu nutzen und die entsprechenden Daten linguistisch zu erschließen, ohne die Einschränkungen, die kommerzielle Suchplattformen mit sich bringen, in Kauf nehmen zu müssen. Fürs Deutsche gibt es derzeit zwei Korpora, die große Mengen an Textdaten aus dem Web in linguistisch aufbereiteter Form zugänglich machen. Das derzeit größte Webkorpus ist DECOW (Schäfer & Bildhauer 2012), derzeit (Stand Ende 2016) verfügbar in der Version DECOW16AX. Aus urheberrechtlichen Gründen enthält es jedoch keine Texte, sondern lediglich Satzsammlungen. Diese sind jedoch linguistisch annotiert, d.h. lemmatisiert und mit Auszeichnungen für die jeweilige Wortart (sog. POS-Tags, für part of speech) versehen. Darüber hinaus gibt es zu jedem Satz den Link zu der Website, auf der er gefunden wurde1, und geographische Daten, die aus den jeweiligen IPs gewonnen wurden. Letztere sind natürlich insofern relativ unzuverlässig, als sie keine Auskunft darüber geben, ob die Person, die den jeweiligen Satz verfasst hat, tatsächlich dort wohnt; und selbst wenn dies der Fall sein sollte, bedeutet es nicht zwangsläufig, dass sie auch dort sozialisiert wurde.2 Im populärwissenschaftlichen, aber sehr empfehlenswerten „Sprachlog“ hat jedoch Susanne Flach gezeigt, dass sich die Geo-IP-Daten durchaus – in begrenztem Maße und mit der gebotenen Vorsicht – für dialektologische Fragestellungen nutzen lassen.3 Ein exemplarischer Vergleich zwischen COW-Daten und Daten aus dem „Atlas der Alltagssprache“, der die regionale Verteilung solcher Alternanzen auf Grundlage von Internetumfragen kartiert, legt nahe, dass sich die geographische Distribution der Korpusdaten zumindest in den beispielhaft untersuchten Fällen ungefähr mit jener, die im Rahmen des AdA-Projekts erhoben wurde, deckt. So zeigen die AdA-Daten, dass im Falle der Alternanz benutzen vs. benützen die umgelautete Form ein Phänomen ist, das sich weit überwiegend im oberdeutschen Sprachraum, also im Süden des deutschen Sprachgebiets, findet. Diese areale Verteilung wird auch in Fig. 9 (links) deutlich, die auf einer Stichprobe aus DECOW14AX beruht. Mit Hilfe des (mittlerweile überholten) Online-Tools Colibri2 (Schäfer 2015) wurden Stichproben von jeweils 10.000 Tokens für benützen und benutzen genommen. Ungefähr ein Drittel der Daten konnte anhand der Geo-IP einem Ort zugeordnet werden (3.514 für benützen, 3.591 für benutzen). Allerdings bildet die Grafik lediglich für jeden in den Daten identifizierbaren Ort den Anteil der umgelauteten Variante ab (dargestellt anhand der Farbintensität: je dunkler, desto mehr benützen), ohne dass die enormen Frequenzunterschiede zwischen den einzelnen Orten berücksichtigt werden. Die weitaus meisten Belege stammen – wenig überraschend – aus Ballungsgebieten wie Berlin (Platz 1 bei benutzen), der Region um Düsseldorf (Höst bei Düsseldorf belegt Rang 2), Nürnberg (Platz 3) oder Hamburg (Platz 4). Damit ist auch zu erklären, dass sich in der Region um Berlin sehr viel häufiger benützen findet als anderswo in der nördlichen Hälfte Deutschlands – die Grundgesamtheit ist schlichtweg höher. Auch für die im Österreichischen verbreitete Variante Aufnahmsprüfung, deren Verteilung die rechte Hälfte von Fig. 9 auf Grundlage von DECOW14AX-Daten zeigt, finden sich in Berlin immerhin 2 Belege. Von den 5.060 Belegen für Aufnahmeprüfung und 77 Belegen für Aufnahmsprüfung, die mit Hilfe von Colibri2 gefunden wurden, können 2.094 bzw. 30 einem Ort zugeordnet werden, wobei sich deutlich die areale Konzentration der Variante mit Fugen-s im österreichischen Raum zeigt. Diese Stichproben lassen den Schluss zu, dass die Daten des COW-Korpus für die Ermittlung der arealen Verteilung sprachlicher Varianten zumindest nicht ganz unbrauchbar sind.
Fig. 9: Links: benutzen vs. benützen in einer Stichprobe aus dem Webkorpus DECOW14AX. Rechts: Aufnahmeprüfung vs. Aufnahmsprüfung in einer Stichprobe aus DECOW14AX.
Ein zweites