Konstanze Marx

Internetlinguistik


Скачать книгу

Zuordnungsfehler entstehen. Wenn es den Personen, die annotieren, nicht gelingt, eine Äußerung ohne eigene Interpretation, in eine vorgegebene Maske einzupassen, kann das Datenmaterial gar verfälscht werden. Die Interpretation wiederum ist ein natürlicher mit dem Verstehen von Text verbundener Prozess (vgl. Consten 2014 und auch Kapitel 4.3.1). Unter anderem darin liegt die Ursache, dass sich selbst aufwändig generierten und annotierten Korpora keine Antworten auf spezifische Fragen, wie „die Funktion syntaktischer Satzmodi als Marker für Sprechakttypen, die informationsstrukturierende Wirkung von Wortstellungsvariationen, die semantisch-logisch kaum beschreibbare Bedeutung mancher Modalpartikeln [oder] der referenzsemantische Effekt von Definitheit“ (Consten 2014) entnehmen lassen. Auch intentionale Normabweichungen lassen sich z. B. nur schwer von Fehlern abgrenzen. Unmöglich ist es zudem, vom Nicht-Vorkommen eines Phänomens im Korpus auf ein generelles Nicht-Vorkommen im Sprachgebrauch zu schließen (Schlobinski 2011: 133 f.).

      Unabhängig davon, ob man nun explorativ vorgehen oder einer Hypothese nachgehen möchte, ist es also durchaus ratsam, selbst Daten zu erheben und zu einem Korpus zusammenzustellen. Nicht zuletzt aus forschungspraktischen Erwägungen (Kosten- und Ressourcenersparnis) drängt sich die Frage auf, inwieweit nicht auch das gesamte WWW als Korpus genutzt und entsprechend ausgewertet werden kann.

      Exploratives Vorgehen dient dem Abstecken eines Forschungsfeldes und soll zu Hypothesen führen.

      Das World Wide Web verfügt über eine unüberschaubare Datenmenge, die frei verfügbar und leicht zugänglich ist. Zudem entfällt ein mühsames Transkribieren, weil sie bereits in schriftlicher Form vorliegen. Theoretisch kann das WWW also für alle möglichen sprachwissenschaftlichen Forschungsfragen genutzt werden. Die Texte sind jedoch zumeist in Dokumente eingebettet, die weitere Kodierungen aufweisen (Menüführungen, Werbung, sog. Boilerplates usw.), vgl. Schulte im Walde/Zinsmeister (2006).

      Boilerplates sind gleichbleibende (Text-)Elemente.

      Zudem sind oftmals keine Meta-Informationen verfügbar. Wer ist beispielsweise der*die Autor*in eines Textes? Wie sind seine*ihre Sprachkompetenzen einzuschätzen? Zu berücksichtigen ist auch, welche Sprache im Web vorherrschend ist und ob das Web überhaupt repräsentativ ist für den Sprachgebrauch, den man untersuchen möchte. Damit einher geht die Frage nach den Textsorten, die im Web vorkommen (siehe auch Kapitel 5.4, vgl. auch Bubenhofer 2011). Auch die rechtlichen Grundlagen erschweren die Anwendung des WWW als Korpus.

       Aufgabe 1-4

      Geben Sie in drei Suchmaschinen Ihrer Wahl das Stichwort Persuasion ein. Welche Ergebnisse erhalten Sie?

      Problematisch ist zudem, dass die Suchmaschinen nicht die Funktionalitäten aufweisen, die für sprachwissenschaftliche Zwecke vonnöten sind. Die Defizite im Hinblick auf die Abfragesprache, die Annotationen, die Repräsentativität der erfassten Webseiten und Intransparenz beim Indizieren und Ranking werden bei Bubenhofer (2011) erläutert und werden hier zusammengefasst wiedergegeben:

       „beschränkte Abfragesprache: Es ist […] nicht möglich, mit Auslassungszeichen zu arbeiten, also „reguläre Ausdrücke“ zu verwenden. Normalerweise beherrscht eine Abfragesprache (z. B. in Datenbanken) spezielle Zeichen wie *, + oder ?, um einen oder mehrere Buchstaben offen zu lassen. Möchte man z. B. alle Flexionsformen und Komposita des Wortes ‚Hund‘ finden, kann man nicht einfach ‚Hund*‘ eingeben und findet dann auch ‚Hundegebell‘ oder ‚Hunde‘.“

       Fehlende Annotationen: „die indizierten Webseiten [sind] nicht linguistisch annotiert. Man kann also nicht einfach so nach Präpositionalphrasen oder nach Adjektiv-Nomen-Konstruktionen suchen.

       Repräsentativität der erfassten Webseiten: „[…] eine Suchmaschine [kann] mit ihrem Webcrawler nicht alle verfügbaren Webseiten erfassen. Es bleibt ein sog. ‚deep web‘ […], das aus Webseiten besteht, die von Suchmaschinen aus technischen Gründen nicht gefunden werden können. Dazu gehören z. B. viele Datenbanken […] geschützte oder schlicht nicht verlinkte Seiten. Das […] ‚deep web‘ soll 500 Mal grösser sein [als das für Suchmaschinen sichtbare Web]. Zudem ist es möglich, dass ein Suchmaschinenbetreiber gewisse Seiten absichtlich sperrt, oder dass er aus politischen Gründen dazu gezwungen wird. [Die] Menge der indizierten Seiten [verändert sich] ständig. Möchte man z. B. Trefferzahlen vergleichen, muss das möglichst zum gleichen Zeitpunkt geschehen, da sich ansonsten die Grundgesamtheit der indizierten Dokumente bereits wieder verändert hat.“

       Intransparenz im Hinblick auf das Indizieren und Ranking: „Suchmaschinen [legen nicht offen], nach welchen Kriterien die Webseiten genau indiziert werden und wie das Ranking funktioniert.“ (Bubenhofer 2011: Probleme)

       Aufgabe 1-5

      Für welche Art von sprachwissenschaftlichen Forschungsfragen eignet sich die Recherche im WWW? Formulieren Sie drei Hypothesen.

      Linguistische Forschungsbereiche, in denen die Suche im WWW gewinnbringend eingesetzt werden kann, sind z. B. die Lexikographie, Semantik, Syntax, Maschinelle Übersetzung (vgl. Volk 2002, gelistet bei Bubenhofer 2011: Anwendungen) oder Varietätenlinguistik (Bickel 2006). Es kann demnach aufschlussreich sein, im WWW zu prüfen, ob spezifische Lexeme oder Phrasen in verschiedenen deutschsprachigen Domänen (.at vs. .ch vs. .de, vgl. Bickel 2006) vorkommen oder auch in welchen KollokationenKollokationen. Es lassen sich auch Aussagen über die Bedeutung von Mehrwortsequenzen ableiten.

      QuantitativeQuantitativ Auswertungen von Daten im WWW sind deshalb nicht sinnvoll, weil die Grundgesamtheit der im WWW existierenden Dokumente nicht bestimmt werden kann. Wenn statistische Aussagen denn unbedingt gewünscht sind, sollte ein Korpus erstellt werden, das aus aus dem WWW geladenen Seiten besteht, und den Vorteil hat, dass ihre Anzahl und die Anzahl spezifischer fokussierter Phänomene genau angegeben werden können (vgl. Korpusintitiative WaCky). Wichtig ist aber, dass bei allen Aussagen über die Korpusdaten deutlich gemacht wird, dass sie nur auf die Daten innerhalb des Korpus zutreffen und nicht allgemeingültig sind.

      1.4.2 DIY: Eine Datensammlung selbst generieren

       Aufgabe 1-6

      Sie haben die Aufgabe, aktuelle Konzeptualisierungen von WISSENSCHAFTSBETRUG am Beispiel von Metaphern zu untersuchen. Erstellen Sie ein Korpus, auf dessen Grundlage Sie Aussagen über die Verwendung von Metaphern mit Bezug auf Plagiatsaffairen in der Internet-Berichterstattung im Zeitraum Februar 2011 bis März 2013 machen können. Beschreiben Sie Ihre Vorüberlegungen. Wie gehen Sie bei der Korpuserstellung vor, wie bereiten Sie Ihre Daten für die Auswertung auf?

      Wie könnte man nun beim Anlegen einer Datensammlung vorgehen? Eine altmodische aber doch bewährte Methode, Daten aus dem WWW zusammenzustellen, ist das copy- und paste-Verfahren. Es verlangt schlicht keinerlei informatisches Vorwissen. Hierbei werden die Daten auf der entsprechenden Internetseite markiert, kopiert und in ein Word-Dokument integriert.

      Der Vorteil an diesem Verfahren ist, dass die Daten unproblematisch in verschiedenen Formaten abgespeichert werden können. Für manche KonkordanzprogrammeKonkordanz ist beispielsweise die Umwandlung in txt-Dateien nötig. Dabei sollten immer auch die Quelle, von der die Daten stammen, das Datum der Veröffentlichung, das Datum der letzten Aktualisierung der Seite (wenn eruierbar) und das Zugriffsdatum notiert werden. Am unkompliziertesten lassen sich all diese Angaben in einem Bildschirmfoto zusammenfassen, das zusätzlich immer mit abgespeichert werden sollte.

      Ein Konkordanzprogramm ist dabei behilflich, spezifische Wörter und deren unmittelbaren Kontext herauszufiltern. Es ermöglicht außerdem die Erstellung von Wortlisten und einfache statistische