z.B., die in unserer Stichprobe häufigeren Kognatensets 1 und 2 sind älter als die selteneren Kognatensets 3 und 4, dann muss ja zu einem bestimmten Zeitpunkt das alte Wort aus Kognatenset 1 oder 2 durch ein neues Wort ersetzt worden sein. In unterschiedlichen Sprachen hat diese Ersetzung für unterschiedliche Kognatensets und für unterschiedlich viele Kognatensets stattgefunden. Mit Hilfe der binären Kodierung in 1 und 0 ist also der entscheidende Prozess für die Modellierung der Zustandswechsel: von 0 zu 1 (Hinzukommen eines Kognatensets) oder von 1 zu 0 (Verlust eines Kognatensets).
Für diese Modellierung nutzen Atkinson & Gray (2003, 2006) komplexe statistische Methoden, die hier nicht ausführlich diskutiert werden können.1 Grob gesagt modelliert der Ansatz von Atkinson und Gray auf Grundlage einer Fülle von Daten unterschiedliche Sprachenstammbäume und vergleicht die so entstandenen Modelle hinsichtlich ihrer Plausibilität. Die Ergebnisse, zu denen sie auf diese Weise gelangen, interpretieren Gray & Atkinson (2003) als Evidenz für die Hypothese, dass sich das Ie. vor etwa 10.000 Jahren im anatolischen Raum auszubreiten begann.
Diese Hypothese und auch die verwendeten Methoden wurden jedoch heftig kritisiert. So kommen Pereltsvaig & Lewis (2015: 53) zu dem Schluss:
Wherever we look, we find that the model produces multiple chains of errors, consistently failing to accord with known facts about the diversification and spread of the Indo-European languages.
Einige der gegen solche phylogenetische Methoden vorgebrachten Einwände laufen darauf hinaus, dass man auf eine Vielzahl an Daten setzt und darüber die Korrektheit der Analysen im Einzelfall vernachlässigt. So lautet eine zentrale Kritik, dass sich trotz aller Bemühungen, LehnwörterLehnwort aus den Daten auszuschließen, letztlich doch relativ viele LehnwörterLehnwort eingeschlichen haben, die somit eigentlich nicht als Kognaten gelten dürften (vgl. Pereltsvaig & Lewis 2015: 81). Einen solchen Balanceakt zwischen großen Datenmengen einerseits und sorgfältiger qualitativer Analyse der einzelnen Datenpunkte andererseits bringt freilich jede empirische Arbeit mit sich. Ein weiterer, möglicherweise schwerwiegenderer Kritikpunkt betrifft die Frage, wie repräsentativ die Swadesh-Listen tatsächlich sind, zumal Swadesh keine klaren Kriterien für die Auswahl genau dieser Wörter bzw. Konzepte formuliert hat (vgl. Pereltsvaig & Lewis 2015: 72).
Aus wissenschaftstheoretischer und wissenschaftssoziologischer Perspektive ist die neu entfachte Debatte um den Ursprung des Ie. hochspannend, da hier in methodischen Fragen Welten aufeinanderprallen, die unterschiedlicher kaum sein könnten: auf der einen Seite die Vertreter der klassischen komparativen Methode, die auf genauer, händischer Analyse durch Experten beruht; auf der anderen Seite die Vertreter quantitativer Methoden, die zwar größere Datenmengen einbeziehen können, dabei aber z.T. auch fehleranfälliger sind. Inwieweit Ungenauigkeiten auf Ebene der einzelnen Datenpunkte durch eine Vielzahl an Daten „aufgefangen“ werden können, ist eine Frage, die sich bei jeder quantitativen Studie stellt und immer wieder neu erörtert werden muss. Was die hier dargestellten phylogenetischen Methoden angeht, so bleibt abzuwarten, ob sie sich eines Tages als Teil des anerkannten Methodenrepertoires der historischen Linguistik werden durchsetzen können.
Das Deutsche gehört zu den germanischen Sprachen, die sich in nord- und westgermanische Sprachen untergliedern lassen (die ostgermanischen Sprachen, zu denen das Gotische gehörte, sind ausgestorben). Die nordgermanische Sprachfamilie bilden Isländisch, Färöisch, Norwegisch, Schwedisch und Dänisch. Das Deutsche ist eine westgermanische Sprache. Weitere westgermanische Sprachen sind Englisch, Friesisch, Niederländisch, Afrikaans, Luxemburgisch und Jiddisch. Fig. 4 gibt einen Überblick über die germanischen Sprachen und die Regionen, in denen sie gesprochen werden. Auf der Karte ist jede Sprache einer bestimmten Koordinate zugewiesen. Diese Koordinaten wurden aus dem World Atlas of Language Structures (WALS) übernommen und stehen quasi stellvertretend für das Verbreitungsgebiet der jeweiligen Sprache. Das kann relativ groß sein – Deutsch zum Beispiel wird in Deutschland, Österreich und der Schweiz gesprochen, und es gibt Sprachinseln etwa in den USA und Südamerika (vgl. z.B. Glottolog, Hammarström et al. 2017).
Fig. 4: Überblick über die germanischen Sprachen nach dem World Atlas of Language Structures (WALS, Dryer & Haspelmath 2013). Erstellt mit ggmap (Kahle & Wickham 2013).
Zum Weiterlesen
Eine praxisorientierte Hinführung zur Anwendung der komparativen Methode bietet Kapitel 5 von Campbell (2013). Crowley & Bowern (2010) bieten neben einem praxisorientierten Kapitel auch einen Abschnitt zur Geschichte der komparativen Methode und zu ihren Herausforderungen. Zum Einstieg eignen sich auch Kapitel 10 von Bybee (2015) sowie die Handbuchartikel von Rankin (2003) und Weiss (2015).
2.2.2 Authentische Sprachdaten: Korpuslinguistik
Was ist der Gegenstand der Sprachwissenschaft? Natürlich: Sprache. Da jeder und jede von uns eine Sprache spricht, liegt es nahe, sich in der Auseinandersetzung mit Sprache, gerade mit der eigenen Muttersprache, auf die eigene Intuition zu verlassen. Tatsächlich war diese Art, Sprachwissenschaft zu betreiben, gerade in der zweiten Hälfte des 20. Jahrhunderts weit verbreitet: Weitreichende Theorien wurden anhand selbst erdachter Beispielsätze und ad hoc gefällter Grammatikalitätsurteile erarbeitet. In einigen wenigen Bereichen ist diese Vorgehensweise noch heute verbreitet. Im Allgemeinen aber hat sich die Erkenntnis durchgesetzt, dass die eigene Intuition nicht immer ein guter Ratgeber ist (vgl. Gibbs 2006). Wer heute ernsthaft Sprachwissenschaft betreiben will, muss die eigenen Thesen auf empirische Daten stützen.
Für die historische Sprachwissenschaft war die eigene Intuition ohnehin nie eine wirkliche Option – auch wenn manche versierten Kenner des Alt- oder Mittelhochdeutschen sicherlich eine bemerkenswerte Intuition für frühere Sprachstufen entwickelt haben. Die Kenntnis dieser Sprachstufen musste immer mit Hilfe zeitgenössischer Texte erarbeitet werden. Wenn authentische Texte nach wissenschaftlichen Prinzipien ausgewogen zusammengestellt werden, um ein möglichst repräsentatives Bild einer bestimmten Sprache oder Sprachvarietät zu ermöglichen, spricht man von einem Korpus (übrigens im Neutrum: das Korpus, nicht *der Korpus!).
Ein Korpus ist also zunächst eine Sammlung authentischer Sprachdaten (vgl. Lemnitzer & Zinsmeister 2015). Diese Daten können ganz unterschiedlicher Natur sein, ebenso wie die Prinzipien, nach denen sie zusammengestellt wurden, stark variieren. Korpora des 20. und 21. Jahrhunderts umfassen oftmals nicht nur geschriebenen Text, sondern auch gesprochene Sprache oder Videoaufzeichnungen, sodass auch Informationen etwa zu sprachbegleitender Gestik oder zu Gebärdensprachen der wissenschaftlichen Untersuchung zugänglich werden. Für die Forschung zu älteren Sprachstufen sind wir hingegen ganz auf geschriebene Texte angewiesen.
Die sprachhistorischen Korpora, die für das Deutsche derzeit zur Verfügung stehen, sind gerade im Vergleich zu ihren englischen Pendants wenig umfangreich. Immerhin jedoch können wir im Vergleich zu den meisten Sprachen der Welt, die wenig bis gar nicht dokumentiert sind (vgl. z.B. Hammarström & Nordhoff 2011), auf erfreulich umfangreiche und stetig wachsende Ressourcen zurückgreifen. Eine Übersicht über derzeit verfügbare deutschsprachige Korpora findet sich in Infobox 3. Darüber hinaus ist mit „Deutsch Diachron Digital“ seit einiger Zeit eine ganze Reihe sprachhistorischer Korpora in Arbeit (http://www.deutschdiachrondigital.de/). Zur Zeit der Drucklegung dieses Buches war das Projekt jedoch noch nicht abgeschlossen.
Referenzkorpus Altdeutsch und Referenzkorpus Mittelhochdeutsch. Das Referenzkorpus Altdeutsch (REA) enthält alle überlieferten Textzeugnisse des Ahd. und Altsächischen in linguistisch aufbereiteter Form. Im Dezember 2015 wurde mit dem Referenzkorpus Mittelhochdeutsch