Ein graphentheoretischer Ansatz zur Morphologie
Eine wundersame Eigenschaft des Sprachdesigns ist, dass Sprecher:innen bisher unbekannte Wörter verstehen und neue Wörter prägen können. Dies ist ein Beweis dafür, dass Menschen beim Verstehen und Produzieren von Wörtern mit sublexikalischen Elementen arbeiten. Wie diese Teile der Wortstruktur erkannt, interpretiert und im Gehirn angeordnet werden, ist eine der faszinierendsten Fragen der modernen Linguistik. Traditionell ging man davon aus, dass so genannte Morpheme werden zusammen mit Wörtern gespeichert, haben ihre eigenen Bedeutungen und können miteinander kombiniert werden, um neue Wörter zu bilden. In letzter Zeit ist eine neue Familie von Theorien entstanden, die Wörter als Grundeinheiten der lexikalischen Verarbeitung ansehen. Bei diesem Ansatz geht man davon aus, dass sublexikalische Elemente aus einzelnen Lexemen geparst werden.
Der auf Morphemen basierende Ansatz bietet eine intuitive Erklärung für regelmäßige Muster der Sprachstruktur, aber viele komplexe Wörter sind idiosynkratisch. So gibt es beispielsweise im Englischen mehrere hundert gebundene Basen romanischen Ursprungs, von denen die meisten semantisch so obskur sind, dass es schwer vorstellbar ist, wie Sprecher:innen sie als unabhängige Einheiten erkennen und verwenden können. Der wortbasierte Ansatz scheint viele Probleme im Zusammenhang mit der expliziten Darstellung von Morphemen zu überwinden. Er ist verbunden mit der Schaffung vollwertiger Computermodelle, die morphologische Effekte durch iteratives Lernen erfassen. In diesen Modellen können Wörter auf verschiedene Arten kodiert werden, von einfachen n-Grammen bis hin zu Einheiten, die durch Algorithmen zur Zeichenfaltung gewonnen werden. Dieser Ansatz ist jedoch nicht unproblematisch. Vor allem ist nach wie vor unklar, was genau im mentalen Lexikon repräsentiert ist und wie die Sprecher:innen beim Lernprozess Brocken bestimmter Größe erwerben.
In diesem Projekt schlage ich ein neues Computermodell der Morphologie vor, das auf der Graphentheorie basiert und den wortbasierten Ansatz weiterentwickeln soll. Das Modell stellt ein Netzwerk von morphologischen Elementen dar, die durch eine Verteilungsanalyse aus einzelnen Wörtern segmentiert werden, wobei zwei allgemeine Faktoren eine Rolle spielen: formale Ähnlichkeit und Häufigkeit des gemeinsamen Auftretens. Wenn also mehrere verwandte Wörter überlappende Teile enthalten, können diese Teile als sublexikalische Einheiten identifiziert werden. In dem Modell wird ein einziger Lernmechanismus verwendet, um die Entstehung der morphologischen Struktur und die Bildung komplexer Wörter zu erklären. Er basiert auf dem Begriff des kürzesten Weges, der sich auf die Aufgabe bezieht, optimale Wege zwischen zwei Knoten in einem Netzwerk zu finden. Ich behaupte, dass ebenso wie die Wortbedeutungen von Natur aus kontextbestimmt sind, auch die Bedeutungen derjenigen Einheiten der Wortstruktur, die durch die Analyse des kürzesten Weges aus den Wörtern herausgefiltert werden.
Projektzeitraum | 01.05.2025-30.04.2028 |
Fördergeber Förderprogramm | FWF Einzelprojektförderung (ESPRIT) |
Bewilligungssumme | € 346.505 |
Einheit | Institut für Sprachwissenschaft |
Profilbereich | |
Schwerpunktbereich der Fakultät | |
Projektverantwortung | Sergei Monakhov |
Projektmitarbeiter:innen | |
Projekthomepage |