Im Rahmen unserer Interview-Reihe zum Verbundprojekt a! trafen wir uns mit dem Doktoranden Ji-Ung Lee und Dr. Christian M. Meyer von der Technischen Universität Darmstadt zum Gespräch.

Im Verbundprojekt a! kooperiert L-Pub GmbH mit der Ernst Klett Sprachen GmbH und dem Ubiquitous Knowledge Processing (UKP) Lab der Technischen Universität Darmstadt.  Unser gemeinsames Ziel ist es, innovative Ansätze für den Fremdsprachenerwerb zu entwickeln, besonders im Hinblick auf adaptives Lernen. Im letzten Beitrag haben wir mit unserem Entwickler Franck Valentin die technische Seite des Projekts beleuchtet. In diesem Artikel gehen wir auf die wissenschaftliche Seite ein. Wir haben mit dem Doktoranden Ji-Ung Lee (JUL) und Dr. Christian M. Meyer (CMM) über Lückentexte, Übungsschwierigkeit und lernende Maschinen gesprochen und dabei einen Einblick in die Welt des automatisierten und individualisierten Lernens erhalten.

L-Pub: Rund ein halbes Jahr läuft unser Verbundprojekt jetzt schon. Woran arbeitet ihr derzeit?

CMM: Beim Lernen einer neuen Sprache kommt man kaum um regelmäßiges Üben herum. Viele Übungen sind aber schnell langweilig, da sie entweder viel zu leicht oder viel zu schwer sind und die Lernenden dadurch unter- oder überfordern. Außerdem gibt es oft gar nicht so viele Übungsaufgaben wie man denkt, da Lehrmaterial nicht immer frei zugänglich ist und die manuelle Erstellung mühsam ist. Wir arbeiten daher an einem intelligenten Übungsgenerator, der immer wieder neue Übungen erstellen kann und diese an den aktuellen Lernfortschritt der Lernenden anpasst. Demnächst starten wir eine wissenschaftliche Studie, in der Freiwillige mit den automatisch generierten Übungen lernen. Durch die Studie möchten wir testen, welche Methoden zum Generieren geeignet sind und wie gut sie auf die individuellen Bedarfe der Lernenden eingehen können. Im Rahmen der Studie generieren wir sogenannte C-Tests.

L-Pub: Was sind C-Tests und warum diese Form der Übung?

JUL: Ein C-Test ist eine besondere Art Lückentext, bei der wir die zweite Hälfte jedes zweiten Wortes durch eine Lücke ersetzen. Jeder Test ist ca. ein Absatz lang. In den ersten und letzten Satz des Absatzes bringen wir keine Lücken ein, damit der Kontext noch verständlich bleibt. C-Tests werden häufig zum Einstufen des Lernstandes verwendet, können aber genauso gut zum Üben verwendet werden.

Beispiel für einen C-Test. Quelle: Textauszug aus „Die dreifache Warnung“ von Arthur Schnitzler

L-Pub: Warum wird nur die zweite Hälfte des Textes entfernt und nicht das ganze Wort?

JUL: Würde man das ganze Wort durch eine Lücke ersetzen, dann kommt es häufig zu Mehrdeutigkeiten, d.h. es können für eine Lücke mehrere, potenziell sogar sehr viele Lösungen korrekt sein. Im Satz „Am Sonntag gehen wir ins <Lücke>“ könnte ich beispielsweise „Kino“, „Freibad“ oder „Theater“ einsetzen. Für einen automatischen Aufgabengenerator stellt das ein großes Problem dar. Woher soll der Algorithmus wissen, dass all diese Wörter infrage kommen, während „Oper“ und „Picknick“ falsch und „Auto“, „Fleckenmittel“ oder „hohe Fieber“ zwar syntaktisch mögliche, aber auf jeden Fall fragwürdige Lösungen wären.

CMM: Wenn wir dagegen nur die zweite Hälfte des Wortes durch eine Lücke ersetzen, also „Am Son___ gehen w__ ins Ki__“, so ist der Lösungsraum deutlich kleiner. Der C-Test ist dennoch lerneffektiv, da die Wörter richtig geschrieben und flektiert werden müssen, aber auch zum Kontext des gesamten Absatzes passen müssen. Die Lernenden müssen also nicht nur morphologische und syntaktische Eigenschaften lernen, sondern auch die Wort- und Satzsemantik erfassen. Wenn es im Folgesatz beispielsweise um einen bestimmten Film geht, so würde auch die mögliche Lösung „Kiosk“ für die letzte Lücke eher ausscheiden.

L-Pub: Die Texte für die Tests kommen ja zum Teil von unserem Verbundpartner Ernst Klett Sprachen sowie von anderen Sprachlernverlagen wie Carl Ed. Schünemann und Spotlight. Wie werden aus diesen Texten C-Tests generiert?

JUL: Die Generierung ist eigentlich ganz einfach. Wir nehmen einen fertigen Text, zerlegen diesen in einzelne Absätze, übernehmen den jeweils ersten und letzten Satz und fügen in den übrigen Sätzen in jedem zweiten Wort die Lücke ein. Die dabei gelöschte zweite Hälfte des Wortes liefert uns gleich die richtige Lösung des Tests. Und da C-Test-Lücken im Regelfall nur eine sinnvolle Lösung haben, müssen wir auch keine Lösungsalternativen betrachten, wie es bei „normalen“ Lückentexten der Fall ist. Dort versucht man das Problem nämlich häufig durch Antwortvorgaben im Multiple-Choice-Verfahren zu umgehen. Wird aber nur eine vorgegebene Alternative gewählt, lassen sich gewisse Eigenschaften, wie etwa das korrekte Flektieren, nur mittelbar lernen.

L-Pub: Wo liegt dann die wissenschaftliche Herausforderung?

CMM: Das schwierigste Problem ist die Auswahl eines passenden Textes und wie die Lücken darin verteilt werden. Für jedes Wort im Text müssen wir nämlich überlegen, ob die Lernenden dieses schon kennen. Für die eingefügten Lücken reicht es dagegen nicht, nur die Bedeutung des Wortes zu kennen, sondern auch die Schreibweise, die korrekte Verwendung innerhalb des Satzes und das Flexionsparadigma des Wortes muss bekannt sein. Ist das Wort „sehen“ beispielsweise bekannt, die Bildung der Vergangenheitsform aber nicht, so wäre eine Lücke in „sie sahen“ deutlich schwieriger als „sie sehen“. Wenn wir die Schwierigkeit kennen, können wir für die Lernenden passende Übungen generieren, die weder zu leicht noch zu schwer sind.

L-Pub: Das Lernniveau der Texte kennen wir, weil sie bereits von unseren Verlagspartnern nach Lernniveau eingestuft wurden. Lösen diese Texte nicht schon das Problem?

CMM: Für die Texte unserer Partner haben wir in der Tat bereits eine Schwierigkeitseinschätzung, da diese beispielsweise in Anfängerkursen zum Sprachniveau A2 eingesetzt werden. Unser Ziel ist aber, dass unser Übungsgenerator später auch für neue Texte funktioniert, die bisher noch nicht eingestuft sind. Außerdem müssen wir neben der Schwierigkeit des Textes auch die Schwierigkeit der einzelnen Wörter und der daraus geschaffenen Lücken einschätzen lernen, da diese maßgeblich die Schwierigkeit des C-Tests bestimmen.

Ji-Ung Lee arbeitet an seiner Dissertation zu aktiven maschinellen Lernverfahren am Ubiquitous Knowledge Processing Lab. (c) Bild: HA Hessen Agentur GmbH – Jan Michael Hosan

L-Pub: Die Schwierigkeit einzelner Wörter können wir mit unserem Tool, dem Language Level Evaluator (LLE), erfassen. Im Laufe des Verbundprojekts sollen zudem grammatikalische Merkmale automatisch erkannt werden. Welche zusätzlichen Aspekte bezieht der Übungsgenerator mit ein?

JUL: Insbesondere müssen wir einbeziehen, wann eine Lücke leicht oder schwer zu lösen ist. Lücken mit vielen Silben und ungewöhnlichen Endungen sind zum Beispiel meist schwieriger, auch wenn das Lösungswort gut bekannt ist. Zuweilen gibt es sogar Interdependenzen zwischen den Lücken: Bei festen Konstruktionen wie „kurz und knapp“ würde das richtige Ausfüllen von „kurz“ dazu führen, dass die Lücke zu „knapp“ deutlich leichter zu füllen ist. Außerdem gibt es Fälle, in denen man bewusst keine Lücke setzen möchte. Ein Beispiel hierfür sind zusammengesetzte Nomen, die vor allem im Deutschen schwierig sind. Für das Wort „Fahrgast“ würde das Entfernen von „gast“ den Lösungsraum deutlich vergrößern und die Aufgabe damit viel schwieriger oder mehrdeutig machen. In der Praxis werden C-Tests daher häufig von Hand nachbearbeitet, was für einen Übungsgenerator natürlich nicht erwünscht ist.

L-Pub: Und wie lässt sich die Schwierigkeit einer Lücke automatisch bestimmen?

JUL: Am einfachsten ginge das natürlich, wenn wir die Anzahl der Fehler pro Lücke wüssten. Würde ein bestimmter Test also von 100 Leuten eines bestimmten Lernniveaus ausgefüllt, so wäre eine Lücke, die nur von 2 Personen falsch ausgefüllt wurde, besonders leicht. Scheitern dagegen drei Viertel der Teilnehmenden, dann haben wir es mit einer besonders schwierigen Lücke zu tun. Natürlich könnten wir so nur sehr wenige Tests produzieren, da wir immer 100 Testpersonen bräuchten. Stattdessen nutzen wir sogenannte maschinelle Lernverfahren, die versuchen die Fehlerrate automatisch vorherzusagen und somit auf die Schwierigkeit einer Lücke zu schließen.

L-Pub: Wie funktionieren diese maschinellen Lernverfahren?

JUL: Ein Ansatz ist es, jede Lücke durch bestimmte, leicht messbare Merkmale zu charakterisieren. Dazu zählen einerseits die Merkmale, die im LLE eine Rolle spielen, aber auch u.a. die Größe der Lücke, die Häufigkeit des Lösungswortes, die Anzahl der Silben und wie geläufig die Wortendung ist oder ob es ein ähnliches Wort in der Muttersprache des Lernenden gibt – sogenannte Kognaten. Auf Basis einiger bereits ausgefüllter C-Tests versuchen wir nun automatisch Korrespondenzen zwischen den Merkmalen oder Merkmalskombinationen zu finden, die die beobachtete Fehlerrate gut approximieren. Eine sehr einfache Korrespondenz könnte bspw. sein, dass Lücken zu häufigen Wörtern mit vielen Silben eher leicht zu lösen sind. Tatsächlich arbeiten wir natürlich mit zahlreichen solcher Merkmale, die deutlich komplexere Korrespondenzen ergeben.

Ein zweiter Ansatz, den wir derzeit versuchen, ist die Nutzung von tiefen neuronalen Netzen. Diese sind inspiriert von den Neuronen, die im Gehirn zu finden sind. Dadurch, dass man viele dieser „Neuronen“ zu einem Netzwerk zusammenschließt, sind diese in der Lage, komplexe Entscheidungen abzubilden, die für eine korrekte Bestimmung der Lückenschwierigkeit wichtig sind. Zudem Lernen diese Verfahren direkt aus den Lücken, sodass wir nur wenige oder sogar gar keine Merkmale definieren müssen. Durch die tiefen Strukturen können auch verborgene, nichtlineare Korrespondenzen zwischen den eingegebenen Lücken und den gesuchten Schwierigkeitsgraden bzw. Fehlerraten automatisch gelernt werden.

CMM: Bei beiden Ansätzen ist es möglich, dass wir mit einem Datensatz bereits bearbeiteter C-Tests ein Verfahren „trainieren“ und dieses dann für beliebige neue Texte einsetzen können. Selbst für bisher völlig unbekannte Wörter, kann das Verfahren basierend auf bereits bekannten Lücken mit ähnlichen Merkmalen eine in vielen Fällen sinnvolle Vorhersage der Schwierigkeit treffen.

Dr. Christian M. Meyer forscht an der Technischen Universität Darmstadt zu interaktiven Assistenzsystemen für natürlichsprachlichen Text. (c) Bild: HA Hessen Agentur GmbH – Jan Michael Hosan

L-Pub: Sobald die Schwierigkeit bestimmt ist, können Tests für einzelne Lernende angepasst werden. Wir haben in unserer Vokabeltrainer-App „vobot German“ einen gewissen Grad an Adaptivität eingebaut, in dem Lernende erst zu schwierigeren Übungen kommen, wenn sie die vorhergehende, einfachere „Übungsebene“ erfolgreich gemeistert haben. Der Übungsgenerator soll diese Adaptivität aber noch deutlich vertiefen. Welchen Vorteil haben Lernende davon?

CMM: Unser Ziel ist es, dass sich die Schwierigkeit des C-Tests dynamisch an die Lernenden anpasst, sodass die Übung weder zu leicht (und damit langweilig) noch zu schwierig oder gar unschaffbar wird. Frühere Studien zeigen, dass der Korridor zwischen zu leichten und zu schwierigen Aufgaben besonders lernförderlich ist. Beantwortet jemand beispielsweise alle Lücken in kurzer Zeit richtig, so war der Test eher zu leicht und sollte nächstes Mal schwieriger werden. Umgekehrt gilt das genauso. Für diese Anpassung der Schwierigkeit, möchten wir ebenfalls automatische Vorhersagealgorithmen trainieren, die beispielsweise einen anderen Text mit anderen Lücken wählen oder auch vom vorgegebenen Lückenschema in jedem zweiten Wort abweichen und nur in jedes dritte oder vierte Wort eine Lücke einfügen. Dadurch können wir C-Tests generieren, die auf die einzelnen Lernenden zugeschnitten sind. Wenn beispielsweise Präpositionen oft verwechselt werden, sollte der Algorithmus lernen, Texte mit vielen Präpositionen zu wählen und diese Präpositionen auch mit Lücken versehen. Natürlich sollte dabei auch das eigentliche Sprachlernziel nicht aus den Augen verloren werden.

L-Pub: Wie kann man sich so einen Vorhersagealgorithmus genau vorstellen?

JUL: Am Anfang weiß unser System noch gar nichts darüber, welcher Schwierigkeitsgrad passend ist. Wir benutzen aktuelle Ansätze aus dem Bereich Active Machine Learning, um die Lernenden zu begleiten und Schritt für Schritt eine bessere Abschätzung zum geeigneten Schwierigkeitsgrad liefern zu können. Dabei darf das System selbst entscheiden, welche C-Tests generiert werden, sodass nicht nur die Lernenden durch den Übungsgenerator lernen, sondern das automatische Generatorsystem auch umgekehrt von seinen Nutzern lernen kann.

L-Pub: Ji-Ung, wie hängt das mit Deiner Promotion zusammen?

JUL: Mich interessiert in meiner Promotion hauptsächlich das Thema „Interactive Learning“. Herkömmliche „Active Learning“-Verfahren zielen in der Regel darauf ab, die Genauigkeit des Systems zu optimieren. Für den Übungsgenerator würde das bedeuten, dass mir grundsätzlich C-Tests vorgelegt werden, bei denen sich das System noch sehr unsicher bei der Schwierigkeitseinschätzung ist. Durch die Benutzerrückmeldung in Form fehlerhaft ausgefüllter Lücken in diesem Test, könnte die Unsicherheit des Systems nämlich am schnellsten abgebaut werden, sodass das System optimal lernt. Für den Betrieb mit tatsächlichen Lernenden ist das aber ungeeignet, da wir ja noch ein anderes wichtiges Ziel haben: nämlich einen Test im richtigen Schwierigkeitskorridor zu finden, der weder zu leicht noch zu schwer ist. Für meine Promotion forsche ich an neuen Strategien, die diese beiden Ziele unter einen Hut bekommen. Das Projekt eignet sich optimal, im Rahmen des Sprachenlernens eben diese Strategien zu entwickeln und zu erproben. Mein Ziel für das Projekt ist es, eine Strategie zu entwickeln, mit der Sprachenlernende gute Lernerfolge erzielen können, während das System dabei lernt, welche C-Tests für die Lernenden optimal sind.

L-Pub: Als einen wichtigen nächsten Schritt, ist eine Online-Studie mit freiwilligen Sprachenlernenden geplant. Dabei wird der Übungsgenerator in seiner ersten Form getestet. Was könnt ihr dazu berichten?

CMM: Wir möchten verschiedene Strategien zur Schwierigkeitsbestimmung und zur Individualisierung der C-Tests ausprobieren und miteinander vergleichen. Bis zu einem gewissen Grad können wir das experimentell mithilfe bereits ausgefüllter C-Tests im Labor machen. Aber im Endeffekt soll das System natürlich einen praktischen Nutzen erfüllen und echte C-Tests erzeugen. Daher haben wir eine Online-Plattform entwickelt, auf der die C-Tests generiert und ausgefüllt werden können. Mit diesem System möchten wir in den kommenden Monaten gemeinsam mit Freiwilligen ausprobieren, welche Strategien und Einstellungen gut oder auch weniger gut funktionieren.

JUL: Wichtig ist, dass die Lernenden nicht wissen, wie und ob sich die Schwierigkeit gerade an ihren Lernstand anpasst oder nicht. Nur so bekommen wir eine unabhängige Einschätzung, ob unsere Verfahren gut funktionieren.

L-Pub: Welche Voraussetzungen müssen die Benutzer mitbringen? Müssen sie ihre persönlichen Daten bereitstellen?

CMM: Nein. Unser Studiensystem ist komplett anonym und kann von jeder und jedem kostenlos genutzt werden. Derzeit ist noch nicht einmal die Angabe einer E-Mail-Adresse o.Ä. erforderlich. Natürlich speichern wir die einzelnen Falscheingaben, sodass wir lernen können, welche Lücken besonders schwierig sind – und idealerweise auch warum, – aber wir sind nicht an der Auswertung interessiert, wer wie gut abschneidet. Insofern erheben wir keine personenbezogenen Daten, sondern arbeiten mit anonymisierten Benutzerkennungen.

L-Pub: Was steht ansonsten in den kommenden Monaten an?

JUL: Im Bereich der automatisierten Schwierigkeitseinschätzung und der Individualisierung von C-Tests gibt es noch viel zu tun. Noch sind nicht alle Strategien, die wir in der Studie nutzen möchten, fertig implementiert. Das wird also der nächste Schritt sein.

Besonders intensiv arbeiten wir derzeit an automatischen Verfahren zum Einschätzen der Leseschwierigkeit eines Textes, d.h. wie schwierig ein Text unabhängig von der Wahl der Lücken ist. Dazu arbeiten wir intensiv mit L-Pub zusammen und tauschen uns zum erwähnten Language Level Evaluator (LLE) aus. Unser Ziel ist es, die damit ermittelten Informationen zum Lernniveau mit den Ergebnissen datengetriebener Lernverfahren zu ergänzen. So soll eine automatische Einschätzung eines ganzen Textes nach Lernniveau (A1–C2) erreicht werden.

L-Pub: Lasst uns das Thema gerne in einem Folgeinterview beleuchten, wenn wir alle mit den Arbeiten daran etwas weiter sind. Vielen Dank schon einmal für diesen spannenden Einblick in den Bereich des adaptiven Lernens.


Kennen Sie Deutschlernende, die Interesse hätten an der Studie zum Übungsgenerator teilzunehmen? Dann erzählen Sie Ihnen davon. Wir bitten alle Interessenten zunächst darum, das Handout mit allen Infos rund um die Nutzerstudie durchzulesen. Das Handout ist HIER auf Deutsch und HIER auf Englisch hinterlegt. Wenn Sie weitere Fragen haben, senden Sie gerne eine E-Mail  an Ji-Ung Lee.

Erfahren Sie hier  mehr zum Projekt a!

Wenn Sie informiert werden möchten, wenn es interessante Neuigkeiten rund um L-Pub gibt, können Sie sich für unseren Newsletter anmelden.


Dieses Projekt (HA-Projekt-Nr.: 521/17-03) wird im Rahmen von Hessen ModellProjekte aus Mitteln der LOEWE – Landes-Offensive zur Entwicklung Wissenschaftlich-ökonomischer Exzellenz, Förderlinie 3: KMU-Verbundvorhaben gefördert.

Weitere Information unter www.innovationsfoerderung-hessen.de