Auf dem Weg zur europäischen KI: Prager Karlsuniversität leitet neues Forschungsprojekt

Schnell mal einen Text übersetzen oder den Computer einen Brief schreiben lassen – künstliche Intelligenz ist aus dem Leben vieler Menschen nicht mehr wegzudenken. An entsprechenden Tools, die in der EU entwickelt wurden, mangelt es aber. Ändern soll das ein europäisches Forschungsprojekt, im Rahmen dessen Computerlinguisten ein neues Sprachmodell erstellen. Koordiniert wird das Programm von der Prager Karlsuniversität.

Es ist ein Riesenprojekt. Über 20 Millionen Euro investiert die Europäische Union in die Erstellung eines neuen Sprachmodells, mit dem etwa künstliche Intelligenz oder maschinelle Übersetzungssoftware trainiert werden können. Der Gesamtetat liegt bei 34 Millionen Euro. 20 europäische Forschungsinstitutionen, Firmen und Hochleistungsrechenzentren haben sich für das Vorhaben zusammengeschlossen, und geleitet wird es von der Mathematisch-Physikalischen Fakultät der Karlsuniversität. Die traditionsreiche Prager Hochschule darf so mit Fug und Recht behaupten, das größte von der Europäischen Kommission finanzierte Forschungsprojekt an Land gezogen zu haben, das jemals von einer tschechischen Institution geleitet wurde.

Jan Hajič | Foto: Tomáš Rubín,  Fakultät für Mathematik und Physik,  Karlsuniversität

Derjenige, der die beteiligten Akteure verknüpft und das Programm vorantreibt, heißt Jan Hajič. Er ist Professor am Institut für formale und angewandte Linguistik. In den Inlandssendungen des Tschechischen Rundfunks erläutert er, warum die EU überhaupt ein eigenes Sprachmodell haben möchte:

„Die Modelle, die aus dem Westen kommen, also vor allem aus den USA, sind oft geschlossen. Wir wissen zwar teilweise, wie sie arbeiten, aber nicht, wie sie entstanden sind. Bei den Modellen aus Asien ist eine ideologische Verschiebung zu befürchten. Deshalb braucht es ein neues Modell, das komplett offen funktioniert, damit klar ist, warum es was tut. Außerdem soll es den vergleichsweise strengen EU-Regularien entsprechen und von hoher Qualität sein.“

Aufgrund der angedachten Offenheit der Daten und Ergebnisse steht das Forschungsprojekt unter dem Titel „OpenEuroLLM“, wobei „LLM“ für „Large Language Model“ steht – also für ein großes Sprachmodell. Der Kerngedanke ist dabei, mittels mathematischer Gleichungen etwa die Wahrscheinlichkeit für einen Buchstaben oder ein bestimmtes Wort abzuschätzen. Bei „Large Language Models“ kommt noch hinzu, dass die Technik nach einem vorhergehenden Training, also dem „Füttern“ mit Daten, selbst Text generieren kann.

Dass gerade die Karlsuniversität das neue Forschungsprojekt leitet, sei dabei kein Zufall, sagt Hajič:

„Wir beginnen nicht komplett von Null. An unserem Institut gab es schon ähnliche Projekte, seit Tschechien der EU beigetreten ist. Oft habe ich daran auch persönlich teilgenommen. Mit Sprachmodellen befasst sich derzeit etwa eine Forschungsinitiative, die vor zwei Jahren ihre Arbeit aufgenommen hat. Dieses Projekt ist wesentlich kleiner, aber wir können nun mit dem großen EU-Vorhaben daran anknüpfen.“

Damit die gesammelten Daten ausgewertet werden können ist allerdings eine Menge Rechenleistung nötig.

„Die europäischen Superrechenzentren müssen uns dafür noch ihre Kapazitäten freigeben. Die Zusagen haben wir aber bereits“, so Hajič.

Dem Computerlinguisten zufolge kann das entstehende Sprachmodell europäischen Firmen helfen, konkurrenzfähig zu bleiben. Zudem soll es etwa die öffentliche Verwaltung effizienter machen. In Sachen maschineller Übersetzung etwa wird das Sprachmodell – so die Hoffnung der EU und der Projektpartner – künftig Maßstäbe setzen.

„Das Modell soll multilingual funktionieren. Einbezogen werden alle Sprachen der EU, aber auch weitere Landessprachen von Verhandlungs- und Handelspartnern.“

Neben den 24 EU-Amtssprachen sind es rund 35 weitere Sprachen, die das mathematische Modell unterstützen soll. Erste Ergebnisse wollen die Forscher schrittweise vorlegen, das finale Modell soll in drei Jahren einsatzbereit sein.