The old equilibrium, where take-home work could reliably measure understanding, is dead. Gone. Kaput.
Dieser Satz kommt aus dem Blogpost ‚Fighting Fire with Fire: Scalable Oral Exams with an ElevenLabs Voice AI Agent‚, von Panos Ipeirotis, der heute an der New York University (NYU) lehrt. Und darin geht es um die Frage, wie Universitäten im KI-Zeitalter damit umgehen sollen, dass die klassischen Prüfungsformate wie die Hausarbeit sich nun innerhalb von Sekunden und ohne eigenen Denkprozess bewältigen lassen. Gefunden habe ich den Artikel über The Decoder. Das sind die Punkte, um die es im folgenden Post gehen wird:
- Das alte Prüfungs‑Gleichgewicht ist zerstört: Hausarbeiten und Take‑Home‑Exams messen im KI‑Zeitalter nicht mehr zuverlässig individuelles Verständnis.
- Wer seine eigene Arbeit nicht mündlich verteidigen kann, hat sie nicht verstanden – mündliche Prüfungen kommen dem Prüfungsziel näher als schriftliche Artefakte.
- Mündliche Prüfungen sind KI‑resistenter, aber bisher nicht skalierbar – genau hier setzt der Ansatz an, KI selbst als Prüfer einzusetzen.
- KI‑basierte mündliche Prüfungen können fairer sein als menschliche, weil sie standardisiert ablaufen, vollständig dokumentiert sind und individuellen Prüfer‑Bias reduzieren.
- Skalierung ist kein Kostenproblem mehr: Im Experiment lagen die variablen Kosten bei unter 0,50 US‑Dollar pro Prüfung.
- KI prüft nicht nur Studierende, sondern auch die Lehre selbst – systematische Schwächen in der Vermittlung werden sichtbar und lassen sich nicht „wohlwollend übersehen“.
- Geheimhaltung verliert ihre Funktion: Wenn Fragen generativ entstehen, können Studierende offen und kontinuierlich mit dem Prüfungssystem üben.
- Die eigentlichen Hürden liegen nicht technisch, sondern rechtlich und organisatorisch – KI‑Verordnung, Datenschutz und Prüfungsrecht entscheiden über die Umsetzbarkeit in Deutschland.
Ipeirotis berichtet hier am Anfang von einer Erfahrung aus einem seiner Seminare, in dem er überraschend gute Arbeiten von seinen Studierenden erhielt, aber viele dann nicht in der Lage waren im direkten Gespräch die in ihren eigenen Papieren beschriebenen Schlußfolgerungen zu vertreten.
If you cannot defend your own work live, then the written artifact is not measuring what you think it is measuring.
Die mündliche Befragung hat ihn hier also dem viel näher gebracht, was in den Erläuterungen zum Studienmodell der Universität Bielefeld als das Ziel von Prüfungen definiert wird:
„Im Prüfungsverfahren geht es darum, die wahren Kenntnisse und Fähigkeiten des Prüflings möglichst genau zu ermitteln, um so die Grundlage für eine zutreffende Bewertung zu schaffen.“ (Niehues/Fischer, Prüfungsrecht, 5. Auflage, Rn. 127)
Und zumindest in unseren heutigen Studiengängen wollen wir dabei nicht prüfen, ob Studierende die Kenntnis haben mit einer KI ihre Aufgaben zu bewältigen. In dem Blogpost geht es nun um die Idee auch auf Prüfendenseite KI einzusetzten und zwar für mündliche Prüfungen. In gewisser Weise also darum Feuer mit Feuer zu bekämpfen. Das hat interessante Implikationen:
‚Rethinking Exams – Wie wollen wir lernen und prüfen?‘
Das war das Thema der BI.teach 2025, der jährlichen Konferenz zu Themen rund um die Lehre an der Universität Bielefeld. In der Keynote „KI kennt die Antwort – aber verstehen wir die Frage?“ Prüfungen in Gegenwart von KI, gehalten von Prof. Dr. Mandy Schiefner-Rohs, ging es um eine ganz ähnliche Frage.
Die Vortragende benannte hier Hausarbeit, Klausur und mündliche Prüfung als die drei Eckpfeiler des universitären Prüfens und von diesen drei Prüfungsformen ist heute eigentlich nur noch die mündliche Prüfung relativ sicher davor, durch KI-Einsatz bewältigt zu werden. Und sie warf damit die gleiche Frage auf wie Ipeirotis, in wie weit die Kompetenzen, die wir unseren Studierenden mit ihrem Studienabschluss bescheinigen, eigentlich wirklich vorhanden sind.
Mündliche Prüfungen als Lösung?
Die mündliche Prüfung als ‚KI-sichere‘ Prüfungsform ist aber durch ihren hohen Aufwand schlecht skalierbar und es war bei der Tagung im November nicht so richtig vorstellbar, dass es einer großen Hochschule in Zukunft möglich sein könnte, den Großteil der Prüfungen in dieser Form abzunehmen. Aber wenn man einer KI diese Aufgabe übergeben könnte, dann wäre eine Skalierung auf hohe Zahlen viel einfacher vorstellbar, und das zu vermutlich geringen Kosten.
In der Tagung nicht thematisiert wurde nach meiner Erinnerung auch ein anderes Problem des mündlichen Prüfens, welches mir aus der kurzen Zeit gut in Erinnerung ist, in der ich bei dem mein Promotionsvorhaben betreuenden Prof als Zweitprüfer in Diplomprüfungen wirken musste:
Die ungleichen Abläufe von Prüfungen, je nach Person, selbst bei völlig identischem Prüfungsthema. Bei dieser Prüfungsform hat ein Bias der Prüfenden wohl den stärksten Einfluss, und gleichzeitig ist durch die geringe Dokumentationsdichte im Vergleich zu anderen Prüfungsformen eine nachträgliche Prüfung der Bewertung schwierig. Bei einer KI-basierten Lösung lässt sich hingegen direkt ein umfassendes Protokoll erzeugen und damit eine gute Basis für nachträgliche Überprüfungen.
Ein eventueller Bias der KI, ein häufig diskutiertes Problem heutiger KI-Trainingsmethoden, ist hier hingegen weniger relevant, da die KI kein Wissen über die Prüflinge bekommen muss.
Mündliche Prüfungen mit KI – Das Setup
Die Beschreibung des verwendeten KI-Systems ist interessant, weil es noch relativ simpel ist:
- Es wird ein Sprachagent von ElevenLabs verwendet, der in der Lage ist in natürlichsprachlicher Weise die Prüfung durchzuführen. Hier sind im wesentlichen die Prompts zu entwickeln, nach denen der Agent bzw. die Teilagenten handeln sollen
- Ipeirotis hat diese Prompts in seinem Blogpost veröffentlicht, sie sind mit 120 Zeilen Gesamtumfang nicht ganz kurz, aber Teile befassen sich mit der konkreten Aufgabe und der Identitätserfassung der Studierenden und ließen sich in einem leistungsfähigeren System automatisch ergänzen
- Das Unterteilen des KI-Systems in mehrere kleinere Agenten ist dabei Absicht, es reduziert die Komplexität der einzelnen Teile und macht Optimierung und Fehlersuche einfacher
- Für die Stimme des Prüfers wurde die Stimme eines echten Profs der NYU geklont
- Für die abschließende Bewertung wurde eine Gruppe von drei KI-Systemen verwendet, dieses Konzept wurde von Andrej Karpathy als LLM-Council beschrieben. Dabei werden nicht nur drei unterschiedliche Bewertungen erzeugt, sondern in einer Art Feedbackschleife den Modellen dann die Bewertungen der anderen vorgelegt für eine erneute Bewertung, bevor am Ende der ‚Vorsitz‘ über das Gesamtergebnis befindet. Diese zusätzliche Schleife hat die Bewertungen der Modelle stark harmonisiert
- Die Prüfungsdauer ist nicht festgelegt und es gab eine große Spanne von 9 bis 64 Minuten, mit einem Durchschnitt von 25 Minuten
Für dieses Setup war offenbar keine Unterstützung des IT-Betriebs der Universität notwendig, was zu Schwächen wie dem fehlenden Single Sign-on führt, aber dafür ein erstmal unabhängiges Handeln und Experimentieren ermöglichte.
Wie hat sich die KI geschlagen
Ipeirotis zieht am Ende kein euphorisches Fazit und beschreibt verschiedene Stellen, an denen sie ihr KI-System nachbessern mussten (z. B. verhalten sich KI System nicht wirklich zufällig, wenn sie zufällig eine Frage aus einem Katalog auswählen sollen und die Studierenden haben die gewählte Stimme als einschüchternd empfunden).
Wie bei vielen KI-Anwendungen gibt es einen unglaublich schnellen Anfangserfolg, aber das Ausbessern der dann festgestellten Schwächen bis zu einem wirklich einsetzbaren System ist dann nochmal eine Hürde (besser ein RAG System verwenden; Verunsicherungen der Prüflinge durch das KI-System reduzieren; striktere Anweisungen für die Komplexität der Fragestellungen; …).
In Kostenhinsicht ist das Verfahren aber so effizient in der Durchführung, dass es ein Thema sein wird für Hochschulen, die unter Konsolidierungszwängen stehen und sich gleichzeitig unter dem Druck der KI-Realität weiterentwickeln müssen. Ipeirotis spricht hier von 0,42$ pro Prüfung, was zwar keine Kosten für die grundsätzliche Entwicklung des Setups enthält, aber gerade an einer großen Hochschule durch den Skaleneffekt schnell zu der einzig relevanten Größe werden kann.
Das Problem der Täuschungsmöglichkeit – ob per KI oder Stellvertreter*in oder Souffleur – ist bei dieser Prüfungsform natürlich nicht automatisch beseitigt, vielleicht ist es sogar höher, sofern die Prüfung nicht in kontrollierten Bedingungen erbracht wird, etwa in Räumlichkeiten der Universität. Die Lösung im Blogpost, eine Audioaufnahme der Prüfung anzufertigen, ist da vielleicht kein gut skalierendes Verfahren.
Bessere Prüfungsvorbereitung ohne Geheimhaltung
Spannend finde ich aber auch die Idee, dass man Studierende mit so einem Prüfungssystem eigentlich kontinuierlich arbeiten lassen kann: Warum soll man vor den Studierenden bis zum letzten Moment geheimhalten, zu welchen Aspekten ihres Studiums sie konkret geprüft werden, wenn man diese Fragen im konkreten Fall dann randomisiert stellen kann und vorher beliebig häufige Probedurchläufe ermöglicht?
Im Kontext von BIKI hatten wir schon einmal mit einem Studierenden zu tun, der unser KI-Werkzeug dafür nutzen wollte, sich aus den Lehrmaterialien einer Veranstaltung Prüfungsfragen zu generieren, um sich auf diese Weise auf den Stoff vorzubereiten. Die Idee sich auf so eine Weise die relevanten Inhalte einzuprägen ist also nicht einzigartig.
Und so ein System würde auch den Geheimnischarakter, den Prüfungen heute haben, aufheben. Den gibt es ja eigentlich nur, damit Studierende sich nicht selektiv nur auf die konkreten Prüfungen vorbereiten. Und so eine Art des Prüfens könnte auch die Frage lösen, in wie weit beim vorherigen Wissenserwerb und Wissensdarstellung – z. B. bei einem Seminarvortrag – der KI-Einsatz reglementiert und damit auch kontrolliert werden muss:
Wenn es am Ende nur auf die mündliche Prüfung ankommt, dann kann uns vielleicht der Weg ‚egal‘ sein, wie die einzelnen Studierenden sich darauf vorbereiten. Das wäre vermutlich sehr entlastend.
‚The grading output became a mirror reflecting our own weaknesses as instructors. Ooof.‘
Und es gab noch einen interessanten Punkt: Nicht nur die Prüflinge werden von der KI bewertet – indirekt auch die Lehrenden! Der durchgeführte Test zeigte, dass in der Lehre ein bestimmtes Thema nur unzureichend vermittelt wurde, aber die KI hat darauf keine Rücksicht genommen und alle Studierenden schlecht bewertet. Ein menschlicher Prüfer hätte vielleicht schnell erkannt, oder sich erinnert, dass er ein Thema nicht richtig vermittelt hat und diese Frage fallengelassen.
Die Übergabe der Prüfungsarbeit an eine KI und damit eine externe Stelle kann hier also auch eine Verpflichtung mitbringen, sich an den laut Lehrplan oder Modulhandbuch zu vermittelnden Stoff zu halten, zumindest wenn ein KI-Prüfungssystem daraus seine Fragestellungen und Bewertungsmaßstäbe zieht.
Ist so etwas an einer Hochschule in Deutschland vorstellbar?
Die Frage nach geeigneten Prüfungen im KI-Zeitalter stellt sich auch bei uns, siehe das Thema der letzten BI.teach. Und auch wir haben Kostendruck und Konsolidierungszwänge. Abgesehen von der generellen Frage, ob wir ‚Roboterprüfungen‘ wollen und wie viel Aufwand noch in den ‚letzten Metern‘ steckt um solche Verfahren mindestens so verlässlich zu machen, wie die bisher von Menschen abgenommenen Prüfungen, sind da sicher Punkte, die gelöst werden müssen:
Regelungen der KI-Verordnung: Hochrisiko-KI
Die KI-Verordnung (KI-VO) der EU verfolgt einen risikobasierten Ansatz zur Bewertung der Zulässigkeit von KI-Systemen und bei den Auflagen, die beim Betrieb zu beachten sind. Meine Vermutung als juristischer Laie ist, dass man vermutlich im Bereich der im Kapitel 3 definierten Hochrisiko-KI landen wird. Zumindest findet sich im Anhang III, der solche Systeme definiert, im Absatz 3, Punkt b dieser Satz:
‚KI‑Systeme, die bestimmungsgemäß für die Bewertung von Lernergebnissen verwendet werden sollen, einschließlich des Falles, dass diese Ergebnisse dazu dienen, den Lernprozess natürlicher Personen in Einrichtungen oder Programmen aller Ebenen der allgemeinen und beruflichen Bildung zu steuern‘
Damit stehen einem niederschwelligen Einstieg, wie ihn Ipeirotis gemacht hat, hier vermutlich durchaus hohe Hürden im Weg. Eine Näherung könnte hier vielleicht der Aspekt der selbstverantwortlichen Übungsprüfungen darstellen: Wenn man so ein System aufbaut, damit sich die Studierenden damit selbstständig auf die Prüfungen vorbereiten können, sollte dies nicht unter die strengen Regeln fallen.
Ein weiterer Zwischenschritt wäre es, wenn die KI nur den Dialog führt, aber die Bewertungen durch menschliche Prüfende erfolgen. Das könnte zumindest schon mal den menschlichen Bias reduzieren, auch wenn weiterhin viel Arbeit bei den Prüfenden verbleibt.
Aufwände für den Datenschutz
Im Setup von Ipeirotis werden an die Sprachmodelle personenbezogene Informationen wie die Namen der Studierenden übergeben. Das kann man aber vermeiden, vermutlich ist es eher dafür gedacht eine persönliche Ansprache zu ermöglichen im Prüfungsgespräch. Allerdings wird die Sprache übertragen, man wird also nie argumentieren können, dass keine personenbezogenen Daten verarbeitet werden.
Das beschriebene System ist allerdings mehrstufig: Die Komponente, die die Sprache in Text umwandelt, gibt diesen Text dann an die hier 3 Sprachmodelle von unterschiedlichen Anbietern weiter. Nach der DSGVO wären das dann alles nach Art. 28 Auftragsverarbeiter und es sind entsprechende vertragliche Vereinbarungen notwendig.
Nur falls es gelingt, die an die nachgelagerten Sprachmodelle übergebenen Daten so weit von personbezogenen Inhalten zu bereinigen, dass sie nicht mehr DSGVO-relevant sind, würde dieser Aufwand entfallen können.
Sind zufällig ausgewählte Prüfungsfragen zulässig?
Ein dritter Punkt kann die Frage sein, ob es prüfungsrechtlich zulässig ist, wenn bei einer Prüfung den Prüflingen unterschiedliche Fragen gestellt werden. Erst dies erlaubt die Realisierung vieler Vorteile, wie z. B. den genannten freien Zugang zu einem ‚KI-Prüfer‘ für Übungszwecke und auch die zeitliche Staffelung von derartigen Prüfungen, da eine Weitergabe der Prüfungsfragen zwischen den Studierenden hier keinen Vorteil bringt.
Allerdings könnte es hier den Vorbehalt der Vergleichbarkeit geben mit der Argumentation, dass nicht alle Fragen gleich schwer sind. Hier muss man sich hochschulintern gut vorbereiten.