Manuelles Transkribieren schlägt (noch) KI: Eine vergleichende Studie über Transkriptionsservices

Interviews sind eine beliebte Methode zur Erhebung wissenschaftlicher Daten. Ganz grundsätzlich wird dabei zwischen quantitativen und qualitativen Interviews unterschieden. Während erste darauf ausgerichtet sind, mithilfe standardisierter Fragebögen von einer großen Anzahl Befragter statistisch verwertbare Informationen zu bekommen, geht es bei Letzteren um die Gewinnung von Interviewdaten, die den Forschenden Interpretationsmöglichkeiten bieten. Eine besondere Form stellt das Leitfadeninterview dar, beim dem es zwar einen vorbereiteten Fragenkatalog gibt, von dem im Gespräch jedoch abgewichen werden kann. „In der Cybersicherheitsforschung kommen diese Interviews zum Einsatz, wenn es um die Erschließung von Handlungs- und Deutungsmustern von Akteuren geht, die digital vermittelt handeln“, erklärt der Soziologe Dr. Rafael Mrowczynski vom Team des Empirical Research Support (ERS) am CISPA. Das ERS-Team berät die Forschenden des Zentrums bei Methodenfragen.

Die Überführung einer Audiodatei in Text

Ein entscheidender Arbeitsschritt für die qualitative Datenanalyse ist die Transkription. „Die Standardprozedur ist, dass die Audioaufnahmen der Interviews in Text überführt werden. Wichtig für die Qualität der Daten ist, dass die Transkriptionen adäquat sind“, erklärt Mrowczynski. Je nach wissenschaftlicher Disziplin gibt es unterschiedliche Standards für die Transkription. „In der Cybersicherheitsforschung wird meist mit Transkripten gearbeitet, die präzise den Gesprächsinhalt wiedergeben“, so Mrowczynski. Ein adäquates Transkript beinhaltet damit nur die relevanten gesprochenen Wörter. Zur Durchführung der Transkription bieten sich den Forschenden zwei Optionen: Die Transkripte selbst bzw. im Forschungsteam anzufertigen oder sie außer Haus an Drittanbieter zu vergeben.

Unter den Drittanbietern hat neben der manuellen Transkription zuletzt die automatisierte, KI-gestützte Transkription einen regelrechten Hype erfahren. Dies geht auf die exponentiellen Entwicklungs- und Qualitätssprünge zurück, die KI-Anwendungen in den letzten beiden Jahren in vielen Bereichen erfahren haben. Die CISPA-Forschenden aus dem ERS-Team wollten wissen, welcher Anbieter auf dem Markt die besten Ergebnisse erzielt und wie sich automatisierte, KI-gestützte Angebote im Vergleich zur manuellen Transkription schlagen. Ziel war den Forschenden am CISPA sowie der Cybersicherheits-Community eine Empfehlung für die Arbeit mit qualitativen Interviews geben zu können.

Das Vorgehen des ERS-Teams

Für ihr Forschungsvorhaben erstellten Mrowczynski und seine Kolleg:innen Dr. Maria Hellenthal, Dr. Rudolf Siegel und Dr. Michael Schilling ein Test-Datenset. Dieses bestand aus etwa zehnminütigen Einzelinterviews und Gruppengesprächen mit CISPA-Forschenden auf Deutsch und Englisch. Inhaltlich ging es um das Forschungsfeld der Cybersicherheit. „Wichtig war, dass Fachbegriffe aus der Community fallen, um daran die Präzision der Transkription überprüfen zu können“, erläutert Mrowczynski. Einige Interviews wurden zusätzlich mit Hintergrundgeräuschen angereichert, um realen Settings im Forschungsalltag näher zu kommen.

Die Daten wurden im Dezember 2022 zu elf Anbietern geschickt. Darunter waren die Transkriptionsdienste Amberscript, GoTransript, QualTranscribe, Rev und Scribble sowie die KI-basierten Transkriptionsanbieter Amazon Transcribe, AssemblyAI, Audiotranskription.de, Google Cloud, Microsoft Azure und Whisper AI von OpenAI. Zur Auswertung der erhaltenen Transkripte erstellte Mrowczynski mit seinen Kolleg:innen manuell ein Referenz-Transkript, das als Ausgangspunkt für die vergleichende Analyse diente. In der Analyse selbst ging es dann um zwei zentrale Kriterien. Zum einen wurde die Word-Error-Rate untersucht, die anzeigt, wie viele Wörter sich zwischen einer Abschrift und dem Referenz-Transkript unterscheiden. Zum anderen wurde die qualitative Abweichung vom Referenz-Transkript manuell kodiert.

Manuelle Transkriptionsdienste schlagen KI

Mrowczynski und seine Kolleg:innen kommen in ihrem Aufsatz zu dem Schluss, dass im allgemeinen „die meisten der manuellen Transkriptionsdienste ein lobenswertes Leistungsniveau [haben], während KI-basierte Dienste häufig bedeutungsverzerrende Abweichungen zwischen Aufnahme und Transkription aufwiesen.“ Die Bedeutungsverzerrung lässt sich gut an Fachbegriffen festmachen, erläutert Mrowczynski: „Im Transkript wurde zum Beispiel aus ‚hashes‘ das Wort ‚ashes‘ So kamen wir auch auf den Aufsatztitel.“

Die besten Ergebnisse unter den KI-Anbietern lieferte Whisper von OpenAI. Mit Englisch kamen die meisten Anbieter besser klar als mit Deutsch. Drei Anbieter boten gar keine deutsche Transkription an. Hintergrundgeräusche wirkten sich generell negativ auf das Ergebnis aus. Probleme hatten die KI-basierten Anbieter vor allem mit der Sprecherzuordnung. Darüber hinaus war bei den von einer KI erstellten Transkripten eine Neuformatierung nötig, bevor die Weiterverarbeitung in einer Software für die qualitative Datenanalyse möglich war. Einschränkend weisen die Forschenden darauf hin, dass ihre Analyse den Stand der Technik im Dezember 2022 wiedergibt und aktuelle Entwicklungen nicht berücksichtigt werden konnten.

ZUm paper