Nicht erst seit Covid-19, Homeoffice und Videokonferenzen gilt: Immer öfter verschwimmen die Grenzen zwischen gesprochenem und geschriebenem Wort. Transkriptionen und Untertitel lassen sich teils auf Knopfdruck erzeugen.
Doch wie lassen sie sich als Werkzeuge sinnvoll in umfangreichere Content-Projekte einbinden? Neben neuen Möglichkeiten lauern bei Transkriptions- und Untertitelprojekten auch einige Fallstricke – wir zeigen, wie sie sich vermeiden lassen.
Es ist noch nicht lange her, dass Stift und Notizblock ihren festen Platz in jedem Meeting, bei jedem Interview und jeder Besprechung hatten. Sie waren unverzichtbare Accessoires, um flüchtige Gedanken festzuhalten.
Es fehlte nicht an Möglichkeiten zur Aufnahme des gesprochenen Wortes, aber die Auswertung von Audioaufzeichnungen war mühsam. Viele Studenten oder Journalisten können ein Lied davon singen, dass die Transkription einer einzigen Stunde Audiomaterial mitunter einen ganzen Arbeitstag in Anspruch nimmt (die Auswertung des Materials noch gar nicht eingerechnet).
Mittlerweile gehört die Ära des mühsamen Abtippens der Vergangenheit an. Die Spracherkennung auf der Grundlage Künstlicher Intelligenz (KI) hat in kürzester Zeit rasante Fortschritte gemacht. Estland, bekannt für seine Offenheit gegenüber innovativen IT-Lösungen, verkündete kürzlich den Einsatz eines neuen KI-Systems, um die Stenografen im Parlament zu entlasten. Doch auch hier haben maschinelle Transkriptionen weiterhin lediglich eine Zuverlässigkeit von rund 95 %: Eine Kontrolle durch Menschen ist weiterhin unabdingbar.
Anwendungsfälle: Transkriptionen und Untertitel im Einsatz
Moderne Spracherkennung nimmt dem Menschen aber nicht einfach nur die zuweilen lästige Routinetätigkeit der Transkription ab. Sie eröffnet vielmehr neue Möglichkeiten für komplexe Content-Projekte, bei denen gesprochenes und geschriebenes Wort nahtlos ineinandergreifen.
Übersetzte Untertitel ermöglichen internationalen Teams über Sprachgrenzen hinweg die Arbeit mit gemeinsamen Videoinhalten. Kurzes Video-Messaging kann aufwändige E-Mails ersetzen, wenn eine Verschriftlichung bei Bedarf problemlos möglich ist.
Die folgenden fünf Beispiele illustrieren, wie Transkriptionen und Untertitel in mehreren Sprachen Teil umfangreicherer Projekte sein können:
- 1. Onlinekonferenzen: Wissenschaftler und Experten aus aller Welt kommen unter Pandemiebedingungen immer häufiger zu virtuellen Tagungen zusammen. Die Aufzeichnung der Konferenz kann gleichzeitig als Grundlage für eine anschließende Publikation dienen.
- 2. Videointerviews: Aufgezeichnete Experteninterviews sind ein hervorragendes Instrument, um Blogbeiträge, Expertenartikel oder Whitepaper vorzubereiten und Inhalte abzustimmen. Wenn alle Projektbeteiligten sich online zu kurzen Content Sessions zusammenfinden, kann das ein zeitintensives Briefing ersetzen, das zuvor erst über mehrere Abteilungen hinweg abgestimmt werden muss. Nachfragen können sofort geklärt werden.
- 3. Transkription zu SEO-Zwecken und Zweitverwertung: Möglicherweise haben Sie in Ihrem Unternehmen aber auch bereits Stunden an Videoinhalten produziert (etwa für Ihren YouTube-Kanal). Was liegt näher, als diese Schätze zu bergen, sprich: sie zu transkribieren und durch die schriftliche Form erst für die Textsuche von Google und Co. auffindbar zu machen? Ihr Video-Tutorial von gestern kann so mit verhältnismäßig geringem Aufwand zum Blogpost oder Whitepaper von morgen werden.
- 4. Marktforschung: Kunden in der ganzen Welt können per Videointerview in ihrer Muttersprache befragt werden, ohne dass Ihnen irgendwelche Reisekosten entstehen würden. Die so entstandenen Videos können per einfacher Transkription verschriftlicht oder mit übersetzten Untertiteln in jeder gewünschten Sprache versehen werden.
- 5. Produktion von Imagefilmen: Bei der Erstellung von Marketingvideos ist die Zusammenarbeit mehrsprachiger Teams heute Standard. Mit einem übersetzten Transkript inklusive Zeitmarken spielt die Sprachbarriere dabei keine entscheidende Rolle mehr.
Best Practices für Content-Projekte mit Transkriptionen und Untertiteln
Die schöne neue Welt der Spracherkennung kommt aber nicht ohne jegliche Tücken daher. Video- und Audioinhalte sind heute schnell produziert, doch wenn es an die Verarbeitung und Auswertung geht, kommt zuweilen das böse Erwachen:
Auch mit KI-Unterstützung sind Aufwand und Kosten für Transkription und Untertitel oft noch immens. Das bringt uns zur ersten unserer vier Best Practices für Content-Projekte mit Spracherkennung:
- Der Aufwand sollte nicht unterschätzt werden. Eine Stunde Audioinhalt kann mehrere Tausend Wörter gesprochener Sprache enthalten. Die Kosten der Transkription selbst sind durch moderne KI-Technologie stark zurückgegangen. Sollen diese Inhalte jedoch für einen Blogartikel ausgewertet oder zwecks Untertitelung übersetzt werden, ist menschliche statt künstlicher Intelligenz gefragt. Das kann die Kosten in die Höhe treiben, muss es aber nicht. Es hilft:
- Planung im Vorfeld. Definieren Sie die Ziele Ihres Content-Projekts, und produzieren Sie nur die Inhalte, die wirklich nötig sind. Beispiel Videointerview: Hier ist Zeit bares Geld. Auch wenn der Aufwand sehr individuell ist: Ein guter Richtwert für Experteninterviews zur Vorbereitung von Blogbeiträgen oder Whitepapers sind etwa 20 bis 30 Minuten. Nicht nur Ihr Experte wird es Ihnen danken, wenn sein Interview gut vorbereitet und der Fragenkatalog strukturiert ist. Bei allen weiteren Arbeitsschritten von der Verschriftlichung über die mögliche Übersetzung bis hin zur Auswertung des Interviews erzeugt jede zusätzliche Interviewminute zeitlichen und monetären Aufwand. Daher:
- Beziehen Sie möglichst alle Services aus einer Hand: Transkriptionen, Übersetzungen und Untertitel werden im Internet teils zu Dumpingpreisen angeboten. Sie laufen aber Gefahr am Ende dennoch draufzuzahlen, wenn Sie alle Dienstleistungen einzeln zum Niedrigstpreis vergeben. Denn die reine Transkriptions- oder Übersetzungsagentur bringt in der Regel nicht die redaktionelle Expertise zur Planung anspruchsvoller Textprojekte mit integrierter Spracherkennung mit. Schließlich helfen:
- Optimale Aufnahmebedingungen: Eine geräuscharme Umgebung und eine leistungsfähige Internetverbindung sind das A und O für Video- und Tonaufnahmen, die anschließend transkribiert werden sollen. Zusammen mit einer deutlichen Aussprache unterstützen sie die KI bei der Transkription und senken den menschlichen Aufwand bei der Korrektur erheblich. Wo immer möglich sollten auch starke Dialekte und Akzente vermieden werden, die ebenfalls Kostentreiber bei der Transkription von Inhalten darstellen können.
Fazit
Moderne Spracherkennung ermöglicht komplexe Textprojekte zu einem vergleichsweise geringen Preis, die noch vor wenigen Jahren mit einem ungleich höheren Aufwand verbunden waren. Durch Videokonferenzen entfallen Reisekosten für Interviews vollständig, und auch die Transkriptionskosten sind spürbar gesunken. Voll ausschöpfen lassen sich diese Vorteile am besten durch eine umfassende und ganzheitliche redaktionelle Betreuung von der Planung bis zur Umsetzung von Content-Projekten.