Die Medien- und Kommunikationsbranche bietet zahlreiche Use Cases, die es erfordern, Audio-Aufnahmen in Text umzuwandeln. Der PR- und Kommunikationsdienstleiter APA-Comm hat nun ein Speech-to-Text-Tool gelauncht, mit dem es gelingt, automatisiert Audio- und Video-Transkripte zu erstellen, Untertitel zu erzeugen, Übersetzungen zu generieren und kollaborativ am Transkript zu arbeiten. Das Tool erfüllt die Kriterien der APA in Bezug auf Trusted AI und wurde in die sichere Umgebung des PR-Desk integriert. Es fügt sich ab sofort neben Medienbeobachtungs‑, Distributions- und Recherche-Lösungen nahtlos in die APA-Comm-Services ein, die Kommunikationsprofis über die Plattform zur Verfügung stehen.
Fokus auf deutsch-österreichisches Sprachmodell und dessen Weiterentwicklung
Das deutsche Sprachmodell hat APA-Comm speziell für den österreichischen Markt entwickelt. Mit dem Ziel einer immer genaueren Spracherkennung wird das Modell ständig weiterentwickelt. APA-Comm selbst setzt das Speech-to-Text-Tool seit über einem Jahr für die Aufbereitung und Verarbeitung von multimedialen Inhalten im Bereich ihrer Medienbeobachtungslösungen für über 1.000 KundInnen ein. Bis zu 5.000 Sendestunden aus mehr als 40 Radio- und TV-Kanälen sowie Podcasts werden so monatlich mit dem Speech-to-Text-Tool verarbeitet. Neben Gesprochenem in Deutsch und Englisch werden 18 weitere Sprachen erkannt.
Ein Tool, viele Möglichkeiten
„Fortschritte in den Bereichen maschinellen Lernens und Künstlicher Intelligenz ermöglichen mittlerweile eine hohe Genauigkeit und Leistungsfähigkeit von Spracherkennungsmodellen“, erklärt Klemens Ganner, Geschäftsführer bei APA-Comm. „Die neue Speech-to-Text-Lösung liefert eine sehr gute Qualität bei den Auto-Transkript-Ergebnissen und bietet überall dort Mehrwert, wo Gesprochenes verschriftlicht wird“, so Ganner weiter.
Ob zur raschen Erstellung von Protokollen, zur schnellen und einfachen Transkription von Interviews oder gesprochenen Notizen, für eine bessere Durchsuchbarkeit von Audio- und Videoarchiven mittels automatisiert erstellten Texten oder zu SEO-Zwecken – die Sprach-Software bedient vielfältige Anwendungsfelder. User können zudem auf Knopfdruck Videomaterial mit Untertiteln versehen und so rasch Multimedia-Inhalte barrierefrei zur Verfügung stellen. Ein einfacher und intuitiv zu bedienender Editor bietet darüber hinaus die Möglichkeit zum kollaborativen Bearbeiten, Formatieren und Korrigieren. „Denn wie bei allen generativen KI-Modellen gilt es auch hier, das Ergebnis vor Verwendung nach Qualitätskriterien und inhaltlicher Korrektheit durch einen Menschen zu überprüfen”, sagt Ganner.