VOX-OVER

Unser Distr@l Forschungsprojekt startet!

distr@l digitales hessen

Distr@l Machbarkeitsstudie zum professionellen Einsatz von mittels KI erzeugten deutschen Sprecherstimmen in der Medienproduktion

Wir freuen uns, dass am 1.9.2024 unser Distr@l Forschungsprojekt startet!
Das Projekt wird durch das Förderprogramm Distr@l des Hessischen Ministeriums für Digitalisierung und Innovation unterstützt und gefördert.

Das Projekt wird von den beiden Verbundpartnern VOX-OVER und ADACOR durchgeführt.

VOX-OVER ist Experte im Bereich Sprachproduktion für hochwertige Medienproduktionen im Bereich Film- und Hörbuchvertonung, E-Learning, etc und bringt Expertise rund um die Themen Audio, Tonaufnahmen, Sprache, Sprachfärbungen, Tonalität in das Verbundprojekt ein.

ADACOR ist Cloud-Service-Provider und Experte für die Implementierung und dem Betrieb moderner Anwendungen und Cloud-Infrastrukturen.
ADACOR bringt die Expertise rund um die Themen KI-Infrastruktur, Programmierung und Daten in das Projekt ein.

Die künftigen Potenziale von KI-erzeugter Sprache sind enorm. Einfache Korrekturen, Aktualisierungen, Erstellung kompletter Inhalte auf Knopfdruck, Integration von Terminologie- und Aussprachedatenbanken, Auswahl von Sprecher:innen und vieles mehr, lassen den Wunsch nach professioneller Umsetzung und Nutzung stetig wachsen.

Mit der durch Chat-GPT bekannt gewordenen Transformer Technologie besteht die Möglichkeit künstlich erzeugte Sprache in einer vollkommen neuen Qualität zu erzeugen. Hier entsteht ein Potential für den Einsatz in professionellen Medienproduktionen, in der gezielten Kundenansprache und neue Anwendungen in der Barrierefreiheit.

Problem: Die bereits vorhandenen Modelle sind bisher nicht für die deutsche Sprache hinsichtlich Aussprache, Emotionen, Untertöne, Dialekte und Färbungen konsistent, zuverlässig und in ausreichender Qualität für hochwertige Anwendungen geeignet. Hier setzen wir an.

Das Interesse und der Bedarf an mittels KI erzeugter Sprache für Medienproduktionen und zur Kundenansprache wächst aktuell exponentiell. Bei zahlreichen Anwendungen wird die bisher durch professionelle Sprecher gesprochene Sprache, künftig durch Voicecloning ersetzt. Grundvoraussetzungen hierfür sind die Qualität, Akzeptanz, sowie die Berücksichtigung von Datenschutz, Informations- u. Cyberrisikoaspekten.

Im Rahmen der Machbarkeitsstudie wollen wir daher in Form eines Proof of Concepts folgende Punkte überprüfen:
Ist die Entwicklung eines deutschen Sprachkorpus zum Training von Transformer-Modellen für hochwertige Medienproduktionen möglich?
Sind die führenden Transformer-Audio-Modelle (SpeechT5, Bark, MMS) für den neuen Sprachkorpus qualitativ geeignet?
Sind die künstlich erzeugten Stimmen für die beschriebenen Einsatzfelder qualitativ überzeugend und welche weiteren Potentiale und Risiken ergeben sich hieraus?

Unser Ziel ist es, eine Plattform zu schaffen, die neben den sprachlichen und rechtlichen auch die technischen Anforderungen der professionellen Audio-Postproduktion berücksichtigt.

record audio with the touch of a button
distr@l digitales hessen
Abonnieren
Top Beitrag
Autoren
Trevor Hurst

Gründungsmitglied von VOX-OVER. Vertieft in Netflix-Style E-Learnings. Mehrsprachig von Kindesbeinen an.

WEITERE POSTS

Perfekte Voice-Over, erfolgreiches Projekt.