Podcasts

KI-unterstützte Produktion von Podcasts

Die Produktion eines guten Podcasts ist aufwendig. Schon das Einsprechen der Texte ist mühsam, ganz zu schweigen vom Schneiden und Mischen aller Materialien zu einer Sendung, die das Publikum bis zum Schluss spannend findet.

Module zum digitalen Kuratieren von Podcasts können den Produktionsprozess deutlich vereinfachen.

Synthetisierung von Podcast-Stimmen

Künstlich generierte Stimmen erzeugen auf Basis neuronaler Netze natürlich klingende Stimmen, die von menschlichen kaum zu unterscheiden sind, in mehreren Sprachen, sogar in Mundart oder Dialekt.

Anforderungen

Podcasts gehören zu den beliebtesten Forma­ten der Wissenskommunikation und viele Akteure in Bildung, Forschung, Kunst und Kultur haben schon einmal daran gedacht, eigene Podcasts anzubieten.

Meist fehlt es aber an Ressourcen für die Produktion. Schon das Schneiden und Mischen der Mate­rialien ist heraus­fordernd, wenn man nicht täglich mit solchen Arbeiten zu tun hat. Und Podcasts selber einzusprechen ist auch nicht jedermanns Sache.

Wie macht man es möglich, es mit minimalen Mitteln maximal bespielen können?

Lösungen

Wir haben ein einfaches Verfahren entwickelt, mit dem man hochwertige Podcasts auch ohne pro­fes­sionelle Sprecher:innen pro­du­zieren kann, mithilfe ki-unter­stützter Text-to-Speech (TTS-) Systeme, die Texte in nahezu allen Sprachen ein­sprechen. Man kann sie de­tailliert an­pas­sen, was Sprechstil, Sprech­ge­schwin­dig­keit, Betonung oder Laut­stärke betrifft. Sie liefern aber auch schon out of the box Stimmen, die man von menschlichen kaum unterscheiden kann.

Unsere Module erschließen über 80 Sprachen und 600 Stimmen, auf der Basis von professio­nellen TTS-Systemen wie Google Text-to-Speech, Microsoft Azure, Amazon Polly oder IBM Watson.