Protože audionahrávky tvoří významnou část našich zakázek, rozhodli jsme se je trochu blíže představit spolu s Davidem Heiderem, majitelem našeho partnerského nahrávacího studia. Ve volném rozhovoru se řeč brzy stočila na téma, které je v současnosti velmi diskutované – umělou inteligenci a možnosti jejího využití v hlasových službách.

Davide, odkdy vůbec fungujete na trhu?

Naše nahrávací studio začalo nabízet své služby v roce 1999. Začínalo čistě jako hudební studio, dělali jsme desky, produkci, ale v průběhu času, zhruba kolem roku 2005-6 se začalo ozývat stále více korporátních zájemců o hlasové služby. Tehdy jsme udělali strategické rozhodnutí, že zrušíme, nebo spíše pozastavíme služby pro hudbu a hudební produkci a začali jsme se specializovat na mluvené slovo. A to je to, co nabízíme stále, protože je o něj největší zájem.

Co konkrétně si můžeme pod touto specializací představit?

Služby v oblasti mluveného slova bych rozdělil na dva různé světy, které ale mají průniky. Tím prvním je svět „korporátní“ a nahrávání materiálů pro interní účely – tedy především e-learning. Patří sem i různé formy lokalizací interních systémů v daných firmách. To mohou být buď školicí materiály, nebo různé webové platformy, které také mohou mluvit. Nebo třeba automatické operátorky v telefonu, navigace, a podobně. Zkrátka různé aplikace, kde musíme stříhat zvuk třeba i po jednom slovu nebo dokonce po slabikách a nějaký systém pak dává dohromady věty a celá sdělení.  

Druhý svět se blíží uměleckému projevu a patří sem například audioknihy, různé průvodce, po hradech, galeriích a muzeích, ale i třeba reklama a různá propagační videa. Děláme totiž i video. Od toho prvního světa se liší v tom, že zde nejde jen o předávání obsahu ale spíše jakési formy, která má být atraktivní, protože je potřeba posluchače zaujmout. Potřebujeme zde tedy někoho, kdo má umělecký projev a dokáže pracovat s hlasem.  Vlastně shrnu-li to stručně, ten první svět má primární cíl informovat, a když to řeknu trochu vyhroceně, tak uživatel nemá moc na výběr, protože většinou poslouchat musí. Cílem toho druhého je nějakým způsobem posluchače nalákat, a to nejen obsahem, ale i formou.

To mě nutně přivádí ke zvědavé otázce: vidíš zde prostor pro umělou inteligenci? V tom prvním světě mi připadá, že možná ano… 

Přesně tak. Umím si ji dobře představit v tom prvním světe, v tom druhém pro ni alespoň zatím vidím minimum příležitostí. Třeba u audioknih, což je dlouhý text, by si člověk řekl, že to je přesně téma pro AI… jenomže knížka namluvená AI se nedá moc dlouho poslouchat. U průvodců, tam je to otázka, hodně záleží, jak si klient přeje, aby to vyznělo… Ale obecně si myslím, že je dobře, že přišla, je to úžasný nástroj a má své nesporné výhody. Pro nás třeba, že nemusíme kontaktovat mluvčího a složitě dohadovat termín, a že je kdykoliv k dispozici. Ale to neznamená, že je to s ní bez práce, což bych chtěl zdůraznit.

Pracujete s ní tedy?

Ano. Jedna z našich služeb je právě příprava a produkce zvuku pomocí umělé inteligence. Má ovšem také svoje „ale“.  

Například?

U většiny jazyků stále ještě působí ten hlas řekněme uměle nebo nudně zejména po delším poslouchání.

 Ona asi nedokáže intonovat, ne?

Většinou intonovat umí, ale bohužel stereotypně, což je dost problém. Neumí klást důraz na jádro sdělení jako člověk. A když ji posloucháš, dostaneš do ucha ten opakující se stereotyp a začne tě časem iritovat, máš pocit, že je to vlastně jen „copy-paste“. U angličtiny si myslím, že je to výrazně nejlepší, tam mám pocit, že dokáže pracovat i s variabilní intonací a vlastně ten hlas působí velice přirozeně živě, ale u „neangličtin“ nás čeká ještě nějaká cesta, než se tak stane. Zatím tam ta „umělohmotnost“ pořád je.

Přečíst češtinu tak, že to bude uchu lahodit, aniž by se strávila spousta času přípravou a postprodukcí, jsem ještě asi neslyšel. Možná to je moje profesionální deformace, že to tam hned zaregistruji, a třeba u angličtiny zase možná nemám to ucho, ale tam mi výsledky připadají špičkové… Jinak záleží hlavně na kontextu účelu daného produktu a na klientovi, jak chce, aby jeho produkt na posluchače působil.  

Ještě nějaká nevýhoda umělé inteligence?

Ještě druhá věc a ta si myslím, že je vážnější, a zejména právě u e-learningů. Jak to bývá u celé AI, i u hlasu kvalita výstupu záleží na kvalitě vstupu. To znamená, že podle toho, jaké do vyhledávače dáme heslo nebo jak naprogramujeme chat GPT, nebo na co se ho zeptáme, takové pak dostáváme výstupy. Podobně i v tom hlase si myslím že je třeba vždycky, a to podtrhuji, ten text správně připravit. Třeba umělá inteligence nečte správně všechny zkratky tak, jak se v dané firemní kultuře čtou. Každá firma má určitý firemní žargon nebo určité navyklé klima a to umělá inteligence nezohlední. Týká se to i různých názvů produktů, nebo třeba místních názvů a cizích slov. Třeba v angličtině máme francouzský název. Má ho číst francouzsky nebo anglicky?

A jak je to správně?

To přeci u vnitrofiremních dokumentů vědí jenom lidé z té firmy, na to neexistuje ustálené pravidlo. Posluchači jsou insideři, to znamená, že to většinou ví. A korporáty potřebují být konzistentní, protože jinak to jejich uším zní strašně cize. Někdy to třeba čtou i chybně, ať už foneticky nebo z hlediska názvu, ale zkrátka je to tam tak zaužívané a měli bychom to respektovat. 

Je ještě nějaké další „ale“ AI?

Není příliš výhodná pro jednorázové zakázky, kde se musí seznámit se zkratkami a dalšími specifiky. Ne že by byla nevhodná, ale vyžaduje tolik úprav a oprav, že finální cena vyjde podobně jako použití klasického voiceoveru. Musíme vytvořit seznam výslovnosti – tzv. pronunciation guide. Anebo nějak upravit text, aby ho četla dobře. To je docela časově náročné, takže je to potom velmi nevýhodný způsob řešení jednorázového projektu. Navíc po AI ještě děláme tzv. proof-listening, tedy kontrolní poslech.  

Po lidských mluvčích ho neděláte?

Když jsme u nahrávání kromě mluvčího dva, tak už ho neděláme, protože vše slyšíme při nahrávání. Tedy kromě jazyků, kterým nerozumíme, třeba asijských.  Ale v případě umělé inteligence dopředu nevíme, co zná a umí přečíst. Dám ti příklad – vezmi si třeba jednotku „megapascal“. Máme tam zkratku MPa a ona nám to může přečíst jako „em-pé-á“, což je pro technického člověka úplný nesmysl. Takže my potom musíme vymyslet, jak ji přesvědčit, aby to přečetla správně jako megapascal.

Občas se i děje, že projedeme nahrávku, podle toho, co víme, nám připadá správně, ale pak tam stejně klient najde něco, co třeba neodpovídá jeho firemní kultuře.  A jak jsem již řekl – záleží i na jazyku, obecně malé jazyky jsou problematické, včetně češtiny a slovenštiny. Proto si myslím, že i když je AI v určitých informativních textech rozhodně užitečný nástroj, který může práci zrychlit i zlevnit, a velmi rád ho často i doporučím, v rukou nezkušeného uživatele se může chovat nepředvídatelně a vytvořený produkt tak způsobí spíše zklamání než nadšení z ušetřených prostředků.

Takže na audionahrávky informativních textů umělou inteligenci používáte běžně?

Běžně se nedá říct. Zatím klienti stále víc využívají klasického voice-overu z určitého možná konzervativismu ale čas od času dodáváme i výstup umělé inteligence, protože jak už jsem řekl, nabízíme oboje.

Je tam nějaký finanční rozdíl?

Je. S využitím umělé inteligence vyjde cena zhruba na polovinu nebo dvě třetiny, protože v procesu nefigurují mluvčí. 

Přesto mají pořád klienti větší zájem o audinahrávky, namluvené lidským hlasem?

Přesně tak. Ale myslím si, že je to jenom otázka času, že to je jen přirozená nedůvěra vůči novým věcem, protože pro některé typy textů může být profesionálně zpracované použití AI skutečně přínosné. 

Stává se vám i opak, tedy že klienti chtějí použít AI, aby ušetřili, ale na nahrávce, která pro ni není vhodná, a vy jim to musíte vymlouvat?

Ano. Tam jsou takové dva póly, které jdou proti sobě. Na jednu stranu my jsme garanti kvality, a pokud máme vážnou a oprávněnou pochybnost o tom, že tohle řešení vede ke správnému výsledku, tak bychom to měli říct. Ale proti tomu zase chápu, že klient potřebuje osobní zkušenost. Moje reakce se vždycky skládá z obou těchto pólů. Takže se nejdřív snažím upozornit na to v duchu „abyste nebyli zklamaní, protože osobně si myslím, že na tenhle konkrétní projekt AI není vhodné.“ Když mám pocit, že jsem to všechno popsal, tak je už nechám být, protože rozhodnutí je na nich a já neznám přesně potřeby klienta. Někdy ani klient pořádně neví a potom to s ním hledám.  

Děkuji Davide za strašně zajímavé povídání o AI v hlasových službách. Je toho ještě mnoho, na co jsem se chtěla zeptat ohledně audionahrávek, procesu nahrávání, výběru mluvčích a dalších podrobností, které by jistě naše klienty zajímaly, takže to vidím, že se časem k tomuto tématu ještě musíme vrátit.