Postignuti značajni rezultati u oblasti konverzije govora i promene stila govora


Citaj mi

 

AlfaNumov tim tokom prošle i ove godine intenzivno radi na inovaciji koja se odnosi na mogućnost sinteze govora drugačijih karakteristika ukoliko je na raspolaganju:

  1. kvalitetan akustički model, odnosno, sinteza govora polaznih karakteristika;
  2. mali uzorak govora (od nekoliko sekundi do nekoliko minuta) drugačijih karakteristika.

Rezultati se mogu poslušati:

Uzorak originalnog govora Donalda Trampa:

Sintetizovani Trampov glas izgovara tekst:

Sintetizovani Obamin glas izgovara Trampov tekst:

 

Promena karakteristika govora odnosi se na:

  • Promenu identiteta govornika (početni akustički model odgovara glasu jednog govornika, a nakon konverzije dobija se glas nekog drugog govornika).
  • Promenu stila govora (početni akustički model odnosi se na neutralni stil govora, a nakon konverzije dobija se, primera radi, ekspresivan stil koji izražava neku od emocija – radost, ljutnja i sl.)

Primeri promene stila govora:

 

Mogućnosti primene ovih inovacija su ogromne. Pre svega, one omogućuju generisanje novih TTS glasova. Naime, cena proizvodnje jednog TTS glasa veoma je velika, što se vidi i po tome što čak i najveće kompanije iz ove oblasti nemaju više od nekoliko glasova po jeziku, a za "manje" jezike najčešće samo po jedan glas. Sa druge strane, potreba za različitim TTS glasovima definitivno postoji – u interaktivnim govornim sistemima, video-igrama, aplikacijama za čitanje knjiga, audio-udžbenicima... Pored toga, postoji potreba i za adaptacijom sinteze na glas samog korisnika (za čitanje poruka sa društvenih mreža, IM i e-mail poruka, kao i pri korišćenju aplikacija za prevođenje govora) ili na glas neke druge osobe (u sinhronizaciji filmova korišćenjem glasova originalnih glumaca)

Objavljeno 15.06.2017.