Generátor řeči VALL-E 2 dosahuje lidské úrovně, ale je příliš nebezpečný na to, aby byl vypuštěn ven

Výzkumníci společnosti Microsoft vyvinuli generátor umělé inteligence (AI), který dokáže napodobit lidské hlasy s takovou přesností, že je k nerozeznání od skutečného člověka. Tato technologie, s názvem VALL-E 2, je tak pokročilá, že její tvůrci se domnívají, že by představovala značné riziko zneužití, kdyby byla zpřístupněna veřejnosti.

V nedávné době došlo v oblasti umělé inteligence k významnému průlomu, když výzkumníci společnosti Microsoft oznámili vytvoření nového generátoru řeči, známého jako VALL-E 2. Tento inovativní nástroj slibuje schopnost přesvědčivě napodobit lidské hlasy s pomocí pouhých několika sekund zvukového záznamu. Tvůrci tvrdí, že kvalita generované řeči dosahuje takové úrovně, že ji lze srovnávat s lidským výkonem. Nicméně, kvůli potenciálnímu riziku zneužití, se rozhodli tuto technologii nezpřístupnit široké veřejnosti.

Schopnosti VALL-E 2 – přirozená a přesná řeč

VALL-E 2 je generátor převodu textu na řeč (TTS), který podle výzkumníků dokáže vytvořit přesnou a přirozenou řeč, jež je nerozeznatelná od skutečné lidské mluvy. Toto tvrzení bylo podloženo výzkumem, jehož výsledky byly publikovány 17. června na preprintovém serveru arXiv. V článku výzkumníci uvedli, že VALL-E 2 představuje milník v syntéze řeči a dosahuje úrovně srovnatelné s lidskou řečí i v případech, kdy se jedná o komplexní nebo repetitivní fráze.

Za úspěch vděčí technologiím Repetition Aware Sampling a Grouped Code Modeling

Jednou z klíčových vlastností, díky které je VALL-E 2 tak výjimečný, je funkce „Repetition Aware Sampling“. Tato funkce zlepšuje schopnost umělé inteligence převádět text na řeč tím, že se zabývá opakováním malých jazykových jednotek, známých jako tokeny, a zabraňuje nekonečným smyčkám zvuků nebo frází. Díky tomu je výsledná řeč plynulejší a přirozenější.

Dalším významným aspektem je „Grouped Code Modeling“, který zvyšuje efektivitu generování řeči tím, že snižuje délku sekvence zpracovávaných tokenů. To urychluje rychlost generování řeči a pomáhá zvládat obtíže spojené s dlouhými řetězci zvuků. Výzkumníci testovali schopnosti VALL-E 2 pomocí zvukových vzorků z řečových knihoven LibriSpeech a VCTK a zjistili, že tento systém překonává předchozí TTS systémy, pokud jde o přirozenost a podobnost s lidským hlasem.

Výzkumný projekt s omezeným přístupem

Přestože VALL-E 2 prokázal pozoruhodné schopnosti, výzkumníci zdůrazňují, že jeho kvalita závisí na délce a kvalitě řečových podnětů, stejně jako na okolních faktorech, jako je hluk v pozadí. Navzdory jeho potenciálu Microsoft rozhodl, že tato technologie nebude uvolněna pro veřejnost kvůli riziku zneužití. Obavy se týkají především klonování hlasu a tvorby deepfake, což jsou technologie, které mohou být využity k podvodům a dalším neetickým aktivitám.

Microsoft zdůraznil, že VALL-E 2 je čistě výzkumný projekt a momentálně neplánují jeho integraci do produktů nebo rozšíření přístupu pro veřejnost. Přesto výzkumníci naznačili, že tato technologie by mohla v budoucnu najít praktické využití v oblastech jako je vzdělávání, zábava, žurnalistika, přístupnost pro osoby se zdravotním postižením, překlady a chatboty. Upozornili však na nutnost zahrnutí protokolů, které by zajistily, že mluvčí schválí použití svého hlasu, a na potřebu detekce syntetizované řeči.

Etické a bezpečnostní otázky

Tento přístup k technologii generování řeči ukazuje, jak je důležité nejen inovovat, ale také zvážit etické a bezpečnostní aspekty těchto inovací. VALL-E 2 představuje významný krok vpřed v oblasti umělé inteligence a syntézy řeči, avšak jeho vývojáři si uvědomují potenciální nebezpečí spojené s jeho používáním. Zodpovědný přístup k této technologii je klíčový pro zajištění, že bude využívána pro dobro společnosti, aniž by se stala nástrojem pro škodlivé účely.

Budoucnost technologie generování řeči

VALL-E 2 je fascinujícím příkladem toho, co může být dosaženo díky pokročilým algoritmům a technologiím umělé inteligence. Jeho schopnost přesvědčivě napodobit lidské hlasy otevírá nové možnosti v mnoha oblastech, avšak zároveň vyžaduje pečlivé zvážení etických a bezpečnostních otázek. Budoucnost ukáže, jakým způsobem bude tato technologie integrována do našich životů a jakým způsobem budou výzkumníci a společnosti jako Microsoft pokračovat ve vývoji těchto pokročilých systémů.

Zdroj: https://www.livescience.com/technology/artificial-intelligence/ai-speech-generator-reaches-human-parity-but-its-too-dangerous-to-release-scientists-say

Foto: pixabay / broneartum

Zdroj: google.com, instagram.com, pixabay.com, shutterstock.com