OpenAI má nový nástroj
Čaká na nás budúcnosť, v ktorej už viac nebudeme vedieť rozpoznať realitu od umelej inteligencie? Týmto smerom sa naozaj uberáme vďaka prelomovým krokom pri vývoji AI. Firmy ako Google, Microsoft a OpenAI stále posúvajú hranice toho, čo je možné. Dnes už to nie je len o generovaní textu pomocou veľkých jazykových modelov, ale aj o tvorbe audiovizuálnych médií.
Spomínaná spoločnosť OpenAI nedávno odhalila nový nástroj Sora, ktorý dokáže z jednoduchého napísaného textu vygenerovať realistické videá do dĺžky až jednej minúty. Od polovice februára, kedy bol AI nástroj predstavený, verejnosť netrpezlivo čaká na sprístupnenie na vlastné použitie. Sora bude verejne dostupná do konca roka 2024.
Novinka generuje hovorený hlas
Teraz prostredníctvom svojej oficiálnej stránky OpenAI oznamuje vznik ďalšieho mocného nástroja. Voice Engine dokáže generovať hovorenú reč z textu. Nástroju pritom stačí jeden 15-sekundový úryvok hlasu skutočného človeka, aby dôveryhodne napodobnil jeho hlas.
„Je pozoruhodné, že malý model dokáže z 15-sekundovej vzorky vytvoriť emotívne a realistické hlasy,“ píše OpenAI o svojom úspechu.
Nástroj Voice Engine spoločnosť vyvíja od konca roku 2022, pričom jeho súčasti už využíval ChatGPT vo svojich jednotlivých funkciách, kde AI komunikuje pomocou hlasu.
Generovanie hlasu pomocou umelej inteligencie je kontroverznou témou, najmä vďaka potenciálu na zneužitie. The Verge dal do pozornosti nedávny prípad z USA, kedy ľuďom telefonoval AI robot s hlasom prezidenta Joe Bidena a odhováral ich od účasti na voľbách. Takto „ukradnutý“ hlas môžu potenciálni útočníci zneužiť napríklad aj pri biometrickom hlasovom overovaní cez telefón, ktoré používajú mnohé banky.
Zatiaľ nie je verejne dostupný
Aj preto spoločnosť OpenAI Voice Engine zatiaľ nesprístupnila verejnosti. Nevylučuje však, že sa tak v najbližšej dobe stane: „Na základe malých testov uskutočníme informované rozhodnutie o tom, ako a či vôbec vydať túto technológiu,“ znie stanovisko firmy.
Technológiu zatiaľ sprístupnili vybraným partnerom, menovite vzdelávacej spoločnosti Age of Learning, platforme HeyGen či vývojárom softvérových riešení zameraných na zdravotníctvo Dimagi. Firmy využívajú Voice Engine napríklad na vytváranie nahrávok hlasu pre ich softvér, čo je jednoduchšie a flexibilnejšie ako organizovať nahrávanie v štúdiu s ozajstným človekom.
Voice Engine používajú aj reálnom čase. To znamená, že používateľ môže počas interakcie s aplikáciou dostať okamžitú odpoveď od AI chatbota nielen v textovej, ale aj zvukovej podobe. Technológiu taktiež možno využiť na živý preklad – nástroju môžete poskytnúť text napríklad v anglickom jazyku a on vám vygeneruje hovorenú reč v španielčine.
Nižšie si môžete vypočuť príklady využitia technológie poskytnuté spoločnosťou OpenAI.
1. Referencia (skutočný človek):
1. Generovaný hlas pomocou AI:
2. Referencia (skutočný človek):
2. Generovaný hlas pomocou AI:
3. Referencia (skutočný človek):
3. Generovaný hlas pomocou AI: