Microsoft je razvio novu verziju svog jezičnog modela neuronskih kodeka, Vall-E 2, koja za sada neće biti dostupna široj javnosti.
Umjetna inteligencija postaje sve uvjerljivija, a tvrtke poput OpenAI-ja stvaraju alate koji mogu vjerno replicirati slike, zvuk i video. Microsoft je stvorio alat koji je toliko napredan da su odlučili odgoditi njegovo puštanje u javnost.
Vall-E 2, detaljno opisan na službenom blogu Microsofta, postiže ‘ljudski paritet’. Što znači da njegovi odgovori zvuče kao da dolaze od stvarnih ljudi.
Ova verzija rješava problem beskonačnih petlji, koje su bile prisutne u prethodnoj verziji, pri obradi ponavljajućih tokena. Vall-E 2 može dekodirati uzorke s ponavljajućim tokenima i skraćuje duljinu sekvenci grupiranjem kodeka. Što ubrzava interferencije i rješava probleme modeliranja dugih sekvenci. Time postiže ljudski paritet u kategorijama poput prirodnosti i sličnosti govora.
‘VALL-E 2 može generirati točan, prirodan govor u glasu izvornog govornika, usporediv s ljudskom izvedbom,’ navodi Microsoft.
Zbog velike mogućnosti zloruporabe, Microsoft je predstavio primjere gdje Vall-E 2 uzima uzorak snimke glasa i replicira ga s novim tekstom. Model može dovršiti rečenice nakon što su mu dani segmenti snimke od tri, pet i 10 sekundi, pokazujući sposobnost repliciranja glasa s vrlo kratkim uzorkom.
Iako Vall-E 2 još uvijek ima neke nedostatke, poput netočnog izgovora i zamuckivanja, napredak je očigledan. Microsoft je svjestan potencijalne opasnosti od zlonamjerne uporabe ovog modela, poput lažnog predstavljanja poznatih osoba.
Model je namijenjen korisnicima koji daju pristanak za replikaciju njihovog glasa. A također bi trebao imati protokol za provjeru pristanka prije obrade zahtjeva. Trenutno takav protokol ne postoji. Što je vjerojatno razlog zašto Microsoft još ne planira ponuditi Vall-E 2 široj javnosti, piše tportal.