Trenutačno Sora može stvarati videoisječke u trajanju do jedne minute. Uz tekstualnu uputu (prompt) Sora može stvoriti visokokvalitetan videozapis, proširiti video unaprijed i unatrag. Može mijenjati i okolinu videozapisa i dodavati subjekte u video. također, iz njega može kreirati fotografiju kao i simulirati stvaran ili umjetni svijet igara. A ovo je tek početak…
Alat generativne umjetne inteligencije ChatGPT, koji može razgovarati poput ljudi, u trenutku isporučiti esej iz bilo kojeg područja, pisati stihove, obrazložiti složene pojave i procese na gotovo svim svjetskim jezicima i još mnogo toga, potpuno je osvojio mainstream publiku, unatoč svojim manama – lažima i halucinacijama.
DELL-E, pak, koji je potekao iz iste kuće, OpenAI-ja, pak, može na temelju tekstova generirati fotografije. A nedavno je Open AI predstavio i svoju novu uzdanicu Soru, koja može generirati realistične videouratke iz tekstova.
Sora nije prvi ovakav AI software
Nije OpenAI prvi na tržištu ponudio proizvod koji može iz teksta napraviti video. No, prema dosadašnjim recenzijama predstavljenih mogućnosti, izradili su, zasad, najbolji model. Postigli su to tehnikama koje stoje u pozadini ove umjetne inteligencije i surađuju kako bi stvorile realistične snimke, gotovo istovjetne onima kakve bi nastale videokamerom.
Zasad Soru može testirati tek nekolicina pouzdanih stručnjaka i kreativaca. Njihov je zadatak da prije njezina lansiranja u svijet istraže sve ranjivosti sustava na koje bi se moglo naići ili bi ih mogao pokazati. U OpenAI-ju također, i sami kažu da je riječ o modelu koji je još uvijek u razvoju. Priznaju da ima svojih nedostataka, poput primjerice toga da ne razumije najbolje uzrok i posljedicu. To da primjerice, kad netko u videu dopola pojede hamburger, on ga potom prikaže cjelovitim, upućuje na nedostatak.
Ipak, ono što su prikazali stručnjaci iz OpenAI -ja na svojim stranicama kao i u objašnjenjima, upućuje na to da će uskoro u primjeni biti vrlo dobar alat za kreiranje realističnih videa. Soru su tako, kažu, trenirali na velikoj skali koristeći videopodatke. Konkretno, usmjerili su se na treniranje difuzijskih modela koji su uvjetovani tekstom i koriste ‘sirove’ videe i slike različitih trajanja, rezolucija i omjera stranica. Obučena na takvim podacima, Sora je sposobna generirati i minutu visokokvalitetnog videa.
Novi ozbiljan iskorak
Ova inovacija napredak je u odnosu na dosadašnje pristupe generiranju slika i videa koji su često rezultirali promjenom veličine, rezanja ili skraćivanja videozapisa na standardnu veličinu, smatraju stručnjaci Sore. Napredak leži i u obuci na podacima pri njihovoj izvornoj veličini. Ovo omogućava fleksibilno uzorkovanje i brzo prototipiranje sadržaja u različitim veličinama i omjerima stranica. Dosadašnji pristupi stvaranju slika i videozapisa obično mijenjaju veličinu, obrežu ili skraćuju videozapise na standardnu veličinu – npr. videozapisi od 4 sekunde u razlučivosti 256×256. Upravo treniranje na izvornim podacima donijelo je prednosti Sori u tom dijelu.
Sora može generirati videozapise širokog zaslona 1920x1080p, okomite videozapise 1080X1920 i sve između. To Sori omogućuje stvaranje sadržaja za različite uređaje izravno u njihovim izvornim omjerima. Ujedno, ova nova metodologija poboljšava kompoziciju i okvir videozapisa. Usto može kreirati i fotografiju kao okvir iz videa.
Obuka sustava za generiranje teksta u video zahtijeva veliku količinu videozapisa s odgovarajućim tekstualnim opisima. Tu su Sorini kreatori primijenili tehniku ponovnog titlovanja, koju su već iskušali i na DALL·E-u 3.
Tržišna utakmica među alatima generativne umjetne inteligencije već je u punom zamahu
Prvo model obučavaju s pomoću detaljnijih opisa, koje potom koriste za tzv. ‘captione’. Vjeruju da obuka opsežnijim opisima poboljšava ukupnu kvalitetu videozapisa. Koriste i GPT za pretvaranje kratkih korisničkih upita u dulje detaljne opise koji se šalju videomodelu. To Sori omogućuje stvaranje videozapisa koji točno slijede korisničke upute.
Sora ne samo da može generirati videozapise prema tekstualnim uputama nego to može činiti i potaknuta drugim unosima, poput slika ili videa. Ove sposobnosti omogućavaju Sori obavljanje širokog spektra zadataka uređivanja slika i videa, uključujući animiranje statičkih slika i produljenje videozapisa unaprijed ili unatrag u vremenu. Sora također pokazuje sposobnosti u simulaciji različitih aspekata stvarnog svijeta, poput dinamičkog pokreta kamere te simulacije umjetnih procesa poput videoigara.
Ove značajke sugeriraju da će daljnje skaliranje modela videa otvoriti put prema razvoju visokokvalitetnih simulatora fizičkog i digitalnog svijeta. Ovime se otvaraju nove mogućnosti u područjima poput virtualne stvarnosti, animacije, filmske industrije i medicinske simulacije, smatraju u OpenAI-ju.
Tržišna utakmica među alatima generativne umjetne inteligencije već je u punom zamahu. Vjerojatno će oduševiti mnoge entuzijaste umjetne inteligencije. No nikako ne treba smetnuti s uma da nove tehnologije nailaze na ozbiljne probleme kad je riječ o dezinformacijama, jer osim u kreativne, mogu ‘pasti’ i u ruke manipulatora i zlikovaca. Broj stvorenih deepfakeova generiranih umjetnom inteligencijom porastao je u samo jednoj godini 900% prema podacima Clarityja. A kako alati postaju sve jednostavniji za korištenje i sve su dostupniji, dodatni rast je neminovan. Stoga ne čudi da su se lideri velikih tehnotvrtki odlučili, istina, dobrovoljno obvezati da će nastojati osigurati alate i’prokazivati’ one koji su umjetno stvoreni.