Pe Scurt
- OpenAI a anunțat lansarea unui nou model, Sora, care generează videoclipuri de înaltă definiție de până la un minut, pornind de la un text introductiv.
- Modelul nu va fi disponibil publicului larg în viitorul apropiat, fiind destinat în prezent unui grup restrâns de cercetători și academicieni.
- Sora poate genera scene complexe cu mai multe personaje, mișcări specifice și detalii precise ale subiectului și fundalului.
OpenAI prezintă Sora
OpenAI a anunțat joi lansarea lui Sora, un model nou care generează videoclipuri de înaltă definiție de până la un minut, pornind de la un text introductiv. Numele Sora, care înseamnă „cer” în japoneză, nu va fi disponibil publicului larg în viitorul apropiat.
Destinat cercetătorilor
În schimb, OpenAI îl pune la dispoziție unui grup mic de academicieni și cercetători. Aceștia vor evalua potențialul de rău și posibilitatea de utilizare abuzivă a modelului.
Capabilități ale modelului Sora
„Sora este capabil să genereze scene complexe cu mai multe personaje, tipuri specifice de mișcare și detalii precise ale subiectului și fundalului”, a declarat compania pe site-ul său. Modelul înțelege nu doar ceea ce utilizatorul a solicitat în textul introductiv, dar și modul în care aceste lucruri există în lumea fizică.
Exemple de videoclipuri generate
Unul dintre videoclipurile generate de Sora, pe care OpenAI l-a împărtășit pe site-ul său, arată un cuplu care se plimbă prin Tokyo, în timp ce petale de cireș și fulgi de zăpadă se învârt în jurul lor. Un alt videoclip arată mamuți cu blană groasă, care se plimbă printr-o pășune acoperită de zăpadă, cu munți acoperiți de zăpadă în fundal.
Funcționalitatea modelului Sora
OpenAI afirmă că modelul funcționează datorită „înțelegerii profunde a limbajului”, care îi permite să interpreteze corect textele introductive. Cu toate acestea, ca și toate generatoarele de imagini și videoclipuri bazate pe AI pe care le-am văzut până acum, Sora nu este perfect. Într-unul dintre exemple, textul introductiv, care cere un videoclip cu un dalmatian care se uită pe fereastră și oameni care se plimbă și merg cu bicicleta de-a lungul străzilor cu canale, omite complet oamenii și străzile din videoclip.
Alte modele de text-la-video
Sora nu este primul model de text-la-video. Alte companii, inclusiv Meta, Google și Runway, au prezentat instrumente de text-la-video sau le-au făcut disponibile publicului. Totuși, niciun alt instrument nu este în prezent capabil să genereze videoclipuri de până la 60 de secunde. Sora generează întregul videoclip o singură dată, în loc să le compună cadru cu cadru, ca alte modele, ceea ce asigură că subiectele din videoclip rămân aceleași chiar și atunci când ies temporar din vizualizare.
Preocupări legate de potențialul de falsificare
Creșterea instrumentelor de text-la-video a stârnit îngrijorări cu privire la potențialul lor de a crea mai ușor imagini false realiste. Oren Etzioni, profesor la Universitatea din Washington, specializat în inteligența artificială, și fondatorul True Media, o organizație care lucrează pentru a identifica dezinformarea în campaniile politice, a exprimat aceste temeri. Inteligența artificială generativă a stârnit și reacții negative din partea artiștilor și profesioniștilor creativi, îngrijorați de faptul că tehnologia ar putea fi folosită pentru a înlocui locurile de muncă.
Măsuri de precauție
OpenAI a declarat că lucrează cu experți în domenii precum dezinformarea, conținutul de ură și prejudecățile pentru a testa instrumentul înainte de a-l face disponibil publicului. Compania construiește și instrumente capabile să detecteze videoclipurile generate de Sora și să includă metadate în videoclipurile generate pentru o detecție mai ușoară. Compania a refuzat să divulge cum a fost antrenat Sora, menționând doar că au fost folosite atât „videoclipuri disponibile public”, cât și videoclipuri licențiate de la deținătorii de drepturi de autor.

