Puncte Cheie
Microsoft dezvăluie un nou instrument AI experimental
Microsoft Research Asia a prezentat un nou instrument AI experimental numit VASA-1.
Acesta poate lua o imagine statică a unei persoane sau un desen al uneia și un fișier audio existent pentru a crea o față vorbitoare realistă în timp real.
Instrumentul are capacitatea de a genera expresii faciale și mișcări ale capului pentru o imagine statică existentă și mișcările buzelor adecvate pentru a se potrivi cu un discurs sau o melodie.
Cercetătorii au încărcat o mulțime de exemple pe pagina proiectului și rezultatele par suficient de bune încât ar putea păcăli oamenii să creadă că sunt reale.
Potentialul de abuz al tehnologiei
Deși mișcările buzelor și ale capului din exemple ar putea părea încă un pic robotice și în afara sincronizării la o inspecție mai atentă, este clar că tehnologia ar putea fi folosită în mod abuziv pentru a crea cu ușurință și rapid videoclipuri deepfake ale unor persoane reale.
Cercetătorii sunt conștienți de acest potențial și au decis să nu lanseze „o demonstrație online, API, produs, detalii suplimentare de implementare sau orice oferte conexe” până când sunt siguri că tehnologia lor „va fi utilizată în mod responsabil și în conformitate cu reglementările adecvate”.
Nu au spus însă dacă intenționează să implementeze anumite măsuri de siguranță pentru a preveni utilizarea lor de către persoane cu intenții rele, cum ar fi pentru a crea pornografie deepfake sau campanii de dezinformare.
Beneficiile tehnologiei
Cercetătorii cred că tehnologia lor are o mulțime de beneficii, în ciuda potențialului său de abuz.
Au spus că poate fi folosită pentru a îmbunătăți echitatea educațională, precum și pentru a îmbunătăți accesibilitatea pentru cei cu provocări de comunicare, oferindu-le posibilitatea de a avea acces la un avatar care poate comunica pentru ei.
De asemenea, poate oferi companie și sprijin terapeutic celor care au nevoie, au spus ei, sugerând că VASA-1 ar putea fi utilizat în programe care oferă acces la personaje AI cu care oamenii pot vorbi.
Detalii despre instruirea instrumentului
Conform lucrării publicate odată cu anunțul, VASA-1 a fost instruit pe setul de date VoxCeleb2, care conține „peste 1 milion de enunțuri pentru 6.112 celebrități” extrase din videoclipuri de pe YouTube.
Deși instrumentul a fost instruit pe fețe reale, funcționează și pe fotografii artistice, cum ar fi Mona Lisa, pe care cercetătorii au combinat-o amuzant cu un fișier audio al interpretării virale a lui Anne Hathaway a melodiei Paparazzi a lui Lil Wayne.
Este atât de încântător, încât merită să te uiți, chiar dacă te îndoiești de ce bine poate face o tehnologie de acest gen.

