Puncte Cheie
Google DeepMind dezvoltă tehnologie pentru generarea coloanelor sonore
Google’s DeepMind, laboratorul de inteligență artificială, lucrează la o nouă tehnologie care poate genera coloane sonore și chiar dialoguri pentru videoclipuri.
Echipa a împărtășit progresul realizat în proiectul de tehnologie video-la-audio (V2A), care poate fi combinat cu Google Veo și alte instrumente de creare a videoclipurilor, cum ar fi Sora de la OpenAI.
În postarea de pe blog, echipa DeepMind explică faptul că sistemul poate înțelege pixelii bruti și poate combina aceste informații cu prompturile text pentru a crea efecte sonore pentru ceea ce se întâmplă pe ecran.
De asemenea, instrumentul poate fi utilizat pentru a face coloane sonore pentru filmări tradiționale, cum ar fi filmele mute și orice alt videoclip fără sunet.
Tehnologia a fost instruită cu videoclipuri și audio
Cercetătorii DeepMind au instruit tehnologia cu videoclipuri, audio și adnotări generate de AI care conțin descrieri detaliate ale sunetelor și transcrieri ale dialogurilor.
Au declarat că, făcând acest lucru, tehnologia a învățat să asocieze sunete specifice cu scenele vizuale.
Cum notează TechCrunch, echipa DeepMind nu este prima care lansează un instrument AI care poate genera efecte sonore – ElevenLabs a lansat unul recent – și nu va fi ultima.
„Cercetarea noastră se distinge de soluțiile existente de video-la-audio deoarece poate înțelege pixelii bruti și adăugarea unui prompt text este opțională”, scrie echipa.
Deși promptul text este opțional, acesta poate fi utilizat pentru a modela și a rafina produsul final astfel încât să fie cât mai precis și realist posibil.
Poți introduce prompturi pozitive pentru a direcționa producția către crearea sunetelor pe care le dorești, de exemplu, sau prompturi negative pentru a o îndepărta de sunetele pe care nu le dorești.
Cercetătorii recunosc că încă încearcă să abordeze limitările existente ale tehnologiei lor V2A, cum ar fi scăderea calității audio a producției care poate apărea dacă există distorsiuni în videoclipul sursă.
De asemenea, ei încă lucrează la îmbunătățirea sincronizării buzelor pentru dialogul generat.
În plus, ei promit să supună tehnologia unor „evaluări și teste riguroase de siguranță” înainte de a o lansa în lume.

