La nuova intelligenza artificiale di DeepMind prende qualsiasi video e crea musica e suoni da zero

La nuova intelligenza artificiale di DeepMind prende qualsiasi video e crea musica e suoni da zero – .

Dopo i video generati con l’Intelligenza Artificiale, arriva anche quello modello in grado di creare la colonna sonora, in base ad una richiesta dell’utente. DeepMind ha infatti annunciato i progressi compiuti su un modello Video to Audio o V2A, che utilizza l’analisi del contenuto video per generare la traccia audio di accompagnamento, utilizzando opzionalmente un messaggio di testo come guida per avvicinare il risultato all’idea dell’utente. DeepMind ha pubblicato alcuni video delle potenzialità della sua tecnologia e alcuni sono davvero sorprendenti, come questo:

Tramite il prompt “un batterista sul palco di un concerto circondato dalle luci e dalle grida del pubblico“, il modello non solo creava il suono della batteria, ma lo sincronizzava perfettamente con i movimenti delle bacchette del musicista con un risultato più che credibile.

In quest’altro esempio, la modella è in grado di distinguere i cambi di telecamera e creare la musica mantenendo l’effetto basato sul suggerimento che richiedeva musica cinematografica per atmosfere horror.

Il sistema utilizza un modello di “diffusione”, che produce audio partendo da rumore casuale attraverso iterazioni successive utilizzando come input una rappresentazione opportunamente compressa del video ed eventualmente il prompt testuale. La differenza rispetto ad altri modelli è proprio che la soluzione di DeepMind è in grado di “capire” i pixel e quindi produrre audio anche senza input testuale. In ogni caso il suggerimento può essere positivo, cioè suggerendo il risultato da ottenere, oppure negativo, cioè volto a specificare le caratteristiche indesiderate.

DeepMind specifica che c’è ancora del lavoro da fare. La qualità audio, ad esempio, è influenzata dalla qualità video: se sono presenti artefatti o rumore su cui il modello non è stato addestrato, la qualità del suono viene influenzata in modo significativo. Inoltre, c’è ancora del lavoro da fare nel caso dei video che raffigurano soggetti che parlano con la sincronizzazione labiale del dialogo.