FUN-Media consentirà comunicazioni multimediali immersive in rete di nuova generazione, garantendo la QoE attesa, permettendo comunicazioni empatiche, fornendo una reale sensazione di presenza, assicurando i contenuti attesi e l’autenticità dell’utente. Ciò è possibile grazie ai progressi tecnologici nel campo dei gemelli digitali, delle comunicazioni multimodali e multisensoriali, dell’interazione audio/acustica con l’utente, della distribuzione consapevole della QoE di contenuti affidabili, della generazione di media e delle rappresentazioni per esseri umani e macchine.

FUN-MEDIA fa parte dello Spoke 4 – Programmable Networks for Future Services and Media

PI di progetto: Enrico Magli

Sono stati compiuti progressi tecnici in diverse aree, tra cui:
  • gestione del progetto e acquisti per il Laboratorio Spoke
  • algoritmi di metronomo adattivo e occultamento della perdita di pacchetti per mitigare l'impatto della latenza
  • metodi per rilevare la manipolazione dell'audio
  • studio dell'impatto della compressione e degli artefatti di trasmissione su nuvole di punti dinamiche e dense con test soggettivi per esplorare la QoE degli utenti con diverse combinazioni di degrado (compressione e perdita di pacchetti)
  • controllo del movimento QoE-aware di uno sciame di droni per la videosorveglianza
  • studio dell'effetto dell'adozione della realtà aumentata e virtuale sulla qualità percepita dall'utente
  • previsione del viewport basata sull'apprendimento
  • schemi di compressione basati sull'apprendimento e su modelli di diffusione
  • metodi per la sparsificazione e la quantizzazione delle reti
  • compressione di nuvole di punti e campi di luce
  • un approccio all'apprendimento continuo federato asincrono
  • definizione dell'Human CyberTwin per supportare la gestione della QoE
  • biometria e tecniche di compressione correlate.
Il progetto ha già generato diversi risultati pratici, molti dei quali sono stati consolidati in pubblicazioni scientifiche.

Tra questi vi sono:
  • un metodo di compressione e trasmissione content-aware per i dati Lidar del settore automobilistico
  • un metodo di apprendimento continuo per la segmentazione semantica delle immagini
  • metodi per il rilevamento del parlato sintetico e manipolato
  • un metodo per il rilevamento di deepfake
  • un metodo per la previsione del viewport
  • un metodo di apprendimento continuo federato
  • uno studio sull'impatto della VR sull'attenzione degli utenti
  • valutazione dello stress per AR basata sui movimenti della testa identificazione del segnale sensoriale principale nella realtà virtuale multimediale
  • un set di dati VR per studi di rete e QoE
  • un set di dati multimodali aerei con misurazioni di rete e dati di percezione
Si prevede che molti di questi metodi porteranno a tecnologie sfruttabili dall'industria nel corso del progetto, poiché i relativi casi d'uso sono stati scelti in modo tale da essere rilevanti per il mercato.

I risultati più significativi finora ottenuti nel campo dell'elaborazione audio sono i seguenti

1) Immersive Networked Music Performance basata su 5G. Un risultato significativo è l'esplorazione dell'integrazione della tecnologia 5G nelle Networked Music Performance (NMP), evidenziando la necessità di integrazione audio immersiva e tecnologie di comunicazione a bassa latenza e alta affidabilità. Sono state introdotte due nuove architetture (embedded computing ed elaborazione basata su MEC) e progettate per soddisfare i severi requisiti delle NMP immersive, sfruttando le capacità delle reti 5G, tra cui SDN, MEC e network slicing. Questi risultati offrono soluzioni promettenti per abilitare performance musicali immersive e remote su reti 5G, aprendo la strada a forme di collaborazione musicale più accessibili e innovative.

2) Metodi ibridi di occultamento della perdita di pacchetti. Un altro risultato significativo è lo sviluppo di metodi innovativi di occultamento della perdita di pacchetti specificamente progettati sia per segnali musicali che vocali in applicazioni interattive remote. Questi metodi avanzati presentano una struttura parallela che combina un ramo di codificatore predittivo lineare (LPC) con un ramo di rete neurale (NN). Questo duplice approccio sfrutta sia l'elaborazione del segnale tradizionale che le tecniche di apprendimento automatico. Nel caso dei segnali musicali, questi metodi hanno mostrato prestazioni superiori rispetto alle soluzioni all'avanguardia, rappresentando un significativo passo avanti nel campo. Questi metodi sono particolarmente promettenti per il loro potenziale di integrazione senza soluzione di continuità nelle applicazioni di interazione remota. Se implementati correttamente, possono migliorare notevolmente la qualità audio, anche se utilizzati con configurazioni a basso costo, rendendo le esperienze audio di alta qualità più accessibili su varie piattaforme e ambienti.

3) Rete neurale informata dalla fisica per audio volumetrico. Abbiamo introdotto un nuovo approccio per la ricostruzione del campo sonoro volumetrico utilizzando reti neurali informate dalla fisica (PINN). Questo approccio consente di integrare l'equazione delle onde fisiche direttamente nella rete neurale, consentendo al modello di ricostruire i campi sonori con elevata precisione anche quando si utilizzano meno microfoni e architetture leggere. Questa tecnologia è particolarmente rilevante per le applicazioni 6 Degrees of Freedom (6DoF), in cui gli utenti possono muoversi liberamente in uno spazio 3D e sperimentare il suono da diverse prospettive. Ricostruire i campi sonori con meno microfoni riduce i costi delle apparecchiature in campi come VR, AR e produzione audio. Con la crescita delle esperienze 6DoF, questa tecnologia può attrarre nuovi pubblici alla musica classica e ad altre aree culturali attraverso paesaggi sonori immersivi e interattivi. I PINN consentono anche la conservazione digitale di un'acustica unica da siti storici, come le sale da concerto, consentendo di archiviare e ricreare i loro ambienti sonori in spazi virtuali, preservando il patrimonio musicale anche se le strutture fisiche cambiano.

I risultati più significativi nel campo del networking e della sicurezza dei media sono i seguenti:

1) È stato progettato un nuovo algoritmo basato sul controllo predittivo del modello non lineare per controllare e coordinare il movimento di uno sciame di droni che trasmettono in streaming a una stazione di controllo a terra i video catturati dalle telecamere di bordo rivolte verso il basso per pattugliare un'area specifica seguendo un percorso desiderato. Per migliorare la consapevolezza della situazione, l'algoritmo proposto coordina lo sciame in modo tale che
  • 1) il campo visivo delle telecamere si sovrapponga di una determinata percentuale per consentire operazioni di stitching video presso il GCS;
  • 2) il movimento dei droni reagisca alle variazioni della larghezza di banda della rete in modo da migliorare la qualità visiva dei video ricevuti. Per quanto riguarda l'impatto sociale, sosteniamo che la soluzione proposta può migliorare le capacità di sicurezza e sorveglianza, consentendo un pattugliamento efficiente di ampie aree con applicazioni pertinenti come la risposta ai disastri, il monitoraggio urbano, migliorando così la sicurezza e i tempi di risposta. Dal punto di vista dell'impatto economico, la soluzione consente di ridurre i costi associati alla sorveglianza e al pattugliamento manuali, poiché è necessario meno personale per monitorare zone ampie o pericolose. Inoltre, apre nuove opportunità per le industrie che si affidano alla tecnologia dei droni, tra cui citiamo l'agricoltura di precisione, dove la copertura del campo e i dati in tempo reale possono migliorare la produttività e i processi decisionali.
2) Uno dei risultati significativi del progetto è lo sviluppo di un'innovativa tecnica di rilevamento e localizzazione dell'audio splicing basata sulle tracce del dispositivo di acquisizione. Questa tecnica affronta la crescente preoccupazione della manipolazione audio, in particolare attraverso l'unione di segmenti vocali da diverse fonti per creare contenuti falsi o fuorvianti. Concentrandosi sulle tracce uniche lasciate da diversi dispositivi di registrazione, il metodo utilizza una rete neurale convoluzionale (CNN) per estrarre caratteristiche specifiche del modello, consentendo l'individuazione e la localizzazione dei segmenti uniti. L'impatto di questo risultato è significativo sia a livello sociale che economico. A livello sociale, rafforza la lotta contro la disinformazione e le falsificazioni basate sull'audio, proteggendo individui, organizzazioni e governi da manipolazioni audio ingannevoli che potrebbero alterare la percezione pubblica o causare danni. Dal punto di vista economico, la tecnica può essere impiegata da aziende mediatiche, istituzioni legali e investigatori forensi per autenticare le registrazioni, riducendo i rischi associati a frodi, diffamazione e violazioni della proprietà intellettuale, aumentando al contempo la fiducia nei contenuti digitali.

I risultati più significativi nel campo delle rappresentazioni compresse sicure sono i seguenti:

1) un nuovo framework JPEG AI per applicazioni di computer vision a dominio compresso che hanno dimostrato di gestire efficacemente le attività di rilevamento del volto. JPEG AI è un codec di immagini basato sull'apprendimento in grado di eseguire attività di computer vision direttamente sulla rappresentazione latente e che otterrà lo status di standard internazionale entro ottobre 2024. Il framework sviluppato combina JPEG AI e un'architettura di rete neurale bridge per eseguire in modo efficiente il rilevamento del volto in uno scenario a scala singola. Sono in corso lavori per estendere il framework proposto a scenari multi-scala.

2) è stata identificata la massima distorsione tollerabile sui segnali elettroencefalografici (EEG) dovuta alla compressione con perdita. Sono state studiate diverse tecniche di compressione per segnali biometrici fisiologici, con particolare attenzione all'EEG, ed è stato condotto un lavoro preliminare, in collaborazione con il Working Group 32 (WG-32) del comitato per gli standard Digital Imaging and Communications in Medicine (DICOM), con l'obiettivo di determinare la massima distorsione dovuta alla compressione con perdita che può essere tollerata sui segnali EEG. Di conseguenza, si è concluso che una differenza quadratica media (PRD) percentuale del 5% tra i segnali EEG originali e ricostruiti può essere accettata da clinici ed esperti.

3) è stato studiato l'uso di dispositivi indossabili per eseguire il riconoscimento automatico continuo delle persone durante una sessione di metaverso. In particolare, sono stati proposti e studiati approcci generativi per convertire i dati inerziali in misurazioni elettriche dell'attività cardiaca con l'obiettivo principale di sviluppare sistemi di riconoscimento affidabili.

Impatto sociale:

l'introduzione di usi nuovi e affidabili di dispositivi indossabili si tradurrebbe in molteplici vantaggi, che vanno dalla fornitura degli strumenti per eseguire il riconoscimento continuo degli utenti durante qualsiasi attività (incluse le esperienze nel metaverso), al consentire il monitoraggio non invasivo dell'attività cardiaca e dello stato di salute associato. Affidarsi a dispositivi di consumo poco costosi per farlo renderebbe le applicazioni sopra menzionate più accessibili per i potenziali utenti.

Impatto economico:

Aumentare l'affidabilità della fase di riconoscimento delle applicazioni di metaverso ne aumenterebbe l'accettabilità e ne favorirebbe l'adozione diffusa. L'introduzione di nuovi utilizzi dei dispositivi indossabili probabilmente ne aumenterà la domanda e stimolerà lo sviluppo delle tecnologie correlate, stimolando l'innovazione e la crescita in questo settore.

Papers:

Daniele Ugo Leonzio, Luca Cuccovillo, Paolo Bestagini, Marco Marcon, Patrick Aichroth, Stefano Tubaro, "Audio Splicing Detection and Localization Based on Acquisition Device Traces", IEEE Transactions on Information Forensics and Security, 2023

M. Mel, A. Gatto, P. Zanuttigh, "Joint Reconstruction and Spatial Super-resolution of Hyper-Spectral CTIS Images via Multi-Scale Refinement", IEEE Transactions on Computational Imaging, 2024

Marco Olivieri, Amy Bastine, Mirco Pezzoli, Fabio Antonacci, Thushara Abhayapala, Augusto Sarti, "Acoustic Imaging With Circular Microphone Array: A New Approach for Sound Field Analysis", IEEE/ACM TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING, 2024
Il progetto sviluppa diverse tecnologie che possono essere oggetto di collaborazione e sfruttamento da parte dell’industria. Attualmente abbiamo due linee di collaborazione attive con l’industria. Uno dei partner del progetto, Wind3, fornisce il punto di vista aziendale sulle attività del WP3 e sull'ambito del WP4 ​​ed evidenzia le sinergie tra i diversi elementi della rete. Inoltre, con le chiamate a cascata abbiamo un nuovo partner industriale (Xenia Progetti) che aiuterà a definire e dimostrare un caso d'uso di impiego di gemelli digitali per performance musicali in rete.

Il caso d'uso implementato nel progetto MEET Metaverse fornirà la prova delle emozioni degli utenti, che vengono rilevate da un sistema esterno e, attraverso questo, influenzano e modificano l'ambiente/interazione tra gli utenti. Le emozioni di input saranno simulate nella prima fase del progetto per poi, eventualmente, essere sostituite dall'analizzatore/provider di emozioni sviluppato dai partner.

Per raggiungere l'obiettivo di fornire la prova delle emozioni degli utenti, sono state identificate due tecniche:
  1. Applicare pose ed espressioni ai Meta Avatar;
  2. Gestire l'ordine delle canzoni nella playlist.
Ricerche recenti riguardano il ripristino di segnali audio con parti mancanti. Abbiamo sviluppato metodi basati sull'intelligenza artificiale per recuperare quelle parti e fornire una qualità di riproduzione quasi perfetta. Abbiamo anche affrontato il problema dello splicing audio, dove un utente malintenzionato potrebbe sostituire parti di un audio con altre dello stesso parlante, alterando il significato di ciò che viene detto; Ai può dirci se sono state applicate manipolazioni.
Pubblicazioni Numero totale di pubblicazioni (inclusi giornali e documenti di conferenze)
  • Previsto: 36
  • Completato: 70
  • Prontezza: 100%
Pubblicazioni congiunte (almeno il 30% del numero totale di pubblicazioni)
  • Previsto: 12
  • Completato: 8
  • Prontezza: 66%
Attività di discussione, disseminazione e sensibilizzazione (escluse le presentazioni in conferenza)
  • Previsto: 9
  • Completato: 11
  • Prontezza: 100%
Demo/PoC
  • Previsto: 5 PoC entro la fine del progetto
  • Completato: 0
  • Prontezza: 0% (lavoro secondo i piani, poiché demo/PoC sono previsti a partire dal secondo anno del progetto).
Riunioni di progetto
  • Previsto: 75
  • Completato: 96
  • Prontezza: 100%
Brevetti/Innovazioni
  • Previsto: 5 PoC entro la fine del progetto
  • Completato: 0
  • Prontezza: 0% (lavoro secondo i piani, poiché demo/PoC sono previsti a partire dal secondo anno del progetto).
Contributi open source
  • Previsto: 0% (nessun contributo open source necessariamente previsto).
  • Completato: 4
  • Prontezza: 100%
Contributi di standardizzazione
  • Previsto: 0
  • Completato: 0
  • Prontezza: 0% (lavoro secondo i piani, nessun contributo di standardizzazione necessariamente previsto).
M1.1 Prima versione di sfruttamento, diffusione e impatto
  • Previsto M12
  • Completato M12
  • prontezza 100%
M1.2 Seconda versione di sfruttamento, diffusione e monitoraggio dell'impatto
  • Previsto M24
  • Completato M12
  • prontezza 100%
M1.3 Terza versione di sfruttamento, diffusione e monitoraggio dell'impatto
  • Previsto M36
  • Completato M12
  • prontezza 33%
M3.1 Prima versione del sistema di elaborazione del segnale audio e acustico
  • Previsto M12
  • Completato M12
  • prontezza 100%
M3.2 Versione avanzata del sistema di elaborazione del segnale audio e acustico
  • Previsto M24
  • Completato M12
  • prontezza 100%
M3.3 Versione della proof-of-concept del sistema di elaborazione del segnale audio e acustico
  • Previsto M36
  • Completato M12
  • prontezza 33%
M4.1 Prima versione del sistema di distribuzione basato sull'esperienza per l'autentico contenuti
  • Previsto M12
  • Completato M12
  • prontezza 100%
M4.2 Rilascio avanzato del sistema di distribuzione experience-aware per contenuti autentici
  • Previsto M24
  • Completato M12
  • prontezza 100%
M4.3 Rilascio della proof-of-concept del sistema di distribuzione experience-aware per cotenuti autentici
  • Previsto M36
  • Completato M12
  • prontezza 33%
M6.1 Primo rilascio dell'innovativo sistema di generazione e rappresentazione dei media
  • Previsto M12
  • Completato M12
  • prontezza 100%
M6.2 Rilascio avanzato dell'innovativo sistema di generazione e rappresentazione dei media
  • Previsto M24
  • Completato M12
  • prontezza 100%
M6.3 Rilascio della proof-of-concept dell'innovativo sistema di generazione e rappresentazione dei media
  • Previsto M36
  • Completato M12
  • prontezza 33%

Ricercatori coinvolti: 222 mesi-uomo

Proposte di collaborazione:

Elenco provvisorio (contattare il responsabile del progetto per maggiori informazioni):

  • una collaborazione sulla performance musicale in rete, che consente ai musicisti di collaborare ed esibirsi insieme in tempo reale, superando i confini geografici. L’obiettivo è sviluppare un’esperienza musicale collaborativa più fluida e coinvolgente;
  • una collaborazione su algoritmi efficienti basati su viewport per sistemi di streaming video omnidirezionali, che impiegano metodi di apprendimento automatico e sfruttano le informazioni di salienza;
  • una collaborazione su modelli di rilevamento deepfake per le informazioni visive che impiegano reti neurali profonde;
  • una collaborazione su campi di radianza neurali e splatting gaussiano per il rendering delle scene;
  • una collaborazione su reti neurali a bassa complessità (ad esempio binarie) per l’inferenza e la compressione su dispositivi embedded;

È possibile avanzare proposte di collaborazione sul progetto contattando il PI del progetto.


FUN-Media News: