FUN-Media consentirà comunicazioni multimediali immersive in rete di nuova generazione, garantendo la QoE attesa, permettendo comunicazioni empatiche, fornendo una reale sensazione di presenza, assicurando i contenuti attesi e l’autenticità dell’utente. Ciò è possibile grazie ai progressi tecnologici nel campo dei gemelli digitali, delle comunicazioni multimodali e multisensoriali, dell’interazione audio/acustica con l’utente, della distribuzione consapevole della QoE di contenuti affidabili, della generazione di media e delle rappresentazioni per esseri umani e macchine.
FUN-MEDIA fa parte dello Spoke 4 – Programmable Networks for Future Services and Media
PI di progetto: Enrico Magli
- gestione del progetto e acquisti per il Laboratorio Spoke
- algoritmi di metronomo adattivo e occultamento della perdita di pacchetti per mitigare l'impatto della latenza
- metodi per rilevare la manipolazione dell'audio
- studio dell'impatto della compressione e degli artefatti di trasmissione su nuvole di punti dinamiche e dense con test soggettivi per esplorare la QoE degli utenti con diverse combinazioni di degrado (compressione e perdita di pacchetti)
- controllo del movimento QoE-aware di uno sciame di droni per la videosorveglianza
- studio dell'effetto dell'adozione della realtà aumentata e virtuale sulla qualità percepita dall'utente
- previsione del viewport basata sull'apprendimento
- schemi di compressione basati sull'apprendimento e su modelli di diffusione
- metodi per la sparsificazione e la quantizzazione delle reti
- compressione di nuvole di punti e campi di luce
- un approccio all'apprendimento continuo federato asincrono
- definizione dell'Human CyberTwin per supportare la gestione della QoE
- biometria e tecniche di compressione correlate.
Tra questi vi sono:
- un metodo di compressione e trasmissione content-aware per i dati Lidar del settore automobilistico
- un metodo di apprendimento continuo per la segmentazione semantica delle immagini
- metodi per il rilevamento del parlato sintetico e manipolato
- un metodo per il rilevamento di deepfake
- un metodo per la previsione del viewport
- un metodo di apprendimento continuo federato
- uno studio sull'impatto della VR sull'attenzione degli utenti
- valutazione dello stress per AR basata sui movimenti della testa identificazione del segnale sensoriale principale nella realtà virtuale multimediale
- un set di dati VR per studi di rete e QoE
- un set di dati multimodali aerei con misurazioni di rete e dati di percezione
I risultati più significativi finora ottenuti nel campo dell'elaborazione audio sono i seguenti
1) Immersive Networked Music Performance basata su 5G. Un risultato significativo è l'esplorazione dell'integrazione della tecnologia 5G nelle Networked Music Performance (NMP), evidenziando la necessità di integrazione audio immersiva e tecnologie di comunicazione a bassa latenza e alta affidabilità. Sono state introdotte due nuove architetture (embedded computing ed elaborazione basata su MEC) e progettate per soddisfare i severi requisiti delle NMP immersive, sfruttando le capacità delle reti 5G, tra cui SDN, MEC e network slicing. Questi risultati offrono soluzioni promettenti per abilitare performance musicali immersive e remote su reti 5G, aprendo la strada a forme di collaborazione musicale più accessibili e innovative.
2) Metodi ibridi di occultamento della perdita di pacchetti. Un altro risultato significativo è lo sviluppo di metodi innovativi di occultamento della perdita di pacchetti specificamente progettati sia per segnali musicali che vocali in applicazioni interattive remote. Questi metodi avanzati presentano una struttura parallela che combina un ramo di codificatore predittivo lineare (LPC) con un ramo di rete neurale (NN). Questo duplice approccio sfrutta sia l'elaborazione del segnale tradizionale che le tecniche di apprendimento automatico. Nel caso dei segnali musicali, questi metodi hanno mostrato prestazioni superiori rispetto alle soluzioni all'avanguardia, rappresentando un significativo passo avanti nel campo. Questi metodi sono particolarmente promettenti per il loro potenziale di integrazione senza soluzione di continuità nelle applicazioni di interazione remota. Se implementati correttamente, possono migliorare notevolmente la qualità audio, anche se utilizzati con configurazioni a basso costo, rendendo le esperienze audio di alta qualità più accessibili su varie piattaforme e ambienti.
3) Rete neurale informata dalla fisica per audio volumetrico. Abbiamo introdotto un nuovo approccio per la ricostruzione del campo sonoro volumetrico utilizzando reti neurali informate dalla fisica (PINN). Questo approccio consente di integrare l'equazione delle onde fisiche direttamente nella rete neurale, consentendo al modello di ricostruire i campi sonori con elevata precisione anche quando si utilizzano meno microfoni e architetture leggere. Questa tecnologia è particolarmente rilevante per le applicazioni 6 Degrees of Freedom (6DoF), in cui gli utenti possono muoversi liberamente in uno spazio 3D e sperimentare il suono da diverse prospettive. Ricostruire i campi sonori con meno microfoni riduce i costi delle apparecchiature in campi come VR, AR e produzione audio. Con la crescita delle esperienze 6DoF, questa tecnologia può attrarre nuovi pubblici alla musica classica e ad altre aree culturali attraverso paesaggi sonori immersivi e interattivi. I PINN consentono anche la conservazione digitale di un'acustica unica da siti storici, come le sale da concerto, consentendo di archiviare e ricreare i loro ambienti sonori in spazi virtuali, preservando il patrimonio musicale anche se le strutture fisiche cambiano.
I risultati più significativi nel campo del networking e della sicurezza dei media sono i seguenti:
1) È stato progettato un nuovo algoritmo basato sul controllo predittivo del modello non lineare per controllare e coordinare il movimento di uno sciame di droni che trasmettono in streaming a una stazione di controllo a terra i video catturati dalle telecamere di bordo rivolte verso il basso per pattugliare un'area specifica seguendo un percorso desiderato. Per migliorare la consapevolezza della situazione, l'algoritmo proposto coordina lo sciame in modo tale che
- 1) il campo visivo delle telecamere si sovrapponga di una determinata percentuale per consentire operazioni di stitching video presso il GCS;
- 2) il movimento dei droni reagisca alle variazioni della larghezza di banda della rete in modo da migliorare la qualità visiva dei video ricevuti. Per quanto riguarda l'impatto sociale, sosteniamo che la soluzione proposta può migliorare le capacità di sicurezza e sorveglianza, consentendo un pattugliamento efficiente di ampie aree con applicazioni pertinenti come la risposta ai disastri, il monitoraggio urbano, migliorando così la sicurezza e i tempi di risposta. Dal punto di vista dell'impatto economico, la soluzione consente di ridurre i costi associati alla sorveglianza e al pattugliamento manuali, poiché è necessario meno personale per monitorare zone ampie o pericolose. Inoltre, apre nuove opportunità per le industrie che si affidano alla tecnologia dei droni, tra cui citiamo l'agricoltura di precisione, dove la copertura del campo e i dati in tempo reale possono migliorare la produttività e i processi decisionali.
I risultati più significativi nel campo delle rappresentazioni compresse sicure sono i seguenti:
1) un nuovo framework JPEG AI per applicazioni di computer vision a dominio compresso che hanno dimostrato di gestire efficacemente le attività di rilevamento del volto. JPEG AI è un codec di immagini basato sull'apprendimento in grado di eseguire attività di computer vision direttamente sulla rappresentazione latente e che otterrà lo status di standard internazionale entro ottobre 2024. Il framework sviluppato combina JPEG AI e un'architettura di rete neurale bridge per eseguire in modo efficiente il rilevamento del volto in uno scenario a scala singola. Sono in corso lavori per estendere il framework proposto a scenari multi-scala.
2) è stata identificata la massima distorsione tollerabile sui segnali elettroencefalografici (EEG) dovuta alla compressione con perdita. Sono state studiate diverse tecniche di compressione per segnali biometrici fisiologici, con particolare attenzione all'EEG, ed è stato condotto un lavoro preliminare, in collaborazione con il Working Group 32 (WG-32) del comitato per gli standard Digital Imaging and Communications in Medicine (DICOM), con l'obiettivo di determinare la massima distorsione dovuta alla compressione con perdita che può essere tollerata sui segnali EEG. Di conseguenza, si è concluso che una differenza quadratica media (PRD) percentuale del 5% tra i segnali EEG originali e ricostruiti può essere accettata da clinici ed esperti.
3) è stato studiato l'uso di dispositivi indossabili per eseguire il riconoscimento automatico continuo delle persone durante una sessione di metaverso. In particolare, sono stati proposti e studiati approcci generativi per convertire i dati inerziali in misurazioni elettriche dell'attività cardiaca con l'obiettivo principale di sviluppare sistemi di riconoscimento affidabili.
Impatto sociale:
l'introduzione di usi nuovi e affidabili di dispositivi indossabili si tradurrebbe in molteplici vantaggi, che vanno dalla fornitura degli strumenti per eseguire il riconoscimento continuo degli utenti durante qualsiasi attività (incluse le esperienze nel metaverso), al consentire il monitoraggio non invasivo dell'attività cardiaca e dello stato di salute associato. Affidarsi a dispositivi di consumo poco costosi per farlo renderebbe le applicazioni sopra menzionate più accessibili per i potenziali utenti.
Impatto economico:
Aumentare l'affidabilità della fase di riconoscimento delle applicazioni di metaverso ne aumenterebbe l'accettabilità e ne favorirebbe l'adozione diffusa. L'introduzione di nuovi utilizzi dei dispositivi indossabili probabilmente ne aumenterà la domanda e stimolerà lo sviluppo delle tecnologie correlate, stimolando l'innovazione e la crescita in questo settore.
Papers:
A. Ferrarotti, S. Baldoni, M. Carli, F. Battisti, "Stress Assessment for Augmented Reality Applications based on Head Movement Features", IEEE Transactions on Visualization and Computer Graphics, 2024
Federico Miotello, Mirco Pezzoli, Luca Comanducci, Fabio Antonacci, Augusto Sarti, "Deep Prior-Based Audio Inpainting Using Multi-Resolution Harmonic Convolutional Neural Networks", IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2023
Daniele Ugo Leonzio, Luca Cuccovillo, Paolo Bestagini, Marco Marcon, Patrick Aichroth, Stefano Tubaro, "Audio Splicing Detection and Localization Based on Acquisition Device Traces", IEEE Transactions on Information Forensics and Security, 2023
Il caso d'uso implementato nel progetto MEET Metaverse fornirà la prova delle emozioni degli utenti, che vengono rilevate da un sistema esterno e, attraverso questo, influenzano e modificano l'ambiente/interazione tra gli utenti. Le emozioni di input saranno simulate nella prima fase del progetto per poi, eventualmente, essere sostituite dall'analizzatore/provider di emozioni sviluppato dai partner.
Per raggiungere l'obiettivo di fornire la prova delle emozioni degli utenti, sono state identificate due tecniche:
- Applicare pose ed espressioni ai Meta Avatar;
- Gestire l'ordine delle canzoni nella playlist.
- Università di Roma, Tor Vergata
- Politecnico di Bari
- Politecnico di Milano
- Politecnico di Torino
- Università degli Studi di Padova
- Consorzio Nazionale Interuniversitario per le Telecomunicazioni (CNIT)
- Wind Tre S.p.A.
- Previsto: 36
- Completato: 48
- Readiness: 100%
- Previsto: 12
- Completato: 6
- Readiness: 50%
- Previsto: 9
- Completato: 11
- Readiness: 100%
- Previsto: 5 PoC entro la fine del progetto
- Completato: 0
- Readiness: 0% (lavoro secondo i piani, poiché demo/PoC sono previsti a partire dal secondo anno del progetto).
- Previsto: 75
- Completato: 70
- Readiness: 93%
- Previsto: 5 PoC entro la fine del progetto
- Completato: 0
- Readiness: 0% (lavoro secondo i piani, poiché demo/PoC sono previsti a partire dal secondo anno del progetto).
- Previsto: 0% (nessun contributo open source necessariamente previsto).
- Completato: 3
- Readiness: 100%
- Previsto: 0
- Completato: 0
- Readiness: 0% (lavoro secondo i piani, nessun contributo di standardizzazione necessariamente previsto).
- Attesi M12
- Completati M12
- Readiness 100%
- Attesi M24
- Completati M12
- Readiness 50%
- Attesi M36
- Completati M12
- Readiness 33%
- Attesi M12
- Completati M12
- Readiness 100%
- Attesi M24
- Completati M12
- Readiness 50%
- Attesi M36
- Completati M12
- Readiness 33%
- Attesi M12
- Completati M12
- Readiness 100%
- Attesi M24
- Completati M12
- Readiness 50%
- Attesi M36
- Completati M12
- Readiness 33%
- Attesi M12
- Completati M12
- Readiness 100%
- Attesi M24
- Completati M12
- Readiness 50%
- Attesi M36
- Completati M12
- Readiness 33%
Ricercatori coinvolti: Il progetto prevede un numero stimato di persone/mese per ogni anno pari a circa 144, stimate in 5 ricercatori di RST-A, 5 dottorandi più 2 docenti equivalenti a tempo pieno. Ciò non include i partner dei bandi a cascata.
Si stima che siano stati assegnati al progetto 150 mesi-uomo dall’inizio alla data attuale.
Proposte di collaborazione:
Elenco provvisorio (contattare il responsabile del progetto per maggiori informazioni):
- una collaborazione sulla performance musicale in rete, che consente ai musicisti di collaborare ed esibirsi insieme in tempo reale, superando i confini geografici. L’obiettivo è sviluppare un’esperienza musicale collaborativa più fluida e coinvolgente;
- una collaborazione su algoritmi efficienti basati su viewport per sistemi di streaming video omnidirezionali, che impiegano metodi di apprendimento automatico e sfruttano le informazioni di salienza;
- una collaborazione su modelli di rilevamento deepfake per le informazioni visive che impiegano reti neurali profonde;
- una collaborazione su campi di radianza neurali e splatting gaussiano per il rendering delle scene;
- una collaborazione su reti neurali a bassa complessità (ad esempio binarie) per l’inferenza e la compressione su dispositivi embedded;
È possibile avanzare proposte di collaborazione sul progetto contattando il PI del progetto.
FUN-Media News: