LUFS (Loudness Unit relative to Full Scale)

di Michele Viola

Nel campo delle sensazioni sonore, il volume è una misura, una valutazione della percezione soggettiva della pressione sonora. Una valutazione soggettiva è, per definizione, suscettibile di interpretazione: un suono forte per qualcuno può essere debole per qualcun altro.

Le registrazioni musicali moderne suonano tipicamente ad un volume più elevato rispetto a quelle degli anni passati. In TV, o su YouTube, gli intermezzi pubblicitari hanno un volume più elevato rispetto ai contenuti. I tasti dedicati al controllo del volume sono senz’altro quelli tra i più utilizzati in senso assoluto nei vari dispositivi che ci accompagnano.

Capacità del canale e livello di picco

Nella trasmissione dei segnali attraverso un mezzo, sia in formato analogico sia in digitale, c’è un limite al livello riproducibile. O meglio: c’è un limite alla dinamica riproducibile, cioè al rapporto tra il segnale più alto e il segnale più basso, perché ovviamente il livello complessivo si può regolare direttamente per mezzo degli appositi controlli sul ricevitore, a valle del canale di trasmissione. Dato un livello minimo di segnale distinguibile dal rumore, il limite fisico prima della distorsione eccessiva riguarda quindi il livello di picco.

The loudness war

Dato che la sensazione di volume dipende più dal livello RMS che dal livello di picco, il produttore di spot commerciali potrebbe decidere, per esempio, di comprimere decisamente il segnale audio avvicinando così il livello RMS e il livello di picco, per poi adattare il livello di picco al limite reso disponibile dal mezzo, ottenendo così un volume maggiore rispetto alla concorrenza, con l’obiettivo di attirare maggiormente l’attenzione. Questo, d’altro canto, pur raggiungendo efficacemente l’obiettivo, riduce in genere la qualità complessiva dell’esperienza utente, che si trova costretto ad agire continuamente sui controlli di volume. I vari broadcaster, nell’intento di preservare la qualità dell’esperienza utente complessiva, sono quindi interessati a definire dei limiti al livello del volume sonoro, oltre che al mero valore di picco.

La percezione soggettiva

Il primo problema riguarda la codifica del metodo per la valutazione dell’esperienza soggettiva. Un approccio può essere ovviamente quello statistico.

La percezione complessiva, compreso l’eventuale giudizio qualitativo (nel distinguere il contributo gradevole dal disturbo) dipende anche, ovviamente, dall’ambiente. In automobile, o in officina, la richiesta dinamica è generalmente molto inferiore rispetto a un salotto tranquillo.

Misurare il livello di un segnale acustico, o della sua controparte elettrica all’interno dei dispositivi di trasporto e elaborazione, non è concettualmente troppo complesso: si tratta, in sostanza, di misurare un segnale elettrico, eventualmente in uscita da un trasduttore (microfono) sufficientemente fedele.

Il livello così misurato non è però facilmente correlato con la sensazione di volume sonoro.

Il livello RMS è senz’altro meglio correlato con la percezione rispetto al livello di picco, ma ancora la corrispondenza non è così prccisa. La percezione dipende, prima di tutto, dalla distribuzione dell’energia sonora in frequenza.

Le curve isofoniche (a volume costante, in rosso), estratto dalla ISO 226:2003. La curva in blu è la curva ISO standard originale a 40 phon

Isofoniche e filtri di pesatura

Fletcher e Munson, in un famoso lavoro risalente agli anni ‘30 del secolo scorso, ricavarono una prima famiglia di curve isofoniche presentando a diversi soggetti con udito normale un tono puro alternato a un tono di riferimento a 1 kHz, con livello di pressione sonora variabile (in cuffia, in entrambe le orecchie). È stata introdotta l’unità di misura ‘phon’: due toni puri che producono la stessa sensazione in riferimento al volume hanno, per definizione, la stessa intensità misurata in phon. Il confronto tra le sensazioni sonore così rilevate, effettuato per una serie di toni puri di diversa frequenza e intensità, ha permesso così di ottenere una famiglia di curve, ciascuna caratterizzata da un valore in phon, numericamente pari al livello di pressione sonora del tono di riferimento a 1 kHz che produce la stessa sensazione. Queste curve sono poi state sottoposte a varie elaborazioni per estenderne la validità alla percezione all’aperto. In seguito, la norma ISO 226 ha adottato una serie di curve isofoniche ricavate utilizzando toni puri riprodotti direttamente da un altoparlante, in campo libero.

Sulla base delle curve isofoniche, sono stati introdotti e codificati vari metodi di ‘pesatura’, cioè in pratica un inviluppo di coefficienti moltiplicativi con cui elaborare lo spettro misurato, così da tenere conto della differente sensazione di volume prodotta dai contributi a diverse frequenze. Si parla quindi di segnale ‘pesato A’ (questo forse è il metodo di pesatura più famoso, approssimativamente basato sulla curva isofonica a 40 phon), o ‘pesato C’ (approssimativamente basato sulla curva isofonica a 100 phon) per i segnali di intensità più elevata.

L’andamento delle curve di pesatura A, B, C e D in banda audio

Ma ancora il quadro non è del tutto preciso: la dipendenza dalla frequenza non è evidentemente del tutto sufficiente per una descrizione completa. Il lavoro di Torben, per esempio, risalente alla fine degli anni ‘70 del secolo scorso, indica come, almeno per segnali di breve durata, la percezione dipende in maniera significativa anche dalla durata dello stimolo.

LUFS

LUFS indica il più recente metodo utilizzato per correlare la sensazione di volume sonoro con le caratteristiche fisiche misurabili del segnale.

LUFS, acronimo per Loudness Units relative to Full Scale, è utilizzato nella raccomandazione EBU R 128 come sinonimo di LKFS (Loudness, K-weighted, relative to full scale), a sua volta introdotto nella raccomandazione ITU-R BS.1770.

L’acronimo LUFS si accorda meglio con le convenzioni di denominazione internazionali, indicando inoltre con Lk il livello ‘pesato-K’. LUFS indica così il livello Lk relativo al fondo scala.

FS – per ‘relativo al fondo scala’ – indica in pratica la differenza (in dB) tra il livello di picco e il livello attuale. Un meter FS presenta semplicemente lo zero in cima, senza riferimento all’attuale livello del segnale (in dBu o che altro). Molti apparati digitali offrono meter in dBFS, che misurano tipicamente il livello di picco. Lo 0 dBFS a fondo scala rappresenta semplicemente il massimo segnale riproducibile prima della distorsione digitale, eventualmente con un certo margine.

LUFS, sinonimo di LKFS, è dunque un metodo standard per la misura del volume sonoro, utilizzato per la normalizzazione del segnale audio nei sistemi broadcast televisivi e in vari servizi streaming audio e video. Piattaforme come Spotify o Apple Music usano LUFS per valutare il volume di un brano audio.

EBU R 128 definisce il nuovo livello obiettivo di riferimento (il cosiddetto ‘target level’) a −23.0 LUFS (±0.5 LU). Varie piattaforme di streaming – quali YouTube, Spotify, Apple Music, Amazon Music e altre – si stanno normalizzando intorno ai –14 LUFS. Questo significa che se un brano è masterizzato a un volume maggiore rispetto a –14 LUFS sarà abbassato in riproduzione dalla piattaforma (e non sfrutterà tutta la dinamica disponibile), mentre se è masterizzato ad un volume inferiore potrebbe essere alzato e eventualmente limitato, cioè compresso in dinamica. Non necessariamente, comunque: Amazon, per esempio, attenua i brani masterizzati a volume superiore ma non amplifica i brani masterizzati a volume inferiore (rispettando le dinamiche).

L’algoritmo

Il metodo prevede diversi step, da applicare a ciascun canale di un sistema stereo o surround multi-canale:

a ciascun canale si applica un filtro di pesatura K;
si esegue una media dei quadrati di ciascun segnale (come un RMS senza la R);
si applica un guadagno di 1,5 dB ai canali laterali (tra 60° e 120° rispetto al fronte);
si sommano i contributi dei vari canali (escluso un eventuale canale LFE, che quindi non contribuisce alla valutazione);
10log10(⋅) per avere un valore in dB;
si applica un gate (articolato in due stadi, ma non approfondiremo in questa sede) in modo da escludere dalla valutazione i momenti silenziosi o quasi. Questo migliora la corrispondenza nei brani con dinamica particolarmente estesa.

A proposito del livello medio, si definiscono tre scale differenti:

Momentary Loudness (abbreviato ‘M’): media per blocchi di 400 ms;
Short-term Loudness (abbreviato ‘S’): media per blocchi di 3 s;
Integrated Loudness (abbreviato ‘I’): media su tutto il brano.

Il FIltro K

La pesatura K, descritta con precisione nella citata raccomandazione ITU-R BS.1770, è a grandi linee simile a una pesatura A ‘semplificata’, a parte il fatto che introduce un’esaltazione dei contributi al di sopra dei 2 kHz.

La risposta del filtro di pesatura K (tratto dal manuale di Audacity)

Riferimenti

ITU-R BS.1770: Algorithms to measure audio programme loudness and true-peak audio level
EBU R 128: Loudness normalisation and permitted maximum level of audio signals
EBU Tech 3343: Guidelines for production of programmes in accordance with EBU R 128
Poulsen, Torben: Loudness of tone pulses in a free field – Acoustical Society of America. Journal, 69(6), 1786-1790. https://doi.org/10.1121/1.385915

Un metodo per la misura del volume sonoro