annulla
Visualizzazione dei risultati per 
Cerca invece 
Intendevi dire: 

Come funziona il riconoscimento vocale di Swisscom TV 2.0?

Come funziona il riconoscimento vocale di Swisscom TV 2.0?

Nessuna valutazione

Con il TV-Box UHD, basta premere il tasto del microfono sul telecomando, parlare verso il telecomando, rilasciare il tasto e la trasmissione desiderata compare subito sullo schermo. Dietro questa funzione così semplice da usare, si cela una tecnologia molto complessa.

 

Per il riconoscimento vocale di Swisscom TV 2.0, il telecomando invia il segnale audio via Bluetooth Low Energy (BLE) allo Swisscom TV-Box. Quest’ultimo registra il segnale in un file vocale. Il segnale viene memorizzato con una frequenza di campionamento di 16 kHz e 16 bit. Un dettaglio interessante: la voce umana oscilla in una banda fino a 4 kHz, che può essere definita bassa. Per registrare questo segnale è necessaria una frequenza di campionamento doppia, ovvero di 8 kHz. Per garantire una buona qualità, Swisscom lavora con una frequenza di campionamento di 16 kHz. Il file vocale viene inviato dal TV-Box al server di riconoscimento vocale (Automatic Speech Recognition Server) nel centro di calcolo Swisscom. Qui viene analizzato per poi essere rispedito al TV-Box. Se il testo pronunciato non viene riconosciuto con certezza, possono apparire sullo schermo del televisore fino a cinque risultati.

Fernbedienung 2.2.png

 

Analisi dei dati vocali nel centro di calcolo

Per comprendere l’analisi dei file vocali, è utile conoscere l’architettura su cui è basata. Nel server di riconoscimento vocale (Automatic Speech Recoginition Server) vengono utilizzati i tre modelli descritti di seguito.

 Fernbedienung 2.png

Il modello vocale comprende le sequenze di parole che possono essere pronunciate. A questo fine vengono regolarmente aggiunti al modello tutti i termini della TV-Guide (Electronic Program Guide (EPG)), del catalogo Video on Demand (VoD) e di altre fonti. Così il sistema è sempre in grado di riconoscere i nomi dei film, delle persone e delle trasmissioni del momento. Inoltre, vengono inseriti anche nomi e termini che non si riferiscono necessariamente all’offerta attuale. Il sistema è quindi in grado di riconoscere anche le parole che non compaiono nell’EPG o nel catalogo VoD.  

 

Il vocabolario associa la parola scritta a quella parlata. Qui per ogni parola viene archiviata la sequenza dei suoni pronunciati. Questi suoni, detti anche fonemi, rappresentano le unità acustiche minime che permettono di distinguere le varie parole. 

 

Il modello acustico raffigura una sequenza di caratteristiche distintive (Mel Frequency Cepstral Coefficients (MFCC)) dei singoli fonemi. Con la trasformata di Fourier, il segnale acustico nel dominio dello spazio viene innanzitutto rappresentato nel dominio della frequenza. In seguito i segnali vengono suddivisi mediante filtri negli spettri delle frequenze, ad es. tutti i segnali da 440 a 500 Hertz, e quindi decorrelati. Così deve essere salvata una quantità inferiore di dati e l’elaborazione è più efficiente. Ogni suono possiede una sequenza specifica di caratteristiche, che può essere rappresentata in un cosiddetto modello di Markov nascosto nel quale è possibile modellare la componente temporale del segnale acustico.  

 

Sulla base di questi tre modelli viene progressivamente creato il modello completo di riconoscimento vocale. Una sequenza di parole analizzata con il modello vocale viene abbinata alla sequenza di fonemi corrispondente tramite il vocabolario. Con il modello acustico, i singoli suoni vengono a loro volta associati alle rispettive caratteristiche fonetiche (v. figura sottostante). 

Fernbedienung 3.png

Per riconoscere un termine pronunciato, le caratteristiche ricevute dal segnale audio vengono confrontate con quelle nel modello acustico. Dalla sequenza più probabile di suoni si determina la parola più probabile e dalla sequenza più probabile di parole si ricava la frase.   

 

Sfida

La maggiore sfida del progetto era l’elaborazione della base di dati. Per raccogliere un numero sufficiente di file audio, il team di progetto ha fatto registrare parole e frasi ai collaboratori Swisscom di varie sedi in tutta la Svizzera, cosa che ha richiesto parecchio tempo. 
Per ogni lingua (tedesco, francese e italiano) è stato reclutato un gran numero di volontari provenienti da diverse regioni della Svizzera. Nella Svizzera tedesca è stata persino fatta la distinzione tra i vari dialetti.

 

La soluzione è stata concepita su misura per Swisscom. In una soluzione di Google, ad esempio, i dati non vengono salvati in Svizzera. In quella di Swisscom, invece, questo è un requisito fondamentale.

Questo articolo è stato utile? No
Collaboratori