abbrechen
Suchergebnisse werden angezeigt für 
Stattdessen suchen nach 
Meintest du: 

Spracherkennung bei Swisscom TV

Spracherkennung bei Swisscom TV

67 % hilfreich (2/3)

Mit der Swisscom TV-Box (UHD) drückst du bei der Fernbedienung den Mikrofonknopf, sprichst in die Fernbedienung, lässt den Knopf wieder los und schon erscheint die gewünschte Sendung auf dem Bildschirm. Was einfach in der Bedienung ist, ist in der technischen Ausführung sehr komplex.

 

Für die Spracherkennung von Swisscom TV sendet die Fernbedienung das Audiosignal per Bluetooth Low Energy (BLE) an die Swisscom TV-Box. Diese zeichnet das Signal als Sprachdatei auf. Das Signal wird mit einer Samplingrate von 16 kHz und 16 Bit aufgenommen. Interessant: Die menschliche Stimme schwingt bis in den Bereich von 4kHz, was als "tief" bezeichnet werden kann. Um dieses Signal aufzuzeichnen braucht es die doppelte Samplingrate. Sprich 8kHz. Aus Qualitätsgründen arbeitet Swisscom mit einer Samplingrate von 16kHz. Von der TV-Box wird die Sprachdatei an den Spracherkennungsserver (Automatic Speech Recognition Server) im Swisscom Rechenzentrum geschickt. Dort wird die Datei analysiert und zurück an die TV-Box geliefert. So können, wenn die Erkennung nicht ganz sicher ausfällt, bis zu fünf Resultate auf dem TV-Bildschirm angezeigt werden.


Fernbedienung 2.2.png

Die Analysierung der Spracheingaben im Rechencenter

Um die Analyse der Sprachdateien zu verstehen, ist es hilfreich die zugrundeliegende Architektur zu kennen. Im Spracherkennungsserver (Automatic Speech Recoginition Server) werden folgende drei Modelle verwendet:

Fernbedienung 2.png

 

Das Sprachmodell enthält die Sequenzen von Wörtern, die gesprochen werden können. Als Grundlage hierzu werden regelmässig alle Begriffe aus dem TV Guide (Electronic Program Guide (EPG)), dem Video on Demand Katalog (VoD Katalog) und weiteren Quellen ins Sprachmodell aufgenommen. Damit werden die neusten verfügbaren Titel von Sendungen, Filmen und Personennamen aktualisiert. Zusätzlich werden auch Namen und Begriffe ins Sprachmodell eingepflegt, die nicht zwingend im aktuellen Angebot verfügbar sein müssen. So können auch Begriffe erkannt werden, zu denen aktuell keine Daten im EPG oder VoD Katalog verfügbar sind.  

 

Das Lexikon verbindet das geschriebene Wort mit dem gesprochenen Wort. Für jedes Wort wird hier die Reihenfolge der gesprochenen Laute aufbewahrt. Diese Laute, auch Phoneme genannt, repräsentieren die kleinsten akustischen Einheiten, die es gestatten verschiedene Wörter zu unterscheiden. 

 

Das Akustische Modell bildet eine Sequenz von Merkmalen (Mel Frequency Cepstral Coefficients (MFCC)) auf die einzelnen Phoneme ab. Zuerst wird das akustische Signal mittels Fouriertransformation vom Ortsraum in den Frequenzraum abgebildet. Danach werden diese mittels Filter in Frequenzbereiche aufgeteilt, z.B. alle Signalanteile von 440 bis 500 Hertz, und dann de-korreliert. So müssen weniger Daten gespeichert werden und die Verarbeitung wird effizienter. Jeder Laut besitzt nun eine charakteristische Sequenz von Merkmalen. Für jeden Laut wird diese in einem sogenannten Hidden Markov Modell repräsentiert. Darin kann die Zeitkomponente des akustischen Signals modelliert werden.  

 

Aus diesen drei Modellen kann schrittweise das gesamte Modell zur Spracherkennung aufgebaut werden. Einer Sequenz von Wörtern – die im Sprachmodell modelliert werden – wird durch das Lexikon die zugehörige Lautsequenz zugeordnet. Die einzelnen Lauten werden wiederum durch das akustische Modell mit den entsprechenden Merkmalen des Lautes in Verbindung gebracht (siehe untenstehende Figur). 

Fernbedienung 3.png

Um einen gesprochenen Begriff zu erkennen, werden nun die aus dem Audiosignal erhaltenen Merkmale mit den Merkmalen im akustischen Modell verglichen. Die wahrscheinlichste Sequenz an Lauten ergibt dann das wahrscheinlichste Wort und die wahrscheinlichste Sequenz von Wörtern wiederum die Äusserung.   

 

Herausforderung

Die grösste Herausforderung im Projekt war die Erarbeitung der Datengrundlage. Um genügend Audiofiles zu sammeln, hat das Projektteam an diversen Standorten in der Schweiz Mitarbeitende von Swisscom Wörter und Sätze aufnehmen lassen, was einiges an Zeit in Anspruch genommen hat.
Pro Sprache – also Deutsch, Französisch und Italienisch– wurden mehrere freiwillige Personen aus unterschiedlichen Gegenden der Schweiz gesucht. In der Deutschschweiz wurde sogar zwischen den verschiedenen Dialekten unterschieden.

 

Die Lösung ist speziell auf Swisscom zugeschnitten. So werden beispielsweise bei einer Lösung von Google die Daten nicht in der Schweiz gespeichert. Dies ist hingegen für Swisscom eine wichtige Voraussetzung.

War dieser Artikel hilfreich? Ja Nein
Kommentare
Expert

Neben der Funktionsweise von Voice-Search wäre es (vor allem für Neulinge) interessant zu wissen was es denn alles kann. 

Unter www.swisscom.ch/smartremote kann nachgeschaut werden was mit Voice-Search aktuell alles möglich ist. Mit einem kurzen/einzelen Druck auf die Voice-Search Taste auf der Fernbedienung erscheint ebenfalls ein kurzes Howto, resp. einzelen Beispiele wie es genutzt werden kann.

Mit etwas Rumprobieren merkt man jedoch dass nicht alle Möglichkeiten angepriesen werden, warum auch immer. So sind bspw. folgende Befehle  möglich, welche ich noch nützlich finde:

TV-Guide: "Zeige mir das Programm von <Sender XY> von <Zeit>" > Öffnet den TV-Guide des entsprechden Senders zur entsprechenden Zeit

- <Zeit> kann bspw. "gestern/heute/morgen Morgen/Mittag/Abend/Nacht" sein, wobei Morgen 06:00, Mittag 12:00, Abend 18:00 und Nacht 23:00 entspricht

 

Welten öffnen: "Zeige mir <Welt>" > Öffnet die Entsprechende Welt, wie bspw. "Serien", "Komödien"

- hier scheint noch nicht alles so zu klappen wie es sollte, evtl. ein Grund weshalb man diese Funktionalität noch nicht anpreist. So kommt bei der Welt "Krimi & Thriller" die Textsuche und nicht der Befehl und bei "Filme" öffnet es die Video-Sektion anstatt die Welt.

Contributor

Funktioniert wirklich sehr gut...nur schade, dass die CH-Privatsender (wie zB. "TeleZüri") partout...NICHT erkannt werden!!

Doch auch "SAT.1" wird NICHT identifiziert...

Expert
Hi @SC-Fan Also bei mir findet es "Tele Züri" sowie "Sat.1" ohne Probleme. Je 5x versucht und immer geklappt. Gehe davon aus dass deine Menüsprache Deutsch ist. Denn je nach Menüsprache erkennt es entsprechende Wörter/Befehle (besser). Die Erkennung ist abhängig von der eingestellten Sprache.
Contributor

Lieber TheDude: Du hast mich tatsächlich jetzt auf die richtige Spur gebracht, hatte ich doch als Menüsprache nicht Deutsch,
sondern...Englisch ausgewählt! Und jetzt wo ich Deutsch selektioniert habe, wird auch TeleZüri und Sat.1 auf Anhieb erkannt;

besten Dank also!

Contributor

Die Spracherkennung funktioniert sehr gut. Allerdings staune ich, dass mit dem gefundenen und richtig

geschriebenem Wort oder Sendungs-Titel nicht die entsprechende Sendung im Programmheft oder in 

den vorhandenen Aufnahmen gefunden wird. Konkretes Beispiel: die Sendung LOKALZEIT auf dem WDR.

Andere Dinge wie Tagesschau oder 10 vor 10 gehen wieder. Wo ist hier die Logik?   

Community Manager

@tigerentenpostamt Bei mir funktioniert die Suche nach "Lokalzeit" wunderbar. Wenn Wörter in der Datenbank sehr ähnlich klingen, kann es sein dass nicht der korrekte Suchbegriff angezeigt wird.

 

Contributor

Herausforderung

Die grösste Herausforderung im Projekt war die Erarbeitung der Datengrundlage. Um genügend Audiofiles zu sammeln, hat das Projektteam an diversen Standorten in der Schweiz Mitarbeitende von Swisscom Wörter und Sätze aufnehmen lassen, was einiges an Zeit in Anspruch genommen hat.
Pro Sprache – also Deutsch, Französisch und Italienisch– wurden mehrere freiwillige Personen aus unterschiedlichen Gegenden der Schweiz gesucht. In der Deutschschweiz wurde sogar zwischen den verschiedenen Dialekten unterschieden.

 

Die Lösung ist speziell auf Swisscom zugeschnitten. So werden beispielsweise bei einer Lösung von Google die Daten nicht in der Schweiz gespeichert. Dies ist hingegen für Swisscom eine wichtige Voraussetzung.


 

Das Wort (der Titel der Sendung) wird bei mir auch sofort angezeigt. Allerdings bringt mir die Box dann mit OK nicht die entsprechenden Sendung. Diese finde ich nur, wenn ich sie manuell im Programm suche. Dies gilt nicht für anderes wie z.B. die Tagesschau oder möglicherweise öfters nachgefragte Stichworte. 

Community Manager

@tigerentenpostamt  Bei mir zeigt es danach verschiedene Treffer an und ich kann alle auswählen. Mach einmal einen Reset deiner TV-Box, vielleicht geht es dann wieder.