Der erste virtuelle «Grips & Chips»-Event von Farner St.Gallen widmete sich dem Thema Voice User Interface. Nach Lochkarten, Graphical User Interfaces, Tastaturen und Touch Interfaces sind wir im Zeitalter der Voice User Interfaces (VUI) angekommen.

Die Technologie schafft durch den Einsatz der menschlichen Stimme an Touchpoints mehr Nähe zwischen Unternehmen und ihren Zielgruppen. Neben den grundlegenden Aspekten dieser Technologie wurde insbesondere auch ein Auge auf das Verstehen der Schweizer Dialekte geworfen.

Was ein Überblick über die aktuelle VUI-Landschaft offenbart

Markus Maurer (Head of Farner Lab) führte zu Beginn des Webinars in das breite Feld ein. Momentan sind in unseren Breitengraden vor allem die VUI der grossen Technologiekonzerne sichtbar. Praktisch jede Person hat auf dem Smartphone einen virtuellen Assistenten, welcher per Sprache (also VUI) gesteuert werden kann.

OK Google, Siri und Hey Alexa sind die verschiedenen «Wake-Words» der jeweiligen Assistenten. Neben diesen finden sich in Schweizer Haushalten immer öfter auch Smart Speaker, welche per Sprache gesteuert werden. In den Google Assistenten, welcher als einziges System momentan in der Schweiz zu 100% verfügbar ist, kann eine Firma auch «Actions» programmieren. Das sind Voice-Applikationen, welche im Namen einer Firma sprechen können und beispielsweise Auskunft geben und Fragen beantworten.

Dies wäre auch auf Amazon Alexa möglich. Jedoch sind für dieses System in der Schweiz die Apps im App Stores nicht verfügbar. Bei Siri von Apple besteht diese Möglichkeit für Drittanbieter leider nicht.

Während des Webinars wurde auch die Frage gestellt, ob und wann Amazon offiziell in der Schweiz verfügbar sein werde – das kann nur die Glaskugel beantworten.

Neben den bekannten VUIs bieten auch «White-Label Anbieter» spannende Möglichkeiten

Zurück zu den VUI-Anwendungen. Neben den Systemen der grossen Technologiekonzerne gibt es auch «White-Label Anbieter». Diese Systeme können in die eigenen Apps eingebaut werden oder «On-Premises» laufen. Dies ermöglicht es, einige datenschutztechnische Stolperfallen zu vermeiden.

Vor jeder Anwendung muss man sich überlegen, welcher Weg der geeignetste ist. Einfache und datenschutztechnisch unproblematische Anwendungen können über öffentliche digitale Assistenten der Tech-Multis stattfinden. Für Voice-Schnittstellen mit heiklen Abfragen, wie z.B. in Banking-Apps, sind jedoch das Wissen und die Handhabung von «White-Label Anbieter» sehr prüfenswert.

Schweizer Dialekte – eine echte Herausforderung für Voice-Anwendungen

David Imseng von re:capp bietet «White-Label-Lösungen» an. Er erläuterte in seinem Gastreferat, wie es um das Verständnis von Schweizer Dialekten steht.

Seine ganze Berufslaufbahn widmet er der Spracherkennung – und während seiner Doktorarbeit insbesondere der Erkennung des Walliser Dialekts. Er erläuterte zu Beginn, warum die Spracherkennung in den letzten Jahren derart grosse Entwicklungssprünge machte. Zum einen half das Mooresches Gesetz mit. Sprich: Die jedes Jahr schnelleren Rechner ermöglichen es, schneller auf dem Gebiet zu forschen und deshalb «in real-time» Sprache zu erkennen.

Noch vor nicht allzu langer Zeit war die Word Error Rate bei Spracherkennungssoftware noch bei ca. 20%. Doch in der letzten Dekade konnte diese in der englischen Sprache auf ca. 5% reduziert werden. Dies entspricht der gleichen Fehlerquote eines Menschen.

Eine Sprache erkennen ist etwas anderes als den Inhalt eines Gesprächs verstehen

Wichtig ist jedoch die Unterscheidung zwischen der Spracherkennung und dem inhaltlichen Verständnis des Gesprächs. Das sind zwei verschiedene Gebiete. Kontext und Sinn eines Gespräches zu verstehen ist viel schwieriger als die einzelnen Wörter zu transkribieren.

David zeigte auf, wie seine Spracherkennungssoftware bereits im Einsatz funktioniert. Sie wird zum Beispiel im St.Galler Kantonsrat zur Aufzeichnung der Voten genutzt. Oder beim Schweizer Fernsehen zur Verschlagwortung von alten Radio- und TV-Sendungen, damit diese im Archiv schneller wiedergefunden werden.

Zurück zur Erkennung des Schweizerdeutschen. Die Beispiele von David zeigten, dass dies heute schon sehr gut funktioniert. Die Word Error Rate ist noch nicht bei 5%, jedoch dank des technischen Fortschritts auf bestem Weg dahin. Durch das selbstlernende System wird die Technologie täglich besser.

Datenschutz und Datensicherheit stehen vor neuen Herausforderungen

Im dritten Teil der Veranstaltung wurden Fragen von den beiden Experten beantwortet. Selbstverständlich wurden auch Fragen zur Sicherheit dieser Technologie gestellt. Wie bei jeder digitalen Anwendung gibt es auch hier Risikofelder. Teilweise stellen sich neue Herausforderungen, diese sind wie auch bisher erkennbar und deshalb lösbar. So z.B. das zweistufige Anmeldeverfahren mit Spracherkennung. Wichtig ist auch bei dieser Technologie, dass alle Aspekte zu Sicherheit und Datenschutz proaktiv angegangen und aufgearbeitet werden.

Voice User Interfaces sind etabliert – wir sind im Voice-Zeitalter angekommen

Ebenfalls beschäftigte die Teilnehmenden die Frage nach dem Durchbruch von VUI. Dieser ist bereits passiert. In anderen Ländern wie den USA, UK oder Deutschland werden VUI bereits rege genutzt. Überall dort, wo Amazon im Markt tätig ist, sind die Nutzerzahlen hoch. Der Vorteil für den Schweizer Markt dabei ist, dass wir von den Erfahrungen unserer Nachbarn lernen können.

Warum also ist die heutige Auseinandersetzung mit VUI sinnvoll? Wer sich heute damit befasst, kann Überlegungen in digitale Projekte einfliessen lassen und so sicherstellen, dass die gewählten Systeme bereit sind für Sprachsteuerungen – und Sprachsteuerungen haben Zukunft.

Wenn Sie mehr über VUI in der Schweiz erfahren möchten, laden Sie hier die Top Insights des Voice First Barometer Schweiz herunter.

Möchten Sie das Potenzial von Voice User Interfaces für Ihr Unternehmen prüfen lassen? Dann melden Sie sich bei mir. Ich freue mich auf Ihre Nachricht: isabel.schorer@farner.ch