Dr. Laura Dreessen
VP Conversational AI & Customer Success
Oana Ciobotea: "Wie nutzen wir Daten und KI in unseren Projekten?"
Dr. Laura Dreessen: „In erster Linie nutzen wir Daten, um die Spracherkennung zu trainieren, denn jede Sprachinteraktion beginnt mit dem Verstehen. Mithilfe von Sammlungen von Sprachdaten können wir nachvollziehen, wie unsere Voice User-Persona spricht.
Eine Persona zu designen, bedeutet im UX-Design, ein abstraktes Profil der Nutzer*innengruppe auf Grundlage von User Research zu erstellen. Aus linguistischer Sicht versorgen diese Sprachdaten uns mit den Informationen darüber, wie die Nutzenden mit einem Sprachassistenten sprechen, um ihre Ziele zu erreichen.
In einem idealen Prozess stellen wir den entsprechenden Konversationskontext her, in dem Nutzende auf natürliche Weise mit dem Assistenzsystem sprechen. So lernen wir, wie sie Anfragen an eine KI formulieren. Die Sammlung von User-Utterances und Audiodateien gibt uns Aufschluss darüber, welche Bedürfnisse die Nutzenden haben und wie sie diese individuell in Worte fassen, sodass wir ASR (Automatic Speech Recognition) und NLU (Natural Language Understanding) entsprechend trainieren können.
In der Realität investieren die meisten Voice-Projekte jedoch nicht die Zeit und das Geld, die für diese Sammlungen erforderlich sind. Entscheidungen für einen Spracherkennungstyp und die jeweiligen Intents, die benötigt werden, um ein Gespräch zu beginnen, fallen oft schon vorher. Wir nutzen unser linguistisches Wissen, um Trainingsutterances zu formulieren, die der Sprachassistent entsprechend der User-Persona und den geplanten Use Cases verstehen soll. Dabei müssen wir sicherstellen, dass wir die wahrscheinlichsten und natürlichsten Formulierungen in Bezug auf Lexikon, Syntax und Register trainieren und diese die Zielsprache und den jeweiligen Gesprächskontext repräsentieren.
Wir wählen unsere Trainingsdaten unter Berücksichtigung der Art der Spracherkennung aus: Erkennung, die auf Maschinellem Lernen basiert, hängt meist von der Menge der Daten ab, wohingegen man der Maschine bei regelbasierten Ansätzen die prominentesten Strukturen in Form von Regelwerken beibringt.
Bei der Planung und Implementierung von unabhängigen, proprietären Assistenzsystemen (Custom-Built Voice Assistant), im Gegensatz zu plattformbasierten Applikationen, haben wir Auswahlmöglichkeiten, die nicht nur die Trainingsdaten betreffen, sondern auch die Art der Spracherkennung und sogar die Anbieter für die Erkennungssoftware.
Nicht nur unser Intent-Traning selbst, sondern auch unser Dialog-Design ist darauf ausgelegt, Nutzenden möglichst viel Spielraum zu lassen, ihre Sprachabsichten in eigene Worte zu fassen und somit neues Trainingsmaterial in jeder Konversation zu sammeln. Hierbei geht es darum, die Qualität von Erkennung und Sprachinteraktion konstant zu verbessern. Dieses Ziel erreichen wir, indem wir, wo möglich, beispielsweise offene Fragen designen und es vermeiden, Nutzende zu primen, sodass sie nicht auf eine vorhersehbare Art und Weise antworten, wenn wir es nicht ausdrücklich möchten.
Durch meine Erfahrung als Senior Linguist und VUI Architect auf dem DACH-Markt ist mir klar geworden, dass wir nicht immer Maschinelles Lernen (ML) und Unmengen von Daten benötigen. Ich weiß, dass das eine gewagte Behauptung ist. Viele Meinungen im Bereich der KI gehen derzeit in eine andere Richtung. Weil ML so flexibel ist, kann es große Mengen an Daten analysieren und erlaubt dadurch vielseitigere Konversationen mit einem Assistenzsystem.
Regelbasierte Systeme sind eher konzeptionell. Language Engineers formulieren mit unserem linguistischen Input Regeln, um sie zu trainieren.
ML erledigt das automatisch und in vielfacher Geschwindigkeit, sodass das Konversationserlebnis intuitiver ist – Nutzende können eine größere Vielfalt an Wörtern und Satzstrukturen verwenden, um eine Anfrage zu formulieren. In manchen Fällen allerdings brauchen Nutzende gar nicht so viele Möglichkeiten, um eine Anfrage an ein Assistenzsystem zu richten. Die Anzahl an Formulierungen, um zum Beispiel den Fernsehkanal um- oder das Licht einzuschalten, sind tatsächlich ziemlich begrenzt.
Zweitens verwenden wir verschiedene Arten von Daten für die Analyse und Verbesserung des Dialog-Designs. Jedes Design basiert auf einer Hypothese darüber, wie die Interaktion zwischen der User-Persona und dem Sprachassistenten höchstwahrscheinlich abläuft und als gute Experience wahrgenommen wird.
Um zu beweisen, dass eine solche Designhypothese richtig oder falsch ist, benötigen wir anonymisierte Daten über Interaktionen. Kombinieren wir u. a. Erkenntnisse aus Daten über Erfolgsquoten und Zielerfüllung, haben wir die Möglichkeit, Interaktionen anzupassen, zu optimieren oder zu personalisieren. Wir können die Bedürfnisse der Menschen, die mit digitalen Assistenzsystemen interagieren, nur dann erfüllen, wenn wir die Interaktionsmuster und das Nutzer*innenverhalten beobachten. So entwerfen und implementieren wir wirklich nutzer*innenzentrierte Anwendungen für die Konversation zwischen Mensch und Maschine."
„Ich bin Mikro-Linguistin. Die Mikro-Linguistik beschäftigt sich hauptsächlich mit Abstraktionen und deren Instanzen. Das bedeutet, dass mehrere konkrete Realisierungen oder Vorkommen von etwas unter derselben Abstraktion generalisiert werden können, um Sprache zu beschreiben. Beim ASR- und NLU-Training bringen wir Maschinen auf diese Weise bei, wie einzelne Varianten von gesprochener oder geschriebener Sprache zum selben abstrakten Muster oder zum selben Intent gehören.
Abstrahieren bedeutet, dass verschiedene Varianten individuelle Merkmale verlieren, um in dieselbe generalisierte Kategorie zu passen; je allgemeiner die Abstraktion ist, desto weniger Vielfalt deckt sie ab; je geringer die Menge des Inputs, desto größer ist die Wahrscheinlichkeit, eine Verzerrung durch Generalisierung herbeizuführen.
Der Ausdruck ‚Bias in AI‘ (systematische Verzerrung von Daten in der KI) weist in diesem Kontext darauf hin, dass Algorithmen abstrakte Muster aus zu wenigen und unausgewogenen Daten ableiten und kategorisieren. Das erklärt wiederum die Notwendigkeit einer großen Bandbreite an unterschiedlichen Daten, um menschliches (Sprach-)Verhalten in all seinen Facetten auf unvoreingenommene und faire Weise zu erfassen.
Wenn uns die Quantität fehlt, um die Vielfalt zu erfassen, sollten wir als Linguistinnen und Designerinnen die Qualität und Ausgewogenheit der Trainingsdaten für Maschinen sicherstellen, um falsche Abstraktionen und falsches Lernverhalten zu vermeiden. Beim Training der Spracherkennung sollten wir das Ziel verfolgen, jedemr Nutzerin eine Stimme zu geben, ob Daten nun gesammelt oder von uns vorgegeben werden. Idealerweise sollten möglichst viele sozio-linguistische Parameter im Trainingsdatensatz abgedeckt sein: Altersgruppe, Geschlecht, Herkunft, Register, Dialekt, Gesprächssituation, Tonhöhe usw.
Das gilt sowohl für Audiomaterial, das zum Training der ASR dient, als auch für Trainingsutterances, die als Grundlage für Intent-Design, Erkennung und NLU dienen, sowie für Interaktionsmuster, auf denen wir unser Design aufbauen.
Es handelt sich also eigentlich um abstrakte Gespräche zwischen einer abstrakten User-Persona, die so viele sprechende Individuen wie möglich repräsentieren soll, und einer abstrakten Persönlichkeit, die für das Assistenzsystem entworfen ist – Dialogdesign ist streng genommen also bereits eine Abstraktion in sich.
Um die voreingenommene Sichtweise zu vermeiden, dass wir tatsächlich in der Lage wären, Interaktionen zwischen Mensch und Maschine intuitiv zu gestalten und echte Gespräche widerzuspiegeln, erinnere ich mich gerne daran, dass mein Design niemals alle individuellen Bedürfnisse von Millionen von Nutzenden abdecken oder der Individualität eines menschlichen Gesprächs nahe kommen kann.
Wenn es um die Gestaltung digitaler, dialogorientierter Assistenzsysteme geht, ist es meine ganz persönliche Vision, die Anzahl der Individuen zu reduzieren, die durch die User-Persona repräsentiert werden. Wenn ich für eine kleine, ausgewählte Gruppe von Nutzenden designe, ist das Risiko der Verzerrung geringer: Ich kann mich auf eine viel geringere Anzahl individueller Bedürfnisse und Eigenschaften konzentrieren, benötige weniger Daten für das Training der Maschine und muss weniger Aufwand betreiben, um die Daten im Gleichgewicht zu halten.
Ich kann mir vorstellen, dass dies letztlich dazu führt, Verzerrungen vermeiden zu können und stattdessen dem Ziel näher zu kommen, effiziente, kontextbasierte und personalisierte digitale Assistenzsysteme zu erschaffen.“
„Meiner Meinung nach stehen wir tatsächlich vor einem großen Dilemma. Jede Datenerhebung oder -beobachtung im gegenwärtigen Zeitalter der KI sollte auf dem beharrlichen Bemühen beruhen, Datengier zu vermeiden, also nur so viele Daten zu sammeln, wie im Hinblick auf Datensicherheit, Data Governance und Datenschutz erforderlich sind.
Gleichzeitig sollten die Daten Diversität abbilden, was bedeutet, dass eine enorm große Datenmenge benötigt wird, um diese Vielfalt abzudecken. Zusätzlich muss über die richtige Balance in den Daten entschieden werden, um daraus generalisierte Muster abzuleiten, die Verzerrungen vermeiden. Es liegt immer an uns, wie Maschinen lernen, menschliches Verhalten zu interpretieren und zu verallgemeinern.
Um mit diesem Dilemma umzugehen, möchte ich die Gelegenheit nutzen, Projektleiterinnen in einem ersten Schritt die linguistischen Grundlagen, also die Theorie hinter der Datenauswahl, zu vermitteln. Zu Beginn von Projekten sollten wir dazu Workshops veranstalten, denn, seien wir ehrlich, die meisten Menschen sind keine Linguistinnen, und das müssen sie ja auch nicht sein.
Ich möchte unsere Kundinnen über die Technologie aufklären, und darüber, wie wir Daten nutzen und wie sie das Verhalten der KI beeinflussen. Deshalb haben meine Linguistik-Kolleginnen und ich einen Kurs mit dem Namen ‚Linguistics-Based Conversational Design‘ entwickelt. Er erklärt, wie die Gesprächspartnerinnen und die eigentliche Konversation oder multimodale Interaktion bei der Gestaltung eines Voice-Projekts definiert werden können. Ziel ist es, Entscheidungsträgerinnen und Projektmanagerinnen die Notwendigkeit verantwortungsvoller Expertinnenentscheidungen und einer menschzentrierten Vision zu vermitteln.
Darüber hinaus schaffen die Persönlichkeit des Assistenzsystems und die Werte, die ihr zu Grunde liegen, die Voraussetzungen für eine verantwortungsvolle Sprachinteraktion, die auf mehr als nur einer Markenpersönlichkeit oder einer Markenstimme beruht.
Aus gestalterischer Sicht wissen wir, wie wir sicher mit Daten arbeiten. Wir wissen, wie wir mit Sprach- und Nutzer*innendaten ethisch korrekt umgehen und finden die richtigen Methoden, um die Geschäftsziele unserer Kund*innen zu erreichen und gleichzeitig eine hervorragende User Experience zu bieten."
„Aus meiner ganz persönlichen Sicht müssen wir einen Punkt erreichen, an dem die sprachgesteuerte KI ein funktionales Werkzeug ist. Als solches muss KI zweckgebunden und zielorientiert sein. Bezogen auf nutzer*innenzentrierte Sprachanwendungen bedeutet das, dass wir für jeden Sprachassistenten einen guten Charakter entwerfen sollten, der sozial bewusst und verantwortungsvoll ist und hoffentlich auch die Marken in dieser Hinsicht repräsentiert.
Bei VUI.agency beraten wir Marken, um solche sozial verantwortungsbewussten Assistenzsysteme zu schaffen. Visionen für die Sprachinteraktion sollten danach streben, geschäftliche Ziele und Use Cases, die sich aus unserem täglichen Leben ableiten, zu kombinieren – und nicht nur eine KI nach der anderen zu entwerfen, die eventuell an den tatsächlichen Bedürfnissen der Nutzer*innen vorbeigeht.
Nehmen wir an, mehr Unternehmen entscheiden sich für einen qualitativeren Ansatz von Anwendungsfällen und machen ihn für alle zugänglich. Warum sollte man nicht eine KI entwickeln, die nur dazu dient, Menschen mit bestimmten Bedürfnissen zu helfen oder einzelne Menschen im Alltag unterstützt? Wir sind noch nicht ganz da, aber wir machen Schritte in diese Richtung.“
„Meine Vision ist es, Technologie und Digitalisierung zu nutzen, um die Bedingungen für Natur und Menschen wieder zu verbessern. Dazu müssen wir unsere KI-Systeme beherrschen und sie erst einmal verstehen, um das Beste für uns aus ihnen herauszuholen. Das liegt in unserer Hand. Es ist wichtig, dass die Kund*innen diese Vision teilen oder zu dieser Vision tendieren. Auftraggeber*innen brauchen immer eine Vision für Voice, um zu kontrollieren, wie sie mit Daten umgehen und um bewusst zu entscheiden, wie sie mit Nutzenden interagieren möchten. Diese Vision tendiert momentan verständlicherweise eher noch zu großen Teilen in die Richtung reiner Markenrepräsentanz.
Ich freue mich auch darauf, unsere Arbeit durch interdisziplinäre Forschungsansätze aus dem technischen, aber auch vor allem dem geisteswissenschaftlichen Bereich, belegen und weiterentwickeln.“