5 Dinge zum Thema NLU, die einfach schwer zu vermitteln sind

26.05.2021 6 Minuten

Bevor wir uns Hals über Kopf ins Thema Natural Language Understanding (kurz NLU) stürzen, möchte ich ein paar Dinge zu meiner Person erzählen, um die Einordung dieses Textes zu vereinfachen. Ich habe in den letzten fünfeinhalb Jahren als NLU-Entwicklerin im Bereich Sprachsteuerungssysteme für Japanisch und Standartchinesisch innerhalb der Automobilbranche für Volkswagen, Porsche und Audi gearbeitet.

Vor meinem ersten Job in diesem Bereich hatte ich noch nie etwas von NLU gehört. Für die meisten Menschen ist das immer noch der Fall, auch für Unternehmensleiterinnen und Managerinnen. NLU ist jedoch eine Schlüsselkomponente von Sprachprodukten und Spracherlebnissen. Ich nenne es daher gerne den unsichtbaren Motor. Ohne NLU gäbe es keine Sprachassistenten. Egal wie gut das Sprach- oder Conversationaldesign ist, wie toll eine künstliche Stimme sprechen kann, es wäre wie der Versuch, ein Auto ohne Motor zum Fahren zu bringen.

Illustration mit einem Blitz, Wolken und einem Kreis Diagramm.

Von daher möchte ich hier über 5 Dinge zum Thema NLU sprechen, von denen ich denke, dass sie vor allem Manager*innen wissen sollten:

Was genau tue ich eigentlich als NLU-Entwicklerin

Wie gesagt, ich bin eine erfahrene NLU-Entwicklerin und bis heute bin ich mir ziemlich sicher, dass keines meiner Familienmitglieder versteht, womit ich meinen Lebensunterhalt verdiene. Nicht, dass es so geheimnisvoll wäre, wie ein Michelin-Stern-Inspektor zu sein, aber das Konzept, dass jemand mit Sprachen arbeitet und im Wesentlichen programmiert, um eine Maschine dazu zu bringen, die menschliche Sprache zu verstehen, ist einfach sehr schwer zu begreifen.

Bis jetzt, denn wenn ich heutzutage eine kurze Erklärung liefern sollte, würde ich sagen: NLU ist ein Dolmetscher zwischen Mensch und Maschine.

Eine NLU ist sprachspezifisch

Dies ist eine gute Erkenntnis für Managerinnen und Product Ownerinnen, vor allem für diejenigen, die virtuelle Sprachassistenten und immersive Spracherlebnisse für ihre Nutzerinnen schaffen wollen. Nicht alle NLP-Entwicklerinnen (NLP: natural language processing) sind auch gut im Entwickeln von NLUs. Sicherlich ist eine gut entwickelte Pipeline in einem erstellten Sprachmodell wichtig, aber das bedeutet nicht, dass eine NLP-Entwicklerin automatisch über umfangreiches linguistisches Wissen über eine bestimmte Sprache verfügt.

Wenn man Standardchinesisch und Englisch vergleicht, mag beispielsweise die Syntax ähnlich sein: Ein Satz besteht in beiden Sprachen aus Subjekt und Verb. Aber die chinesische Sprache ist sehr arm an Morphologie und was das Standardchinesische noch komplizierter macht, ist, dass sie eine riesige Menge an Homophonen enthält (Wörter, die die gleiche Aussprache, aber unterschiedliche Bedeutungen haben, zum Beispiel „Mathe“ und „Matte“ im Deutschen).

Außerdem ist Chinesisch eine ideografische Sprache, bei der ein Zeichen die Bedeutung repräsentieren kann, ohne die Aussprache wiederzugeben, daher kann dieselbe gesprochene Silbe durch eines von vielen Zeichen dargestellt werden, je nach Bedeutung. Ein bestimmtes Zeichen kann auch eine Reihe von Bedeutungen haben, oder manchmal ganz unterschiedliche Bedeutungen, die unterschiedlich ausgesprochen werden können. Ohne Zeichen repräsentiert der Klang selbst nicht unbedingt die Semantik, die Bedeutung des Wortes. Englischsprachige Entwickler*innen sind also nicht in der Lage, ihr Wissen einfach auf eine chinesische NLU-Entwicklung zu übertragen.

Ein anderes Beispiel wären agglutinierende Sprachen wie Japanisch, wo grammatische und semantische Funktionen durch Affixe gekennzeichnet werden. Im Deutschen gibt es das auch, beispielsweise verändert das Präfix an- die Wortbedeutung von Verben: gehen und angehen, machen und anmachen. Im Japanischen können Affixe die Verbbedeutung von Aktiv zu Passiv verändern (das Deutsche benötigt dafür beispielsweise fast immer Hilfsverben: massieren – massiert werden). Hier ein japanisches Beispiel:

Info graphic showing Japanese where the verb suffix can reflect the meaning of the word

Im Japanischen wird also an den Verbstamm, hier つけ (tsuke) mit dem „Passiv-Suffix“ られる (rareru) kombiniert, um das Verb zu passivieren. Sprachen sind also dermaßen verschieden, dass es NLU-Entwickler*innen braucht, die sich sprachspezifisch auskennen, um gute NLUs erstellen zu können.

Der Unterschied zwischen Natural Language Understanding (NLU) und Natural Language Programming (NLP)

Um bei der Dolmetscher-Analogie vom Anfang zu bleiben: NLP ist die Übersetzungssoftware, die Dolmetscherinnen verwenden können. Es kommt also darauf an, wie man sie einsetzt und wofür man sie verwendet. Oftmals decken NLP-Entwicklerinnen auch die NLU-Entwicklung ab, sodass es oft keinen klaren Schnitt gibt, es sei denn, es ist sprachspezifisch. Bei einer guten NLU geht es darum, sprachliche Details zu verstehen und sie mit den gegebenen Tools zu nutzen.

Je detailorientierter NLU-Entwickler*innen an die Daten herangehen, desto genauer, hilfreicher oder sinnvoller kann die Unterhaltung mit Sprachassistenten werden.

Lily Chuang / was Voice User Interface Architect at VUI.agency

Oft überrascht es Benutzer*innen, wenn Sprachassistenten Eingaben auch dann verstehen, wenn sie es nicht erwarten. Es schafft ein Gefühl von Empathie, Engagement und manchmal sogar Charisma.

Warum sind saubere Daten und klare Intents beim maschinellen Lernen so wichtig

Ich nenne unsaubere Daten und Intents das „Gaslighting in der NLU“.

Das Sprachmodell ist oft nicht so kompliziert, wie man denkt. Stellen Sie sich vor, Sie zeichnen eine Blume (die Daten) auf eine Leinwand (die Maschine). Sie haben das gelbe Pigment auf der Verpackung (der Intent) fälschlicherweise als blau beschriftet. Die Leinwand ist passiv, sie macht genau, was ihr gesagt wird: Blume + blaues Pigment. Sie erwarten, dass Sie eine gelbe Blume zeichnen, aber durch einen Beschriftungsfehler entsteht eine blaue Blume.

Oder Sie haben eine gelbe Blume und einen gelben Elefanten auf die Leinwand gemalt, und Sie klassifizieren Gelb nur als einen einzigen Intent. Ja, sie sind beide gelb, aber niemand käme auf die Idee, dass gelbe Blumen und gelbe Elefanten in ihrer Bedeutung identisch sind. Es wäre viel sinnvoller, die gelben Pflanzen und die gelben Tiere als unterschiedliche Intents zu klassifizieren.

Wenn Sie Ihre Kinder nicht mit verwirrenden Informationen unterrichten, warum sollten Sie es dann mit Ihrer NLU-Engine tun? Wir sollten dasselbe mit Daten tun, unsere Daten und Absichten sauber halten und sie mit Respekt behandeln.

/ Lily Chuang / was Voice User Interface Architect at VUI.agency

Stellen wir uns vor, ein Sprachassistent wird nach gelben Blumen gefragt und gibt Nutzerinnen die Antwort, dass sie ja sicherlich gelbe Elefanten meinten, weil der Intent „Gelbe Dinge“ einfach nicht klar genug abgegrenzt wurde. Wenn ein Produkt mit verwirrenden Daten und Intents veröffentlicht wird, mag es für eine einfache Funktion eine Zeit lang funktionieren. Aber wenn Sie anfangen, Ihre Funktionalitäten zu erweitern, wird es komplizierter zu debuggen, d.h. herauszufinden, woher die falschen Daten kommen. Und es vermittelt Benutzerinnen einfach den Eindruck von schlechter Qualität und mangelnder Ausgereiftheit.

Gibt es eine perfekte NLU-Plattform

Leider ist Perfektion, wie alles andere auch, nur eine Wahrnehmung und keine Realität. Jede NLU-Plattform hat ihre eigenen Vor- und Nachteile. Sie können die Nachteile einer Plattform überwinden, indem Sie mit Sprachexpert*innen zusammenarbeiten und mehr oder bessere Trainingsdaten und Tuning-Regeln verwenden, was praktischer und realistischer ist als die Suche nach der einen perfekten Plattform.

Die NLU-Engine ist schließlich ein Werkzeug. Wie Sie es nutzen und wofür Sie es nutzen, ist viel wichtiger. Zum Beispiel, wenn Alexa eine Pfanne ist und Google Assistant ein Topf: beide können gleichermaßen gut zum Kochen verwendet werden. Aber wenn Sie ein leckeres Abendessen zubereiten wollen, sind die Zutaten und der Koch wahrscheinlich entscheidender als die Pfanne oder der Topf. Ich bin mir sicher, dass ein Gordon Ramsay ein wunderbares Gericht mit sehr schlechtem Kochgeschirr zubereiten kann.

Dinge, die Tech-Managerinnen oder Product Ownerinnen für bessere Ergebnisse bei der Entwicklung von virtuellen Assistenten und Spracherlebnissen beachten sollten.

Oft streben Menschen nach den Sternen und verfehlen diese. Halten Sie ihre NLU einfach und sauber, einen Schritt nach dem anderen. Eindeutige Intents, die von qualifizierten Sprachexpert*innen definiert werden, sind immer ein guter Ausgangspunkt. Irgendwann wird eine klar definierte Entscheidung notwendig sein, um mit mehrdeutigen Daten umzugehen.

Vergessen Sie also nicht, was das Ziel Ihrer Dienstleistung oder Ihres Produkts ist und wie Sie es mit den vorhandenen Daten erreichen wollen. Und denken Sie daran, den Schwerpunkt auf den sprachlichen Bereich zu legen, denn dort werden hochwertige Spracherlebnisse geschaffen. Das Trainieren einer NLU-Engine ist wie das Unterrichten eines Kindes. Je menschlicher Sie Ihre NLU-Engine mit Liebe zum Detail und Einfühlungsvermögen behandeln, desto mehr versteht sie Sie. Schließlich brauchen Sie keinen netten Sprachassistenten ohne Funktionalitäten.

Zusammenfassend lässt sich sagen, dass NLU ein sprachspezifischer Dolmetscher zwischen Mensch und Maschine ist.

Lily Chuang / was Voice User Interface Architect at VUI.agency

Wenn Sie noch mehr über NLU und die Entwicklung von virtuellen Assistenten und immersiven Spracherlebnissen wissen möchten, sprechen sie mit uns! Wir bieten auch Workshops an, um tiefer in die Conversational User Interface Welt einzusteigen. Fragen Sie uns gerne nach branchenspezifischen Workshops oder Trainingseinheiten.

Share this article

Die Conversational-Design-Herangehensweise an Empathie

Sara Oliver G.V. 01.12.2021

Was meinen Sie, könnte ein Sprachassistent dabei helfen, das Einsamkeitsgefühl bei den älteren Menschen zu lindern? Einsamkeit und ältere Menschen sind sehr vertraute Begriffe, die leider meistens Hand in Hand gehen. Um darauf zu antworten, müssen wir zunächst unser Einfühlungsvermögen einsetzen, um die Gründe und Nuancen dieses Gefühls zu verstehen.

Blogartikel lesen

Daten und KI in der Voice-Branche – Ein Interview mit Dr. Laura Dreessen

Dr. Laura Dreessen 30.08.2021

Wie nutzen wir Daten und KI in unseren Projekten? In erster Linie nutzen wir Daten, um die Spracherkennung zu trainieren, denn jede Sprachinteraktion beginnt mit dem Verstehen. Mithilfe von Sammlungen von Sprachdaten können wir nachvollziehen, wie unsere Voice User-Persona spricht. Eine Persona zu designen, bedeutet im UX-Design, ein abstraktes Profil der Nutzer*innengruppe auf Grundlage von User Research zu erstellen.