(Quelle: hoelixDE/Shutterstock.com)
Im Jahr 2020 produzieren mehr als 4,4 Milliarden Internetnutzer eine schwindelerregende Menge an Daten durch Beiträge in sozialen Medien, Bewertungen, Empfehlungen und ähnliche Interaktionen. Die aus diesen Daten gewonnenen Erkenntnisse sind von unschätzbarem Wert, um Unternehmen und innovative Entwickler bei der Produktentwicklung, dem Marketing und der Kundenbetreuung zu unterstützen. Die Gewinnung dieser Erkenntnisse ist jedoch eine Herausforderung, da meinungsorientierte, vom Kunden zur Verfügung gestellte Daten aufgrund der Komplexität der menschlichen Sprache und des kulturellen Kontexts für Maschinen schwer zu verstehen und zu interpretieren sind. Instrumente wie die Computerlinguistik (CL) und das maschinelle Lernen (ML) versetzen Computer in die Lage, menschliche Sprache zu verstehen und aus ihr eine Bedeutung abzuleiten. Darüber hinaus hilft ein fortschreitendes Forschungsgebiet der künstlichen Intelligenz (KI), die sogenannte Sentimentanalyse, Maschinen dabei, unstrukturierte, von Kunden bereitgestellte Daten zu verstehen und Meinungen als positiv, negativ oder neutral zu interpretieren.
Um die Sentimentanalyse in der Computerlinguistik zu verstehen, schauen wir uns diese einfache Aussage aus einer Restaurantkritik an: „Die Suppe war gut.“ Eine Analyse des Sentiments erfordert drei Aktionen:
In diesem Fall ist die Sentimentanalyse eindeutig positiv in Bezug auf ein bestimmtes Essen, das im Restaurant serviert wird. Andere Beispiele sind jedoch nicht so eindeutig, wie in einem scheinbar ähnlichen Satz: „Das Bier ist kalt.“ Viele würden diese Meinung als positiv betrachten, weil sie Bier auf diese Weise mögen, aber kalt kann in anderen Zusammenhängen eine negative Polarität haben. Zum Beispiel: „Der Kaffee ist kalt“ verwendet eine identische Satzstruktur und ein identisches Adjektiv, aber viele Menschen würden kalten Kaffee als negativ betrachten.
Andere sprachliche Komplexitäten schaffen zusätzliche Herausforderungen, wie z. B. Sätze, die mehrere Empfindungen enthalten, z. B: „Das Essen war gut, aber die Suppe war kalt.“ Hier gibt es ein positives, ein negatives und ein mehrdeutiges Sentiment, je nachdem, welche Suppentemperatur der Kunde bevorzugt. Der ähnliche Satz „Die Suppe war heiß, aber das Bier war kalt“ wäre für die meisten Menschen ein positives Sentiment, ist aber im Hinblick auf den potenziellen Kundenkontext mehrdeutig.
Modifikatoren verwischen die Grenze zwischen den Polaritäten weiter. Betrachten wir beispielsweise die Meinungsäußerung: „Das Personal war fast zu freundlich.“ Hier müssen wir auch an Ironie, Sarkasmus oder Redewendungen denken, was es schwierig macht, das Sentiment richtig zu identifizieren. Beispiele wie „Wir haben mehr als eine Stunde gewartet, wirklich toller Service!“ sind in den Trainingsdaten eher selten und es ist extrem schwer, sie manuell auf systematische Weise zu kodieren.
Die Zuordnung von Polarität zu Meinungen wird noch schwieriger, wenn persönliche, kulturelle oder umständebedingte Präferenzen berücksichtigt werden. Analysieren Sie zum Beispiel Kundenbewertungen für ein Ryokan, ein traditionelles japanisches Gästehaus, das typischerweise schick und teuer ist, aber einen gemeinsamen Badebereich anstelle von privaten Badezimmern bietet. Das Fehlen oder Vorhandensein von etwas als positiv oder negativ zu kategorisieren, scheint einfach zu sein – zum Beispiel: „In der Dusche war Schmutz“ oder „Es gab einen Pool für die Kinder“. Das Beispiel Ryokan zeigt jedoch, wie wichtig die Berücksichtigung kultureller Variablen und persönlicher Präferenzen ist, um verwertbare Erkenntnisse für Daten zu erhalten. In Japan empfinden die Gäste gemeinsame Badebereiche als positives Attribut. Im Gegensatz dazu würden die meisten europäischen Reisenden dies negativ sehen, besonders in einem teuren Hotel. Und bei diesem Beispiel haben wir nur ein Merkmal und zwei Kulturen.
In der Computerlinguistik können Sentiments sowohl auf der Ebene des gesamten Dokuments als auch auf Absatz- und Satzebene analysiert werden, wobei die Ergebnisse dann oft aggregiert werden. Während die Analyse des gesamten Dokuments nützlich ist, kann die Analyse auf Absatz- und Satzebene granularere und entsprechend genauere Ergebnisse liefern (z. B. die Identifizierung von Sentiments über ein bestimmtes Produktmerkmal zusätzlich zu dem gesamten Produkt). Die Herausforderung besteht in der Entwicklung eines Lexikons – einer Reihe von Regeln, die Maschinen zur Klassifizierung von Sentiments als positiv, negativ oder neutral verwenden. Als Ausgangspunkt gibt es viele kostenlose Tools und Ressourcen, die auf öffentliche Daten trainiert sind. Zum Beispiel enthalten Software-Bibliotheken wie Natural Language Toolkit, spaCy und TextBlob Sentiment-Modelle, erlauben aber das Nachtrainieren mit Benutzerdaten. Wenn Sie lieber nicht programmieren möchten, ermöglichen Ihnen Cloud-Angebote wie Google Cloud Platform oder Microsoft Azure den sofortigen Einstieg in die Sentimentanalyse: Fügen Sie den zu analysierenden Text einfach in einen Browser ein und bauen Sie Ihre Anwendung von dort aus auf.
Über das Prototyping hinaus sollten die Datensätze und ML-Modelle die Komplexität von Sprache und Kultur berücksichtigen. Das bedeutet:
Von Kunden bereitgestellte Daten aus Social-Media-Beiträgen, Bewertungen, Empfehlungen und Ähnlichem bieten Unternehmen und Innovatoren unschätzbare Einblicke. Die Komplexität natürlicher Sprache und Kulturen macht es KI-gesteuerten Maschinen schwer, Kundenmeinungen zu verstehen. Die Sentimentanalyse kann jedoch dazu beitragen, dass diese Aspekte erfasst werden und sich in den Erkenntnissen widerspiegeln. Für den Anfang können Sie frei verfügbare Tools und Ressourcen verwenden, aber die Bewältigung komplexer sprachlicher und kultureller Gegebenheiten ist eine Herausforderung, die umfangreiche Planung, Datenvorbereitung und Modellierung erfordert. Das Bewusstsein für die Komplexität von Sprache und Kultur zu schärfen, ist ein hervorragender Ansatz, um nützliche Erkenntnisse zu gewinnen, und eine äußerst wertvolle Methode, um Ihr Verständnis für Ihre Kunden und deren Bedürfnisse zu fördern.
Michael Matuschek ist Senior Data Scientist und lebt in Düsseldorf. Er hat einen Master-Abschluss in Informatik und einen Doktortitel in Computerlinguistik. Herr Matuschek hat an unterschiedlichen Projekten zur Verarbeitung der natürlichen Sprache in verschiedenen Branchen sowie im akademischen Bereich gearbeitet. Zu den von ihm behandelten Themen gehören die Stimmungsanalyse für Rezensionen, die Klassifizierung von Kunden-E-Mails sowie die Anreicherung fachspezifischer Ontologien.