Raffinierte Daten
10. Dezember 2018
Daten sind das Rohöl der digitalen Wirtschaft. Um sie sinnvoll und zweckmäßig einzusetzen, müssen sie veredelt werden. Ein Überblick über die Methoden und was die Data Science-Teams alles leisten können.
Der Trump-or-not-Bot
Das BRZ baut seine „Raffinerie“ – die Data Science-Teams – laufend aus. Methoden aus Knowledge Discovery, Advanced Analytics und Co. erzeugen anwendbare Erkenntnisse und Ergebnisse aus den Daten. Donald Trump ist ein begeisterter Twitter-User. Aber wie viele von „seinen“ Tweets stammen wirklich von ihm? Der Trump-or-not-Bot der Zeitschrift The Atlantic fördert die Wahrheit zu Tage: Mit einer Wahrscheinlichkeit von 90 % kann gesagt werden, ob der Präsident der USA selbst in die Tasten gegriffen hat oder jemand aus seiner Presseabteilung. Die Technik dahinter: Machine Learning und Natural Language Processing. Auch im BRZ setzen wir uns mit diesen Tools und anderen Methoden auseinander, um Sprache, Text und Bilder maschinell lesbar zu machen und damit besser auswerten zu können.
In den Tiefen des Texts
Was auf einem Bild zu sehen ist oder in einem Fließtext-Dokument inhaltlich steht, bezeichnet man als unstrukturierte Daten. Das BRZ hat das Team „Knowledge Discovery“ eingerichtet, das sich damit befasst, große Mengen solcher Daten und Dokumente aufzubereiten. Knowledge Discovery ist ein ganzheitlicher Prozess, der das Vorgehen beschreibt, wie man von solchen Rohdaten zu strukturiertem Wissen gelangt, das man für Auswertungen, Recherchen oder Visualisierungen benutzen kann. Ein Teil davon ist bei textuellen Ausgangsdaten das Text Mining.
Darunter versteht man verschiedene Teilschritte, die je nach Zielsetzung individuell kombiniert und angepasst werden müssen. Mit linguistischen und statistischen Methoden lassen sich Namen von Personen und Organisationen identifizieren, Zeichenketten mit bekannten Formaten wie Telefonnummern und E-Mail-Adressen erkennen, Dokumente nach bestimmten Eigenschaften clustern und domänenspezifisches Wissen ableiten, wie z. B. die Zuordnung von Adressen zu Personen, wenn dies für die Auswertung relevant ist. Es gibt zahlreiche Anwendungsmöglichkeiten:
- In einem News-Artikel auf einer Website wird der Name einer Person oder Organisation erkannt und es werden automatisch weitere Inhalte verknüpft, in denen diese auch vorkommt.
- Für ein Service Center kann eine Anfrage automatisiert einer bestimmten Kategorie zugeordnet werden und geht deswegen direkt an das verantwortliche Team.
- Wenn in sozialen Medien vermehrt Meldungen zu einem Thema auftreten, das eine Behörde betrifft, wird diese informiert und das Stimmungsbild live ausgewertet.
- Für Nachforschungen in unterschiedlichen Domänen (z. B. Medizin, Recht) können Dokumente in Wissensdatenbanken umgewandelt werden.
Funktionsweise
Ausgehend von einem syntaktisch korrekten Satz werden in einem mehrstufigen Verfahren alle Informationen weggelassen, die für den Anwendungsfall nicht relevant sind, z. B. Groß-/ Klein-Schreibung oder Präpositionen. Die übrig gebliebenen Wörter können dann zum Beispiel mit einer Wordcloud dargestellt werden. Für die weiteren Schritte stehen viele verschiedene Methoden im Bereich Text Mining zur Verfügung. Um diese richtig einzusetzen, ist es jedenfalls notwendig, Informationen über die Sprache und/oder über den konkreten Anwendungsfall zur Verfügung zu haben, da das System den Text sonst nicht verarbeiten und interpretieren kann. Zur Veranschaulichung dient die Auswahl eines Hotels anhand von Bewertungen. Angenommen, für eine Person ist die Lage des Hotels das wichtigste Entscheidungskriterium und sie will nur Bewertungen sehen, in denen diese thematisiert wird. Ein System kann einschätzen, inwiefern eine Rezension hinsichtlich mehrerer Kriterien wie z. B. Preis-Leistungs-Verhältnis, Qualität der Zimmer, Lage und Qualität des Service relevant ist. Eine kurze Bewertung könnte wie folgt lauten: Jedes Mal, wenn wir in Wien übernachten, nehmen wir dieses Hotel. Es liegt so günstig, in der Nähe von Stadtpark, Stephansplatz und großartigen Restaurants. Das Wort ‚günstig‘ würde zwar für ein System darauf hindeuten, dass die Kosten angesprochen werden. Die Erwähnung von Sehenswürdigkeiten und Restaurants zeigt aber, dass hier der Ort der Unterkunft im Zentrum steht. Somit kann mithilfe von Topic Modeling festgestellt werden, dass sich die Hotelbewertung mit einer großen Wahrscheinlichkeit auf die Lage des Hotels bezieht. In einem weiteren Schritt – und hier wird es schwieriger – kann man versuchen, Emotionen aus dem Text zu erfassen: Zufriedenheit, Wut, Angst etc. könnten von Algorithmen erkannt werden. Ironie und Sarkasmus sind für Maschinen immer noch schwer zu erkennen, daher ist hier Vorsicht angebracht. Diese Ausprägungen, Topic Mining oder Sentiment-Analyse stellen zwei Vertreter dieser Kategorie dar und sind zusammengefasst dem Themenbereich Knowledge Discovery zuzuordnen. Beispiele zur Anwendung dieser Verfahren und Technologien finden sich in der Medizin, im Finanzwesen, im Redaktionsbereich oder in der Betrugsbekämpfung.
Analyse von Unternehmensstrukturen
Ein in der Wirtschafts- und Finanzwelt etablierter Einsatzbereich sind Auskünfte, Scorings über Firmen, Unternehmenskonstrukte und Personen, im Zuge einer sich anbahnenden geschäftlichen Beziehung. Die sogenannten Auskunfteien sind in der Lage, durch Verfahren und Methoden der Knowledge Discovery verfügbare Informationen aus verschiedensten Quellen automatisiert und strukturiert zu analysieren, um letztlich mittels Netzwerkanalyse einen Überblick über Struktur, Ratings, Bonität, Ausfallrisiken, Beziehungsgeflechte und Verantwortungsstrukturen zu geben. Anomalien werden automatisch erkannt. Was in der Vergangenheit wochenlange Arbeit war, kann heute durch gezielten und angemessenen Einsatz von Knowledge-Discovery-Prozessen effizient erzielt werden. Durch die maschinelle Unterstützung verschiebt sich auch der Schwerpunkt von der Recherche zu Analyse und Auswertung. Die Mitarbeiterin oder der Mitarbeiter kann sich auf die Zusammenstellung von qualitativ hochwertigen Ergebnissen fokussieren.