Raffinierte Daten

10. Dezember 2018

Daten sind das Rohöl der digitalen Wirtschaft. Um sie sinnvoll und zweckmäßig einzusetzen, müssen sie veredelt werden. Ein Überblick über die Methoden und was die Data Science-Teams alles leisten können.

Der Trump-or-not-Bot

Das BRZ baut seine „Raffinerie“ – die Data Science-Teams – lau­fend aus. Methoden aus Knowledge Discovery, Advanced Analytics und Co. erzeugen anwend­bare Erkenntnisse und Ergebnisse aus den Daten.  Donald Trump ist ein begeisterter Twitter-User. Aber wie viele von „seinen“ Tweets stammen wirklich von ihm? Der Trump-or-not-Bot der Zeitschrift The Atlantic fördert die Wahrheit zu Tage: Mit einer Wahrscheinlichkeit von 90 % kann gesagt werden, ob der Präsident der USA selbst in die Tasten gegriffen hat oder jemand aus seiner Presseabteilung. Die Technik dahinter: Machine Learning und Natural Language Pro­cessing. Auch im BRZ setzen wir uns mit diesen Tools und anderen Methoden auseinander, um Sprache, Text und Bilder maschinell lesbar zu machen und damit besser auswerten zu können. 

In den Tiefen des Texts 

Was auf einem Bild zu sehen ist oder in einem Fließtext-Dokument inhaltlich steht, bezeichnet man als unstrukturierte Daten. Das BRZ hat das Team „Knowledge Discovery“ eingerichtet, das sich damit befasst, große Mengen solcher Daten und Dokumente aufzubereiten. Knowledge Dis­covery ist ein ganzheitlicher Prozess, der das Vor­gehen beschreibt, wie man von solchen Rohdaten zu strukturiertem Wissen gelangt, das man für Auswertungen, Recherchen oder Visualisierungen benutzen kann. Ein Teil davon ist bei textuellen Ausgangsdaten das Text Mining. 

Darunter versteht man verschiedene Teilschritte, die je nach Zielsetzung individuell kombiniert und angepasst werden müssen. Mit linguistischen und statistischen Methoden lassen sich Namen von Personen und Organisationen identifizieren, Zeichenketten mit bekannten Formaten wie Telefonnummern und E-Mail-Adressen erkennen, Dokumente nach bestimmten Eigenschaften clus­tern und domänenspezifisches Wissen ableiten, wie z. B. die Zuordnung von Adressen zu Perso­nen, wenn dies für die Auswertung relevant ist.  Es gibt zahlreiche Anwendungsmöglichkeiten: 

  • In einem News-Artikel auf einer Website wird der Name einer Person oder Organisation er­kannt und es werden automatisch weitere Inhalte verknüpft, in denen diese auch vorkommt.
  • Für ein Service Center kann eine Anfrage auto­matisiert einer bestimmten Kategorie zugeordnet werden und geht deswegen direkt an das verant­wortliche Team. 
  • Wenn in sozialen Medien vermehrt Meldungen zu einem Thema auftreten, das eine Behörde betrifft, wird diese informiert und das Stim­mungsbild live ausgewertet. 
  • Für Nachforschungen in unterschiedlichen Domänen (z. B. Medizin, Recht) können Dokumen­te in Wissensdatenbanken umgewandelt werden.

Funktionsweise

Ausgehend von einem syntaktisch korrekten Satz werden in einem mehrstufigen Verfahren alle Informationen weggelassen, die für den Anwendungsfall nicht relevant sind, z. B. Groß-/ Klein-Schreibung oder Präpositionen. Die übrig gebliebenen Wörter können dann zum Beispiel mit einer Wordcloud dargestellt werden. Für die weiteren Schritte stehen viele verschiedene Metho­den im Bereich Text Mining zur Verfügung. Um diese richtig einzusetzen, ist es jedenfalls notwen­dig, Informationen über die Sprache und/oder über den konkreten Anwendungsfall zur Verfü­gung zu haben, da das System den Text sonst nicht verarbeiten und interpretieren kann.  Zur Veranschaulichung dient die Auswahl eines Hotels anhand von Bewertungen. Angenommen, für eine Person ist die Lage des Hotels das wichtigste Entscheidungskriterium und sie will nur Bewertungen sehen, in denen diese thematisiert wird. Ein System kann einschätzen, inwiefern eine Rezension hinsichtlich mehrerer Kriterien wie z. B. Preis-Leis­tungs-Verhältnis, Qualität der Zimmer, Lage und Qualität des Service relevant ist. Eine kurze Bewer­tung könnte wie folgt lauten: Jedes Mal, wenn wir in Wien übernachten, nehmen wir dieses Hotel. Es liegt so günstig, in der Nähe von Stadtpark, Stephansplatz und großartigen Restaurants.  Das Wort ‚günstig‘ würde zwar für ein System darauf hindeuten, dass die Kosten angesprochen werden. Die Erwähnung von Sehenswürdigkeiten und Restaurants zeigt aber, dass hier der Ort der Unterkunft im Zentrum steht. Somit kann mithilfe von Topic Modeling festgestellt werden, dass sich die Hotelbewertung mit einer großen Wahrschein­lichkeit auf die Lage des Hotels bezieht.  In einem weiteren Schritt – und hier wird es schwieri­ger – kann man versuchen, Emotionen aus dem Text zu erfassen: Zufriedenheit, Wut, Angst etc. könnten von Algorithmen erkannt werden. Ironie und Sar­kasmus sind für Maschinen immer noch schwer zu erkennen, daher ist hier Vorsicht angebracht.  Diese Ausprägungen, Topic Mining oder Sentiment-Analyse stellen zwei Vertreter dieser Kategorie dar und sind zusammengefasst dem Themenbereich Knowledge Discovery zuzuord­nen. Beispiele zur Anwendung dieser Verfahren und Technologien finden sich in der Medizin, im Finanzwesen, im Redaktionsbereich oder in der Betrugsbekämpfung

Analyse von Unternehmensstrukturen

Ein in der Wirtschafts- und Finanzwelt etablier­ter Einsatzbereich sind Auskünfte, Scorings über Firmen, Unternehmenskonstrukte und Personen, im Zuge einer sich anbahnenden geschäftlichen Beziehung. Die sogenannten Auskunfteien sind in der Lage, durch Verfahren und Methoden der Knowledge Discovery verfügbare Informationen aus verschiedensten Quellen automatisiert und strukturiert zu analysieren, um letztlich mittels Netzwerkanalyse einen Überblick über Struktur, Ratings, Bonität, Ausfallrisiken, Beziehungsge­flechte und Verantwortungsstrukturen zu geben. Anomalien werden automatisch erkannt. Was in der Vergangenheit wochenlange Arbeit war, kann heute durch gezielten und angemessenen Einsatz von Knowledge-Discovery-Prozessen effizient erzielt werden. Durch die maschinelle Unterstützung ver­schiebt sich auch der Schwerpunkt von der Recher­che zu Analyse und Auswertung. Die Mitarbeiterin oder der Mitarbeiter kann sich auf die Zusammenstellung von qualitativ hochwertigen Ergebnissen fokussieren.