Unbeschränkte sowie korrelations Datensuchen veröffentlicht

Release der neuen Backend-Suchmethoden

Veröffentlicht von Benedikt Kleppmann (Universität Mannheim) am 22.05.2018

Die Backend-Komponenten sind innerhalb der DS4DM-Architektur für die Verwaltung von Daten-Repositorien sowie für die Bearbeitung von Suchanfragen gegen diese Repositorien zuständig. Das neue Release der DS4DM-Backend-API bietet zwei neue, innovative Suchmethoden an:

  • Unbeschränkte Datensuche

    Die bisherigen DS4DM-Suchmethoden erwarteten, dass der Benutzer vorab weiß, um welches Attribut er eine Tabelle erweitern will. Die Tabelle wurde dann genau um dieses eine Attribut erweitert und das Attribut mit Daten aus dem Repository gefüllt. Bisher war es somit nicht möglich, dass der Nutzer das Repository explorativ nutzt und eine Tabelle um alle Attribute erweitert, die sich mithilfe der Daten des Repositories füllen lassen. Genau dies ermöglicht die unbeschränkte Datensuche: Sie erweitert eine Tabelle um alle Attribute, die sich anhand des Repositories mit mehr als einer Mindestanzahl an Werten füllen lassen. Mit einer einzigen Operation wird eine Tabelle somit um potenziell dutzende neue Attribute erweitert. Die neuen Attribute lassen sich anschließend in Data-Prozessen nutzen und können dazu führen, dass für den Nutzer neue, überraschende Zusammenhänge in den Prozessen erkannt werden.

    Wenn eine Tabelle, die Informationen über Seen enthält, mit der unbeschränkten Datensuche erweitert wird, dann werden beispielsweise die folgenden Attribute automatisch zur Tabelle hinzugefügt und möglichst vollständig mit Werten gefüllt: "Land in dem sich der See befindet", "Oberfläche in Quadratkilometern", "Länge des Sees" oder "Maximale Tiefe". Weitere Anwendungsbeispiele der unbeschränkten Datensuche finden Sie auf der Webseite der DS4DM-Backend-Komponenten.

  • Korrelations-basierte Datensuche

    Die korrelations-basierte Datensuche erweitert Tabellen mit allen Attributen, die mit einem bestimmten Attribut der ursprünglichen Tabelle korrelieren. Im Gegensatz zur unbeschränkten Datensuche, die eine Tabelle um alle möglichen Attribute erweitert, erweitert die korrelations-basierte Suche die Tabelle nur um die Teilmenge aller möglichen Attribute, die mit einem bestimmten Attribut der ursprünglichen Tabelle korrelieren.

    Man könnte beispielweise die korrelations-basierte Datensuche zur Erweiterung einer Tabelle einsetzen, die bisher die Attribute "Name des Sees" und "Oberfläche in Quadratkilometern" enthält. Man gibt an, dass neue Attribute mit "Oberfläche in Quadratkilometern" korrelieren sollen. Die korrelations-basierte Datensuche würde die Tabelle dann um Attribute wie "Länge des Sees" oder "Maximale Tiefe" erweitern, die mit der Oberfläche des Sees korrelieren (Korrelation > 0.4).

Die neuen Suchfunktionen erfordern nicht mehr, dass der Benutzer vorab weiß was er sucht (er eine Hypothese hat, die die Suche leitet). Stattdessen erlauben die neuen Suchfunktionen dem Benutzer, die ganze Reichhaltigkeit der zur Verfügung stehenden Daten explorativ zur Hypothesenbildung einzusetzen.

Eine detaillierte Beschreibung der neuen Suchfunktonen sowie eine Evaluation der Funktionen finden Sie auf der Webseite der DS4DM-Backend-Komponenten.