|

Data Mining mit Rangfolgen I

Vor kurzem habe ich gezeigt, wie viel analytische Kraft in simplen Rangfolgen steckt, und sie als iPod des Datenanalysten bezeichnet. Die Verständlichkeit einer einfachen sortierten Liste kommt uns auch bei komplexeren Analysen zugute. Nehmen wir dazu nochmals die Formel-1-Daten zur Hand. Nach Weltmeistern hatten wir sie schon geordnet und uns gefreut, dass sie von einem Landsmann angeführt wird. Nach Ländern sieht die Sache anders aus. Da sind wir Deutschen auf dem dritten Platz, die heißblütigen Brasilianer sind knapp, die Engländer deutlich vor uns.

Derartige Listen können wir für alle Dimensionen erstellen, die unser Modell hergibt. Es enthält das Jahr, die Weltmeister, die Vizeweltmeister, die Dritten, deren Herkunftsländer und die Konstrukteurstitel nach Teams.

Hypertree_Übersicht

Würden wir alle Listen durchsehen, bekämen wir ein aussagekräftiges Bild, was den Kampf um die Titel in der Formel 1 seit Beginn geprägt hat, ob und wenn ja welche Fahrer, Länder und Teams dominierten.

Wesentlich für das Data Mining ist die Idee der Autonomie. Der Rechner soll alle Schritte selbsttätig ausführen, für die wenig Intelligenz nötig ist. In unserem Fall kann der Rechner für uns alle Rangfolgen bilden und sie zu einer einzigen Liste, einer Art Meta-Rangfolge zusammenführen.

In DeltaMaster erledigt diese Aufgabe das Modul PowerSearch. Das Ergebnis sieht so aus:

Powersearch einfach

Wir erkennen, unsere Nachbarn jenseits des Kanals stellten nicht nur in Summe die erfolgreichsten Fahrer, sondern auch am häufigsten den Zweiten und Dritten der Meisterschaft. Den Italienern gelangen dafür mit Ferrari die meisten Konstrukteurstitel.

Das nächste Mal steigern wir unseren analytischen Anspruch und fragen nach der Häufung von Merkmalskombinationen.

Ein Kommentar zu “Data Mining mit Rangfolgen I”

  1. Henri Lüdeke meint:

    Wir nutzen das Powersearch u.a. in der Bewertung von Immobilienportfolios. Nachdem wir die Daten in unserer Software avestrategy drin haben und mit DeltaMaster multidimensional auswerten, lassen wir als ersten Schritt das Powersearch laufen, um einen Überblick zu erhalten. Das zeigt uns visuell die wesentlichen Werttreiber und wir können Plausibilitätsprüfungen durchführen. Im Nachgang können wir einzelne Sachverhalte mit der Analysekettentechnik feinteiliger beleuchten.

Kommentieren

Freitag, 27. August 2010

Prognosen haben kurze Beine

Donnerstag, 5. August 2010

Wenn die CI regiert

Freitag, 16. Juli 2010

Schreiben mit Sparklines

Freitag, 25. Juni 2010

Sportlines: Die ersten Sparklines in einer deutschen Zeitung

Freitag, 4. Juni 2010

Computer aus Pandora

Freitag, 14. Mai 2010

Steuermann, lass die Wacht - Steuermann, pass uns an

Freitag, 23. April 2010

Die ersten Sparklines der Welt – fast

Freitag, 2. April 2010

Man kann keinen Fisch in ein iPad wickeln

Freitag, 12. März 2010

Neusehland II

Freitag, 19. Februar 2010

Von Pixelland nach Panoramaland


»Me, myself und BI« Bissantz denkt nach
EN English