|

Data Mining mit Rangfolgen I

Vor kurzem habe ich gezeigt, wie viel analytische Kraft in simplen Rangfolgen steckt, und sie als iPod des Datenanalysten bezeichnet. Die Verständlichkeit einer einfachen sortierten Liste kommt uns auch bei komplexeren Analysen zugute. Nehmen wir dazu nochmals die Formel-1-Daten zur Hand. Nach Weltmeistern hatten wir sie schon geordnet und uns gefreut, dass sie von einem Landsmann angeführt wird. Nach Ländern sieht die Sache anders aus. Da sind wir Deutschen auf dem dritten Platz, die heißblütigen Brasilianer sind knapp, die Engländer deutlich vor uns.

Derartige Listen können wir für alle Dimensionen erstellen, die unser Modell hergibt. Es enthält das Jahr, die Weltmeister, die Vizeweltmeister, die Dritten, deren Herkunftsländer und die Konstrukteurstitel nach Teams.

Hypertree_Übersicht

Würden wir alle Listen durchsehen, bekämen wir ein aussagekräftiges Bild, was den Kampf um die Titel in der Formel 1 seit Beginn geprägt hat, ob und wenn ja welche Fahrer, Länder und Teams dominierten.

Wesentlich für das Data Mining ist die Idee der Autonomie. Der Rechner soll alle Schritte selbsttätig ausführen, für die wenig Intelligenz nötig ist. In unserem Fall kann der Rechner für uns alle Rangfolgen bilden und sie zu einer einzigen Liste, einer Art Meta-Rangfolge zusammenführen.

In DeltaMaster erledigt diese Aufgabe das Modul PowerSearch. Das Ergebnis sieht so aus:

Powersearch einfach

Wir erkennen, unsere Nachbarn jenseits des Kanals stellten nicht nur in Summe die erfolgreichsten Fahrer, sondern auch am häufigsten den Zweiten und Dritten der Meisterschaft. Den Italienern gelangen dafür mit Ferrari die meisten Konstrukteurstitel.

Das nächste Mal steigern wir unseren analytischen Anspruch und fragen nach der Häufung von Merkmalskombinationen.

Ein Kommentar zu “Data Mining mit Rangfolgen I”

  1. Henri Lüdeke meint:

    Wir nutzen das Powersearch u.a. in der Bewertung von Immobilienportfolios. Nachdem wir die Daten in unserer Software avestrategy drin haben und mit DeltaMaster multidimensional auswerten, lassen wir als ersten Schritt das Powersearch laufen, um einen Überblick zu erhalten. Das zeigt uns visuell die wesentlichen Werttreiber und wir können Plausibilitätsprüfungen durchführen. Im Nachgang können wir einzelne Sachverhalte mit der Analysekettentechnik feinteiliger beleuchten.

Kommentieren

Freitag, 20. Januar 2012

The Wall (Teil I)

Freitag, 23. Dezember 2011

Doppelseite gegen Schlagseite

Freitag, 2. Dezember 2011

Summiere und buchstabiere

Freitag, 11. November 2011

Man kann die Augen schließen, aber nicht die Ohren

Freitag, 21. Oktober 2011

Eine SUCCESS-Story

Freitag, 30. September 2011

King ROI und Lady BI

Freitag, 9. September 2011

Einfach falsch ist richtig schwierig

Freitag, 19. August 2011

Geradlinig falsch

Freitag, 29. Juli 2011

Im Übrigen bin ich der Meinung, dass PowerPoint zerstört werden muss

Freitag, 8. Juli 2011

Frühstück, Direktor!


»Me, myself und BI« Bissantz denkt nach
EN EN