CiAgICA8IS0tIExpbmtlZEluIC0tPgogICAgPHNjcmlwdCB0eXBlPSJ0ZXh0L2phdmFzY3JpcHQiPgogICAgICAgIF9saW5rZWRpbl9wYXJ0bmVyX2lkID0gIjEyMzUwNzMiOwogICAgICAgIHdpbmRvdy5fbGlua2VkaW5fZGF0YV9wYXJ0bmVyX2lkcyA9IHdpbmRvdy5fbGlua2VkaW5fZGF0YV9wYXJ0bmVyX2lkcyB8fCBbXTsKICAgICAgICB3aW5kb3cuX2xpbmtlZGluX2RhdGFfcGFydG5lcl9pZHMucHVzaChfbGlua2VkaW5fcGFydG5lcl9pZCk7CiAgICA8L3NjcmlwdD48c2NyaXB0IHR5cGU9InRleHQvamF2YXNjcmlwdCI+CiAgICAgICAgKGZ1bmN0aW9uKCl7dmFyIHMgPSBkb2N1bWVudC5nZXRFbGVtZW50c0J5VGFnTmFtZSgic2NyaXB0IilbMF07CiAgICAgICAgICAgIHZhciBiID0gZG9jdW1lbnQuY3JlYXRlRWxlbWVudCgic2NyaXB0Iik7CiAgICAgICAgICAgIGIudHlwZSA9ICJ0ZXh0L2phdmFzY3JpcHQiO2IuYXN5bmMgPSB0cnVlOwogICAgICAgICAgICBiLnNyYyA9ICJodHRwczovL3NuYXAubGljZG4uY29tL2xpLmxtcy1hbmFseXRpY3MvaW5zaWdodC5taW4uanMiOwogICAgICAgICAgICBzLnBhcmVudE5vZGUuaW5zZXJ0QmVmb3JlKGIsIHMpO30pKCk7CiAgICA8L3NjcmlwdD4KICAgIDxub3NjcmlwdD4KICAgICAgICA8aW1nIGhlaWdodD0iMSIgd2lkdGg9IjEiIHN0eWxlPSJkaXNwbGF5Om5vbmU7IiBhbHQ9IiIgc3JjPSJodHRwczovL3B4LmFkcy5saW5rZWRpbi5jb20vY29sbGVjdC8/cGlkPTEyMzUwNzMmZm10PWdpZiIgLz4KICAgIDwvbm9zY3JpcHQ+CiAgICA8IS0tIEVuZCBMaW5rZWRJbiAtLT4KICAgIA==
Generic filters
Exact matches only
Search in title
Search in excerpt
Search in content

Mythos Data Mining

Warum Männer Bier und Windeln nicht zusammen kaufen und was wir dennoch aus modernen Sagen lernen können.

“It’s in there. The discovery, the fact, the one piece of the puzzle that will blow away the competition, propel your company to the top, and stick a ‘VP’ after your name. It’s right there, in your database.” [1] So sieht sie aus, die schöne neue Welt des Data Mining: In unseren Datenbanken halten sich Erkenntnisse verborgen, die nicht nur die Wettbewerber das Fürchten lehren, sondern uns gleich noch glänzende Karrieren bescheren.

Und tatsächlich wird von solchen Erfolgen berichtet. Da soll Wal Mart, der Welt größter Einzelhändler, zum Beispiel herausgefunden haben, dass sich zu bestimmten Zeiten Bier und Windeln besonders gut zusammen verkaufen, weil junge Männer am Freitag Abend noch mal schnell in den Supermarkt rennen, um Bier zu holen, und ihre Frauen ihnen nachrufen: “Bring auch Windeln mit, Schatz!” [2]

“Some of the ways Wal-Mart managers found to exploit their findings are legendary. One such legend is the story, “diapers and beer”. Wal-Mart discovered through data mining that the sales of diapers and beer were correlated on Friday nights. It determined that the correlation was based on working men who had been asked to pick up diapers on their way home from work. On Fridays the men figured they deserved a six-pack of beer for their trouble; hence the connection between beer and diapers. By moving these two items closer together, Wal-Mart reportedly saw the sales of both items increase geometrically.” [3]

Eine Version mit leicht anderem Rollenverständnis besagt, dass die Männer wegen der Windeln in den Supermarkt geschickt werden und weil für das Pub dann keine Zeit mehr ist, sich Bier mit nach Hause nehmen.

In allen Versionen platziert Wal Mart dann die Windeln näher am Bier und verdient ein Vermögen damit. [4]

Das ist so nie passiert und die Geschichte gehört in den Bereich der Modernen Sagen. Dennoch ist sie gut (“never let truth get in the way of a good story”) und wir können etwas daraus lernen. Ich war selbst oft in der Versuchung, Geschichten wie diese zu erfinden, um etwas allge­mein verständlich auszudrücken. Als wir mit unserem eigenen, an der Universität gebauten Data-Mining-System auf Schatzsuche in den Daten von Gühring, Metabo und Sandoz gingen, fanden wir alle möglichen Auffälligkeiten, die wir mangels Hintergrundwissen nicht verstanden. Wir zeigten unsere Ergebnisse den Menschen in den jeweiligen Unternehmen und sie bestätigten, dass wir wertvolle Hinweise aufgedeckt hatten. Derartige Ergebnisse einem Dritten anhand eines konkreten Beispiels verständlich zu machen, erwies sich immer als mindestens so kompliziert wie die Datenschatzsuche selbst.

Was uns das Windel-Bier-Beispiel sagen sollte, ist: Es gibt Algorithmen, mit denen wir Assoziatio­nen in Daten automatisiert erkennen können. Ob man jedoch gleich Erkenntnisse findet, die den Wettbewerb erblassen lassen, ist eine ganz andere Frage.

Quellen:

[1] Reese Hedberg, S., The Data Gold Rush, Byte 20 (1995) 10, S. 83.

[2] Wie sehr diese Legende verbreitet ist, dokumentiert z. B. Fisk, D., Beer and Nappies – A Data Mining Urban Legend, Abruf am 25.01.2006.

[3] Hospel, H., Down the Rabbit Hole, Executive Update Online o.Jg. (2001) 3, Abruf am 25.01.2006

[4] Eine überzeugende Version, wie die Legende entstand, findet man in Fawcett, T., Origin of “diapers and beer” Abruf am 25.01.2006.