Archive for the ‘Visualisierung’ Category
Meine drei Prinzipien der Datenanalyse oder: Alle Macht dem Code
Einführende Worte
Im nachfolgenden Text versuche ich relativ einfach und nicht auf Fachartikel-Niveau die für mich relevanten Punkte der statistischen Datenanalyse darzulegen. Die Idee zu einem solchen Blogbeitrag besteht schon länger und es gab auch schon Textfragmente. Die Motivation, den Artikel fertig zu stellen, habe ich durch den Beitrag “Ich plotte – also bin ich” auf dem Blog “Hinterm Mond gleich links” erhalten. Die dort sowohl im Artikel als auch in den Kommentaren vorgebrachten Einstellungen provozieren den Puristen in mir. Konkret ging es um das Nachbearbeiten einer Grafik, das heißt der Visualisierung von Daten. Dort ist dann von “nachträglich im Bild [d.h. der Grafik, BW] rumzupfuschen” oder “Diagramme meistens in Corel Draw” nachbauen die Rede. Der Pragmatiker (das ist der Gegenspieler des Puristen, s.o) in mir weiß natürlich auch, dass es Situationen geben kann, wo es zu einem solchen Vorgehen keine Alternative gibt (1 Stunde vor einer deadline o.ä.). Insofern wird nachfolgend ein idealisiertes Vorgehen beschrieben, dem auch ich nicht immer vollständig entsprechen kann und das natürlich über meine Kritik an “Ich plotte – also bin ich” weit hinausgeht.
Themenschwerpunkt: Tücken und Techniken der empirischen Sozialforschung
Welche roten Fäden durchziehen dieses Weblog? Themenschwerpunkte dienen der kommentierten Zusammenfassung der aus meiner Sicht wichtigsten Beiträge.
Unter dieser Rubrik werden zumeist Detailprobleme aus dem weiten Feld der empirischen Sozialforschung aufgegriffen. So mache ich mir beispielsweise “Spontane und eher kritische Gedanken zum Scholarz.survey” — doch es gilt auch die anschließenden Reaktionen der von mir kritisierten Befragung zu beachten.
Das ist ein ökologischer Fehlschluss
(zum Vergrößern auf die Abbildung klicken)
Eine annehmbare Erklärung findet sich bei der englischen Wikipedia: Ecological Fallacy.
Understanding Uncertainty in Kurzfassung
Seit Oktober 2007 ist David Spiegelhalter Winton Professor of the Public Understanding of Risk. Nicht nur der Titel dieses Lehrstuhls ist sehr ansprechend, sondern auch die im Aufbau befindliche Seite “Understanding Uncertainty“. Zwar gibt es dort noch nicht viel zu sehen, doch Force of Mortality, eine Flashanwendung, illustriert auf ansprechende Weise die Sterbewahrscheinlichkeit in Abhängigkeit von Alter und historischem Jahr (1986 bis 2006). Grundlage sind britische Sterbetafeln, wie sie auch schon bei den Zahlenbildern eingeführt wurden.
Interaktive und explorative Datenanalyse mit GGobi
Inspiriert durch einen Beitrag bei den Zahlenbildern über Parallelkoordinatendarstellungen (PCP), meinen Hinweis in den Kommentaren, dass GGobi vor allem interaktiv ist sowie den lang gehegten Wunsch, einmal in meinem Leben ein screencast zu erstellen, habe ich einen kurzen Film zum Thema PCP und Interaktivität in GGobi produziert. Allerdings kann ich dabei nur auf einen Bruchteil der Fähigkeiten des Programms eingehen. Die Macher von GGobi selbst haben eine Reihe von Filmen (unter Demos) erstellt, die deutlich besser sind.
Sammelsurium interessanter Dinge (III)
- Das Blog Zahlenbilder wandelt auf den “Spuren der Informationsgesellschaft nach der ikonischen Wende.” Sofort für das Blog eingenommen hat mich ein Beitrag über Parallelkoordinaten. Ich kenne keinen einzigen sozialwissenschaftlichen Aufsatz, in dem diese Visualisierungsform genutzt worden wäre. Allein die Verwendung von Minards Grafik zum Russlandfeldzug als Logo ist etwas einfallslos. Ich kenne sie aus Tuftes Buch und seitdem sehe ich sie ständig, wenn es um Visualisierung geht.
- Ulricht Raiser und Hartmut Esser diskutieren/beantworten in der TAZ die Frage “Brauchen wir türkische Schulen“?
- UNdata — A World of Information biete viele Zeitreihen zu vielen verschiedenen Kennziffern aus vielen Ländern (via Blog about Stats).
- Eine interessante und für mich bis dato unbekannte Mischung aus Religionswissenschaft und Demographie gibt es bei Dr. Blume und “Religionswissenschaft aus Freude” zu bewundern. Ich würde nicht immer allen Beiträgen zustimmen (soziobiologischen Themen etwa nähere ich mich immer noch sehr skeptisch), aber bislang habe ich noch kein deutschsprachiges Blog gesehen, in dem beispielsweise das “value of children”-Konzept aufgegriffen worden wäre.
- Thematische Nähe zu meiner Arbeit zeigen auch Criminologia und homo sociologicus (“Besser leben mit Soziologie” ist ein schönes Motto).
- Außerdem lese ich gerade das Buch “Applied Longitudinal Data Analysis: Modeling Change and Event Occurrence” von Singer und Willett und bin, obgleich ich es schon seit einiger Zeit besitze, immer wieder davon begeistert. Es ist extrem verständlich und doch prägnant geschrieben, spannt den kompletten Bogen von Mehrebenenmodellen bis hin zur Ereignisdatenanalyse und die dazugehörige Website bietet einen reichhaltigen Fundus an Daten und Programmcode (nämlich für Mplus, MLwiN, HLM, SAS, Stata, R und SPSS). Von Judith D. Singer gibt es übrigens auch eine sehr gute Einführung in Mehrebenenmodelle, nämlich “Using SAS PROC MIXED to fit multilevel models, hierarchical models, and individual growth models“. Auch wenn ich SAS nicht nutze, ist der Artikel immer meine erste Empfehlung, wenn es um eine Einführung in das Thema Mehrebenenmodelle geht.
John Tukey und die Anfänge interaktiver graphischer Datenanalyse
FlowingData verweist in seinem Beitrag John Tukey and the Beginning of Interactive Graphics auf ein lehrreiches, amüsantes und beeindruckendes Video, das unter anderem die Arbeit von John Tukey vorstellt. Der Name John Tukey ist vor allem mit dem Begriff der explorativen Datenanalyse (EDA) verbunden. Aktuelle Software, mit denen sich Tukey’s Ansätze umsetzten lassen, ist unter anderem ggobi (das Buch zum Programm habe ich bereits kurz angesprochen).
Letter to the Director-General of Eurostat. Großartig!
Jorge Camoes hat einen lesenswerten Brief an Hervé Carré, den Generaldirektor von Eurostat, geschrieben: “Let me show you several examples of badly designed charts.”
Sammelsurium interessanter Dinge (II)
- Gapminder Gapcasts: Demographisches Bildungsfernsehen. Großartig.
- processing.org: “Processing is an open source programming language and environment for people who want to program images, animation, and interactions”. Basiert auf Java und damit lassen sich tolle Sachen anstellen (the dumpster, we feel fine, network2, noch ein netzwerk, Competitive Edge Explorer etc.). Damit werde ich mich 2008 definitiv befassen (das Buch habe ich schon, das ist bestellt)
- eigenfactor.org: Alternatives ranking von Fachzeitschriften. Funktioniert irgendwie wie Google. Sieht interessant aus.
- videolectures.net: noch mehr Bildungsfernsehen (vor allem machine learning, KM etc.).
- Christian Kesslers TV-Übersicht: Eine gute Möglichkeit, die Suchkosten zu reduzieren. Außerdem hilfreich bei einem Übermaß an Bildungsfernsehen.
- Abschließend noch ein paar Buchempfehlungen: Read the rest of this entry »
(3-)Debakel
Und ich dachte, solche Darstellungen seien bereits Ende der 1970er Jahre verboten worden.




