Archive for the ‘Statistik’ tag
Meine drei Prinzipien der Datenanalyse oder: Alle Macht dem Code
Einführende Worte
Im nachfolgenden Text versuche ich relativ einfach und nicht auf Fachartikel-Niveau die für mich relevanten Punkte der statistischen Datenanalyse darzulegen. Die Idee zu einem solchen Blogbeitrag besteht schon länger und es gab auch schon Textfragmente. Die Motivation, den Artikel fertig zu stellen, habe ich durch den Beitrag “Ich plotte – also bin ich” auf dem Blog “Hinterm Mond gleich links” erhalten. Die dort sowohl im Artikel als auch in den Kommentaren vorgebrachten Einstellungen provozieren den Puristen in mir. Konkret ging es um das Nachbearbeiten einer Grafik, das heißt der Visualisierung von Daten. Dort ist dann von “nachträglich im Bild [d.h. der Grafik, BW] rumzupfuschen” oder “Diagramme meistens in Corel Draw” nachbauen die Rede. Der Pragmatiker (das ist der Gegenspieler des Puristen, s.o) in mir weiß natürlich auch, dass es Situationen geben kann, wo es zu einem solchen Vorgehen keine Alternative gibt (1 Stunde vor einer deadline o.ä.). Insofern wird nachfolgend ein idealisiertes Vorgehen beschrieben, dem auch ich nicht immer vollständig entsprechen kann und das natürlich über meine Kritik an “Ich plotte – also bin ich” weit hinausgeht.
Wenn Statistik irritiert – Methodische Anmerkungen zum Beitrag “Erosion der Intensivleserschaft” in der M&K 4/2007
Vorbemerkungen
Eigentlich war es meine Absicht, die nachfolgende Kritik eines Aufsatzes von Kolo und Meyer-Lucht bei der M&K als ‘ordentliche’ Replik einzureichen.[1] Ich habe mit einigen Kolleginnen und Kollegen darüber gesprochen, mir auswärtigen Rat eingeholt und dann den Beitrag etwa 6 Monate liegen lassen. In den letzten Tagen habe ich meine Kritik nochmals ‘hervorgekramt’, habe mich vor allem etwas mit Zeitreihenanalyse beschäftigt und gemerkt, dass Teile meiner Kritik eine durchaus gängige Praxis kritisieren, was diese Kritik wiederum etwas (nicht völlig; etwa die Regression von Anteilswerten) ins Leere laufen lässt. Hinzu kommt, dass es keine fundamentale Kritik ist und die Kernaussage des Artikels, nach der es zu einer „Erosion der Intensivleserschaft“ kommt und „Nachrichtensites“ den Printmedien Nutzer streitig machen, nicht in Frage gestellt wird. Unter diesen Voraussetzungen kommt mir eine Replik bei der M&K etwas übertrieben vor, und daher habe ich mich dazu entschlossen, meine Überlegungen hier auf der Zahlen|Gesellschaft zu veröffentlichen. Zwei weitere Einschränkungen: (1) Es ist kein fertiger Fachartikel, siehe dazu auch die “Zahlen|Gesellschaft als Experimentierfeld“. (2) (Fast) Unnötig zu erwähnen, dass ich hier ausschließlich meine persönliche Meinung vertrete.
Buch “Introduction to Data Technologies” von Paul Murrell unter CC Lizenz verfügbar
Paul Murrell hat ein unter einer CC Lizenz stehendes, knapp 400 Seiten umfassendes Buch mit dem Titel “Introduction to Data Technologies” veröffentlicht (sowohl als HTML als auch als PDF). Er schreibt zu seinem Anliegen:
The basic premise of this book is that scientists are required to perform many tasks with data other than statistical analyses. A lot of time and effort is usually invested in getting data ready for analysis: collecting the data, storing the data, transforming and subsetting the data, and transferring the data between different operating systems and applications.
Sammelsurium interessanter Dinge (I)
Während sich mcsamp um den Verstand und meinen Hauptspeicher “samplet”[1], einige Hinweise auf Interessantes der letzten Woche(n):
- Eine gelungene Zusammenfassung von Sutton und Higgins zum aktuellen (Methoden)Stand der Meta-Analyse aus (bio/medizin)statistischer Sicht: “Recent developments in meta-analysis“. Wie zu erwarten, werden Meta-Analysen auf Grundlage von individual patient data eine immer gewichtigere Rolle spielen.
- Die Ankündigung der Tagung “Uneindeutigkeit als Herausforderung. Risiko, amtliche Statistik und Wahrscheinlichkeit” klingt spannend und müsste ich nicht meine Diss zu einem (hoffentlich) guten Ende bringen, hätte es mich in den Süden der Republik verschlagen (ich hätte vor allem gerne die Vorträge von Götz Rohwer, Friedrich Leisch und Thomas Augustin angeschaut). Definitiv ein Thema, dem ich mich nach der Diss widmen werde.
- Unabhängig von einander und mit unterschiedlicher Stoßrichtung machen sich Gary King sowie Rainer Böhme und Andreas Pfitzmann (via Bamblog) Gedanken über die zukünftige(n) Datengrundlage(n) in den Sozialwissenschaften.
- R ist in der Version 2.6.0 erschienen. Ich musste lernen, dass die Deinstallation der vorherige Version von R (2.5.1) und das Behalten der alten R-Pakete zu Konflikten führen kann. Aber es gibt wie immer einen Ausweg. Oder sogar noch einen besseren.
Update meiner einführenden Folien in die statistische Datenanalyse mit R
Im Rahmen des Cologne Short Program of Applied Economic and Social Research 2007 habe ich eine ganztägige Einführung in die statistische Datenanalyse mit R gehalten (der volle Veranstaltungstitel lautet: “Eine sozialwissenschaftlich motivierte Einführung in die statistische Datenanalyse mit R”). Ein Handout der Folien ist verfügbar (foilsrkurs-08handout.zip, ca. 800 kb).
“Emacs Speaks Statistics” (ESS) jetzt mit “R function arguments tips”
Emacs Speaks Statistics (ESS) ist ein GNU Emacs / XEmacs mode, mit dem sich unter anderem die Arbeit mit R sehr erleichtern lässt. Nun ist vor ein paar Tagen eine neue Version von ESS (5.3.5) erschienen. Das allein sollte nur bedingt eine Meldung wert sein, wäre da nicht ein feature implementiert worden, dass Sven Hartenstein vor ein paar Wochen vorgeschlagen hat. Nämlich die Möglichkeit, sich für alle geladenen R Funktion sämtliche Argumente sowie deren Grundeinstellungen anzeigen zu lassen (für lm etwa via args(lm)). In den seltensten Fällen habe ich die komplette Liste aller möglichen Funktionsargumente im Kopf, dass erübrigt sich nun auch weiterhin.
Ich bin beileibe keine ESS-Experte, wenn ich das aber richtig verstanden habe, dann gibt es zwei Varianten, nämlich das Anzeigen der Argumentenliste im minibuffer oder als tooltip. Bevor überhaupt irgendetwas funktioniert, muss eine R-Instanz laufen und entweder mindestens ein Befehl an R geschickt oder das Verhalten mit C-c C-s aktiviert worden sein (siehe auch Beitrag von Martin Mächler: “In an *.R buffer, type C-c C-s to activate the feature”).
Im minibuffer sieht das etwa für die Funktion lm (= OLS-Regression) wie folgt aus:

Tutorial zu R im Rahmen des CERESS 2007
Anlässlich des Cologne Short Program of Applied Economic and Social Research 200 werde ich am 19. September 2007 eine Einführung in R geben. Obgleich die Anmeldefrist schon abgelaufen ist und ich gegenwärtig nicht weiß, ob die Obergrenze von 25 TeilnehmerInnen erreicht wurde, kann man mich (bernd.weiss_ @_ wiso.uni-koeln.de, “_ ” bitte entfernen) anschreiben, falls Interesse an einer Teilnahme besteht. Ich kann eine Teilnahme allerdings nicht garantieren!

