<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	xmlns:creativeCommons="http://backend.userland.com/creativeCommonsRssModule">

<channel>
	<title>blog.berndweiss.net &#187; SPSS</title>
	<atom:link href="http://blog.berndweiss.net/tag/spss/feed/" rel="self" type="application/rss+xml" />
	<link>http://blog.berndweiss.net</link>
	<description>Unter anderem mit diesen Themen: Quantitative Soziologie, Statistik, R &#38; LaTeX</description>
	<lastBuildDate>Sun, 29 Aug 2010 14:28:54 +0000</lastBuildDate>
	<language>en</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>http://wordpress.org/?v=3.0</generator>
<creativeCommons:license>http://creativecommons.org/licenses/by-nc-sa/3.0/de/</creativeCommons:license>		<item>
		<title>Meine drei Prinzipien der Datenanalyse oder: Alle Macht dem Code</title>
		<link>http://blog.berndweiss.net/2008/12/13/meine-drei-prinzipien-der-datenanalyse-oder-alle-macht-dem-code/</link>
		<comments>http://blog.berndweiss.net/2008/12/13/meine-drei-prinzipien-der-datenanalyse-oder-alle-macht-dem-code/#comments</comments>
		<pubDate>Sat, 13 Dec 2008 12:16:45 +0000</pubDate>
		<dc:creator>Bernd Weiss</dc:creator>
				<category><![CDATA[Daten]]></category>
		<category><![CDATA[Software]]></category>
		<category><![CDATA[Soziologie]]></category>
		<category><![CDATA[Statistik]]></category>
		<category><![CDATA[Visualisierung]]></category>
		<category><![CDATA[Datenanalyse]]></category>
		<category><![CDATA[SPSS]]></category>
		<category><![CDATA[Stata]]></category>
		<category><![CDATA[Statistiksoftware]]></category>

		<guid isPermaLink="false">http://www.zahlengesellschaft.de/?p=473</guid>
		<description><![CDATA[Einführende Worte Im nachfolgenden Text versuche ich relativ einfach und nicht auf Fachartikel-Niveau die für mich relevanten Punkte der statistischen Datenanalyse darzulegen. Die Idee zu einem solchen Blogbeitrag besteht schon länger und es gab auch schon Textfragmente. Die Motivation, den Artikel fertig zu stellen, habe ich durch den Beitrag &#8220;Ich plotte &#8211; also bin ich&#8221; [...]]]></description>
			<content:encoded><![CDATA[<h4>Einführende Worte</h4>
<p>Im nachfolgenden Text versuche ich relativ einfach und nicht auf Fachartikel-Niveau die für mich relevanten Punkte der statistischen Datenanalyse darzulegen. Die Idee zu einem solchen Blogbeitrag besteht schon länger und es gab auch schon Textfragmente. Die Motivation, den Artikel fertig zu stellen, habe ich durch den Beitrag &#8220;<a href="http://www.scienceblogs.de/planeten/2008/12/ich-plotte-also-bin-ich.php" target="_blank">Ich plotte &#8211; also bin ich</a>&#8221; auf dem Blog &#8220;<a href="http://www.scienceblogs.de/planeten/" target="_blank">Hinterm Mond gleich links</a>&#8221; erhalten. Die dort sowohl im Artikel als auch in den Kommentaren vorgebrachten Einstellungen provozieren den Puristen in mir. Konkret ging es um das Nachbearbeiten einer Grafik, das heißt der Visualisierung von Daten. Dort ist dann von &#8220;nachträglich im Bild [d.h. der Grafik, BW] rumzupfuschen&#8221; oder &#8220;Diagramme meistens in Corel Draw&#8221; nachbauen die Rede. Der Pragmatiker (das ist der Gegenspieler des Puristen, s.o) in mir weiß natürlich auch, dass es Situationen geben kann, wo es zu einem solchen Vorgehen keine Alternative gibt (1 Stunde vor einer deadline o.ä.). Insofern wird nachfolgend ein idealisiertes Vorgehen beschrieben, dem auch ich nicht immer vollständig entsprechen kann und das natürlich über meine Kritik an &#8220;<a href="http://www.scienceblogs.de/planeten/2008/12/ich-plotte-also-bin-ich.php" target="_blank">Ich plotte &#8211; also bin ich</a>&#8221; weit hinausgeht.</p>
<p><span id="more-473"></span></p>
<p>(Übrigens: Weitere Überlegungen zu meinen Arbeitsabläufen finden sich in einem Artikel mit dem Titel &#8220;<a href="http://www.zahlengesellschaft.de/2007/08/04/denkwerk-braucht-werkzeug/" target="_blank">Denkwerk braucht Werkzeug</a>&#8220;.)</p>
<h4>Eine (zu) knappe Antwort auf die Frage &#8220;Woher kommen die Daten?&#8221;</h4>
<p>(Angewandte) Soziologie befasst sich unter anderem mit der empirischen Prüfung von Theorien. Empirisch bedeutet hier, dass theoretische Überlegungen mit Daten kontrastiert werden. Sofern Theorien passende Annahmen über menschliches Handeln bereit halten, sollten sich diese Annahmen anhand des Datenmaterials belegen lassen. Grob lassen sich zwei Arten von Daten unterscheiden, qualitative und quantitative/statistische Daten. Quantitative Daten sind etwa das Ergebnis von standardisierten (Personen-)Befragungen. Zentrales Merkmal dieses Befragungstyps ist, dass den Befragten nur die Möglichkeit gegeben wird, zwischen bestimmten Antwortmöglichkeiten zu entscheiden. In einer solchen Befragungssituation darf die Frage &#8220;Wie häufig kommt es in Ihrer Partnerschaft bei dem Thema „Aufteilung der Hausarbeit“ zu Konflikten? &#8221; etwa nur mit &#8220;nie&#8221;, &#8220;sehr selten&#8221;, &#8220;gelegentlich&#8221;, &#8220;häufig&#8221;, &#8220;sehr häufig&#8221; beantwortet werden. Antworten wie &#8220;Lassen Sie mich mal überlegen&#8230; Also letzte Woche hatten wir einen recht heftigen Streit. Es ging um meine Schwiegermutter. Weiß nicht, insgesamt ein paar Mal&#8221; lassen sich (a) nur schwer mit den Antworten anderer Befragten vergleichen und (b) nur schwer in eindeutige Zahlencodes überführen. Gerade aber das ist Gegenstand der quantitativen Soziologie, menschliches Handeln und menschliche Einstellungen zu messen, indem standardisierte Befragungen durchgeführt werden und die erfassten Antworten der Befragten in Zahlenkolonnen überführt werden, die dann wiederum mathematischen/statistischen Verfahren zugänglich sind.</p>
<h4>Statistische Datenanalyse ist ein Handwerk</h4>
<p>Wenn man die Daten einmal gesammelt hat (diesen Schritt nennt man Datenerhebung) und sicher ist, dass keine Fehler mehr in den Befragungsdaten enthalten sind (Datenbereinigung), dann kann man sich an die statistische Auswertung der Daten machen. Statistische Datenanalyse ist manchmal eine Kunst, in den meisten Fällen jedoch ein erlernbares Handwerk, das bestimmten Regeln (oder Prinzipien) folgt. Im Laufe der letzten Jahre habe ich für mich deren drei erschlossen: Transparenz und Nachvollziehbarkeit, Modularität und Lesbarkeit. Grundlage dieser drei Prinzipien ist eine &#8216;Philosophie&#8217;, die von den Autoren des &#8220;Emacs Speaks Statistics&#8221;-Mode als &#8220;The source code is    real&#8221; umschrieben wird.</p>
<h4>Es gibt keine Geheimnisse (Transparenz)</h4>
<p>In Köln werden Studierende der Soziologie früher oder später mit einem der gängigen Statistikprogramme konfrontiert, früher war das <a href="www.spss.com/" target="_blank">SPSS</a>, inzwischen verstärkt <a href="www.stata.com/ " target="_blank">Stata</a> (und wenn sie es mir zu tun bekommen, dann auch noch <a href="http://www.r-project.org" target="_blank">R</a>). Solche Programme (zumindest SPSS und größtenteils auch Stata) lassen sich auf zweierlei Weisen bedienen: (1) Über eine graphische Benutzeroberfläche (Graphical User Interface = GUI) klickt man sich die Befehle zusammen, sinngemäß etwa &#8220;Berechne den Mittelwert&#8221;, &#8220;Erstelle eine Kreuztabelle&#8221;, &#8220;Zeichne ein Säulendiagramm&#8221;. (2) SPSS, Stata wie auch R lassen sich aber auch durch eigene, selbstgeschriebene Programme steuern. Ja, das heißt, dass man etwas Programmieren muss, wobei man sich (meistens) auf wenige Programmbefehle beschränken kann.</p>
<p>Es ist verständlich, dass man sich im Angesicht des Neuen (neue, häufig wenig intuitive Statistiksoftware) und Ungeliebten (Statistik) die eigene Arbeit so einfach wie möglich machen möchte. Im Fall der statistischen Datenanalyse bedeutet das, der graphischen Benutzeroberfläche den Vorzug zu geben und sich die Analyse &#8216;zusammenzuklicken&#8217;. Ein solches Vorgehen hat mehrere Nachteile. Zentrale Schwäche ist jedoch, dass sich damit die Datenanalyse der Überprüfbarkeit durch Dritte entzieht &#8212; oder anders formuliert: sie ist nicht transparent. Sofern der Programmcode vorliegt, lässt sich detailliert nachvollziehen, wie die Analyse durchgeführt wurde. Welche Variablen wurden verändert? Bezogen sich die Analysen vielleicht nur auf einen Teildatensatz? Wurden während der Analysen Gewichtungsfaktoren berücksichtigt? Man sollte immer damit rechnen, dass Fragen zu den eigenen Analysen kommen &#8212; und zumindest im wissenschaftlichen Kontext wäre es eine grobe Verletzung von Wissenschaftlichkeit, wenn nicht mehr belegt werden kann, wie bestimmte Ergebnisse erstellt wurden. Beispielhaft ist diesbezüglich das Vorgehen von Ulrich Kohler, der für <a href="http://www.wzb.eu/~kohler/publications/index.html" target="_blank">sämtliche seiner Publikationen den entsprechenden Stataprogrammcode</a> öffentlich verfügbar hält, so das es interessierten Wissenschaftlern jederzeit möglich ist, seine Analysen zu replizieren.</p>
<h4>Teile und herrsche (Modularität)</h4>
<p>Statistische Analysen können sehr schnell sehr komplex werden. Dieser Umstand bezieht sich gar nicht einmal (nur) auf die eingesetzten Verfahren, sondern allein auf die Menge an Programmcode. Für die Analysen im Rahmen meiner Dissertation wurden sicherlich mehr als 5000 Zeilen Programmcode erstellt. Dieser lässt sich  (am einfachsten) danach unterscheiden, ob er der Datenaufbereitung (Daten einlesen, neue Variablen erstellen, vorhandene Variablen ändern etc.) oder der Datenanalyse dient. Dementsprechend verwende ich immer mindestens zwei verschiedene Dateien, nämlich initXXX.X (etwa initMeta.R, initGGS.do, initPairfam.sps etc.) und anaXXX.X. Die initXXX.X-Dateien enthalten sämtlichen Code, um Daten für die späteren Analysen aufzubereiten. Folglich enthalten anaXXX.X-Dateien den eigentlichen Analysecode. Ab und an gibt es auch noch funcXXX.X-Dateien, in denen eigene Funktionen definiert werden. Am Anfang der anaXXX.X-Datei wird die initXXX.X-Datei aufgerufen, wenn vorhanden, auch die funcXXX.X-Date. Mit anderen Worten: Vor <em>jedem</em> Analyselauf werden die Daten erneut aufbereitet und so etwas wie ein Analysedatensatz in Form einer einzigen Datei existiert bei mir nicht. So ein Vorgehen ist natürlich nur möglich, wenn der Durchlauf der initXXX.X-Datei nicht mehr als 10 Minuten dauert. Hat aber den Vorteil, dass man ganz sicher immer mit der aktuellen (laut initXXX.X) Datei arbeitet.</p>
<h4>Lesbarkeit durch Kommentare</h4>
<p>Sofern man nicht mit einem photographischen Gedächtnis gesegnet ist, hat man spätestens in einem halben Jahr vergessen, was etwa die folgende Befehlssequenz bewirken sollte (ich habe das auch schon früher vergessen):</p>
<p><code>replace f030100m = 0 if (missing(f030100m))<br />
generate zuziehdat = ((f030100j - 1900)*12) + f030100m<br />
generate zuswohn = intdatum - zuziehdat<br />
replace zuswohn = 2 if (zuswohn == 0 | zuswohn == 1)</code></p>
<p>Deshalb sollte dort ein (oder mehrere Kommentare) Kommentar eingefügt werden, der mindestens erläutert, was die Variablen f030100m und f030100j inhaltlich bedeuten und welche Transformationen zu welchem Zweck vorgenommen werden. Dass diese Kommentare (die sind echt, nicht didaktisch aufbereitet) nicht immer den grammatikalischen Gepflogenheiten der deutschen Sprache genügen, ist eine andere Sache (in Stata können Kommentare u.a. durch &#8220;//&#8221; eingeleitet werden).</p>
<p><code>// Dauer des Zusammenlebens = Erhebungszeitpunkt - Zeitpunkt des Zusammenzugs<br />
replace f030100m = 0 if (missing(f030100m))<br />
generate zuziehdat = ((f030100j - 1900)*12) + f030100m<br />
generate zuswohn = intdatum - zuziehdat<br />
// Problem: wenn Interview später intdatum durchgeführt wurde,<br />
//kann zuswohn &lt; 0 sein, deshalb min auf 2 Monate festlegen:<br />
replace zuswohn = 2 if (zuswohn == 0 | zuswohn == 1)</code></p>
<p>Kommentare können auch dazu dienen, umfassenderen Analysecode zu strukturieren, ihn in einzelne Kapitel zu unterteilen (etwa: deskriptive, psychometrische und multivariate Analysen).</p>
<h4>The source code is real</h4>
<p>Hinter dem zuvor geschriebenen verbirgt sich ein &#8220;The source code is real&#8221;-Ansatz. Ausgehend von den ursprünglichen Daten sollte für sämtliche Analyseschritte der entsprechende Programmcode vorhanden sein. Ein kurzer Hinweis auf diese Prinzip findet sich in <a href="http://www.metheval.uni-jena.de/lehre/0708-ws/fov_modul1/download/r-einfuehrung.pdf" target="_blank">Folien von Sven Hartenstein</a>; ich bin im Rahmen des <a href="http://http://ess.r-project.org/Manual/ess.html" target="_blank">ESS-Projektes</a> (Emacs Speaks Statistics) darauf gestoßen. In Abschnitt &#8220;6.4 Philosophies for using ESS[S]&#8221; heißt es</p>
<blockquote><p>&#8220;The source code is real. The objects are realizations of the source code.  Source    for EVERY user modified object is placed in a particular directory or directories, for later editing and retrieval.&#8221;</p></blockquote>
]]></content:encoded>
			<wfw:commentRss>http://blog.berndweiss.net/2008/12/13/meine-drei-prinzipien-der-datenanalyse-oder-alle-macht-dem-code/feed/</wfw:commentRss>
		<slash:comments>3</slash:comments>
		</item>
		<item>
		<title>Douglas Bates kommentiert MIXED in SPSS (Oder: lme4 vs MIXED)</title>
		<link>http://blog.berndweiss.net/2007/10/27/douglas-bates-kommentiert-mixed-in-spss-oder-lme4-vs-mixed/</link>
		<comments>http://blog.berndweiss.net/2007/10/27/douglas-bates-kommentiert-mixed-in-spss-oder-lme4-vs-mixed/#comments</comments>
		<pubDate>Sat, 27 Oct 2007 06:19:19 +0000</pubDate>
		<dc:creator>Bernd Weiss</dc:creator>
				<category><![CDATA[Statistik]]></category>
		<category><![CDATA[lme4]]></category>
		<category><![CDATA[mixed models]]></category>
		<category><![CDATA[multilevel models]]></category>
		<category><![CDATA[R]]></category>
		<category><![CDATA[SPSS]]></category>

		<guid isPermaLink="false">http://www.quantisozblog.de/2007/10/27/douglas-bates-kommentiert-mixed-in-spss-oder-lme4-vs-mixed/</guid>
		<description><![CDATA[Douglas Bates ist Autor des R packages lme4 mit dem sich gemischte Modelle (lineare und verallgemeinerte lineare Mehrebenmodelle) schätzen lassen. In einem thread auf der r-help-list hat er sich vor kurzem zur Dokumentation der MIXED-Funktion in SPSS ausgelassen. So fing alles an: &#8220;My particular interest is in the methods for the linear mixed models implemented [...]]]></description>
			<content:encoded><![CDATA[<p><a href="http://www.stat.wisc.edu/~bates/" target="_blank">Douglas Bates</a> ist Autor des <a href="http://www.r-project.org/" target="_blank">R</a> <em>packages </em><a href="http://cran.r-project.org/src/contrib/Descriptions/lme4.html" target="_blank">lme4</a> mit dem sich gemischte Modelle (lineare und verallgemeinerte lineare Mehrebenmodelle) schätzen lassen. In einem <a href="http://tolstoy.newcastle.edu.au/R/e3/help/07/10/2318.html" target="_blank"><em>thread</em> </a>auf der r-help-list hat er sich vor kurzem zur Dokumentation der MIXED-Funktion in SPSS ausgelassen. So fing alles an:<span id="more-63"></span></p>
<blockquote><p>&#8220;My particular interest is in the methods for the linear mixed models implemented in MIXED in SPSS (and also PROC MIXED in SAS). A person who was quite enthusiastic about the MIXED procedure in SPSS sent me a PDF file about MIXED that I suppose could be considered a description of the algorithms as long as you didn&#8217;t read it too closely.&#8221;</p></blockquote>
<p>Seine Bewertung fällt eindeutig aus:</p>
<blockquote><p>&#8220;Even more alarming, parts of it are flat-out wrong. Even the mixed-model equations as given in this document are wrong, as one would quickly find out if one tried to implement them. The organization is disjointed and generally the language and grammar indicate that it has not been copy edited carefully. I would not give it a good grade if it were submitted as a project report in my statistical computing course.&#8221;</p></blockquote>
<p>Er schränkt seine harsche Kritik etwas ein, wenn er anmerkt, dass er die Quelle des Dokuments nicht finden konnte.</p>
<blockquote><p>&#8220;I have been unable to trace the source of this document. It is definitely a discussion of the computational algorithms in MIXED but I haven&#8217;t been able to track its original source. In a way I hope it was a preliminary draft or something like that. If SPSS released this version as an official publication it is a sign that they have fallen on hard times.&#8221;</p></blockquote>
]]></content:encoded>
			<wfw:commentRss>http://blog.berndweiss.net/2007/10/27/douglas-bates-kommentiert-mixed-in-spss-oder-lme4-vs-mixed/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
	</channel>
</rss>
