<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	xmlns:creativeCommons="http://backend.userland.com/creativeCommonsRssModule">

<channel>
	<title>blog.berndweiss.net &#187; Statistik</title>
	<atom:link href="http://blog.berndweiss.net/tag/statistik/feed/" rel="self" type="application/rss+xml" />
	<link>http://blog.berndweiss.net</link>
	<description>Unter anderem mit diesen Themen: Quantitative Soziologie, Statistik, R &#38; LaTeX</description>
	<lastBuildDate>Sun, 29 Aug 2010 14:28:54 +0000</lastBuildDate>
	<language>en</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>http://wordpress.org/?v=3.0</generator>
<creativeCommons:license>http://creativecommons.org/licenses/by-nc-sa/3.0/de/</creativeCommons:license>		<item>
		<title>Auch Lehrbücher sollten vernünftig gesetzt werden</title>
		<link>http://blog.berndweiss.net/2010/05/16/auch-lehrbucher-sollten-vernunftig-gesetzt-werden/</link>
		<comments>http://blog.berndweiss.net/2010/05/16/auch-lehrbucher-sollten-vernunftig-gesetzt-werden/#comments</comments>
		<pubDate>Sun, 16 May 2010 15:05:33 +0000</pubDate>
		<dc:creator>Bernd Weiss</dc:creator>
				<category><![CDATA[Software]]></category>
		<category><![CDATA[Soziologie]]></category>
		<category><![CDATA[Statistik]]></category>
		<category><![CDATA[Uncategorized]]></category>
		<category><![CDATA[LaTeX]]></category>
		<category><![CDATA[TeX]]></category>

		<guid isPermaLink="false">http://blog.berndweiss.net/?p=972</guid>
		<description><![CDATA[Mein ehemaliger Kollege Tilo Beckers hat in der Zeitschrift Methoden-Daten-Analysen das Buch &#8220;Statistiken verstehen und richtig präsentieren&#8221; von Thomas Sauerbier rezensiert. Insgesamt ist die Rezension wohlwollend gehalten und Statistikbücher, &#8220;[...] die die Darstellung statistischer Informationen nicht nebenher oder am Rande verhandeln, sondern Fragen der grafischen Darstellung in den Mittelpunkt rücken&#8221; verdienen generell mehr Beachtung. Der [...]]]></description>
			<content:encoded><![CDATA[<p>Mein ehemaliger Kollege<a href="http://www.phil-fak.uni-duesseldorf.de/soziologie/personal-lehrstuehle/professur-iii-prof-dr-peter-h-hartmann/homepage-dr-tilo-beckers/" target="_blank"> Tilo Beckers</a> hat in der Zeitschrift Methoden-Daten-Analysen das Buch <a href="http://www.fh-friedberg.de/users/sauerb/home/veroeff.html" target="_blank">&#8220;Statistiken verstehen und richtig präsentieren&#8221;</a> von Thomas Sauerbier <a href="http://www.gesis.org/fileadmin/upload/forschung/publikationen/zeitschriften/mda/Vol.3_Heft_2/10_Rezension_05_Sauerbier.pdf" target="_blank">rezensiert</a>. Insgesamt ist die Rezension wohlwollend gehalten und Statistikbücher, &#8220;[...] die die Darstellung statistischer Informationen nicht nebenher oder am Rande verhandeln, sondern Fragen der grafischen Darstellung in den Mittelpunkt rücken&#8221; verdienen generell mehr Beachtung.</p>
<p><span id="more-972"></span></p>
<p>Der folgende kritische Einwand aus der Rezension findet aber meine volle Zustimmung:</p>
<blockquote><p>&#8220;Ein kritischer Leser, der Nutzer von TeX-Software zum Textsatz ist und professionelle Grafikprogramme zur Diagrammdarstellung verwendet, wird vermutlich den gesamten praktischen Ansatz des Buches samt der erkennbar der Microsoftfamilie entstammenden Schriften und Grafiken ablehnen. Und in der Tat kann man über die Qualität der Abbildungen bisweilen geteilter Meinung sein. So stört, dass der Autor alle Abbildungen generell einrahmt, da er dies für Geschmacksache hält. In der Praxis wissenschaftlicher Publikationen sollten die meisten Abbildungstypen aber in aller Regel freistehen. Auch fehlen Hinweise auf die durchgehende Einheitlichkeit von Abbildungen in einem Textdokument bzw. einer Publikation. Die Wahl der Parameter der Abbildung (wie Schriftgröße, Farb- oder Graustufenspektrum sowie Anordnung) sollte nicht für eine Abbildung alleine gelten, sondern sich wenn möglich im Sinne eines einheitlichen Designs durch eine Publikation ziehen&#8221; (280).</p></blockquote>
]]></content:encoded>
			<wfw:commentRss>http://blog.berndweiss.net/2010/05/16/auch-lehrbucher-sollten-vernunftig-gesetzt-werden/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Meine drei Prinzipien der Datenanalyse oder: Alle Macht dem Code</title>
		<link>http://blog.berndweiss.net/2008/12/13/meine-drei-prinzipien-der-datenanalyse-oder-alle-macht-dem-code/</link>
		<comments>http://blog.berndweiss.net/2008/12/13/meine-drei-prinzipien-der-datenanalyse-oder-alle-macht-dem-code/#comments</comments>
		<pubDate>Sat, 13 Dec 2008 12:16:45 +0000</pubDate>
		<dc:creator>Bernd Weiss</dc:creator>
				<category><![CDATA[Daten]]></category>
		<category><![CDATA[Software]]></category>
		<category><![CDATA[Soziologie]]></category>
		<category><![CDATA[Statistik]]></category>
		<category><![CDATA[Visualisierung]]></category>
		<category><![CDATA[Datenanalyse]]></category>
		<category><![CDATA[SPSS]]></category>
		<category><![CDATA[Stata]]></category>
		<category><![CDATA[Statistiksoftware]]></category>

		<guid isPermaLink="false">http://www.zahlengesellschaft.de/?p=473</guid>
		<description><![CDATA[Einführende Worte Im nachfolgenden Text versuche ich relativ einfach und nicht auf Fachartikel-Niveau die für mich relevanten Punkte der statistischen Datenanalyse darzulegen. Die Idee zu einem solchen Blogbeitrag besteht schon länger und es gab auch schon Textfragmente. Die Motivation, den Artikel fertig zu stellen, habe ich durch den Beitrag &#8220;Ich plotte &#8211; also bin ich&#8221; [...]]]></description>
			<content:encoded><![CDATA[<h4>Einführende Worte</h4>
<p>Im nachfolgenden Text versuche ich relativ einfach und nicht auf Fachartikel-Niveau die für mich relevanten Punkte der statistischen Datenanalyse darzulegen. Die Idee zu einem solchen Blogbeitrag besteht schon länger und es gab auch schon Textfragmente. Die Motivation, den Artikel fertig zu stellen, habe ich durch den Beitrag &#8220;<a href="http://www.scienceblogs.de/planeten/2008/12/ich-plotte-also-bin-ich.php" target="_blank">Ich plotte &#8211; also bin ich</a>&#8221; auf dem Blog &#8220;<a href="http://www.scienceblogs.de/planeten/" target="_blank">Hinterm Mond gleich links</a>&#8221; erhalten. Die dort sowohl im Artikel als auch in den Kommentaren vorgebrachten Einstellungen provozieren den Puristen in mir. Konkret ging es um das Nachbearbeiten einer Grafik, das heißt der Visualisierung von Daten. Dort ist dann von &#8220;nachträglich im Bild [d.h. der Grafik, BW] rumzupfuschen&#8221; oder &#8220;Diagramme meistens in Corel Draw&#8221; nachbauen die Rede. Der Pragmatiker (das ist der Gegenspieler des Puristen, s.o) in mir weiß natürlich auch, dass es Situationen geben kann, wo es zu einem solchen Vorgehen keine Alternative gibt (1 Stunde vor einer deadline o.ä.). Insofern wird nachfolgend ein idealisiertes Vorgehen beschrieben, dem auch ich nicht immer vollständig entsprechen kann und das natürlich über meine Kritik an &#8220;<a href="http://www.scienceblogs.de/planeten/2008/12/ich-plotte-also-bin-ich.php" target="_blank">Ich plotte &#8211; also bin ich</a>&#8221; weit hinausgeht.</p>
<p><span id="more-473"></span></p>
<p>(Übrigens: Weitere Überlegungen zu meinen Arbeitsabläufen finden sich in einem Artikel mit dem Titel &#8220;<a href="http://www.zahlengesellschaft.de/2007/08/04/denkwerk-braucht-werkzeug/" target="_blank">Denkwerk braucht Werkzeug</a>&#8220;.)</p>
<h4>Eine (zu) knappe Antwort auf die Frage &#8220;Woher kommen die Daten?&#8221;</h4>
<p>(Angewandte) Soziologie befasst sich unter anderem mit der empirischen Prüfung von Theorien. Empirisch bedeutet hier, dass theoretische Überlegungen mit Daten kontrastiert werden. Sofern Theorien passende Annahmen über menschliches Handeln bereit halten, sollten sich diese Annahmen anhand des Datenmaterials belegen lassen. Grob lassen sich zwei Arten von Daten unterscheiden, qualitative und quantitative/statistische Daten. Quantitative Daten sind etwa das Ergebnis von standardisierten (Personen-)Befragungen. Zentrales Merkmal dieses Befragungstyps ist, dass den Befragten nur die Möglichkeit gegeben wird, zwischen bestimmten Antwortmöglichkeiten zu entscheiden. In einer solchen Befragungssituation darf die Frage &#8220;Wie häufig kommt es in Ihrer Partnerschaft bei dem Thema „Aufteilung der Hausarbeit“ zu Konflikten? &#8221; etwa nur mit &#8220;nie&#8221;, &#8220;sehr selten&#8221;, &#8220;gelegentlich&#8221;, &#8220;häufig&#8221;, &#8220;sehr häufig&#8221; beantwortet werden. Antworten wie &#8220;Lassen Sie mich mal überlegen&#8230; Also letzte Woche hatten wir einen recht heftigen Streit. Es ging um meine Schwiegermutter. Weiß nicht, insgesamt ein paar Mal&#8221; lassen sich (a) nur schwer mit den Antworten anderer Befragten vergleichen und (b) nur schwer in eindeutige Zahlencodes überführen. Gerade aber das ist Gegenstand der quantitativen Soziologie, menschliches Handeln und menschliche Einstellungen zu messen, indem standardisierte Befragungen durchgeführt werden und die erfassten Antworten der Befragten in Zahlenkolonnen überführt werden, die dann wiederum mathematischen/statistischen Verfahren zugänglich sind.</p>
<h4>Statistische Datenanalyse ist ein Handwerk</h4>
<p>Wenn man die Daten einmal gesammelt hat (diesen Schritt nennt man Datenerhebung) und sicher ist, dass keine Fehler mehr in den Befragungsdaten enthalten sind (Datenbereinigung), dann kann man sich an die statistische Auswertung der Daten machen. Statistische Datenanalyse ist manchmal eine Kunst, in den meisten Fällen jedoch ein erlernbares Handwerk, das bestimmten Regeln (oder Prinzipien) folgt. Im Laufe der letzten Jahre habe ich für mich deren drei erschlossen: Transparenz und Nachvollziehbarkeit, Modularität und Lesbarkeit. Grundlage dieser drei Prinzipien ist eine &#8216;Philosophie&#8217;, die von den Autoren des &#8220;Emacs Speaks Statistics&#8221;-Mode als &#8220;The source code is    real&#8221; umschrieben wird.</p>
<h4>Es gibt keine Geheimnisse (Transparenz)</h4>
<p>In Köln werden Studierende der Soziologie früher oder später mit einem der gängigen Statistikprogramme konfrontiert, früher war das <a href="www.spss.com/" target="_blank">SPSS</a>, inzwischen verstärkt <a href="www.stata.com/ " target="_blank">Stata</a> (und wenn sie es mir zu tun bekommen, dann auch noch <a href="http://www.r-project.org" target="_blank">R</a>). Solche Programme (zumindest SPSS und größtenteils auch Stata) lassen sich auf zweierlei Weisen bedienen: (1) Über eine graphische Benutzeroberfläche (Graphical User Interface = GUI) klickt man sich die Befehle zusammen, sinngemäß etwa &#8220;Berechne den Mittelwert&#8221;, &#8220;Erstelle eine Kreuztabelle&#8221;, &#8220;Zeichne ein Säulendiagramm&#8221;. (2) SPSS, Stata wie auch R lassen sich aber auch durch eigene, selbstgeschriebene Programme steuern. Ja, das heißt, dass man etwas Programmieren muss, wobei man sich (meistens) auf wenige Programmbefehle beschränken kann.</p>
<p>Es ist verständlich, dass man sich im Angesicht des Neuen (neue, häufig wenig intuitive Statistiksoftware) und Ungeliebten (Statistik) die eigene Arbeit so einfach wie möglich machen möchte. Im Fall der statistischen Datenanalyse bedeutet das, der graphischen Benutzeroberfläche den Vorzug zu geben und sich die Analyse &#8216;zusammenzuklicken&#8217;. Ein solches Vorgehen hat mehrere Nachteile. Zentrale Schwäche ist jedoch, dass sich damit die Datenanalyse der Überprüfbarkeit durch Dritte entzieht &#8212; oder anders formuliert: sie ist nicht transparent. Sofern der Programmcode vorliegt, lässt sich detailliert nachvollziehen, wie die Analyse durchgeführt wurde. Welche Variablen wurden verändert? Bezogen sich die Analysen vielleicht nur auf einen Teildatensatz? Wurden während der Analysen Gewichtungsfaktoren berücksichtigt? Man sollte immer damit rechnen, dass Fragen zu den eigenen Analysen kommen &#8212; und zumindest im wissenschaftlichen Kontext wäre es eine grobe Verletzung von Wissenschaftlichkeit, wenn nicht mehr belegt werden kann, wie bestimmte Ergebnisse erstellt wurden. Beispielhaft ist diesbezüglich das Vorgehen von Ulrich Kohler, der für <a href="http://www.wzb.eu/~kohler/publications/index.html" target="_blank">sämtliche seiner Publikationen den entsprechenden Stataprogrammcode</a> öffentlich verfügbar hält, so das es interessierten Wissenschaftlern jederzeit möglich ist, seine Analysen zu replizieren.</p>
<h4>Teile und herrsche (Modularität)</h4>
<p>Statistische Analysen können sehr schnell sehr komplex werden. Dieser Umstand bezieht sich gar nicht einmal (nur) auf die eingesetzten Verfahren, sondern allein auf die Menge an Programmcode. Für die Analysen im Rahmen meiner Dissertation wurden sicherlich mehr als 5000 Zeilen Programmcode erstellt. Dieser lässt sich  (am einfachsten) danach unterscheiden, ob er der Datenaufbereitung (Daten einlesen, neue Variablen erstellen, vorhandene Variablen ändern etc.) oder der Datenanalyse dient. Dementsprechend verwende ich immer mindestens zwei verschiedene Dateien, nämlich initXXX.X (etwa initMeta.R, initGGS.do, initPairfam.sps etc.) und anaXXX.X. Die initXXX.X-Dateien enthalten sämtlichen Code, um Daten für die späteren Analysen aufzubereiten. Folglich enthalten anaXXX.X-Dateien den eigentlichen Analysecode. Ab und an gibt es auch noch funcXXX.X-Dateien, in denen eigene Funktionen definiert werden. Am Anfang der anaXXX.X-Datei wird die initXXX.X-Datei aufgerufen, wenn vorhanden, auch die funcXXX.X-Date. Mit anderen Worten: Vor <em>jedem</em> Analyselauf werden die Daten erneut aufbereitet und so etwas wie ein Analysedatensatz in Form einer einzigen Datei existiert bei mir nicht. So ein Vorgehen ist natürlich nur möglich, wenn der Durchlauf der initXXX.X-Datei nicht mehr als 10 Minuten dauert. Hat aber den Vorteil, dass man ganz sicher immer mit der aktuellen (laut initXXX.X) Datei arbeitet.</p>
<h4>Lesbarkeit durch Kommentare</h4>
<p>Sofern man nicht mit einem photographischen Gedächtnis gesegnet ist, hat man spätestens in einem halben Jahr vergessen, was etwa die folgende Befehlssequenz bewirken sollte (ich habe das auch schon früher vergessen):</p>
<p><code>replace f030100m = 0 if (missing(f030100m))<br />
generate zuziehdat = ((f030100j - 1900)*12) + f030100m<br />
generate zuswohn = intdatum - zuziehdat<br />
replace zuswohn = 2 if (zuswohn == 0 | zuswohn == 1)</code></p>
<p>Deshalb sollte dort ein (oder mehrere Kommentare) Kommentar eingefügt werden, der mindestens erläutert, was die Variablen f030100m und f030100j inhaltlich bedeuten und welche Transformationen zu welchem Zweck vorgenommen werden. Dass diese Kommentare (die sind echt, nicht didaktisch aufbereitet) nicht immer den grammatikalischen Gepflogenheiten der deutschen Sprache genügen, ist eine andere Sache (in Stata können Kommentare u.a. durch &#8220;//&#8221; eingeleitet werden).</p>
<p><code>// Dauer des Zusammenlebens = Erhebungszeitpunkt - Zeitpunkt des Zusammenzugs<br />
replace f030100m = 0 if (missing(f030100m))<br />
generate zuziehdat = ((f030100j - 1900)*12) + f030100m<br />
generate zuswohn = intdatum - zuziehdat<br />
// Problem: wenn Interview später intdatum durchgeführt wurde,<br />
//kann zuswohn &lt; 0 sein, deshalb min auf 2 Monate festlegen:<br />
replace zuswohn = 2 if (zuswohn == 0 | zuswohn == 1)</code></p>
<p>Kommentare können auch dazu dienen, umfassenderen Analysecode zu strukturieren, ihn in einzelne Kapitel zu unterteilen (etwa: deskriptive, psychometrische und multivariate Analysen).</p>
<h4>The source code is real</h4>
<p>Hinter dem zuvor geschriebenen verbirgt sich ein &#8220;The source code is real&#8221;-Ansatz. Ausgehend von den ursprünglichen Daten sollte für sämtliche Analyseschritte der entsprechende Programmcode vorhanden sein. Ein kurzer Hinweis auf diese Prinzip findet sich in <a href="http://www.metheval.uni-jena.de/lehre/0708-ws/fov_modul1/download/r-einfuehrung.pdf" target="_blank">Folien von Sven Hartenstein</a>; ich bin im Rahmen des <a href="http://http://ess.r-project.org/Manual/ess.html" target="_blank">ESS-Projektes</a> (Emacs Speaks Statistics) darauf gestoßen. In Abschnitt &#8220;6.4 Philosophies for using ESS[S]&#8221; heißt es</p>
<blockquote><p>&#8220;The source code is real. The objects are realizations of the source code.  Source    for EVERY user modified object is placed in a particular directory or directories, for later editing and retrieval.&#8221;</p></blockquote>
]]></content:encoded>
			<wfw:commentRss>http://blog.berndweiss.net/2008/12/13/meine-drei-prinzipien-der-datenanalyse-oder-alle-macht-dem-code/feed/</wfw:commentRss>
		<slash:comments>3</slash:comments>
		</item>
		<item>
		<title>Wenn Statistik irritiert – Methodische Anmerkungen zum Beitrag &#8220;Erosion der Intensivleserschaft&#8221; in der M&amp;K 4/2007</title>
		<link>http://blog.berndweiss.net/2008/10/27/wenn-statistik-irritiert-%e2%80%93-methodische-anmerkungen-zum-beitrag-erosion-der-intensivleserschaft-in-der-mk-42007/</link>
		<comments>http://blog.berndweiss.net/2008/10/27/wenn-statistik-irritiert-%e2%80%93-methodische-anmerkungen-zum-beitrag-erosion-der-intensivleserschaft-in-der-mk-42007/#comments</comments>
		<pubDate>Mon, 27 Oct 2008 18:18:50 +0000</pubDate>
		<dc:creator>Bernd Weiss</dc:creator>
				<category><![CDATA[Blogometrie]]></category>
		<category><![CDATA[Daten]]></category>
		<category><![CDATA[Statistik]]></category>
		<category><![CDATA[Internet]]></category>
		<category><![CDATA[Regression]]></category>
		<category><![CDATA[Zeitung]]></category>
		<category><![CDATA[Ökologischer Fehlschluss]]></category>

		<guid isPermaLink="false">http://www.zahlengesellschaft.de/?p=367</guid>
		<description><![CDATA[Vorbemerkungen Eigentlich war es meine Absicht, die nachfolgende Kritik eines Aufsatzes von Kolo und Meyer-Lucht bei der M&#38;K als &#8216;ordentliche&#8217; Replik einzureichen.[1] Ich habe mit einigen Kolleginnen und Kollegen darüber gesprochen, mir auswärtigen Rat eingeholt und dann den Beitrag etwa 6 Monate liegen lassen. In den letzten Tagen habe ich meine Kritik nochmals &#8216;hervorgekramt&#8217;, habe [...]]]></description>
			<content:encoded><![CDATA[<p><strong>Vorbemerkungen</strong></p>
<p>Eigentlich war es meine Absicht, die nachfolgende Kritik eines Aufsatzes von Kolo und Meyer-Lucht bei der <a href="http://www.hans-bredow-institut.de/de/mampk/medien-kommunikationswissenschaft" target="_blank">M&amp;K</a> als &#8216;ordentliche&#8217; Replik einzureichen.[1] Ich habe mit einigen Kolleginnen und Kollegen darüber gesprochen, mir auswärtigen Rat eingeholt und dann den Beitrag etwa 6 Monate liegen lassen. In den letzten Tagen habe ich meine Kritik nochmals &#8216;hervorgekramt&#8217;, habe mich vor allem etwas mit Zeitreihenanalyse beschäftigt und gemerkt, dass Teile meiner Kritik eine durchaus gängige Praxis kritisieren, was diese Kritik wiederum etwas (nicht völlig; etwa die Regression von Anteilswerten) ins Leere laufen lässt. Hinzu kommt, dass es keine fundamentale Kritik ist und die Kernaussage des Artikels, nach der es zu einer „Erosion der Intensivleserschaft“ kommt und „Nachrichtensites“ den Printmedien Nutzer streitig machen, nicht in Frage gestellt wird. Unter diesen Voraussetzungen kommt mir eine Replik bei der M&amp;K etwas übertrieben vor, und daher habe ich mich dazu entschlossen, meine Überlegungen hier auf der <a href="http://www.zahlengesellschaft.de/" target="_blank">Zahlen|Gesellschaft</a> zu veröffentlichen. Zwei weitere Einschränkungen: (1) Es ist kein fertiger Fachartikel, siehe dazu auch die &#8220;<a href="http://www.zahlengesellschaft.de/about/" target="_blank">Zahlen|Gesellschaft als Experimentierfeld</a>&#8220;. (2) (Fast) Unnötig zu erwähnen, dass ich hier ausschließlich meine persönliche Meinung vertrete.</p>
<p><span id="more-367"></span></p>
<p><strong>Einleitung</strong></p>
<p>In Ausgabe 4/2007 der Medien &amp; Kommunikationswissenschaft findet sich ein Beitrag von Kolo und Meyer-Lucht (2007; nachfolgend KML abgekürzt) mit dem Titel &#8220;<a href="http://www.m-und-k.info/MuK/hefte/Aufsatz_07_04.pdf" target="_blank">Erosion der Intensivleserschaft. Eine Zeitreihenanalyse zum Konkurrenzverhältnis von Tageszeitungen und Nachrichtensites</a>&#8220;. In diesem Artikel befassen sich die beiden Autoren mit der Frage, ob beide Mediengattungen in einem komplementären oder substitutiven Verhältnis zu einander stehen. Die späteren empirischen Analysen konzentrieren sich auf die Beantwortung von drei Fragen: „1. Wie verändert sich die Nutzungsintensität von Tageszeitungen und von Nachrichtensites im Zeitverlauf? 2. Welche Faktoren beeinflussen die Nutzungsintensität von Tageszeitungen und von Nachrichtensites sowie deren Veränderungen? 3. Was lässt sich daraus für die Komplementarität oder Substitutivität der Nutzung dieser beiden Mediengattungen folgern?“ (KML: 514). Datengrundlage der Untersuchung ist einerseits die Allensbacher Computer- und Technik-Analyse (ACTA), andererseits die Allensbacher Markt- und Werbeträger-Analyse (AWA).</p>
<p>Die von den Autoren durchgeführten statistischen Analysen sind nach meinem Dafürhalten in vielen Fällen für die Beantwortung der drei Forschungsfragen nicht von Belang, sondern wirken durch den Einsatz von unangemessenen Verfahren sowie der fehlerhaften Befundinterpretationen eher verwirrend. Anliegen dieses Beitrags ist eine kritische Diskussion ausgewählter empirischer Befunde von KML, die vor allem darin besteht, dass ihre Ausführungen eine statistische Genauigkeit suggerieren, die sie gar nicht einhalten können. Im Einzelnen umfasst die Methodenkritik drei Punkte: (1) Die unangemessene Verwendung von linearen Regressionsmodellen sowie (2) die falsche Interpretation von statistischer Signifikanz. (3) Hinzu kommt ein fehlendes Problembewusstsein für ökologische Fehlschlüsse, das heißt den unzulässigen Schluss von Zusammenhängen auf der Aggregatebene auf individuelles Handeln.</p>
<p><strong>Die unangemessenene Verwendung und Interpretation von Regressionsmodellen</strong></p>
<p>(<em>Die in der Vorbemerkung angesprochene Praxis der Zeitreihenanalyse betrifft den nachfolgenden Absatz.  Ich belasse meine Kritik an dieser Stelle und würde mich freuen, wenn mich eine/r eines Besseren belehrt.</em>)</p>
<p>An mehreren Stellen im Aufsatz wird ein zeitlicher Trend, etwa die „Anteile Intensivnutzer überregionaler Nachrichtensites“ (KML: 518, Abbildung 1) mit einem linearen Regressionsmodell „abgesichert“. Um den Trend zu illustrieren, hätte das Einzeichnen der jeweiligen Kurven beziehungsweise Geraden völlig genügt. Doch die Autoren „untermauern“ ihre grafischen Befunde mit den Ergebnissen einer linearen Regression, was zumindest den Eindruck erwecken kann, ein Verständnis des Prozesses erlangt zu haben. Für die überregionalen Abotageszeitungen weisen sie etwa einen „Trend“ (= Regressionskoeffizient) von -0.6 Prozentpunkten pro Jahr (auf zwei Nachkommastellen genau beträgt der Wert -0.58)  aus. Die vollständige Gleichung lautet:</p>
<p style="text-align: center;">y = 1175.15 + (-0.58)*Jahr,</p>
<p>wobei y den Anteil der Intensivleser (überregional) in Prozent bezeichnet. Im Jahr 0 lag dementsprechend der Anteil der Intensivnutzer bei 1175,15% und im Jahre 2027 wird der Anteil etwa -0.51% betragen. Beide Aussagen sind natürlich sinnlos, lassen sich aber aus dem geschätzten Regressionsmodell ableiten und demonstrieren die Gefahren, die mit dem Einsatz solcher Verfahren verbunden sind. Üblicherweise wird bei Prozent- beziehungsweise Anteilswerten statt des linearen Modells eine sogenannte Beta-Regression vorgenommen, die auf den eingeschränkten Wertebereich (zwischen 0% und 100%) der abhängigen Variablen Rücksicht nimmt (Smithson/Verkuilen 2006). Überhaupt ist fraglich, welchen Sinn es hat, bei sechs Analyseeinheiten eine lineare Regression zu schätzen.</p>
<p><em>(Ende der Einschränkung &#8230;)</em></p>
<p>Weitere Regressionsanalysen wurden vermutlich auch anlässlich der Frage nach dem Zusammenhang von Alter und der Nachfrage nach aktuellen Informationen durchgeführt. Die auf Seite 523 formulierte Hypothese lautet: „Die Nachfrage nach aktuellen Informationen über […] Print bzw. […] Online ist jeweils eine Funktion des Alters“. Zumindest lässt der Hinweis auf „eine  Funktion des Alters“ darauf schließen, dass auch hier Regressionsmodelle geschätzt wurden. Doch die Ausführungen dazu  und vor allem Abbildung 3 auf Seite 524 lassen sich nicht nachvollziehen. Dort findet sich der Hinweis auf eine „angepasste Normalverteilung“ beziehungsweise ist einige Zeilen später davon die Rede, „dass man an die Verteilung der Intensivnutzer von Nachrichtensites sehr gut eine Normalverteilung mit einem Mittelwert von 38 Jahren anpassen kann [...]“. Während also die Verteilung der Intensivnutzer einer „Normalverteilung folgen soll“, scheint für die „Intensivleser von Abotageszeitungen ein linearer Anstieg mit dem Alter“ vorzuliegen. Eine Normalverteilung beschreibt die (Häufigkeits-)Verteilung eines Merkmals (Sachs/Hedderich 2006: 191ff). „Angepasste Geraden“ beschreiben dagegen den Zusammenhang zwischen zwei Merkmalen. Es ist unklar, was an dieser Stelle überhaupt untersucht wird. Wird die Altersverteilung der jeweiligen Teilstrichproben von Intensivnutzern und Intensivlesern beschrieben? Interessieren sich die Autoren für den funktionalen Zusammenhang zwischen Nutzungsgrad und Alter?</p>
<p><strong>Fehlerhafte Interpretation des Begriffs der statistischen Signifikanz</strong></p>
<p>Als weitere Absicherung und, so ist zu vermuten, um die „Güte“ des Modells zu belegen, weisen die Autoren „p(lineare Regression)“ aus (im vorliegenden Beispiel auf Seite 518 beträgt dieser Wert 0,009). Zur Interpretation dieser Irrtumswahrscheinlichkeit p schreiben sie: „Die Wahrscheinlichkeit, dass nur zufällig eine Regression mit von 0 verschiedener Steigung vorliegt, beträgt auch hier 0,9 Prozent“ (KML: 518). Diese Auffassung von statistischer Signifikanz ist verbreitet, aber falsch (Haller/Krauss 2002). Die Irrtumswahrscheinlichkeit ist immer eine bedingte Wahrscheinlichkeit, nämlich unter der Bedingung, dass in der Population (der Grundgesamtheit) die H0 korrekt ist. Richtigerweise müsste die Formulierung also lauten: Unter der Bedingung, dass in der Population der Steigungskoeffizient („Trend“) gleich 0 ist, beträgt die Wahrscheinlichkeit mit den verwendeten Daten den ermittelten oder einen extremeren F-Wert (Teststatistik des entsprechenden Omnibustestes des linearen Regressionsmodells) zu erhalten 0,009. Formuliert wird also p(Daten|H0) und nicht p(H0) (Fahrmeir et al. 2001: 409).</p>
<p>Auf Seite 525 wollen die Autoren den „Zusammenhang des Anteils an Intensivlesern mit dem Nachrichtenkonsum im Internet“ näher untersuchen und verwenden dazu Chi-Quadrat, einen verbreiteten Test auf Unterschiedlichkeit. Sie schreiben dazu: „Der Effekt ist zwar bis auf das Alterssegment der 14- bis 17-Jährigen schwach, aber durch das durchgängige Auftreten in fast allen Altersgruppen bei hohen Fallzahlen signifikant. Damit ist Hypothese (4a) bestätigt.“ Meine Interpretation würde wie folgt lauten: Es lässt sich nur ein (sehr) schwacher Effekt beobachten, der aber auf Grund der Fallzahlen signifikant ist. Ein substantieller Befund, der klare Unterschiede zwischen Gruppen beschreibt, ist das eben nicht. Dazu schreiben Sachs/Hedderich (2006: 307; Herv. durch die Autoren): „Betont sei auch, dass <em>formale statistische Signifikanz</em> (nur diese kann ein statistischer Test nachweisen!) und <em>wirkliche (praktische) Bedeutung</em> – Relevanz – nicht miteinander verwechselt werden dürfen“.</p>
<p><strong>Das Problem eines ökologischen Fehlschlusses</strong></p>
<p>Eine der einleitend genannten Forschungsfragen thematisiert Bedingungen, unter denen Nutzer von der einen zu der anderen Mediengattung wechseln (KML: 514): „Welche Faktoren beeinflussen die Nutzungsintensität von Tageszeitungen und von Nachrichtensites sowie deren Veränderungen“? Zu den Voraussetzungen, eine solche Frage angemessen beantworten zu können, schreiben die Autoren weiter unten (KML: 514):</p>
<blockquote><p>„Veränderungen der Mediennutzung lassen sich am verlässlichsten durch eine wiederholte Befragung identischer Personen ermitteln. Nur so kann man direkt die Selektionshandlung – ob singulär oder eher schleichend über sich verändernde Nutzungsintensitäten – dokumentieren.“</p></blockquote>
<p>Ich interpretiere diese Aussage dahingehend, dass man individuelles Verhalten am besten mit Individualdaten erklären kann – dem stimme ich vorbehaltlos zu. Doch die Analysen der Untersuchung basieren (zumindest teilweise und soweit ich das dem Text entnehmen konnte) auf Aggregatdaten und von Zusammenhängen auf Aggregatebene auf individuelles Verhalten schließen zu wollen, wird in den Sozialwissenschaften als „ökologischer Fehlschluss“ bezeichnet (Diekmann 2004: 116ff).[2]</p>
<p>Es wäre falsch, Kolo und Meyer-Lucht an dieser Stelle den Vorwurf des ökologischen Fehlschlusses zu machen. Tatsächlich sind die empirischen Befunde plausibel, so dass es schwer fällt, einen solchen Fehlschluss zu vermuten. Doch es lässt sich ein fehlendes Problembewusstsein erkennen. Gleich die erste Hypothese lautet etwa: „Die Nachfrage nach aktuellen Informationen ist – unabhängig vom Medium – altersabhängig“ (KML: 523). Meiner Meinung nach wird hier ein Zusammenhang auf Individualebene formuliert, doch die Analysen werden, wie oben erwähnt, auf Aggregatdatenebene ausgeführt. Da hilft auch der am Ende der Hypothesen aufgeführte Hinweis nicht viel, dass die „Hypothesen […] so gewählt [wurden], dass auf Basis der vorliegenden Daten […] ein Überprüfung möglich ist“ (KML 523).</p>
<p>Anhand eines einfachen grafisches Beispiels mit simulierten Daten soll das Problem illustriert werden: In Abbildung 1 wird der Zusammenhang zwischen dem Merkmal Alter (hier: 3 Altersgruppen) und der Nachfrage nach aktuellen Informationen untersucht. In der linken Abbildung (1a) finden sich die Befunde der auf der Aggregatebene durchgeführten Analysen. Die rechte Abbildung (1b) enthält die Befunde der Individualdatenanalysen. In der ersten Abbildung zeigt sich ein klar positiver Zusammenhang und unzweifelhaft lautet die (falsche) Interpretation: Mit dem Alter steigt die Nachfrage nach aktuellen Informationen. In der rechten Abbildung (1b) hingegen wurde der Zusammenhang pro Altersgruppe auf Grundlage der Individualdaten errechnet und nun zeigt sich, dass ein negativer Zusammenhang vorliegt. Wie sich gut erkennen lässt, ergibt sich lediglich durch die unterschiedlichen Nachfrageniveaus ein scheinbar positiver Zusammenhang. Bereits dieses einfache Beispiel belegt eindringlich, welche Folgen ein ökologischer Fehlschluss haben kann.</p>
<p style="text-align: center;"><a href="http://www.zahlengesellschaft.de/wp-content/uploads/2008/10/figoekofehl.png"><img class="size-medium wp-image-371 aligncenter" title="figoekofehl" src="http://www.zahlengesellschaft.de/wp-content/uploads/2008/10/figoekofehl-300x223.png" alt="" width="300" height="223" /></a></p>
<p style="text-align: center;">Abbildung 1: Grafische Illustration eines ökologischen Fehlschluss</p>
<p><strong>Zusammenfassung</strong></p>
<p>Die vorangegangenen Ausführungen haben sich mit einigen methodische Unzulänglichkeiten eines von Kolo und Meyer-Lucht verfassten Beitrags mit dem Titel &#8220;Erosion der Intensivleserschaft. Eine Zeitreihenanalyse zum Konkurrenzverhältnis von Tageszeitungen und Nachrichtensites&#8221; befasst. Die Hauptthese des Beitrags wird nicht in Frage gestellt, doch es wird behauptet, dass ein Teil der Analysen im Hinblick auf die Fragestellungen des Artikels überflüssig ist oder falsch durchgeführt wurde. Das betrifft etwa die unangemessene Verwendung von linearen Regressionsmodellen (bei Zeitreihendaten; siehe meine einschränkenden Anmerkungen in den Vorbemerkungen) sowie die Interpretation der Ergebnisse. Ein weiteres Problem betrifft die Verwendung von Aggregatdaten, während die Hypothesen teilweise auf der Individualebene formuliert werden. An keiner Stelle im Artikel findet sich der Hinweis auf einen drohenden ökologischen Fehlschluss.</p>
<p><strong>Endnoten</strong></p>
<p>[1] Erste kritische Anmerkungen von mir zu dem Beitrag von KML finden sich auch auf dem <a href="http://blog.kooptech.de/2008/04/was-journalisten-von-bloggern-lernen-konnen/" target="_blank">KoopTech-Blog</a>.</p>
<p>[2] Die Frage, auf welcher Analyseebene (Individual- oder Aggregatebene) Teile der Untersuchungen letztlich durchgeführt wurden, kann ich nicht beantworten. Eine Nachfrage beim Institut für Demoskopie Allensbach für die ACTA-Daten ergab, dass diese in Verbindung mit einer Software namens mediMACH als Individualdaten bezogen werden können. Inwieweit dann die Analysen, etwa zu den Faktoren der Nutzungsintensität von Tageszeitungen und von Nachrichtensites, diese Individualdaten nutzen, ist mir nicht klar geworden.</p>
<p><strong>Literatur</strong></p>
<p>Diekmann, Andreas, 2004: Empirische Sozialforschung. Grundlagen, Methoden, Anwendungen. Hamburg: Rowohlt.</p>
<p>Fahrmeir, Ludwig, 2001: Statistik. Der Weg zur Datenanalyse. Berlin [u.a.]: Springer.</p>
<p>Fahrmeir, Ludwig, Thomas Kneib, und Stefan Lang, 2007: Regression: Modelle, Methoden und Anwendungen. Berlin, Heidelberg: Springer.</p>
<p>Haller, Heiko, und Stefan Kraus, 2002: Misinterpretations of significance: A problem students share with their teachers?, Methods of Psychological Research Online 7: 1-20.</p>
<p>Kolo, Castulus, und Robin Meyer-Lucht, 2007: Erosion der Intensivleserschaft. Eine Zeitreihenanalyse zum Konkurrenzverhältnis von Tageszeitungen und Nachrichtensites, Rundfunk und Fernsehen 55: 513-533.</p>
<p>R Development Core Team, 2008: R: A language and environment for statistical computing &lt;http://www.R-project.org&gt;. Wien: R Foundation for Statistical Computing.</p>
<p>Sachs, Lothar, und Jürgen Hedderich, 2006: Angewandte Statistik: Methodensammlung mit R ; mit 180 Tabellen. Berlin u.a.: Springer.</p>
<p>Smithson, Michael, und Jay Verkuilen, 2006: A better lemon squeezer? Maximum-likelihood regression with beta-distributed dependent variables, Psychological Methods 11: 54-71.</p>
<p><strong>Anhang</strong></p>
<p>Der nachfolgende R-Code (R Development Core Team 2008) repliziert einen Teil der Analysen der in Abbildung 1 (oberste Regressionslinie) auf Seite 518 vorgestellten Befunde.<br />
<code>## Anteil Intensivleser (ueberregional) in Prozent<br />
y &lt;- c(15.0, 13.4, 13.6, 12.9, 11.7, 12.1)<br />
## Historisches Jahr<br />
jahr &lt;- c(2001:2006)<br />
## Schaetzen des Regressionsmodells<br />
summary(fit  &lt;- lm(y ~ jahr))<br />
## Neue Daten fuer Vorhersage erzeugen, Jahr 0 sowie den Zeitraum<br />
## von 2006 bis 2030<br />
vorhersage &lt;- data.frame(jahr = c(0,2006:2030))<br />
## Vorhersage ermitteln<br />
predict(fit, vorhersage)</code></p>
]]></content:encoded>
			<wfw:commentRss>http://blog.berndweiss.net/2008/10/27/wenn-statistik-irritiert-%e2%80%93-methodische-anmerkungen-zum-beitrag-erosion-der-intensivleserschaft-in-der-mk-42007/feed/</wfw:commentRss>
		<slash:comments>3</slash:comments>
		</item>
		<item>
		<title>Buch &#8220;Introduction to Data Technologies&#8221; von Paul Murrell unter CC Lizenz verfügbar</title>
		<link>http://blog.berndweiss.net/2008/05/26/buch-introduction-to-data-technologies-von-paul-murrell-unter-cc-lizenz-verfugbar/</link>
		<comments>http://blog.berndweiss.net/2008/05/26/buch-introduction-to-data-technologies-von-paul-murrell-unter-cc-lizenz-verfugbar/#comments</comments>
		<pubDate>Mon, 26 May 2008 20:08:52 +0000</pubDate>
		<dc:creator>Bernd Weiss</dc:creator>
				<category><![CDATA[Daten]]></category>
		<category><![CDATA[Software]]></category>
		<category><![CDATA[Statistik]]></category>
		<category><![CDATA[R]]></category>

		<guid isPermaLink="false">http://www.quantisozblog.de/?p=153</guid>
		<description><![CDATA[Paul Murrell hat ein unter einer CC Lizenz stehendes, knapp 400 Seiten umfassendes Buch mit dem Titel &#8220;Introduction to Data Technologies&#8221; veröffentlicht (sowohl als HTML als auch als PDF). Er schreibt zu seinem Anliegen: The basic premise of this book is that scientists are required to perform many tasks with data other than statistical analyses. [...]]]></description>
			<content:encoded><![CDATA[<p>Paul Murrell hat ein unter einer CC Lizenz stehendes, knapp 400 Seiten umfassendes Buch mit dem Titel &#8220;<a href="http://www.stat.auckland.ac.nz/~paul/ItDT/" target="_blank">Introduction to Data Technologies</a>&#8221; veröffentlicht (sowohl als HTML als auch als PDF). Er schreibt zu seinem Anliegen:</p>
<blockquote><p>The basic premise of this  book is that  scientists are required to perform many tasks with data other than statistical analyses.  A lot of time and effort is  usually invested in getting data ready for analysis: collecting the data, storing the data, transforming and subsetting the data, and transferring the data between different operating systems and applications.</p>
<p><span id="more-153"></span></p>
<p>Many scientists acquire data management skills in an ad hoc manner, as problems arise in practice.  In most cases, skills are  self-taught or passed down, guild-like, from master to apprentice. This  book aims to provide a more structured and more complete introduction to the skills required for managing data.</p>
<p>The focus of this  book is on computational tools that make the management of data faster, more accurate, and more efficient. The intention is to improve the awareness of what sorts of tasks  can be achieved and to describe the correct approach to performing these tasks and there is an emphasis on  working with data technologies via  written computer languages.</p></blockquote>
<p>Ich bin über das <a href="http://www.stat.columbia.edu/~cook/movabletype/archives/2008/05/paul_murrells_n.html" target="_blank">Blog von Andrew Gelman</a> darauf gestoßen, der sich an dem Begriff &#8220;data technologies&#8221; stört und den Begriff &#8220;data management&#8221; bevorzugt. Wie auch immer, schaut man sich die zentralen Kapitel an, dann wird schnell klar, wohin die Reise geht: Writing computer code, HTML, CSS, Data Entry, HTML Forms, Data  Storage, XML, Data Queries, SQL, Data Crunching, R, Regular Expressions.</p>
<p>Paul Murrell ist mir unter anderem als Autor des Buches &#8220;<a href="http://www.stat.auckland.ac.nz/~paul/RGraphics/rgraphics.html" target="_blank">R Graphics</a>&#8221; bekannt.</p>
]]></content:encoded>
			<wfw:commentRss>http://blog.berndweiss.net/2008/05/26/buch-introduction-to-data-technologies-von-paul-murrell-unter-cc-lizenz-verfugbar/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Sammelsurium interessanter Dinge (I)</title>
		<link>http://blog.berndweiss.net/2007/10/04/sammelsurium-interessanter-dinge-i/</link>
		<comments>http://blog.berndweiss.net/2007/10/04/sammelsurium-interessanter-dinge-i/#comments</comments>
		<pubDate>Thu, 04 Oct 2007 08:12:07 +0000</pubDate>
		<dc:creator>Bernd Weiss</dc:creator>
				<category><![CDATA[Daten]]></category>
		<category><![CDATA[Software]]></category>
		<category><![CDATA[Soziologie]]></category>
		<category><![CDATA[Statistik]]></category>
		<category><![CDATA[Bayes]]></category>
		<category><![CDATA[MCMC]]></category>
		<category><![CDATA[R]]></category>
		<category><![CDATA[Unsicherheit]]></category>

		<guid isPermaLink="false">http://www.quantisozblog.de/2007/10/04/sammelsurium-interessanter-dinge-i/</guid>
		<description><![CDATA[Während sich mcsamp um den Verstand und meinen Hauptspeicher &#8220;samplet&#8221;[1], einige Hinweise auf Interessantes der letzten Woche(n): Eine gelungene Zusammenfassung von Sutton und Higgins zum aktuellen (Methoden)Stand der Meta-Analyse aus (bio/medizin)statistischer Sicht: &#8220;Recent developments in meta-analysis&#8220;. Wie zu erwarten, werden Meta-Analysen auf Grundlage von individual patient data eine immer gewichtigere Rolle spielen. Die Ankündigung der [...]]]></description>
			<content:encoded><![CDATA[<p>Während sich <a href="http://cran.r-project.org/doc/packages/arm.pdf" target="_blank">mcsamp</a> um den Verstand und meinen Hauptspeicher &#8220;samplet&#8221;[1], einige Hinweise auf Interessantes der letzten Woche(n):</p>
<ol>
<li>Eine gelungene Zusammenfassung von Sutton und Higgins zum aktuellen (Methoden)Stand  der Meta-Analyse aus (bio/medizin)statistischer Sicht: &#8220;<a href="http://www3.interscience.wiley.com/cgi-bin/abstract/114282441/ABSTRACT" target="_blank">Recent developments in meta-analysis</a>&#8220;. Wie zu erwarten, werden Meta-Analysen auf Grundlage von <em>individual patient data </em>eine immer gewichtigere Rolle spielen.</li>
<li>Die Ankündigung der Tagung &#8220;<a href="http://www.unibw.de/soziologie/statistik2007" target="_blank">Uneindeutigkeit als Herausforderung. Risiko, amtliche Statistik und Wahrscheinlichkeit</a>&#8221; klingt spannend und müsste ich nicht meine Diss zu einem (hoffentlich) guten Ende bringen, hätte es mich in den Süden der Republik verschlagen (ich hätte vor allem gerne die Vorträge von Götz Rohwer,  Friedrich Leisch und Thomas Augustin angeschaut). Definitiv ein Thema, dem ich mich nach der Diss widmen werde.</li>
<li>Unabhängig von einander und mit unterschiedlicher Stoßrichtung machen sich <a href="http://www.iq.harvard.edu/blog/sss/archives/2007/10/the_changing_ev.shtml" target="_blank">Gary King</a> sowie <a href="http://www.forschung-und-lehre.de/cms/index.php?menu_id=6&amp;nur_dieser_inhalt_id=2577" target="_blank">Rainer Böhme und Andreas Pfitzmann</a> (via <a href="http://www.bamberg-gewinnt.de/wordpress/archives/837" target="_blank">Bamblog</a>) Gedanken über die zukünftige(n) Datengrundlage(n) in den Sozialwissenschaften.</li>
<li>R ist  in der Version 2.6.0 erschienen. Ich musste lernen, dass die Deinstallation der vorherige Version von R (2.5.1) und das Behalten der alten R-Pakete zu <a href="http://tolstoy.newcastle.edu.au/R/e2/help/07/10/27085.html" target="_blank">Konflikten</a> führen kann. Aber es gibt wie immer einen <a href="http://tolstoy.newcastle.edu.au/R/e2/help/07/10/27087.html" target="_blank">Ausweg</a>. Oder sogar noch einen <a href="http://tolstoy.newcastle.edu.au/R/e2/help/07/10/27108.html" target="_blank">besseren</a>.</li>
</ol>
<p><span id="more-48"></span></p>
<p>[1] Hat nur 108 Minuten gedauert.</p>
]]></content:encoded>
			<wfw:commentRss>http://blog.berndweiss.net/2007/10/04/sammelsurium-interessanter-dinge-i/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Update meiner einführenden Folien in die statistische Datenanalyse mit R</title>
		<link>http://blog.berndweiss.net/2007/09/21/update-meiner-einfuhrenden-folien-in-die-statistische-datenanalyse-mit-r/</link>
		<comments>http://blog.berndweiss.net/2007/09/21/update-meiner-einfuhrenden-folien-in-die-statistische-datenanalyse-mit-r/#comments</comments>
		<pubDate>Fri, 21 Sep 2007 04:00:55 +0000</pubDate>
		<dc:creator>Bernd Weiss</dc:creator>
				<category><![CDATA[Statistik]]></category>
		<category><![CDATA[Einführung]]></category>
		<category><![CDATA[R]]></category>
		<category><![CDATA[Tutorial]]></category>

		<guid isPermaLink="false">http://www.quantisozblog.de/2007/09/21/update-meiner-einfuhrenden-folien-in-die-statistische-datenanalyse-mit-r/</guid>
		<description><![CDATA[Im Rahmen des Cologne Short Program of Applied Economic and Social Research 2007 habe ich eine ganztägige Einführung in die statistische Datenanalyse mit R gehalten (der volle Veranstaltungstitel lautet: &#8220;Eine sozialwissenschaftlich motivierte Einführung in die statistische Datenanalyse mit R&#8221;). Ein Handout der Folien ist verfügbar (foilsrkurs-08handout.zip, ca. 800 kb). (Die Folien wurden mit Sweave unter [...]]]></description>
			<content:encoded><![CDATA[<p>Im Rahmen des <a title="CERESS 2007" href="http://ceress.uni-koeln.de/csp/index.html" target="_blank">Cologne Short Program of Applied Economic and Social Research 2007</a> habe ich eine ganztägige Einführung in die statistische Datenanalyse mit <a href="http://www.r-project.org">R</a> gehalten (der volle Veranstaltungstitel lautet: &#8220;Eine sozialwissenschaftlich motivierte Einführung in die statistische Datenanalyse mit R&#8221;). Ein Handout der Folien ist verfügbar (<a title="foilsrkurs-08handout.zip" href="http://www.quantisozblog.de/wp-content/uploads/2007/09/foilsrkurs-08handout.zip">foilsrkurs-08handout.zip</a>, ca. 800 kb).</p>
<p><span id="more-45"></span></p>
<p>(Die Folien wurden mit <a href="http://de.wikipedia.org/wiki/Sweave">Sweave</a> unter Verwendung des unglaublich nützlichen <a href="http://www.bfro.uni-lj.si/MR/ggorjan/index_en.html">sweave.sh-Skriptes</a> von Gregor Gorjanc erstellt.)</p>
]]></content:encoded>
			<wfw:commentRss>http://blog.berndweiss.net/2007/09/21/update-meiner-einfuhrenden-folien-in-die-statistische-datenanalyse-mit-r/feed/</wfw:commentRss>
		<slash:comments>1</slash:comments>
		</item>
		<item>
		<title>&#8220;Emacs Speaks Statistics&#8221; (ESS) jetzt mit &#8220;R function arguments tips&#8221;</title>
		<link>http://blog.berndweiss.net/2007/08/25/emacs-speaks-statistics-ess-jetzt-mit-r-function-arguments-tips/</link>
		<comments>http://blog.berndweiss.net/2007/08/25/emacs-speaks-statistics-ess-jetzt-mit-r-function-arguments-tips/#comments</comments>
		<pubDate>Sat, 25 Aug 2007 19:07:59 +0000</pubDate>
		<dc:creator>Bernd Weiss</dc:creator>
				<category><![CDATA[Software]]></category>
		<category><![CDATA[Statistik]]></category>
		<category><![CDATA[Emacs]]></category>
		<category><![CDATA[ESS]]></category>

		<guid isPermaLink="false">http://www.quantisozblog.de/2007/08/25/emacs-speaks-statistics-ess-jetzt-mit-r-function-arguments-tips/</guid>
		<description><![CDATA[Emacs Speaks Statistics (ESS) ist ein GNU Emacs / XEmacs mode, mit dem sich unter anderem die Arbeit mit R sehr erleichtern lässt. Nun ist vor ein paar Tagen eine neue Version von ESS (5.3.5) erschienen. Das allein sollte nur bedingt eine Meldung wert sein, wäre da nicht ein feature implementiert worden, dass Sven Hartenstein [...]]]></description>
			<content:encoded><![CDATA[<p>Emacs Speaks Statistics (ESS) ist ein GNU Emacs / XEmacs <em>mode</em>, mit dem sich unter anderem die Arbeit mit R sehr erleichtern lässt. Nun ist vor ein paar Tagen eine neue Version von ESS (5.3.5) erschienen. Das allein sollte nur bedingt eine Meldung wert sein, wäre da nicht ein <em>feature </em>implementiert worden, dass <a href="http://www.svenhartenstein.de/" target="_blank">Sven Hartenstein</a> vor ein paar Wochen vorgeschlagen hat. Nämlich die Möglichkeit, sich für alle geladenen R Funktion sämtliche Argumente sowie deren Grundeinstellungen anzeigen zu lassen (für <tt>lm</tt> etwa via <tt>args(lm)</tt>). In den seltensten Fällen habe ich die komplette Liste aller möglichen Funktionsargumente im Kopf, dass erübrigt sich nun auch weiterhin.</p>
<p>Ich bin beileibe keine ESS-Experte, wenn ich das aber richtig verstanden habe, dann gibt es zwei Varianten, nämlich das Anzeigen der Argumentenliste im <em>minibuffer</em> oder als <em>tooltip</em>.  Bevor überhaupt irgendetwas funktioniert, muss eine R-Instanz laufen und entweder mindestens ein Befehl an R geschickt oder das Verhalten mit C-c C-s aktiviert worden sein (siehe auch Beitrag von <a href="https://stat.ethz.ch/pipermail/ess-help/2007-August/004232.html" target="_blank">Martin Mächler</a>: &#8220;In an *.R buffer, type C-c C-s to activate the feature&#8221;).</p>
<p>Im <em>minibuffer</em>  sieht das etwa für die Funktion <tt>lm</tt> (= OLS-Regression) wie folgt aus:</p>
<p style="text-align: center"><img src="http://www.quantisozblog.de/wp-content/uploads/2007/08/emacstooltip2.png" alt="emacstooltip2.png" /></p>
<p><span id="more-24"></span></p>
<p>Um die Anzeige als tooltip zu aktivieren, muss in der Emacs-Konfigurationsdatei <tt>_emacs</tt> folgende Zeile stehen:  <tt>(setq ess-r-args-show-as 'tooltip).</tt>  Default ist  <tt>(setq ess-r-args-show-as nil)</tt> .  Das Ergebnis sieht dann wie folgt aus:</p>
<p style="text-align: center"><img src="http://www.quantisozblog.de/wp-content/uploads/2007/08/emacstooltip1.png" alt="emacstooltip1.png" /></p>
<p>Schließlich gibt es noch die Funktion <tt>ess-r-args-insert</tt>, mit der sich sämtliche angezeigten Argument in den eigenen Code einfügen lassen.</p>
<p style="text-align: center"><img src="http://www.quantisozblog.de/wp-content/uploads/2007/08/emacstooltip3.png" alt="emacstooltip3.png" /></p>
<p>Der letzte Hinweis betrifft einige Maßnahmen zur Arbeitserleichterung. Sven Hartenstein hält freundlicherweise einige <a href="http://www.svenhartenstein.de/emacs-ess.php" target="_blank">Lisp-Funktionen</a> (unter &#8220;Usage&#8221;) bereit, mit denen sich die oben genannten Aufrufe etwa mit den Tasten F2 und F3 verknüpfen lassen (<em>keybinding</em>).  Auch diese Änderungen werden in der Datei <tt>_emacs</tt> vorgenommen.</p>
]]></content:encoded>
			<wfw:commentRss>http://blog.berndweiss.net/2007/08/25/emacs-speaks-statistics-ess-jetzt-mit-r-function-arguments-tips/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Tutorial zu R im Rahmen des CERESS 2007</title>
		<link>http://blog.berndweiss.net/2007/08/03/tutorial-zu-r-im-rahmen-des-ceress-2007/</link>
		<comments>http://blog.berndweiss.net/2007/08/03/tutorial-zu-r-im-rahmen-des-ceress-2007/#comments</comments>
		<pubDate>Fri, 03 Aug 2007 16:33:32 +0000</pubDate>
		<dc:creator>Bernd Weiss</dc:creator>
				<category><![CDATA[Software]]></category>
		<category><![CDATA[Statistik]]></category>
		<category><![CDATA[Einführung]]></category>
		<category><![CDATA[R]]></category>
		<category><![CDATA[Tutorial]]></category>

		<guid isPermaLink="false">http://www.akademische-kampfmaschine.de/?p=15</guid>
		<description><![CDATA[Anlässlich des Cologne Short Program of Applied Economic and Social Research 200 werde ich am 19. September 2007 eine Einführung in R geben. Obgleich die Anmeldefrist schon abgelaufen ist und ich gegenwärtig nicht weiß, ob die Obergrenze von 25 TeilnehmerInnen erreicht wurde, kann man mich (bernd.weiss_ @_ wiso.uni-koeln.de, &#8220;_ &#8221; bitte entfernen) anschreiben, falls Interesse [...]]]></description>
			<content:encoded><![CDATA[<p>Anlässlich des <a title="CERESS 2007" href="http://ceress.uni-koeln.de/csp/index.html" target="_blank">Cologne Short Program of Applied Economic and Social Research 200</a> werde ich am 19. September 2007 eine Einführung in R geben. Obgleich die Anmeldefrist schon abgelaufen ist und ich gegenwärtig nicht weiß, ob die Obergrenze von 25 TeilnehmerInnen erreicht wurde, kann man mich (bernd.weiss_ @_ wiso.uni-koeln.de, &#8220;_ &#8221; bitte entfernen) anschreiben, falls Interesse an einer Teilnahme besteht. Ich kann eine Teilnahme allerdings nicht garantieren!</p>
<p><span id="more-15"></span></p>
<p><a href="http://www.zahlengesellschaft.de/2007/09/21/update-meiner-einfuhrenden-folien-in-die-statistische-datenanalyse-mit-r/">Zu den Folien der Veranstaltung&#8230;</a></p>
]]></content:encoded>
			<wfw:commentRss>http://blog.berndweiss.net/2007/08/03/tutorial-zu-r-im-rahmen-des-ceress-2007/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
	</channel>
</rss>
