• Wednesday July 17,2019

Zum "Verdacht auf wissenschaftliches Fehlverhalten von Jens Förster"

Anonim

Vor einer Woche wurde bekannt, dass die Universität von Amsterdam den Rückzug einer Zeitung aus dem Jahr 2012 von einem ihrer Professoren, dem Sozialpsychologen Prof. Jens Förster, aufgrund von Verdacht auf Datenmanipulation empfiehlt. Am nächsten Tag bestritt Förster jedes Fehlverhalten.

Kurz darauf veröffentlichte der Retraction Watch- Blog eine (durchgesickerte?) Kopie eines internen Berichts, in dem die Anschuldigungen gegen Förster dargelegt wurden.

Der Bericht mit dem Titel „ Verdacht auf wissenschaftliches Fehlverhalten“ von Dr. Jens Förster ist anonym und wurde im September 2012 datiert. Berichten zufolge stammte er von einem Statistiker an der eigenen Universität von Förster. Es bezieht sich auf drei von Försters Papieren, darunter die, von der die Universität sagt, dass sie zurückgezogen werden sollte, und zwei weitere.

In diesem Retract-Watch- Kommentarthread wurde eine heftige Diskussion der Anschuldigungen geführt. Die Identität und Motive der unbekannten Ankläger sind ein Hauptthema der Debatte. Eine andere Frage ist, ob Försters Unfähigkeit, Rohdaten und Aufzeichnungen über die Studien zu erstellen, verdächtig ist oder nicht.

Die tatsächlichen Anschuldigungen wurden weniger diskutiert, und es besteht die Auffassung, dass sie auf komplexen Statistiken basieren, die gewöhnliche Psychologen keine Hoffnung auf Verständnis haben. Aber so weit ich sehen kann, sind sie wirklich sehr einfach - wenn sie im Bericht schlecht erläutert werden -, also hier mein Versuch, die Anschuldigungen zu klären.

Zuerst ein bisschen Hintergrund.

Die Experimente

In den drei fraglichen Zeitungen berichtete Forster von einer großen Anzahl getrennter Experimente. In jedem Experiment wurden die Teilnehmer (Studenten) zufällig drei Gruppen zugeordnet, und jede Gruppe erhielt eine andere "Intervention". Alle Teilnehmer wurden dann mit einer Ergebnismessung getestet.

In jedem Fall prognostizierte Försters Theorie, dass eine der Interventionsgruppen die Ergebnismessung niedrig testen würde, eine andere mittel sein würde und eine andere hoch sein würde (niedrig <mittel <hoch).

Im Allgemeinen waren die Interventionen verschiedene Aufgaben, die die Teilnehmer dazu veranlassen sollten, entweder auf die "lokalen" oder die "globalen" Eigenschaften (Gestalt) eines visuellen, auditiven, Geruchs- oder Geschmacksreizs zu achten. Lokale und globale Gruppen bildeten die unteren und oberen Gruppen (wenn auch nicht immer in dieser Reihenfolge). Die mittlere Gruppe erhielt entweder keine Intervention oder eine ausgewogene Intervention mit weder lokaler noch globaler Betonung. Die Ergebnisgrößen waren Tests des kreativen Denkens und andere.

Der Vorwurf

Der Hauptvorwurf lautet, dass die Ergebnisse dieser Experimente zu linear waren: dass die durchschnittlichen Ergebnisbewertungen der drei Gruppen (Niedrig, Mittel und Hoch) dazu tendierten, fast gleichmäßig verteilt zu sein. Das heißt, der Unterschied zwischen den Mittelwerten der unteren und mittleren Gruppe war fast genau der gleiche wie der Unterschied zwischen den mittleren und hohen Mitteln.

Der Bericht enthält sechs Montagen, von denen jede Graphen einer Charge der Experimente zeigt. Hier ist meine Metamontage aller Graphen:

Diese Montage ist der Hauptvorwurf in aller Kürze: Diese Zeilen scheinen einfach zu gut, um wahr zu sein. Die Trends sind zu linear, zu "sauber", um echte Daten zu sein. Deshalb sind sie.

Nun, der Bericht schreibt es nicht aus, aber die Anschuldigung ist ziemlich klar: Sie wurden erfunden.

Die Superlinearität ist besonders deutlich, wenn Sie die Daten von Förster mit der Kontrollprobe von 21 kürzlich veröffentlichten, vergleichbaren Ergebnissen des Anklägers vergleichen, die aus demselben Bereich der Psychologie stammen:

Es sieht nicht gut aus. Aber ist das nur eine Ansichtssache oder können wir quantifizieren, wie "zu gut" sie sind?

Der Beweis

Mit einer Methode, die sie Delta-F nennen, berechneten die Ankläger die Wahrscheinlichkeit, solche linearen Trends zu sehen, selbst unter der Annahme, dass die tatsächlichen psychologischen Auswirkungen vollkommen linear waren. Diese Quote betrug 1 zu 179 Millionen, 1 zu 128 Millionen und 1 zu 2, 35 Millionen für jede der drei Zeitungen.

In allen drei Zeitungen war die Quote eine von 508 Fünftel: 508.000.000.000.000.000.000. (Der Bericht verwendet die lange Skala und sagt 508 "Billionen", aber im modernen Englisch bezieht sich "Billion" auf eine viel kleinere Zahl.)

So sagen die Ankläger

Die in den drei Artikeln von Dr. Förster berichteten Ergebnisse weichen daher stark von dem ab, was in den psychologischen Daten von der Zufälligkeit erwartet wird.

Wieso das?

Die Statistiken

Wenn die Stichprobengröße nicht sehr groß ist, ist ein perfekt lineares Ergebnis unwahrscheinlich, selbst wenn angenommen wird, dass die wahren Mittel der drei Gruppen linear beabstandet sind. Dies liegt daran, dass bei jeder Beobachtung Zufälligkeit ("Rauschen") vorliegt. Dieses Rauschen ist messbar als Varianz in den Bewertungen innerhalb jeder der drei Gruppen.

Für ein gegebenes Maß an Abweichung innerhalb der Gruppe und eine gegebene Stichprobengröße können wir die Wahrscheinlichkeit berechnen, dass ein gegebenes Maß an Linearität auf folgende Weise ermittelt wird.

Delta-F ist definiert als die Differenz in der Summe der Quadrate, die durch ein lineares Modell (lineare Regression) und ein nichtlineares Modell (Einweg-ANOVA) berücksichtigt wird, geteilt durch den mittleren quadratischen Fehler (Abweichung innerhalb der Gruppe). Die Killergleichung aus dem Bericht:

Wenn dieser Unterschied klein ist, bedeutet dies, dass ein nichtlineares Modell die Daten nicht besser als ein lineares anpassen kann - was praktisch die Definition von 'linear ' ist.

Unter der Annahme, dass die zugrunde liegende Realität perfekt linear ist (unabhängige Stichproben von drei Verteilungen mit gleichmäßig beabstandeten Mitteln), sollte diese Delta-F-Metrik der sogenannten F-Verteilung folgen. Wir können herausfinden, wie wahrscheinlich ein gegebener Delta-F-Score unter dieser Annahme zufällig auftritt, dh wir können Delta-F-Scores in p-Werte umwandeln.

Denken Sie daran, dies setzt voraus, dass die zugrunde liegende Psychologie immer linear ist. Dies ist fast unplausibel, aber für Förster die bestmögliche Annahme. Wenn die Realität nichtlinear wäre, wären die Chancen, niedrige Delta-F-Werte zu erzielen, noch unwahrscheinlicher.

Die Delta-F-Metrik ist nicht neu, aber die Anwendung davon ist (denke ich). Delta-F ist ein Fall der bekannten Verwendung von F-Tests zum Vergleich der Anpassung zweier statistischer Modelle. Normalerweise verwenden Leute diese Methode, um zu sehen, ob ein "komplexes " Modell wesentlich besser zu den Daten passt als ein "einfaches " Modell (die Nullhypothese). In diesem Fall prüfen sie, ob Delta-F hoch genug ist, um angesichts der Nullhypothese unwahrscheinlich zu sein.

Aber hier ist das Ganze auf den Kopf gestellt. Zufälliges Rauschen bedeutet, dass ein komplexes Modell manchmal besser zu den Daten passt als ein einfaches, selbst wenn das einfache Modell die Realität beschreibt. Bei einer herkömmlichen Verwendung von F-Tests würde dies als falsch positiv betrachtet werden. Aber in diesem Fall ist das Fehlen dieser falschen Positiven ungewöhnlich.

Die Fragen

Ich bin kein Statistiker, aber ich glaube, ich verstehe die Methode (und habe einige MATLAB-Simulationen zusammengeschlagen). Ich finde die Methode überzeugend. Mein Eindruck ist, dass Delta-F ein gültiger Test für Nichtlinearität und Superlinearität in Drei-Gruppen-Designs ist.

Ich habe versucht, mir ein "gutartiges" Szenario vorzustellen, das in einer Reihe von Studien ungewöhnlich niedrige Delta-F-Werte erzeugen könnte. Ich habe es noch nicht geschafft.

Aber eins stört mich. Alle oben genannten Statistiken gehen davon aus, dass die Daten kontinuierlich verteilt werden. Die meisten Daten in den Förster-Studien waren jedoch kategorial, dh die Ergebniswerte waren fest vorgegeben (sagen wir) 1 2 3 4 oder 5, niemals aber 4, 5 oder irgendeine andere Zahl.

Wenn Sie nun kategoriale Daten simulieren (indem Sie alle Zahlen auf die nächste Ganzzahl runden), beginnt sich die Delta-F-Verteilung seltsam zu verhalten. Zum Beispiel sollte die p-Kurve angesichts der Nullhypothese flach sein, wie in der Grafik rechts. Mit der Rundung sieht es jedoch so aus, wie in der Grafik links:

Die p-Werte am oberen Ende des Bereichs (dh am Ende des Bereichs, der der Superlinearität entspricht) beginnen mit "Verklumpung".

Die Autoren der Anklage nehmen dies ebenfalls zur Kenntnis (als ich den Effekt nachgebildet hatte, wusste ich, dass meine Simulationen funktionierten!). Sie sagen, dass dies irrelevant ist, weil die Verklumpung die p-Werte im Durchschnitt nicht erhöht oder erhöht. Die hohen und niedrigen Klumpen sind durchschnittlich. Meine Simulationen belegen dies auch: Durch die Rundung auf ganze Zahlen wird keine Verzerrung erzeugt.

Eine p-Wert-Verteilung sollte jedoch einfach nicht so aussehen, daher ist es immer noch etwas besorgniserregend. Wenn einige zusätzliche Einschränkungen und Annahmen zu den Simulationen hinzugefügt werden, wird Delta-F möglicherweise nicht nur zusammengedrückt, sondern auch voreingenommen - in diesem Fall würden die Anschuldigungen auseinanderfallen.

Vielleicht . Oder vielleicht ist die Methode niemals voreingenommen. Aber meiner Meinung nach, wenn Förster und seine Verteidiger die Statistik der Vorwürfe in Frage stellen wollen, ist dies die einzige Schwachstelle, die ich sehen kann. Försters Karriere könnte davon abhängen, eine Reihe von Bedingungen zu finden, die diese Kurven verzerren.

UPDATE 8. Mai 2014 : Die Ergebnisse der niederländischen Kommission für wissenschaftliche Integrität LOWI zu Förster wurden veröffentlicht . Englische Übersetzung hier . Wie bereits bekannt, empfahl LOWI die Zurücknahme des Papiers von 2012, da die konsistente Linearität unwahrscheinlich so zufällig aufgetreten ist, dass Fehlverhalten wahrscheinlich ist. Neu in dem Bericht ist jedoch die Feststellung, dass die Superlinearität nicht vorhanden war, wenn männliche und weibliche Teilnehmer getrennt analysiert wurden. Dies ist wahrscheinlich der Nagel im Sarg für Förster, weil es zeigt, dass den Daten, die Superlinearität erzeugen, nichts inhärent ist (dh es handelt sich nicht um einen Nebeneffekt der kategorialen Daten, wie ich vermutete.) Vielmehr sowohl männlich als auch weibliche Daten zeigen eine zufällige Variation, aber sie scheinen immer 'auszulöschen', um einen linearen Mittelwert zu erzeugen. Das ist sehr schwer zu erklären.


Interessante Artikel

Der Hofnarr und der durchschnittliche Irrtum

Der Hofnarr und der durchschnittliche Irrtum

Das Pith: Klimatische und biologische Evolutionsdrücke auf ein Ökosystem, die sich auf verschiedenen Ebenen ergänzen. Es ist auch nicht "dominant", da dieser Rahmen nicht einmal falsch ist. Gestern habe ich auf die Court Jester-Hypothese einer evolutionären Veränderung hingewiesen, die oft der Red Queen-Hypothese gegenübergestellt wird. Die

Capitol Hill Oceans Week auf Ihrem Desktop

Capitol Hill Oceans Week auf Ihrem Desktop

gepostet von Sheril R. Kirshenbaum Ich habe versprochen, den Rest dessen, was in DC während der Capitol Hill Oceans Week (CHOW) 2007 vor sich ging, zur Verfügung zu stellen. Drei Tage, als sich die größten Spieler des Ozeane-Spiels versammelten, um über aktuelle Meeres- und Küstenfragen zu diskutieren. Die

Rezept für einen aggressiven Mann: Schauen Sie sich mehr Fleisch an

Rezept für einen aggressiven Mann: Schauen Sie sich mehr Fleisch an

Sogar der Anblick des rötesten, rohen Steaks bringt dein Blut nicht zum Kochen. Überraschende neue Forschungen haben gezeigt, dass das Anstarren auf Fleischbilder die Menschen weniger aggressiv macht. Die Erkenntnisse stammen von Frank Kachanoff, einem Studenten der McGill University. Er fragte sich, ob der Anblick des Essens die Verteidigungswünsche der Männer wecken würde, ähnlich wie ein Hund, der seine Futternapf aggressiv schützt, erklärte er in einer Pressemitteilung: „Ich war inspiriert von Forschungen zu Priming und Aggression, die gezeigt haben, dass der Blick auf ein Objekt, von dem g

Sind Darwins Finken eine oder viele Arten?

Sind Darwins Finken eine oder viele Arten?

Finken, die während der zweiten Reise der HMS Beagle in den 1830er Jahren gesammelt wurden. Die Treuhänder des Natural History Museum, London Die Finken, die Charles Darwin auf den Galapagos-Inseln sammelte, gelten als Lehrbuchbeispiele dafür, wie sich eine einzelne Spezies in viele differenzierte, um verschiedene Ressourcen zu nutzen. F

Spektakulär und prickelnd, aber was ist das?

Spektakulär und prickelnd, aber was ist das?

Kugelsternhaufen zählen zu den spektakulärsten Objekten am Nachthimmel. Kompakte Kugeln mit Hunderttausenden von Sternen, weit über hundert Bahnen kreisen in verschiedenen Entfernungen. Wenn Sie von Hubble betrachtet werden, ist das Ergebnis nichts weniger als ein Kinnschlag: [Klicken Sie hier, um zu embiggen, und machen Sie es bitte; Ich musste das Bild zuschneiden, damit es passt, und die Vollversion ist noch spektakulärer!] D