Dienstag, April 16, 2024

Das böse Büro

Uriel Fanellis Blog in deutscher Sprache

Uriel Fanelli

Die Umfrageindustrie.

Die Umfrageindustrie.

Besonders wenn sich die Wahlen nähern, bombardieren die Zeitungen die Menschen mit "Umfragen", bis zu dem Punkt, dass es den Anschein hat, als stünde hinter einer Umfrageindustrie, deren Zweck es ist, "statistisch" zu demonstrieren, was der kunde möchte informiert werden. Viele fragen sich, wie Statistiken (was Mathematik ist) pervertiert werden können, um solch offensichtliche Fehler zu machen, und es gibt verschiedene Techniken.

"Es gibt verschiedene Techniken" bedeutet nicht, dass Statistik eine trügerische Wissenschaft ist. Im Gegenteil, es ist eine exakte Wissenschaft. Das Problem ist, dass es möglich ist, auf Theoreme und Formeln zu spielen, die der Öffentlichkeit nicht bekannt sind, und insbesondere auf Konzepte, die vielleicht der Öffentlichkeit bekannt sind, aber nur wenige über die verwandten Formeln nachdenken.

Zunächst werde ich jedoch einen kurzen Überblick über die Grundregeln einer Stichprobenschätzung geben, um uns anzugleichen. Anschließend werden wir einige häufigere Methoden für Arzneimittelumfragen sehen: Überrepräsentation und "böswillige" Aggregation. Ich werde Konzepte wie "Spektrum" oder "Wahrscheinlichkeitsdichte" nicht ansprechen, weil ich klären möchte, wie wenig es gibt, um in den Umfragen glaubwürdig zu sein.

Fast alle Menschen glauben, dass eine Umfrage eine sogenannte "Stichprobenschätzung" ist. Es ist ein Prozess, bei dem eine Stichprobe der Bevölkerung gezogen und die Prävalenz einiger Daten gemessen wird, zum Beispiel durch die Frage: "Ist es richtig, die Verlobte zu schlagen?" (Jeder Hinweis auf lächerliche Statistiken ist rein zufällig).

Nun ist der Punkt sehr einfach: Wie groß sollte ein Champion sein? In diesem Sinne lautet die Antwort: … hängt von der Antwort ab, die wir messen. Die "einfache" Formel zur Berechnung der Stichprobe einer Schätzung für sehr viele Populationen lautet:

Die Umfrageindustrie.

wo

  • und es ist die Fehlerspanne, die Sie wollen.
  • p ist die Standardabweichung, die Sie finden, oder wenn Sie die erwartete Prävalenz bevorzugen.
  • Z ist ein Vertrauensindex.

Ich denke also, die Fehlerquote ist ein klares Konzept. Wenn Sie, wie ich weiß, ein Prozent messen möchten, benötigen Sie eine Fehlerquote, die viel niedriger als der Prozentpunkt ist. Andernfalls wird die Fehlerquote größer als die von Ihnen gemessene.

Die Standardabweichung ist die Differenz zwischen den Werten, die Sie messen möchten. Wenn Sie eine Ja / Nein-Rede halten, können Sie sie "auf den Punkt gebracht" mit der erwarteten Prävalenz identifizieren. Wenn zum Beispiel 99% sagen, dass es nicht richtig ist, die Freundin zu schlagen, und 1% sagen, dass es nicht richtig ist, wenn Sie eine Situation wie 50,1% und 49,9% haben, für die Sie eine SEHR größere Stichprobe benötigen .

Z ist ein Index, der aus dem Vertrauen stammt, das Sie haben möchten. "Vertrauen" ist nicht die Gewissheit, dass die Schätzung korrekt ist, sondern die Gewissheit, dass die Stichprobe groß genug ist, um zu messen, was Sie wollen. Im Allgemeinen werden Tabellen verwendet, wie zum Beispiel:

  • 80% iges Vertrauen ==> 1,28 von Z.
  • 85% iges Vertrauen ==> 1,44 von Z.
  • 90% iges Vertrauen ==> 1,65 von Z.
  • 95% iges Vertrauen ==> 1,96 von Z.
  • 99% iges Vertrauen ==> 2,58 von Z.

Wie Sie sehen können, müssen Sie die erwartete Abweichung kennen, um zu wissen, welche Probe Sie benötigen. Aber bevor Sie die Schätzung vorgenommen haben, wissen Sie es nicht. Sie können also die Abweichung auf 0,5 setzen, die Stichprobe berechnen, Ihre Befragungen durchführen und dann abhängig von der gefundenen Standardabweichung die Rechnung wiederholen, um die richtige Stichprobe zu erhalten.

Es gibt auch komplexere Formeln, zum Beispiel wenn die Populationen klein sind, aber bei 60 Millionen Individuen dürfen wir nicht ins Detail gehen. Was ich darstellen wollte, ist, dass die Berechnung der Stichprobe selbst sehr "knifflig" ist, da die Stichprobe zuerst berechnet wird, und dann beginnen wir zu arbeiten, und dann (vielleicht) wird sie neu berechnet.

Es liegt an Ihnen, beim Lesen einer Umfrage zu verstehen, ob die Stichprobe ausreicht oder wie sicher Sie sind. Denn wenn sie Ihnen nicht sagen, mit welcher Zuversicht sie den Champion gemacht haben, sagen sie Ihnen in der Praxis, dass die Umfrage mit "einer Reihe von Personen durchgeführt wurde, die möglicherweise ausreichen".

Wenn sie zum Beispiel die Umfragen von zwei Parteien veröffentlichen, die in der Emilia Romagna aufeinander stoßen, und "Heads-up" sind, müssen sie eine sehr gute Stichprobe oder ein sehr geringes Vertrauen haben. Oder eine enorme Fehlerquote, aber da die beiden Fraktionen gegeneinander antreten und es wenig kostet, das Ergebnis zu untergraben, muss es klein sein. Sie können daher NUR auf Vertrauen spielen.

In der Umfragewelt ist es relativ häufig, Produkte mit einem Vertrauensverhältnis von 60% und sogar 55% zu verkaufen. Dies soll die Stichprobe und damit die Kosten (und Zeiten) der Umfrage selbst drastisch reduzieren.

Vermutlich hätte eine Umfrage wie die der Emilia-Wahlen etwas in der Größenordnung von zwanzigtausend Menschen umfassen müssen, UP. Oder oder die Fehlerquote ist sehr groß oder das Vertrauen ist in der Tat sehr niedrig. Bei minderwertigen Stichproben können Sie keine genauen Zahlen erhalten (wenn Sie die erste Dezimalstelle angeben, geben Sie mir an, wie genau Sie sein möchten) oder mit großer Sicherheit.

In den Umfragen, die Sie in den Zeitungen lesen, wird nur selten das Vertrauen und die Fehlerquote angegeben, höchstens, wie großartig die Stichprobe war. Spoiler: Selbst die komplexesten Methoden werden von vielen Faktoren beeinflusst, die weiteren Missbrauch ermöglichen.

Aber jetzt werden Sie sagen: "Hey, meine Umfrage hatte die richtige Stichprobe!" Gut. Jetzt, da wir wissen, dass Sie ein ausreichendes Vertrauen und einen akzeptablen Fehler hatten, sind wir noch nicht fertig.

Wir sollten über Polynomverteilungen und andere Teufel sprechen. Da Sie eine einfache Erklärung wünschen, nehmen wir stattdessen ein Beispiel. Wir müssen wissen, welche Handwerker zu Hause (Elektriker, Maurer und Installateure) der Meinung sind, dass Hausfrauen untreu sind. (Da dieser Blog von Feministinnen für seinen Sexismus gehasst wird, macht das so viel Spaß).

Das Problem ist also, dass:

  • Klempner denken zu 70%, dass Hausfrauen untreu sind.
  • Die Maurer denken das gleiche, aber nur 55%.
  • Elektriker, eine Kategorie, die bei reinen Pornos in Vergessenheit geraten ist, halten sie für sehr loyal: 15%.

Nun, jetzt wäre das Problem: "Lassen Sie uns entscheiden, wie viele Elektriker, wie viele Klempner und wie viele Maurer angerufen werden sollen. Jemand, der naiv ist, wird sagen, dass wir gleich durch drei teilen müssen: Warum sollten Klempner weniger sein als Elektriker?

Das Problem ist nun, dass die Elektriker in einer Bevölkerung im absoluten Sinne 3000, die Installateure 1000 und die Maurer 15000 sind. Wir stehen vor zwei Problemen: Wenn wir 500 Installateure, 500 Maurer und 500 Elektriker befragen, sind wir die Installateure und überrepräsentiert Elektriker, und wir sind die Maurer unterrepräsentiert.

Aber wenn wir eine Genauigkeit von 1% wollen und 300 Elektriker, 100 Installateure und 1500 Maurer zu den Proportionen rufen, ist die Meinung der Installateure wahrscheinlich fast irrelevant (spoiler: it is).

Das heißt, die Zusammensetzung der Stichprobe wird entscheidend, wenn wir das Cherrypicking vermeiden möchten.

Unsere Agentur für "Umfragen" "weiß" daher nur im Voraus, wie die Meinungen der befragten Kategorien lauten, und "dosiert" sie in die Stichprobe, um die gewünschten Ergebnisse zu erzielen. Wenn er mehr versaute Hausfrauen möchte, muss er nur Klempner in die Stichprobe aufnehmen, während er nur Elektriker hinzufügen muss, wenn er mehr Kasten will.

Die Stichprobe ist immer gleich groß, das Vertrauen ist in Ordnung, die Fehlerquote in Ordnung, aber durch einfaches Ändern der Zusammensetzung meiner Stichprobe habe ich die gewünschten Ergebnisse erzielt, vorausgesetzt, ich weiß, dass Klempner das Schlimmste und Elektriker das Beste denken.

Aber lassen Sie uns mit dem Beispiel weitermachen: Weil wir auch wissen, dass die jüngsten Handwerker Hausfrauen mehr Ungläubigen für Ungläubige geben. So, jetzt tritt das gleiche Problem auf, aber auf ZWEI Dimensionen. Nicht nur die Kategorie, sondern auch das Alter. Und wenn wir weiter gehen, stellen wir fest, dass dies auch vom Gewicht abhängt, da fettleibige Klempner glauben, dass Hausfrauen treu sind, während sportliche dies nicht tun. Anziehungspunkte.

Wenn wir also gute Statistiker sind, müssen wir eine Stichprobe auswählen, die in Bezug auf ALLE Partitionen mit unterschiedlichen Verteilungen ziemlich ausgewogen ist. Es gibt Bücher und Bücher mit statistischen Techniken, die für die Behandlung dieser Fälle nützlich sind, und in einigen Bereichen wie der medizinischen Statistik ohne ρ gibt es keinen Ausweg. Dies ist jedoch bei Umfragen nicht der Fall. Niemand hat jemals ρ der Stichprobe veröffentlicht.

Sie verstehen sofort, wie EINFACH es ist, indem Sie einfach zu einem bestimmten Zeitpunkt und nicht zu einem anderen anrufen und eine Probe auswählen. Wir können aber auch sozusagen "Städte" versus "Kampagne" oder "Nutzer eines wirtschaftlichen Telekommunikationsunternehmens" gegen "Nutzer eines teuren Telekommunikationsunternehmens" auswählen, wenn wir den Telekommunikationsmarkt gut kennen.

Aber gehen wir weiter: Trotzdem haben wir schlechte Nachrichten. Aber der Kunde will sie nett, weil er sie in die Zeitung werfen muss. Was können wir tun?

Heutzutage werden diese "Umfragen" und diese "Überarbeitungen" mit Computern und einigen Schreibalgorithmen durchgeführt. Wir müssen einen Weg finden, um einen "falschen", aber anscheinend korrekten Algorithmus zu schreiben. Wie machen wir das?

Nun, an diesem Punkt wenden wir uns der heiligen Aggregation zu, die auch als Saint Group By bezeichnet wird.

Mit der GROUPBY können wir während der Berechnung die Zahlen im Spiel leise erhöhen. Nehmen wir ein Beispiel.

Wir haben eine Gruppe von zehn Personen, die wir fragen, ob sie für A oder B stimmen werden. Der Prozentsatz beträgt 50/50%. Schöne Kopfschmerzen. Aber nein

Nehmen wir an, 6 von 10 sind Absolventen und 7 von 10 sind verheiratet. Alles, was wir tun müssen, ist die Abstimmung nach Familienstand und Qualifikation zu gruppieren, und wir erhalten insgesamt dreizehn Stimmen (sechs plus sieben), und zu diesem Zeitpunkt gewinnt ein Kandidat der beiden. Es ist "nur", Kategorien zu verwenden, die nicht streng orthogonal oder komplementär sind (je nachdem, wie die Berechnungen durchgeführt werden).

Dieser letzte "Trick" der Summe (groupby (irgendetwas)) wurde in der Vergangenheit ebenfalls verwendet, ist aber in Big-Data-Systemen sehr in Mode gekommen, wenn der "Data Scientist" ein wenig Brot und Fisch vermehren will. Für diejenigen, die die Konten überprüfen, ist es nicht einfach, die Orthogonalität jeder Gruppe zu überprüfen, die einer bestimmten Summe unterliegt. Wenn Sie Programmiersprachen wie Spark verwenden, handelt es sich um das Debuggen des Codes, während das Problem bei Grafiktools (wie Tableau oder Datameer) gigantisch ist, da alle technischen Details der Benutzeroberfläche verloren gehen Grafiken. Ein solcher Trick kann jahrelang unbemerkt bleiben.

Es gibt viele andere Tricks, wie die "linken" Verknüpfungen, bei denen sie "inner" sein sollten, und andere Techniken, die ein versierter "Datenwissenschaftler" verwenden kann, um Fehler einzuführen, die für diejenigen, die den Algorithmus nicht geschrieben haben, sehr schwer zu bemerken sind. Aber der Punkt ist viel, niemand wird den Algorithmus überprüfen.

Damit meine ich eine sehr einfache Sache: Sie könnten an Umfragen glauben, aber nur, wenn Sie sich genauso verhalten wie in der Welt der angewandten Wissenschaften.

  • Die Rohdaten werden veröffentlicht, die verwendeten Daten, das ist alles, was über die Stichprobe bekannt ist.
  • Die für die Berechnungen verwendete Methodik wird vollständig veröffentlicht.

Andernfalls ist es möglich, dass jemand, der "Auge" hat, die Zahlen bereits beobachtet und sieht, dass eine bestimmte Statistik nicht möglich ist oder dass das Ergebnis (mit der angegebenen Genauigkeit) keine statistische Bedeutung hat. Dazu reicht es aus, dass die "Umfrage" mit wenigen Zahlen ohne Erläuterung der Methodik online bleibt, um nur zu beeindrucken.

Zum Beispiel sind die Zahlen, die gestern in einer "Istat-Umfrage" zum Thema Gewalt gegen Frauen angegeben wurden, nicht sinnvoll, da es (in der Rede ganz oben, in der der Handwerker) zu einem generischen Thema wie "Frauen" zu viele Variablen gibt auf dem Spiel stehen: Geschlecht, Alter, soziale Schicht, Schulbildung, geografische Herkunft, Familienstand, Beruf, politische Zugehörigkeit, sexuelle Vorlieben, dieselben Faktoren für die Herkunftsfamilie usw. Wenn die Stichprobe nicht RIESIG war, ist die Angabe von Prozentsätzen mit einer Dezimalstelle rechts vom Komma "zumindest verdächtig", wenn die Fragen so allgemein und die Partitionen so zahlreich sind.

Solche Statistiken wären NUR dann glaubwürdig, wenn sie die Rohdaten und die von ihnen verwendeten Berechnungen veröffentlichen würden.

Ohne diese Bedingungen können wir sicher eines sagen:

Die XYZ-Umfrage ist reine FUFFA.

Für jedes XYZ im Umfrageset.

Links

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert