Dienstag, April 30, 2024

Das böse Büro

Uriel Fanellis Blog in deutscher Sprache

Uriel Fanelli

Die heutige(n) Rezension(en).

Ich habe beschlossen, eine (S)Rezension über ein Buch zu verfassen, das ich zufällig gelesen habe, aus purer Neugier, da es in der IT heutzutage keine gibt, die keine Daten produzieren, und wenn man mit Unternehmen zusammenarbeitet, ist man – Was auch immer Sie tun oder nicht tun – der Umgang mit großen Mengen fantastischer Daten (und wo diese zu finden sind).

Das Buch, das ich Ihnen nur zum Kauf empfehle, wenn ein Atomkrieg zu einem Mangel an Toilettenpapier geführt hat, ist das Folgende.

Flaum

Dieses Buch enthält alles, was die Datenwissenschaft lösen will, und stellt Probleme so dar, als wären sie schöne, wünschenswerte und nützliche Dinge. Tatsächlich handelt es sich um die Verherrlichung „gekochter Daten“.

Um es Ihnen zu erklären, werde ich eine Anekdote verwenden.

Im Jahr 2018 rief ein gewisser italienischer CEO mich und andere Senioren (=trad: alt) an, um ein Big-Data-Analysesystem aufzubauen, und zwar aus einem bestimmten Grund: Er erhielt nur gekochte Daten, also die Daten, die laut Buch die „richtigen“ sind, weil Sie „diskriminieren“ nicht.

Von Zeit zu Zeit erhielt er Daten in Form von Präsentationen. Als CEO einer Holdinggesellschaft, die damals etwa 40 lokale Telekommunikationsunternehmen besaß, hatte er ein Problem: Jedes Telekommunikationsunternehmen funktionierte GUT. Apropos Präsentation. Alle waren wunderbar, sie haben alles mehr und besser gemacht, und das für weniger Geld. Die Zahl der Kunden nahm zu und war immer zufriedener.

Das Problem bestand darin, dass die Finanzberichte das Gegenteil sagten. Das Unternehmen litt unter unnötigen Ausgaben und gescheiterten Projekten und es ging ihm immer schlechter.

Also hat uns der CEO (selbst!) eines gesagt: ALLE Daten von JEDEM Gerät des Unternehmens zu nehmen, sie in ein großes Hadoop zu übertragen und dann sicherzustellen, dass er die Daten „als Service“ erhält, d. h. wann Wenn er etwas wissen musste, bat er einen seiner persönlichen Assistenten, die gesamte relevante Mathematik auf einen schönen Tableau-Server zu schreiben, um die gewünschten Grafiken oder Tabellen und Zahlen zu erhalten.

Bisher erstellte jedoch jeder Teamleiter (oder „Manager“) einen Bericht in Excel. Das wurde dann in Powerpoint übersetzt und dem Vorgesetzten „präsentiert“. Dieser hat dann alles zusammengefasst, das Powerpoint erstellt und es dem Vorgesetzten präsentiert. Und nach sechs oder sieben dieser Fusionen war das Unternehmen wunderbar.

Denn um den Vorgesetzten nicht mit Dezimalzahlen zu „langweilen“, wurden diese mit bizarren Rundungen entfernt. Die Daten wurden auf unerklärliche Weise kombiniert. Das heißt, sie wurden gekocht. Ein IT-Jargon, wenn es um Daten geht, ist „gekocht“. Kochen Sie selbst. Dies sind die Daten, die dem Autor der obigen Broschüre gefallen.


Wie Sie verstehen können, war der Anfang selbst für eine Gruppe von 40 Personen ein Albtraum. Als wir die Ansprechpartner bei den nationalen Telekommunikationsunternehmen fragten, welche Daten sie hatten und wo sie diese aufbewahrten, war die Wirkung beunruhigend. Am Ende haben wir uns über SSH bei JEDEM Server angemeldet, die zum Schreiben geöffneten Dateien überprüft, um zu verstehen, welche Protokolle geschrieben wurden, und dann auf den einzelnen Systemen überprüft, welche Datenbanken vorhanden waren und welche Muster vorhanden waren. Drei Monate, um zu verstehen, um welche Daten es sich handelt und wie man sie gemäß der „Privacy by Design“-Dokumentation verwaltet. Ich musste es tun und es war ein Albtraum.

Also: Es ist einfach, „Daten“ zu sagen. Davon wird man in dem Buch keine Spur finden, denn offensichtlich hat die schreibende Dame noch nie in der Branche ARBEITEN (sie ist Journalistin und „Vertragslehrerin“). Allerdings ist die Auswahl der Daten bzw. was „Daten“ sind, entscheidend. In dem Sinne, dass die Antwort „ALLE“ lautet. Wenn ein Datenelement existiert, dann ist es ein Datenelement. Ende.

Warum das? Denn wenn wir vergessen, es zu zählen, vergessen wir, es zu schützen, und wenn wir vergessen, es zu schützen, landet der Tata-Verstoß in den Zeitungen und wir zahlen eine Geldstrafe von bis zu 4 % des Umsatzes. Das Gesetz sagt es. was auch aus der DSGVO stammt. Die Antwort an den Journalisten ist also klar: Welche Daten sind Daten? Alle. ABER sie arbeitet nicht auf dem Feld, sie RERICHT mit ihr über das Feld.

Nachdem wir jedoch die Daten hatten, sie klassifizierten, entschieden wir, welche aggregiert und welche roh gehalten werden sollten und welche folglich anonymisiert und welche pseudonymisiert werden sollten (die Journalistin erwähnt dies in dem Buch nicht einmal, anscheinend sind ihre Daten ein magisches Buch). Konzept, das dann durch magische „Algorithmen“ auf magische Weise manipuliert wird), dann begannen wir, das zu tun, was der Datenverarbeiter, diese in der DSGVO vorgesehene mythische Figur, tut.

Für diejenigen, die nicht in diesem Beruf tätig sind, handelt es sich bei der aggregierten Zahl um eine Zahl, die KEINE spezifische Identität angibt, d. h. „Metzger aus der Romagna betrügen ihre Frauen in 30 % der Fälle“. Die Alternative sind Rohdaten oder PII, die besagen: „Der Metzger Ivo Balboni betrügt seine Frau mit dem Bäcker gegenüber in der Via Scappavia“, was stattdessen die Identifizierung sowohl von Ivo als auch des Bäckers ermöglicht.

Allerdings (ich weiß nicht, ob es heute noch als Big Data gilt) erreichten wir etwa 16/17 PB pro Tag. Sagen wir „hübsch“.

Aber das Lustige war die Dichotomie zwischen denen, die wie Journalisten denken, und den Technikern, die die messbare Realität im Sinn haben, die zufälligerweise die einzige Realität ist, denn wenn eine Realität nicht messbar ist, sollte sie im Kapitel „Die Zahnfee“ archiviert werden “.


Wir haben also einen politischen Konflikt zwischen zwei Philosophien. Die Techniker, die der CEO bezahlt, weil er die Wahrheit will, und einen politischen Ansatz, nämlich den der „gekochten“ Daten.

Ich sage „politisch“, weil die Daten für einen politischen Zweck gefälscht wurden

  • Schauen Sie, wie cool wir sind, kürzen Sie nicht unser Budget
  • Schauen Sie, wie cool wir sind, machen Sie Werbung für uns
  • Schauen Sie, wie cool wir sind, zahlen Sie uns den Bonus
  • Schauen Sie, wie cool wir sind, und unterstützen Sie uns in den internen Medien

Jede dieser Aktionen ist politisch, da die Zuweisung von Budgets und die Förderung rein politische Aktionen sind: Die Zuweisung von Ressourcen (dem Budget) ist wahrscheinlich eine der politischsten Funktionen einer menschlichen Gruppe.

Infolgedessen baten uns ALLE Gruppen, die wir kontaktiert hatten, um die vollständige Liste der Daten zu erhalten, um ein IN-PRESENT-Treffen (d. h. sie kamen persönlich nach Deutschland, in der Hoffnung, das Protokoll des Treffens zu vermeiden oder aufgezeichnet zu werden), mit genau dem gleichen Ergebnis Fragen.

  • Ja maaaaa…. Was machen Sie mit den Daten?
  • Wir stellen sie dem CEO zur Verfügung, der uns KPIs vorgibt
  • Ja, aber… KPIs wie diese zu erstellen ist gefährlich, weil der CEO nicht viele Dinge weiß.
  • Die Dinge, die der CEO wissen muss, liegen tatsächlich in den Daten.
  • Nun nein. Zum Beispiel erhält der CEO die Zeit, die wir brauchen, um ein Ticket der Priorität 1 zu lösen, aber die LIEBE, die wir hineinstecken, erscheint nicht in den Daten.
  • Ich glaube nicht, dass es eine Selbstverständlichkeit ist. Und ich glaube nicht, dass es relevant ist.
  • Doch das stimmt nicht, Kundenzufriedenheit entsteht dadurch, dass man alles mit Liebe zum Kunden tut. Wir sind „kundenbesessen“. ABER dies ist in den Daten nicht zu sehen.
  • Ich glaube nicht, dass das Gesetz es uns erlaubt, medizinische Daten zur psychischen Gesundheit in unserem Hadoop zu behalten.
  • Ja, aber dann sieht der CEO nur, wie viel Zeit wir investieren, nicht aber die LIEBE, die wir investieren.
  • Das Leben ist hart. Bereits'. Aber der Tod sei schlimmer, sagen sie.

Ich habe sie Catbert-Treffen genannt, weil wir letzten Endes die Catberts der Situation sein mussten.

Die Anfrage bestand nämlich darin, die Daten ZUERST an sie zu senden, damit sie sehen konnten, was wir dem CEO heimlich erzählten (ihren Angaben zufolge. In Wirklichkeit standen ihnen die Daten auch zur Verfügung, wenn sie darum baten), aber ihnen zufolge versteckt. Das heißt, der CEO hat ihm etwas gestohlen, indem er direkt auf Daten zugegriffen hat, die „ihren“ gehörten.

Kurz gesagt, wir hatten ZWEI Mentalitäten:

  1. das von uns Technikern, für die ein Datenstück die Transkription eines Ereignisses ist, das tatsächlich stattgefunden hat, oder zumindest der Tatsache, dass das Ereignis tatsächlich stattgefunden hat.
  2. die von Politikern, für die die Daten nur dann existieren, wenn ihre Offenlegung eine bestimmte politische These stützt, z. B. „mein Team verdient Geld“.

Wenn Sie dies in einer politischen Gruppe tun (JEDE menschliche Gruppe ist notwendigerweise politisch), führt dies nicht nur zu „Panik“. Das Ergebnis ist ein Versuch, die Daten selbst zu verwässern oder zu modifizieren oder eine „politische“ Lesart zu suchen, die sie „rechtfertigen“ würde.

Eines dieser lokalen Telekommunikationsunternehmen gab beispielsweise an, 9 Millionen Nutzer zu haben, tatsächlich waren es jedoch sieben, bei den anderen handelte es sich um SIM-Karten, die nie ins Netz gelangt waren. Da sie sich nicht beschwerten, waren sie alle zufriedene Kunden. Als die zwei Millionen SIM-Karten, die nie ins Netz gelangten, entfernt wurden, änderte sich einiges und die Kunden waren nicht mehr so ​​zufrieden.

Das Gleiche gilt für einige Systeme, an eines erinnere ich mich, weil die einzigen Benutzer tatsächlich die Tester waren. Um sicherzustellen, dass das System gut funktionierte, hatte der schlaue Manager eine Firma beauftragt, die eine externe Überwachung (und bisher gut) durch Simulation realer Benutzer durchführte. Er hat viele davon simuliert, um auch die Reaktion unter Stress zu überprüfen, sogar das Verhalten je nach geografischem Herkunftsgebiet usw. Und dann hat er sie nie gelöscht. Das System hatte also viele Benutzer, und zwar immer mehr. Wenn wir die Testversionen entfernten, blieben nur die Mitarbeiter des Unternehmens übrig, die zur Nutzung eingeladen wurden. Wow.

Auch an der Grenze kam es zu mehreren Situationen. Lokales Telekommunikationsunternehmen aus Nation A und lokales Telekommunikationsunternehmen aus Nation B, und A gab an, eine bessere Kundenzufriedenheit zu haben als B. Schade, dass an der Grenze zwischen A und B nachts viele SIMs von B geparkt waren, also Menschen, die dort wohnten Land A, aber sie haben SIM-Karten für Land B gekauft.

Das heißt, die gefälschten Daten waren verlogen. Und es war verlogen, weil es gemacht wurde, um politische Entscheidungen (unternehmensintern, aber dennoch politisch) zu beeinflussen. Schließlich hatte das Unternehmen in San Marino mehr Mitarbeiter als Bürger. Um also die Politik interner Entscheidungen zu leugnen, müssten wir leugnen, dass es in San Marino Politik gibt.

Spoiler: Gibt es.


Columbros Buch ist einfach die Überhöhung der erfundenen Daten und eine pseudotechnische Erklärung mit abgedroschenen Beispielen.

Innerhalb des Unternehmens wurden die Daten aufbereitet, um die politische These zu erfüllen: „Meine Gruppe verdient mehr Budget und mehr Beförderungen“, während in Columbros Buch die Daten „aufbereitet“ werden sollten, damit sie „nicht diskriminieren“, das heißt, sie erfüllen die Anforderungen des Unternehmens politische These von „den Zahlen der Gruppe“.

Das Problem bei gekochten Daten besteht darin, dass die Daten selbst nicht lebendig sind. Sie können kombiniert werden. In dem Fall, von dem ich Ihnen erzählt habe, habe ich zufällig die anti-physische Zahl „negative Latenz“ gesehen, weil jemand seine eigene Tabelle mit gekochten Daten erstellt hatte (unter Verwendung eines Proxys mit Zeitüberschreitung), um zu demonstrieren, dass sein System sehr schnell war.

Das Problem besteht darin, dass die Daten dann wiederverwendet wurden, was zu einer negativen Latenz führte. Es dauerte ein paar Wochen, bis man herausfand, dass dort ein Cache-Proxy mit einer netten Zeitüberschreitung eingebaut war.

Ziel war es zu sagen: „Aber meine Zahlen, die immer aus dem gleichen Big Data stammen, sagen etwas anderes.“ Dabei handelt es sich um eine Technik, bei der Analysedaten verunreinigt werden, indem man eigene Daten erstellt und dann sagt, dass die Verarbeitung falsch sei.

Das Problem dabei ist, dass es tatsächlich Nebenwirkungen hat. Zum Beispiel die Schaffung „schamanischer“ Systeme, die die Antwort zwei Sekunden vor der Anfrage kennen, einfach weil jemand einige gefälschte Daten (= ohne die beteiligten Proxy-Protokolle) genommen und beschlossen hat, eigene Zahlen zu erstellen.

Ebenso kann ich die Daten, die gemäß der Ideologie von Columbro in sozialen Begriffen aufbereitet wurden, heranziehen und ein Beispiel geben.

Wir haben also festgestellt, dass die Gefängnisse in den USA voller farbiger Menschen sind. Das sind 17 % der Bevölkerung, aber im Gefängnis ist der Prozentsatz doppelt so hoch. Laut Columbro sind diese Daten diskriminierend, weil sie sich gegen Schwarze richten. Also sollten wir es unter Berücksichtigung von N Dingen kochen, die im konkreten Fall nicht wirklich messbar sind, und sagen: Nein, die Necris, die wirklich im Gefängnis sind, sind immer 17 %.

Damit haben wir dem politischen Prinzip Genüge getan. Also. Das Problem ist, dass sich früher oder später jemand, der den Haushalt für Gefängnisse und den Haushalt für soziale Dienste erstellen muss, dazu entschließen könnte, die gefälschten Daten zu verwenden. Wenn Sie jemanden bitten, das Budget für Schwarze in Gefängnissen festzulegen, wird er sofort fragen: „Aber wie viele sind es?“

Das Problem ist, dass er eine optimistische Figur bekommt, die das Gesicht der Schwarzen wahrt und sie dann ohne Budget für soziale Dienste zurücklässt.

Moral: Das Kochen von Daten ist gefährlich, weil man nie weiß, wo sie landen, und man kann nicht mit allen konsistent sein. Das Einzige, was „mit allen vereinbar“ ist, ist die Realität der Ereignisse, UND DESHALB besteht der beste Weg, dies zu tun, darin, sie nicht zu verfälschen.

Das soll nicht heißen, dass es keine Wissenschaftler und sogar angeheuerte Techniker gibt, die die Daten fälschen: Wer auch immer einen Proxy mit einer Zeitüberschreitung eingesetzt hat, um die Leistung des Systems zu verfälschen, WAR ein Techniker. Aber er verstand nicht, dass Daten in einem Kontext wiederverwendet werden können, in dem die zugeschriebene Bedeutung, die Voreingenommenheit, genau das Gegenteil ist. Oder in Kontexten, in denen die Korrektur mathematische Katastrophen hervorruft, wie etwa negative Latenzen oder Divisionen durch Null.


Die Strategie von Leuten wie Columbro besteht jedoch darin, zu zeigen, dass es gute und schlechte Daten gibt, das heißt, dass alle Daten falsch sind, und zwar nur, wenn eine Person von der RICHTIGEN politischen Partei sie korrigiert, und zwar aus den RICHTIGEN Gründen Die Daten sind in Ordnung.

In der Praxis handelt es sich um ein Feld, in dem transzendentale Ästhetik praktiziert wird: Sie vertreten eine These, die gefällt, weil sie ästhetisch schön ist. An diesem Punkt treffen die Daten ein und widerlegen die These.

Die wissenschaftliche Kultur möchte, dass die Theorie falsch ist, wenn die Daten die Theorie nicht bestätigen. Aber er mag die Theorie. Angesichts der Diskrepanz zwischen Daten und Theorie schlagen sie daher vor, die Daten zu korrigieren, anstatt die Theorie zu korrigieren.

Und sie stellen es, indem sie vorzeitige Superfucks hinzufügen, als wissenschaftliche Operation dar.

Und deshalb rate ich Ihnen vom Kauf des betreffenden Buches ab:

  • es gibt keine Wissenschaft.
  • es gibt keine Mathematik.
  • Es gibt viele Begriffe, die unangemessen verwendet werden, beginnend mit „Algorithmus“, und willkürlich angeordnet sind, um die Menschen glauben zu lassen, dass es Naturwissenschaften und Mathematik gibt
  • Es lehrt nichts darüber, wie Daten verarbeitet werden sollten
  • Tatsächlich zeigt Columbro, dass sie NICHT weiß, was „Daten“ sind.

Kaufen Sie es nur, wenn es im Umkreis von 200 km kein Toilettenpapier gibt.

Es hat auch einige „Vorteile“: Es macht einem verständlich, wie Journalisten Fehler machen, indem sie vorgeben, „Statistiken“ zu erstellen, den Blödsinn, den man in den Zeitungen liest.

Uriel Fanelli


Der Blog ist von Fediverso aus wie folgt sichtbar:

@uriel @keinpfusch.net

Kontakte:

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert