data science to go

Monat: August 2021

BundestagsMining – Teil 2

Im ersten Teil des BundestagsMining Projektes hatten wir festgestellt, dass es eine hervorragende kostenlose Quelle mit den Stammdaten aller Bundestagsabgeordneten seit der ersten Wahlperiode der Bundesrepublik Deutschland gibt. Die ersten Erkenntnisse nach einer groben Sichtung der Daten waren:

  1. Der Bundestag hat seit seiner Gründung ein massives Wachstum (von unter 500 auf über 700 Abgeordnete) erfahren und ist inzwischen das zweitgrößte Parlament der Welt
  2. Die Verbleibedauer der Abgeordneten im Parlament ist stark gestiegen; inzwischen sind die meisten Abgeordneten zu Beginn einer Legislaturperiode bereits 8 bis 10 Jahre im Amt. Am Ende einer Legislaturperiode wären das dann entsprechend 12 bis 14 Jahre.
  3. Diese Entwicklung gilt für die „jungen“ Parteien (Grüne und Linke) in nahezu gleichem Maße wie für die Altparteien CDU/CSU, SPD und FDP.

Widmen wir uns jetzt folgender Frage:

Detailfrage 3: kommen die Abgeordneten eher als junge Menschen in der Phase des Berufseinstiegs (mit entsprechend frischen Ideen) ins Parlament oder sind die meisten eher älter (und bringen entsprechend Berufserfahrung mit)?

Sehen wir uns mal rein statistisch die Verteilung des Alters bei Amtseintritt an:

Verteilung des Alters der Bundestagsabgeordneten beim Beginn einer Wahlperiode (eigene Darstellung nach Daten des Bundestags)

Wie erwartet stellt die Verteilung eine halbwegs normalverteilte Kurve dar. Der Peak liegt dabei ziemlich genau bei der 50. Wenn, wie hier zu sehen, der Großteil der Abgeordneten also über 40 ist, kann man davon ausgehen, dass die allermeisten schon vor ihrer Arbeit als Abgeordnete bereits nennenswerte Berufserfahrung gesammelt haben.

Beobachtung: Die allermeisten Abgeordneten sind zu Beginn einer Legislaturperiode zwischen 40 und 60 Jahre alt. Es gibt einen klaren Peak bei den ca 50-Jährigen.

BundestagsMining – Teil 1

„Die Abgeordneten des Deutschen Bundestages […] sind Vertreter des ganzen Volkes“ – Artikel 38, Absatz 1 des Deutschen Grundgesetzes.

Wirklich? Wenn ich mich in meinem Freundeskreis (vorwiegend Informatiker) umhöre, fühlen sich die wenigsten von uns vom Bundestag vertreten. Weder hat man das Gefühl, dass zahlenmäßig viele ITler im Bundestag sitzen, noch dass der Bereich der Naturwissenschaften generell hier besonders stark vertreten ist. Eine spontane Umfrage ergibt: Abgesehen von Angela Merkel fällt den meisten jedenfalls ad hoc kein Beispiel für Mathematiker, Physiker oder auch ITler unter den Volksvertretern ein. Damit einher geht das Gefühl, dass auch die spezielle Fachkompetenz, die es nun mal braucht, um politisch bedeutsame Entscheidungen in digitalen Fragen angemessen zu treffen, generell fehlt.

Ist die Informatik da ein tragischer Einzelfall? Oder geht es anderen Berufs- und Bevölkerungsgruppen ähnlich? Immerhin ist es unbestreitbar, dass ein gewisses Maß an Arbeits- und Lebenserfahrungen in einem Bereich hilfreich ist, um sinnvolle, lebensnahe und pragmatisch umsetzbare Gesetze und andere Maßnahmen zu erarbeiten – das gilt für hochtechnisierte Bereiche wie die digitale Infrastruktur, aber mindestens genau so für weniger akademische Domänen wie Gastronomie und Pflege.

Die gefühlte Diskrepanz zwischen eigener Lebenswelt und der eines Parlamentariers beschränkt sich aber nicht nur auf den beruflichen Kontext. Wie passen z.B. folgende Beobachtungen zusammen: nahezu alle Parteien betonen im Bundestag regelmäßig ihr Streben nach Diversität und der Einbeziehung von Minderheiten. Andererseits geht es vermutlich nicht nur mir so, dass die Bundestagsabgeordneten, die mir spontan namentlich einfallen, ganz überwiegend männlich, weiß, verheiratet um die 50 und christlich sind. Noch dazu assoziiere ich die meisten Abgeordneten mit einem beruflichen Kontext, der tendenziell akademeisch ist und sich im Büro abspielt. Aus dem Bauch heraus würde ich sagen, dass die meisten im Bundestag sitzenden „von Haus aus“ Juristen oder BWLer sind und sich wenige Handwerker oder Supermarktkassiererinnen hier wiederfinden.

Nicht, dass mich das per se stören würde. Siehe meinen letzten Beitrag über Frauen in der IT. Ich bin weder generell für eine Frauenquote, noch glaube ich, dass sich andere Eigenschaften wie Religion, Alter oder kulturelle Herkunft statistisch fair bei einem Arbeitgeber widerspiegeln müssen. Dennoch ist der Bundestag in meiner Wahrnehmung ein Ort, bei dem die Diskrepanz zwischen „wir wollen die Gesellschaft mit all ihrer Vielseitigkeit abbilden (und vertreten!)“ und „eigentlich sind das alles die gleichen, männlichen, gebildeten anzugtragenden Typen aus der Mittel- und Oberschicht“ maximal ist.

Ich bin kein Freund von „gefühlten Wahrheiten“ und ziehe den möglichst nüchternen Blick auf die Daten vor. Ab einem gewissen Punkt habe ich es mir so zum Hobby gemacht, beim Auftauchen der Namen von Abgeordneten in den von mir konsumierten Nachrichten einfach kurz zu googlen, welchen beruflichen Hintergrund die jeweiligen Menschen mitbringen, die die gesamte deutsche Bevölkerung im Bundestag vertreten sollen. Jens Spahn? Bankkaufmann. Markus Söder? Jurist. Olaf Scholz? Jurist. Heiko Maas? auch Jurist. Peter Altmaier … ja, tatsächlich: auch ein Jurist. Wow. Da scheint es auf den ersten Blick zumindest in Bezug auf die beruflichen Hintergründe der Parlamentarier einen gewissen Bias zu geben.

Als Data Scientist bzw. Machine Learning Engineer liegt es mir aber fern, alleine aufgrund einer kleinen Stichprobe ein (Vor-)Urteil über so eine große Gruppe von Menschen zu manifestieren. Bezieht man die Historie der vergangenen Legislaturperioden mit ein, handelt es sich immerhin um mehrere tausend Abgeordnete, die man nicht anhand einer Handvoll Beispiele über einen Kamm scheren sollte. Die gute Nachricht ist hier: Mehrere Tausend Abgeordnete sind eine hinreichend große Stichprobe, um eine halbwegs sinnvolle statistische Auswertung zu fahren.

Das systematische Auswerten von Daten in der Informatik nennt sich „Data Science“ (Datenwissenschaft). Dem Vorbild von Deutschlands berühmtesten Data Scientisten, David Kriesel, folgend, möchte ich mein Projekt der Auswertung von Abgeordnetenbiographien deutscher Bundestagsabgeordneten BundestagsMining nennen.

Anmerkung für alle, die mit dem „Mining“-Teil des Titels erstmal nichts anfangen können: David Kriesel ist studierter Informatiker und hat mit seinen drei Vorträgen XeroxMining, SpiegelMining und BahnMining beim Chaos Computer Club gesellschaftlich relevante Bereiche mit Methoden der Data Science (oder eben „Data Mining“, dem Extrahieren von Informationen aus großen Datenmengen) durchleuchtet und damit alleine auf YouTube bemerkenswerte 8 Millionen Views generiert. Da im Allgemeinen Vorträge aus dem Bereich der Datenanlyse auf YouTube nicht besonders oft viral gehen, kann man sich vorstellen, was das für seine Reichweite in unserem Berufsstand aber eben auch darüber hinaus bedeutet.

Tools und Links

Hier eine Liste der von mir entwickelten Tools.

Word Embeddings

Hier geht es zum Analogierechner:

In zwei Sprachen (Englisch und Deutsch) können hier sprachliche Analogien berechnet werden. Technologische Grundlage hierfür bilden Word Embeddings. Mithilfe mathematischer Algorithmen wird anhand riesiger Textcorpora (beispielsweise: Wikipedia) eine Einbettung von Worten in einen hochdimensionalen Raum erlernt, bei dem die Vektoren der Abstände sich semantisch interpretieren lassen. Hier lassen sich nicht nur die Klassiker der Semantischen Relationen nachvollziehen („König steht zu Königin wir Prinz zu Prinzessin“), sondern auch selbst mit Analogien rumspielen.

Nette Ergebnisse sind zum Beispiel:

  • „Rice steht zu China wie Bacon zu Germany“
  • „Democracy steht zu Deutschland wie Freedom zu America“
  • „Mann steht zu Sex wie Frau zu Freundin“

Probiert es aus 😉

Genutzte Algorithmen und Technologien: Word Embeddings, Pyton, plotly, dash, flask, HTML, CSS, AWS EC2, AWS Elastic Block Store

Verworfene Ansätze und Technologien: nltk, gensim, heroku, git lfs, AWS S3, AWS CodePipeline, AWS Elastic Beanstalk

Bundestagsmining

Hier geht es zum Bundestag Dashboard:

Was sind das eigentlich für Menschen, die uns im Bundestag vertreten? Wie alt sind sie, was waren sie vorher von Beruf, wie sind Religionszugehörigkeit oder dem Familienstatus unter den Bundestagsabgeordneten verteilt? Wer diese und noch mehr Fragen systematisch auswerten möchte, kann gerne das interaktive Bundestagsdashboard dazu nutzen.

Genutzte Algorithmen und Technologien: Python, re, plotly, dash, flask, XML, Docker, AWS Elastic Container Registry, AWS Elastic Container Service

© 2024 yourcupofdata.com

Theme von Anders NorénHoch ↑