Projekt Bundestag First Said
Ich bin ein großer Freund des Ansatzes „Sprache formt Realität“. Auch wenn es einem Vogel ziemlich egal ist, welchen Namen wir ihm geben, macht es doch einen Unterschied, ob wir ihn eher nach der Farbe, der Größe seines Schnabels oder die Art zu jagen benennen, da es eben auch einen Einfluss auf unsere Wahrnehmung genau dieses Vogels hat.
Als Politikwissenschaftler finde ich dabei eine Quelle von Sprache immer wieder deutlich zu wenig behandelt: die politische Rede. Auf öffentlicher Bühne werden – zumindest in unserem Parlament – die Aushandlungsprozesse praktisch nachgespielt. Es geht selten darum, etwas Unerwartetes aus einer einzelnen Abgeordneten herauszulocken, sondern erlaubt den Repräsentanten, sich vor der Öffentlichkeit zu rechtfertigen und ihre Kritik/Zustimmung zu verkünden.
Politische (in diesem Fall noch spezieller parlamentarische) Reden sind somit ein guter Einblick darin, wie die einzelne Person wahrgenommen werden möchte. Das Medium bietet mehr Zeit und Raum als viele andere Formate für die schamlose Selbstdarstellung und damit auch ein gutes Gefühl dafür, wie die Person sich selber sieht.
Ich bin schon länger der Meinung, dass noch unglaublich viel Potenzial in dieser mittlerweile 19 Legislatur starken Textsammlung steckt, weshalb ich nun einen ersten Versuch gemacht habe, mit den Texten etwas zu machen.
Auftritt Bundestag First Said
Seit einigen Monaten bietet der Bundestag im Rahmen seiner Open Data Initiative eine API an, um automatisiert auf jede Art von bereitgestellten Dokumenten zuzugreifen, womit hauptsächlich Drucksachen und Plenarprotokolle gemeint sind. Was es also auch erlaubt, ist, neue Protokolle automatisiert herunterzuladen und zu verarbeiten.
Dies habe ich zum Anlass genommen, um eine der etwas einfacheren Ideen zu realisieren: Ein Bot, der Wörter twittert, die zum ersten Mal in einem Plenarprotokoll auftauchen. Sein Name: @BT_First_Said. Der Bot orientiert sich dabei an dem beliebten @NYT_First_Said. Ein Bot, welcher Worte twittert, die zum ersten Mal in der New York Times vorkamen.
In einem ersten Schritt habe ich alle Dokumente heruntergeladen und in einzelne Wörter geteilt. Diese habe ich dann mit einer Datenbank verglichen und wenn sie noch nicht in selbiger waren, in diese mit Daten zum ersten Auftauchen eingetragen.
Zum jetzigen Zeitpunkt schaut der Bot zwei Mal pro Tag nach neuen Protokollen und vergleicht diese mit der Datenbank. Wenn sie neu sind, werden sie in eine Warteschlange eingefügt, welche dann langsam vertwittert wird.
Probleme
Der Bot an sich läuft mittlerweile einigermaßen sauber. Drei große Probleme werden das Projekt wohl aber noch eine Weile begleiten:
1. Die Quelldateien
Das größte Problem sind wohl die Quelldateien, also die Art, wie der Bundestag mir die Dateien übergibt. Es gibt gerade keine maschinenlesbare Trennung zwischen Sprecherinnen, Zwischenrufen und anderen Kommentaren in dem Text. Es wird alles mehr oder weniger als das Gleiche dargestellt.
Ein Projekt namens Open Discourse hat dies schon in Angriff genommen und aus einer Mischung aus automatisierten Parsing und Handarbeit jedes bisher erschienenes Protokoll in ein vernünftiges Format gepackt. Das hieß auch, dass sie z. B. eine parallele Datenbank laufen haben, die alle Namen der Sprecherinnen abgleicht, um zu erkennen, wann eine Ende ist.
Gerne würde ich mich da einfach ranhängen, jedoch braucht das Projekt weiterhin Hilfe per Hand, was dazu führt, dass Protokolle deutlich später in dieser Form verfügbar sind als es für das Projekt Sinn ergibt. So haben weder Open Discourse noch das darauf aufbauende Open Parliament TV die erste Rede der 20. Legislaturperiode bisher verarbeitet. Es bleibt für mich also, wenn ich den Bot zeitnah twittern lassen möchte, nur die Möglichkeit, meine Worttrennung selber mit der schlechteren Form vorzunehmen.
2. Parsing und Filtern
Parsing bezeichnet das Verarbeiten eines Formates in ein anderes, um den weiteren Verlauf zu vereinfachen. In diesem Fall: die Datei vom Bundestag in einzelne Wörter. Während so etwas wie inkonsequente Silbentrennung und falsche Formatierung von mir mittlerweile ganz gut unter Kontrolle bekommen wurde, ist die klare Erkennung von „neuen“ Wörtern noch nicht ganz sauber.
Das Problem liegt hier hauptsächlich in der Erkennung des Wortstammes. Für so etwas gibt es Natural Language Processing Bibliotheken, die einem bei genau so etwas helfen sollen, jedoch basieren sie – wie so viele datenbasierte Anwendungen – auf der Vergangenheit. Das, was ich an freien Anwendungen gefunden habe, hat oft das Problem, bei neuen Wörtern den Stamm nicht korrekt zu erkennen, da das Wort bis vor kurzem noch nicht existierte. Außerdem hatte ich in Testläufen manchmal den Fall, dass zwei Wörter zwar den gleichen Stamm, aber doch andere Bedeutungen im aktuellen Kontext haben, ich sie also eigentlich gerne getwittert hätte.
Was bleibt, ist somit weiterhin das stumpfe Abgleichen mit eigens eingerichteten Filtern für Plural und den verschiedenen Fällen. Dies ist nicht immer optimal, hat mich aber schon weiter gebracht. Wie weiter oben erwähnt, gibt es außerdem das Problem, dass in der Datei keine klare Trennung von Redebeiträgen und Rednerinnen existiert, womit alle neuen Rednerinnen auch als neue Wörter erkannt werden, was faktisch stimmt, aber nicht Sinn des Bots ist. Das gleiche Problem besteht bei der Nennung von Namen in der Rede, was je nach Kontext aber auch wieder einen Wert für Twitter haben könnte.
Dies führt im Endeffekt dazu, dass ich momentan eine Benachrichtigung bekomme, wenn ein neues Protokoll gefunden wurde und ich dann von Hand noch mal durch die erkannten Wörter gehe. Das ist nicht optimal, aber eigentlich gerade auch immer noch interessant.
3. Reproduktion von rechten Sprech
Ein Problem, über dessen Lösung ich mir noch am wenigsten klar bin, existiert auf der sozial-gesellschaftlichen Ebene. Auch wenn mein Bot aus genannten Gründen die Wörter nicht direkt einer Sprecherin zuordnen kann, habe ich stichprobenartig gemerkt, dass die meisten neuen Wörtern aus Reden der Alternative für Deutschland kamen.
Wörter wie Sozialschädeling oder Hippiestaat sind ohne Zweifel kreativ, jedoch auch Teil der Metapolitik der neuen Rechten, gewisse Dinge sagbar zu machen und somit das Narrativ in ihre Richtung zu schieben. Ich bin immer noch nicht ganz sicher, wie ich damit umgehen soll, schließlich ist der einzige Sinn des Bots neue Wörter zu posten. Auf der anderen Seite möchte ich dem neurechten Sprech eigentlich nicht diesen überdimensionierten Platz geben, den es durch die bloße Frequenz erreicht.
Zukunft
Eine große Hoffnung von mir ist, dass sich in der nächsten Legislatur noch mehr auf die Open Data Initiativen konzentriert wird und somit auch die Qualität der Schnittstelle verbessert. Könnte man z. B. maschinenlesbar Reden direkt einer Person zuordnen, könnte man deutlich mehr Informationen und Statistiken zu sowohl der Person als auch dem Wort sammeln. So könnte man zum Beispiel auch versuchen einigermaßen einen Ausgleich zwischen den Parteien zu schaffen.
Einige Weiterentwicklungen könnten auch auf schon basierenden Projekten aufgebaut werden. So gab es 2019 zum 70. Geburtstag des Bundestags eine Visualisierung der Wortfrequenz durch Zeit Online, die aber gerade nicht weiter geführt wird. Ein anderer Ansatz ist die Wordcloud zu den schriftlichen Anfragen durch den Twitter-Account Parlamentsrevue, die auch leicht für die Reden realisierbar wäre.
Danksagungen
Das Projekt wurde durch eine finanzielle Förderung der Stiftung Bayern Innovativ gefördert, wodurch ich die Zeit und physischen Ressourcen finanzieren konnte.
Links
Link zum Bot: https://twitter.com/BT_First_Said
Link zum Kontext-Bot: https://twitter.com/FSBT_Kontext
Link zum Repository: https://github.com/ungeschneuer/plenum_first_said