Bachelorarbeit 2020: “Vermessung der deutschsprachigen Twittersphäre”

1 Inhaltsverzeichnis

1 Inhaltsverzeichnis
2 Abbildungsverzeichnis
3 Einleitung
4 Begriffe
4.1 Normale Tweets, Retweets, Quote-Tweets und Replys
4.2 Followings und Follower
4.3 Account und Nutzer_in
4.4 Twitter-APIs und ihre Limits
4.5 Datumsformat
5 Ähnliche Erhebungen
5.1 Follow-Netzwerk
5.2 Reply-/Mention-/Retweet-Netzwerk
6 Methode der vorliegenden Untersuchung
6.1 Sprachkategorisierung durch Twitter
6.2 Zuverlässigkeit der Standard-API
6.3 Erhebungsfehler am 2020-10-15
6.4 Prüfung auf False-Positives
6.5 Aktivität: Mindestens zwei Tweets in einem Monat
6.6 Follow-Netzwerk: Mindestens vier Tweets wegen technischer Limitierung
6.7 Erhebung des Follow-Netzwerkes
6.8 Hardware und Software
7 Ergebnis
7.1 Volumen
7.1.1 Tweets je Wochentag
7.1.2 Tagesverlauf
7.1.3 Die Hälfte der Tweets sind Replys
7.2 Accounts
7.2.1 Vergleich mit anderen Studien
7.2.2 Accountalter
7.2.3 Falsches Erstelldatum
7.3 Follower und Followings
7.4 Follow-Netzwerk
7.4.1 Cluster
7.4.2 Aktive Follower
7.4.3 50 Accounts mit den meisten eingehenden Verbindungen aktiver, deutschsprachiger Accounts
8 Fazit
9 Literaturverzeichnis
10 Code

2 Abbildungsverzeichnis

Abbildung 1: Stichprobe zeigt Verteilung der Sprachen nach Accounts mit x Tweets im Datensatz.
Abbildung 2: Tweets je Tag je Stunde
Abbildung 3: Tweets nach Uhrzeit
Abbildung 4: Sommerzeit Tweets
Abbildung 5: Winterzeit Tweets
Abbildung 6: Veränderung des Anteils an Retweets- und Quote-Tweets durch Änderung des Retweet-Buttons
Abbildung 7: Altersverteilung der aktiven Accounts
Abbildung 8: Follower zu Followings (Friends) zeigt technische Begrenzung bei 5.000 Followings.
Abbildung 9: Follow-Netzwerk der Accounts, die vier oder mehr deutschsprachige Tweets veröffentlicht haben
Abbildung 10: Versuch die Cluster im Follow-Netzwerk zu benennen (Vergrößerung)
Abbildung 11: Erstelldatum und Follower-Anzahl: Ältere Accounts haben mehr Follower als Followings

3 Einleitung

Obwohl Twitter nicht zu den am häufigsten genutzten Social Networks gehört – nur 5 % der Deutschen nutzen es mindestens wöchentlich (Beisch und Schäfer 2020) –, zählt es zu den einflussreichsten Plattformen im deutschsprachigen öffentlichen Diskurs. 60 % der österreichischen Journalist_innen (Seethaler und Melischek 2019) und 63 % der schweizer Parlamentarier_innen (Keller 2020) verwenden Twitter. Die API (Programmierschnittstelle) von Twitter ermöglicht, mit geringen Kosten und Aufwand, umfangreiche Datenerhebungen, wie sie bei anderen großen Social Networks nicht möglich sind. Diese Kombination aus Relevanz für den Diskurs und einfachem Zugang hat Twitter zu einem beliebten Untersuchungsgegenstand in der Wissenschaft gemacht. Im Widerspruch dazu steht die geringe Anzahl der wissenschaftlichen Studien, die das Ziel verfolgen die deutschsprachige Twittersphäre in ihrer Gesamtheit zu erfassen und zu beschreiben. Eine solche Grundgesamtheit würde jedoch eine wichtige Basis für Studien liefern, die sich mit einzelnen Debatten und sozialen Phänomenen auf Twitter beschäftigen. Was bedeutet es zum Beispiel, wenn 107.000 Tweets mit dem Hashtag #NazisRaus veröffentlicht werden? Ist das viel? Wenig? In dieser Arbeit gehe ich der Frage nach, ob und wie man die gesamte deutschsprachige Twittersphäre vermessen kann. Dabei versuche ich unter anderem folgendes zu beantworten: Können alle deutschsprachigen Tweets durch Wissenschafer_innen erfasst werden? Wie zuverlässig ist die Sprachklassifizierung von Twitter? Falls eine vollständige Erfassung möglich ist: Wie viele Tweets werden pro Tag veröffentlicht? Wie viele Accounts beteiligen sich? Gibt es voneinander getrennte Gruppen von Accounts oder sind sie alle miteinander vernetzt?

Es gibt einige Aspekte, die bei dieser Vermessung nicht erfasst werden können. So lassen weder einzelne Accounts noch Tweets mit den heutigen Methoden eindeutige Rückschlüsse darüber zu, ob sie von einem Menschen oder einer Maschine erstellt wurden (Rauchfleisch und Kaiser 2020). Auch geben die Zahlen über Tweetvolumen und Vernetzung keinen Einblick in die inhaltliche Nutzung von Accounts. Diese kann erst verstanden werden, wenn die einzelnen Accounts und ihre Inhalte betrachtet werden. An dieser Stelle seien zwei Beispiele aus der Untersuchung genannt, die verdeutlichen, wie unterschiedlich Twitter genutzt wird: Der aktivste Account @e4r8p6 (42.992 Tweets im Untersuchungszeitraum) twitterte automatisiert per Twitter-API Protokoll-Einträge einer Firewall (Welche IP-Adresse mit welchem Netzwerk-Protokoll versucht hat, über welchen Port auf ein Gerät zuzugreifen). Ein anderer Account, der mit nur vier Tweets in dem für diese Arbeit untersuchten Datensatz vertreten ist, twitterte sinngemäß, er hätte zwar keine Follower, aber ein „so geiles Video“ würde er gerne mit sich selbst teilen. Dazu ein zitierter Tweet mit einem Anime-Video. Diese unterschiedliche Nutzung, von automatisiert bis Selbstgespräch, wird nur durch eine inhaltliche Auseinandersetzung mit den einzelnen Accounts sichtbar. Das ist nicht das Ziel dieser Arbeit. Dennoch ist es wichtig, nicht zu vergessen, wie divers die Accounts sind, die in dieser Arbeit auf Volumen und Vernetzung reduziert werden.

Zu Beginn dieser Arbeit werden die wichtigsten Begriffe erklärt, die für die Lektüre der Arbeit als notwendig erachtet werden. Hier werden die Unterschiede zwischen normalen Tweets, Retweets, Quote-Tweets und Replys und Begriffe wie Follower, Followings und Friend erläutert. Weiters werden die Trennung zwischen Account und Nutzer_in und die Gründe dafür skizziert. Anschließend werden ähnliche Studien vorgestellt, die sich entweder – wie ich – mit der deutschsprachigen Twittersphäre oder der Twittersphäre in einem anderen Land oder mit Netzwerken zu einem bestimmten Thema beschäftigt haben. Dabei werden die Auswertungen nach Art der Netzwerke (Follow oder Interaktion) gruppiert. Im sechsten Kapitel wird das methodische Vorgehen dieser Untersuchung erläutert. Thematisiert wird die Herangehensweise der Datenerhebung deutschsprachiger Tweets und der Prüfung auf Vollständigkeit und Korrektheit der Datensätze. Im Kapitel „Hardware und Software“ werden eingesetzte Tools sowie die einzelnen Schritte und ihr Zeitaufwand erläutert.

Die Ergebnisse sind in vier Abschnitte unterteilt:

  • Volumen. Also die quantitative Erhebung von veröffentlichten Tweets insgesamt, pro Tag, je Wochentag und nach Uhrzeit.
  • Menge und Alter der Accounts.
  • Auswertungen der Follower- und Followingzahlen.
  • Am Ende geht es um die Verbindungen zwischen den erhobenen, aktiven, deutschsprachigen Accounts. Dort wird auf das Follow-Netzwerk eingegangen, welches Aufschluss über die Communities der deutschsprachigen Twittersphäre gibt.

Im Fazit schaue ich auf die Ergebnisse zurück und gehe auf die Schwierigkeiten der Erhebung ein.

4 Begriffe

4.1 Normale Tweets, Retweets, Quote-Tweets und Replys

Tweets sind die Beiträge, die Nutzer_innen auf Twitter veröffentlichen. Zu Beginn, im Jahr 2006, waren sie auf eine Länge von 140 Zeichen limitiert. Seit 2017-11-07 können Tweets bis zu 280 Zeichen umfassen (Rosen 2017). Es gibt im Wesentlichen vier Arten von Tweets: Normale Tweets, Retweets, Quote-Tweets und Replys

Retweets sind Weiterleitungen ohne eigenen Inhalt. Früher wurden sie manuell erstellt, indem man “RT @username:” und dann den Text des Original-Tweets geschrieben hat (Boyd und Gilad Lotan 2010). Seit 2010 gibt es native Retweets. Das bedeutet, dass seitdem andere Tweets an die eigenen Follower über das Drücken eines Retweet-Buttons erzeugt und damit weitergeleitet werden können (Paßmann und Gerlitz 2014).

Quote-Tweets sind Tweets, denen ein anderer Tweet angehängt ist. Diese Funktion wurde 2015 (Garimella, Weber, und De Choudhury 2016) ausgerollt. Das Verfassen eines Quote-Tweets kann entweder manuell passieren, indem man den Link eines anderen Tweets in den eigenen einfügt, oder automatisch über den Retweet-Button. Beide Arten werden gleich dargestellt. Der eigene Inhalt befindet sich oben und darunter der Original-Tweet. Seit 2020-11 sind Quote-Tweets die primäre Funktion des Retweet-Buttons[1].

Replys schließlich sind Antworten auf andere Tweets. Sie wurden früher durch ein manuelles Setzen des @username an den Anfang des Tweets erzeugt (Biz 2009). Heute existiert dafür ein Reply-Button. Replys werden in der Einzelansicht eines Tweets unter dem Original-Tweet angezeigt, wie man das von Kommentaren in anderen Social Networks kennt. Ebenfalls möglich ist das Antworten auf eigene Tweets über die Reply-Funktion, um eine Reihe von eigenen Tweets – meist zu einem bestimmten Thema – zu verfassen, was man als Threads bezeichnet. Eine Besonderheit besitzen Replys, die auch für die Interpretation der Daten wichtig ist: Replys werden im Feed (manchmal auch ungenau als Timeline bezeichnet) mit den neuesten Tweets aller anderen Accounts, denen man folgt, nur dann ausgespielt, wenn man auch jenem Accoun folgt, an den der Reply-Tweet adressiert ist. Das Gleiche ist der Fall, wenn ein Tweet mit „@username“ beginnt. Alle anderen Tweets werden allen Follower in ihren jeweiligen Feeds ausgespielt. Auf dem Profil eines Accounts aber gibt es im Bereich „Tweets and Replies“ die Möglichkeit sich alle Tweets (auch Reply-Tweets) des Accounts anzeigen zu lassen.

Weitere Interaktionsmöglichkeiten sind Likes, die für diese Arbeit nicht relevant sind und daher nicht im Rahmen dieser Arbeit untersucht wurden. Ursprünglich wurden Likes als Faves (auch Favs) bezeichnet und werden in der Twitter-API noch immer so genannt. Nutzer_innen können sie bei Tweets setzen, um diese zu markieren. Eingeführt wurde diese Funktion 2006[2]. Auf Twitter wird für Likes seit 2015 statt des früher verwendeten Sterns, das sehr an Lesezeichen im Browser erinnerte, ein Herz[3] genutzt. Zusätzlich gibt es seit 2018 Bookmarks, also eine explizite Funktion Lesezeichen zu setzen, die im Unterschied zu Likes nicht öffentlich sind[4]. Die Anzahl der erhaltenen Likes und Retweets wird bei den jeweiligen Tweets angezeigt und die Autor_innen der Tweets bekommen eine Benachrichtigung, falls sie diese nicht ausgestellt haben.

4.2 Followings und Follower

Twitter hat seit Bestehen „einseitige“ Beziehungen zugelassen. Das bedeutet: Account A kann Account B folgen, ohne dass B auch A folgen muss: A -> B. Im Profil eines Accounts wird die Anzahl von Followings (Accounts, denen gefolgt wird) und Follower (Accounts, die folgen) angezeigt. In der API werden die Followings jedoch als Friends bezeichnet (siehe Twitter Entwickler Dokumentation). Statt dem negativ konnotierten Begriff „verfolgt“ nutze ich im Kontext des Folgens auf Twitter den Begriff „gefolgt“: Account B wird von Account A gefolgt. Wenn jemand viele Follower hat, dann folgen dem Account viele andere Accounts. Wenn er viele Followings hat, dann folgt der Account vielen anderen Accounts.

4.3 Account und Nutzer_in

Häufig werden Account und Nutzer_in synonym verwendet. Dies ist jedoch abhängig vom Kontext irreführend. Grund dafür ist, dass ein_e Nutzer_in nicht nur einen, sondern mehrere Accounts betreiben kann (Marwick und Boyd 2010). Ein_e Nutzer_in kann einem anderen Account nur mittels eigenem Account folgen, weshalb eine Verkürzung zu Nutzer_in ist gleich Account nachvollziehbar wird. Meist betreibt ein_e Nutzer_in nur einen Account, doch macht es einen großen Unterschied, ob man hundert verschiedenen Personen oder hundert Accounts einer Person folgt.

Accounts können entweder offen (öffentlich sichtbar) oder privat sein. Tweets von privaten Accounts sind nur für Accounts sichtbar, die dem Account folgen. Entsprechend tauchen die Tweets nicht in der Suche auf und daher wurden Tweets privater Accounts für diese Untersuchung nicht erfasst. Da solche Tweets meist nur für wenige Accounts sichtbar sind, kann ihr Einfluss auf den öffentlichen Diskurs vernachlässigt werden.

4.4 Twitter-APIs und ihre Limits

Twitter bietet eine Vielzahl von API-Endpoints, über die unterschiedliche Daten abgerufen und geschickt werden können. Ihre Unterschiede zu kennen ist wichtig, um zu verstehen welche Erhebungen möglich sind und wie zuverlässig sie sind. Twitter selbst gruppiert die Endpoints über Version und Tier (Nutzungsstufe). Derzeit wird eine neue API-Version ausgerollt (v2), die parallel zur bisherigen (v1.1) getestet wird. Künftig soll die API v2 die API v1.1 ersetzen. Derzeit bietet die API v2 einige neue Möglichkeiten (etwa den Abruf von Umfrageergebnissen in Tweets), aber es fehlen noch viele Endpoints, die im Moment nur bei API v1.1 verfügbar sind. Darüber hinaus ist der Abruf von Daten über API v2 auf 400.000 Tweets pro Monat limitiert. Höhere Tiers sollen in Zukunft den Abruf von mehr Tweets ermöglichen. API v2 und v1.1. können derzeit komplett kostenlos genutzt werden. Mit der Einführung von höheren Tiers wird es bei der API v2 sowohl kostenlose als auch kostenpflichtige Tiers geben. Premium v1.1 und Enterprise sind die derzeit verfügbaren kostenpflichtigen Angebote, wobei es bei Premium einen kostenlosen Tier („sandbox“) zum Testen gibt. Die Enterprise API ist nur über individuelle Verträge mit Twitter nutzbar, während die Premium-API standardisierte Verträge gibt (ab $99 für 100 Abfragen mit je 500 Tweets aus dem gesamten Twitterarchiv).

Bei allen Gruppen von APIs gibt es für Datenerhebungen relevante Endpoints. Tweets über eine Query (eine Abfrage anhand einzelner oder einer Kombination aus Suchbegriffen und Suchoperatoren) zu sammeln, kann man entweder in Echtzeit oder im Nachhinein. Jeder API-Endpoint hat bestimmte Einschränkungen. Der Endpoint der Standard-API für das Sammeln in Echtzeit (/1.1/statuses/filter) wird häufig verkürzt als Streaming-API bezeichnet (1 % „sample“, 10 % „decahose“, 100 % „firehose“ sind ebenfalls Streaming-Endpoints). Er ist auf 400 Suchbegriffe oder 5.000 Accounts beschränkt und das Ergebnis darf maximal 1 % der zum jeweiligen Zeitpunkt weltweit veröffentlichen Tweets umfassen[5]. Weiters muss man vorab wissen, welche Tweets gesammelt werden sollen. Bei der Sammlung von Tweets im Nachhinein kann man ebenfalls die Standard-API v1.1 (/1.1/search/tweets) oder die Premium-API v1.1 (/1.1/tweets/search/) nutzen. Bei der Standardsuche können nur Tweets gesammelt werden, die in den jeweils vergangenen sieben Tagen veröffentlicht wurden. Statt des Limits der Streaming-API von 1 % aller Tweets, ist bei der Standardsuche die Anzahl der Abfragen limitiert. 450 Abfragen je 15 Minuten können gemacht werden. Jede Abfrage umfasst bis zu 100 Tweets. Pro Stunde können somit 180.000 Tweets gesammelt werden, pro Tag 4,32 Millionen. Twitter verweist darauf, dass dieser Endpunkt jedoch nicht vollständig ist[6]. In Kapitel 6.3 zeige ich, dass damit knapp über 90 % der Tweets gesammelt werden können. Möchte man ältere Tweets oder größere Mengen sammeln, bleibt die Premium-API. Dort gibt es für ungefähr $1 je Abfrage (500 Tweets) vollständigen Zugriff auf alle öffentlichen Tweets, die jemals gepostet und nicht gelöscht wurden[7].

4.5 Datumsformat

Ich nutze das Format JJJJ-MM-TT für Daten, weil dieses auch von der Suche auf Twitter und der Twitter-API unterstützt wird. Somit können Datumsangaben direkt in Suchquerys kopiert werden.

5 Ähnliche Erhebungen

Die meisten Untersuchungen lassen sich einerseits über das Sampling und andererseits über die Art des Netzwerks, das aus den Daten erstellt wird, unterscheiden. Beim Sampling werden die relevanten Daten über Tweets (Suchbegriff, Ort, Erwähnung, etc.) oder über Account-Seeds (manuell ausgewählte Accounts, von denen man über Followings oder Follower weitere sammelt) ausgewählt. Basierend auf dem Sample werden für Netzwerkeuntersuchungen meist Follow-Netzwerke (wer folgt wem) oder Interaktions-Netzwerke (wer interagiert mit wem) erstellt. Im Folgenden werden Untersuchungen über die Art der Netzwerke gruppiert.

5.1 Follow-Netzwerk

Ein Follow-Netzwerk ist die naheliegendste Repräsentation eines Twitter-Netzwerks, weil es die Funktionalität der Plattform selbst abbildet: Accounts folgen anderen Accounts. Daraus wird das Netzwerk gebaut. Jeder Account wird als Knoten und die Followverbindungen als Kanten ausgewertet. Eine zentrale Einschränkung von Follow-Netzwerken ist die Verzerrung aufgrund der unterschiedlichen Gründe, die es gibt, einem Account zu folgen. Im Folgenden stelle ich einige Gründe vor, um besser verständlich zu machen, was eine Kante im Netzwerk alles bedeuten kann. Sichtbar macht sie nur, dass es Verbindung besteht, aber nicht warum.

Hutto, Yardi, und Gilbert (2013) fanden zwar heraus, dass vor allem der Inhalt der Tweets (Positiv-/Negativheit, Informationsgehalt, Hashtags, Sprachgewandtheit) einen Einfluss darauf hat, ob Accounts mehr oder weniger Follower bekommen. Allerdings wurden nur messbare Variablen auf Twitter beachtet, wodurch zum Beispiel Beziehungen zwischen den Accountinhaber_innen nicht beachtet wurden. Paßmann (2018) berichtet zum Beispiel über einen Druck, jemandem zu folgen, wenn man die Person persönlich trifft. Auch beeinflussen Funktionen von Twitter selbst welchen Accounts gefolgt wird. Während es in den ersten Jahren von Twitter schwierig war, Accounts zu finden, denen man aus Interesse folgen wollte, fügte Twitter nach kurzer Zeit ein Feature hinzu, das Nutzer_innen bei der Registrierung 20 beliebte Accounts empfahl[8], die manuell abgewählt werden mussten, um ihnen nicht zu folgen. Dieser sogenannte Onboarding-Prozess wurde über die Jahre immer wieder verändert[9]. Seit 2020 können Themengebiete und darauf basierende Accounts ausgewählt werden. Diesen muss man allerdings manuell folgen. Da manche Nutzer_innen ihre Accounts schon kurz nach dem Erstellen nicht mehr nutzen (Herwig 2009), existieren zahlreiche Folgeverbindungen, die durch den Onboarding-Prozess entstanden sind, aber als „Karteileichen“ bezeichnet werden können. Es gibt auch Follow-for-Follow-Accounts (Almaatouq et al. 2014) – eine Spam-Taktik, um höhere Follower-Zahlen zu erreichen. Dabei folgt ein Account anderen Accounts, um ihre Aufmerksamkeit zu erhalten (Denn neue Follows werden standardmäßig als Benachrichtigungen bei den gefolgten Accounts angezeigt). Folgt der gefolgte Account nicht innerhalb eines bestimmten Zeitraums zurück, wird dem Account wieder entfolgt. Um dieses spamartige Vorgehen einzuschränken, führte Twitter ein Folge-Limit von zuerst 2.000 und später 5.000 Followings ein[10]. Das Limit passt sich jedoch an die Anzahl der Follower an, sodass ein Account immer 10 % Followings als Follower haben kann.

Myers et al. (2014) erhielten von Twitter Zugriff auf einen Snapshot des kompletten Follow-Netzwerks aus der zweiten Hälfte von 2012. Zu diesem Zeitpunkt gab es 175 Millionen aktive Accounts und etwa 20 Milliarden Verbindungen zwischen den Account. Die Accounts waren mit Länderinformationen versehen, die nicht auf den Angaben der Nutzer_innen selbst (Ortsfeld im Profil) basierten, sondern aufgrund der Login-Daten erhoben wurden. Während die Autor_innen nicht spezifizieren, was das konkret bedeutet, muss für die vorliegende Arbeit davon ausgegangen werden, dass es sich um IP-basierte Verortung handelt, da Twitter diese auch für länderspezifische Funktionen und inhaltliche Sperrungen nutzt. Obwohl der untersuchte Snapshot inzwischen acht Jahre alt ist, dient er als interessanter Referenzpunkt, da Meyers et al. etwa feststellten, dass 42 % aller Verbindungen zwischen Accounts reziprok waren.

Maireder und Ausserhofer (2014) sowie Maireder und Schlögl (2015) wählten für ihre Netzwerkanalysen einen iterativen Prozess. Sie haben die ersten Accounts über landesspezifische Hashtags ausgewählt und dann per Schneeballansatz über Follower und Followings weitere Accounts gesammelt. Von den weiteren Accounts wurden wiederum nicht relevante ausgefiltert und von den restlichen erneut die Follower und Followings hinzugefügt. Diese Methode funktioniert dann, wenn eine spezifische Gruppe an Accounts untersucht werden sollte; sie versagt aber, wenn man die gesamte Twittersphäre einer Sprache oder eines Landes vermessen möchte. Die erste Verzerrung geschieht bei der Auswahl der Hashtags. Accounts, die die gewählten Hashtags nicht nutzen oder grundsätzlich keine Hashtags nutzen, werden bei dieser Methode nicht erfasst. Bei der weiteren Sammlung über Follower/Followings werden auch inaktive Accounts erfasst, wodurch ein Netzwerk erfasst wird, das zu keinem Zeitpunkt auch tatsächlich so existiert hat. Manche Accounts waren zu einem früheren Zeitpunkt aktiv, andere zu einem späteren. Alle wurden in der Auswertung gleich behandelt.

Eine Mischung der beiden vorhergehenden Ansätze (vollständiger Datensatz versus Ausfiltern über Inhalte) haben Bruns et al. (2017) genutzt, indem sie zuerst alle Twitter-Accounts, soweit dies über die API möglich ist, erfassten. Das war nur bis zum Frühjahr 2016 möglich, da Twitter bis dahin sequenzielle Account-IDs vergeben hat. Über diese IDs konnten alle Accounts gesammelt werden (jede ID von 0 bis 5.000.000.000 wurde per Bruteforce ausprobiert). Insgesamt wurden für die Studie 1,38 Milliarden Accounts gefunden und gesammelt. Hier zeigt sich bereits der große Unterschied zum 2012er Datensatz von Meyers et al., wonach dort lediglich 175 Millionen aktive Accounts untersucht wurden. Teilweise lässt sich der Unterschied in der Anzahl der Accounts zwischen 2012 und 2016 über das Wachstum von Twitter erklären. Twitter ist zwischen 2013 und 2016 von 185 Millionen[11] auf 319 Millionen[12] monatlich aktive Accounts (einmal in dem Monat eingeloggt) gewachsen. Es muss daher davon ausgegangen werden, dass die restliche Milliarde Accounts in der Studie von Bruns et al. inaktiv (sich nicht mehr eingeloggt haben) war.

Bruns et al. waren nicht an einer globalen Auswertung interessiert. Sie haben ihren Datensatz nach unterschiedlichen Kriterien gefiltert, um „eher australische“ Accounts zu erhalten. Wenn ein Account eine der neun australischen Zeitzonen eingestellt hatte[13], wurde er als australisch betrachtet. Weiters wurden australische Accounts ermittelt, die entweder im Biografie- oder Ortsfeld des Profils eines der 45 australischen urbanen Gebieten angegeben hatten oder eines der acht australischen Bundesländer oder generische Begriffe wie “down under”, “Oz” oder “Australia” im Profil verwendeten. Damit wurden insgesamt 3,72 Millionen australische Accounts identifiziert, von denen wiederum 720 Millionen Following-Verbindungen gesammelt wurden, wovon 167 Millionen zwischen den australischen Accounts bestanden. Während dieser Ansatz ein besonders großes Netzwerk erfasst, liegt der Nachteil in der Erfassung inaktiver Accounts. Das ist kein Problem per se, aber ein Datensatz mit inaktiven und aktiven Accounts wäre etwa nicht dafür geeignet, um zu simulieren, wie Information durch das Netzwerk fließen kann oder um auszuwerten, wie die Twittersphäre zu einem bestimmten Zeitpunkt ausgesehen hat.

Ein weiteres Beispiel eines nationales Follow-Netzwerks ist das Mapping der norwegischen Twittersphäre durch Bruns und Enli (Bruns und Enli 2018). Als Grundlage wurde der Datensatz von Bruns et al. (2017) genutzt und über unterschiedliche Kriterien gefiltert, wie etwa die Spracheinstellung der Accounts, aber auch norwegischen Städten und Begriffen. Durch dieses Vorgehen haben Bruns und Enli 988.000 norwegische Accounts identifiziert. Auch bei dieser Studie existiert das Problem mit inaktiven Accounts.

5.2 Reply-/Mention-/Retweet-Netzwerk

Während ein Follow-Netzwerk die eher statische Vernetzung von Accounts darstellt, können Reply-, Mention-, und Retweet-Netzwerke zeigen, wie Accounts über Interaktion miteinander vernetzt sind. Die Knoten sind wie bei Follow-Netzwerken die Accounts, aber die Kanten sind die Interaktionen. Zum Beispiel wenn Account A einen Tweet von Account B retweetet, wertet man dies als Verbindung aus. Es sei erwähnt, dass es bei Interaktions-Netzwerken, wie bei reinen Follow-Netzwerken, auch hier Unsicherheiten bezüglich der Motivation gibt. Zum Beispiel Motivation einer Reply hinsichtlich Gegenrede, Zustimmung oder sachliche Ergänzung. Es kann bei Interaktionen jedoch davon ausgegangen werden, dass ein Account A, der mit einem Account B interagiert, diesen tatsächlich wahrgenommen hat. Im Gegensatz dazu ist das bei einer Follow-Verbindung nicht zwingend der Fall. Wenn Account A nicht mehr aktiv ist, nimmt er Account B nicht wahr, obwohl eine Verbindung besteht. Selbst wenn Account A aktiv ist, kann er Account B stummgeschalten haben. Dann besteht zwar eine Verbindung, aber die Tweets werden nicht mehr gesehen.

Auf technischer Ebene ist die Erfassung von Interaktions-Netzwerken einfacher, da man nicht von dem sehr niedrigen API-Limit für Follows (15 Accounts je 15 Minuten) eingeschränkt ist, sondern bereits alle nötigen Informationen im Datensatz der erhobenen Tweets enthalten sind: Replys eines Tweets, Mentions des Tweets und auch die Retweets. Die Herausforderung bei der Erfassung von Interaktions-Netzwerken besteht in der Auswahl der Tweets.

Die Untersuchung von Van Geenen et al. (2016) ist ein Beispiel für eine Auswertung eines Interaktion-Netzwerks. Im Laufe einer Woche wurden niederländische Tweets gesammelt, um ein Mention-Netzwerk (Erwähnungen anderer Accounts in den Tweets) daraus zu erstellen. Aus dem Forschungsdesign wird jedoch nicht klar, ob es sich um ein reines Reply-Netzwerk (nur direkte Antworten) oder ein Mention-Netzwerk (Erwähnung anderer Accounts irgendwo im Tweet) handelt. Dass von “@reply” geschrieben wird, kann ein Hinweis sein, dass alle Mentions als Verbindungen ausgewertet wurden. Gesammelt wurden die Daten über eine Kombination aus Streaming- und Search-API. Über die Streaming-API wurden Tweets gesammelt, die mindestens einen von 900 häufig genutzten niederländischen Begriffen enthielten. Über die Search-API wurden Tweets gesammelt, die mindestens einen von 37.633 niederländischen Begriffen verwendeten. Insgesamt wurden 3,5 Millionen Tweets von 640.000 Accounts gesammelt. Während diese Methode nur aktive Accounts erfasst, also ein gutes Bild der Twittersphäre zu einem bestimmten Zeitpunkt zeigt, gibt es durch die Auswahl der Begriffe die Gefahr, dass bestimmte Accounts nicht erfasst werden, obwohl sie in der jeweiligen Sprache getwittert haben. Durch die breite Auswahl der Begriffe wurde dieses Problem minimiert.

Über eine Kombination von Replys, Mentions, Reweets und Follows mappten Kelly et al. (2012) die russische Twittersphäre. Dafür sammelten sie von 2010-03 bis 2011-03 50 Millionen Tweets. Statt über die Sprache zu filtern, wurde ein bestehender Index von Twitter-Accounts der russischen Suchmaschine Yandex genutzt. Verzerrungen können jedoch nicht ausgeschlossen werden, weil nicht darauf eingegangen wurde, nach welchen Kriterien dieser Index entstanden ist.

Bruns und Moon werteten 2019 basierend auf dem australischen Follow-Netzwerk einen einzelnen Tag an Tweets aus. Zuerst wurden alle Tweets der zuvor identifizierten Accounts gesammelt und diese im nächsten Schritt über Mentions und Retweets ausgewertet. Trotz des kleinen Zeitraums waren einzelne Cluster sichtbar, die spezifisch einzelnen Events an diesem Tag zuzuordnen waren. Dies zeigt, dass eine Netzwerkauswertung über Interaktionen stark durch Events im Untersuchungszeitraum beeinflusst werden und nicht zwingend die Vernetzung der aktiven Accounts abbildet.

6 Methode der vorliegenden Untersuchung

Für diese Arbeit wurde das Sampling über die Sprachklassifizierung von Twitter durchgeführt. Über die Twitter-Standard-API wurden 50.168.172 deutschsprachige Tweets gesammelt, die zwischen 2020-10-04 und 2020-11-04 von 5.633.979 Accounts veröffentlicht wurden. Dadurch wurde verhindert, dass eine unvollständige Wortliste den Datensatz verzerrt. Um eine Verzerrung durch False-Positives zu reduzieren, wurden bei der Auswertung nur Tweets von Accounts beachtet, die mindestens zwei deutschsprachige Tweets im Untersuchungszeitraum veröffentlicht haben. Um die Netzwerkstruktur der gesamten deutschsprachigen Twittersphäre zu erstellen, wurde ein Follow-Netzwerk erstellt. Dafür wurde von den Accounts über die Twitter-Standard-API die Follow-Verbindungen gesammelt. Das Follow-Netzwerk musste aus technischen Gründen auf Accounts beschränkt werden, die mindestens vier deutschsprachige Tweets im Untersuchungszeitraum veröffentlicht haben.

6.1 Sprachkategorisierung durch Twitter

Es gibt unterschiedliche Möglichkeiten, Tweets einer bestimmten Sprache zu sammeln. Zwei Beispiele seien hier genannt. Scheffler et al. (2014) haben über die Streaming-API 397 häufig genutzte deutsche Begriffe getrackt und die so gesammelten Tweets anschließend mit dem „langId“ Algorithmus geprüft, ob sie tatsächlich deutschsprachig sind oder nur einen deutschsprachigen Begriff enthalten. Damit haben sie um die 800.000 Tweets je Tag gesammelt. Basierend auf der Erfahrung dieser Methode, allerdings mit 1.200 statt 397 Begriffen, sammelten Pflugmacher et al. (2020) vom 2019-04-02 bis 2019-06-02 77 Millionen Tweets. Statt die gesammelten Tweets mit einem eigenen Algorithmus zu prüfen, haben sie jedoch die Kategorisierung von Twitter genutzt und kamen damit auf etwa 1,3 Millionen deutschsprachige Tweets je Tag.

In meiner Untersuchung habe ich ebenfalls auf die Sprachkategorisierung von Twitter zurückgegriffen, aber diese bereits während der Datensammlung eingesetzt. Dies erschien zielführender und präziser anstatt über eine möglicherweise unvollständige Wortliste relevante Tweets unabsichtlich auszuschließen. Meine Query bestand aus einem simplen “lang:de”[14]. Damit konnten alle Tweets gesammelt werden, die Twitter als deutschsprachig kategorisiert hat.

Seit 2013 führt Twitter über ihre API die Sprache des jeweiligen Tweets an. Diese wird rein über den Inhalt des Tweets identifiziert. Der konkrete Algorithmus dafür ist nicht bekannt. Laut Alshaabi et al. (2020), die ein 10 % Sample aller Tweets von 2009 bis Ende 2019 untersuchten, wurde der Algorithmus bis 2016 mehrmals verändert. Danach sei er jedoch konsistent und in Bezug auf die Genauigkeit mit dem von Alshaabi et al. genutzten System vergleichbar, das laut ihrem Test besser geeignet ist als der von Scheffler et al. eingesetzte „langId“-Algorithmus.

Erwähnt sei jedoch, dass dieses Vorgehen nach Sprache zu erheben auch einige Einschränkungen mit sich bringt. So werden beispielsweise Tweets ohne Text nicht erfasst, wie zum Beispiel Bilder oder Videos ohne Begleittext. Darunter fallen auch Tweets, welch lediglich Reaction-Gifs beinhalten, die häufig in Replys oder zur Kommentierung in Quote-Tweets genutzt werden. Auch wenn Tweets nur aus einem oder zwei Wörtern bestehen, ist die Kategorisierung weniger zuverlässig, als wenn mehr als zwei Wörter verwendet werden. Das kann dazu führen, dass einige deutschsprachige Tweets mit dieser Erhebungsmethode nicht erfasst wurden und zugleich nicht deutschsprachige Tweets in den Datensatz gelangt sind. Um diese False-Positives geht es in Kapitel 6.4.

Pro Tag habe ich dadurch im Schnitt 1,6 Millionen Tweets in den Datensatz der vorliegenden Arbeit aufnehmen können. Etwa 300.000 mehr als Pflugmacher et al. und circa doppelt so viele wie Scheffler et al.. Ein kleiner Teil der Differenz lässt sich über die insgesamt höhere Anzahl an Tweets erklären, die im Erhebungszeitraum meiner Arbeit veröffentlicht wurden. Der Rest deutet auf eine vollständigere Erhebung hin.

6.2 Zuverlässigkeit der Standard-API

Twitter führt in der Dokumentation an, dass die Ergebnisse der Suche der Standard-API v1.1 nicht vollständig sind. Wer alle verfügbaren Tweets erheben möchte, muss – gemäß Twitter – die Premium-API[15]. Diese zu nutzen kostet jedoch rund einen Dollar je 500 Tweets. Trotz eines von Twitter gewährten Mengenrabatts bei größeren Datenmengen hätte der Zugriff auf die 50 Millionen Tweets in diesem Datensatz etwa 100.000 Dollar gekostet. Eine Summe, die für die wenigsten Forschungsprojekte leistbar ist. Die seit 2020-08-12 verfügbare API v2 verspricht ebenso vollständige Ergebnisse wie bei der Premium-API erzielt werden können, jedoch ist diese derzeit auf 400.000 Tweets pro Monat limitiert, wodurch sie für diese Arbeit nicht in Frage gekommen ist.

2020-10-12 habe ich über die Twitter-Premium-API einen Datensatz erhoben, um mit diesen die Vollständigkeit des über die Standard-API erhobenen Datensatzes zu testen. Über die Premium-API habe ich die letzten 25.000 deutschsprachigen Tweets gesammelt, die vor diesem Zeitpunkt veröffentlicht worden sind. Für die Abfrage über die Premium-API konnte ich nicht die identischen Query wie für die Standard-API (“lang:de”) nutzen, weil die Premium-API dann kein Ergebnis ausgab, weil laut Antwort der API die Query unvollständig sei. Deshalb habe ich die Query mit einer von mir erfundenen Buchstabenaneinanderreihung kombiniert, für den ich zuvor geprüft habe, dass er auf Twitter noch nie genutzt wurde. Diesen schloss ich durch ein Minus als Operator aus. Dadurch entstand eine valide Query, die keine Tweets ausgeschlossen hat, da der negierte Begriff in keinen Tweets vorgekommen ist. Die finale Query für die Premium-API war: “lang:de -asdljhsaldkj”.

Anschließend verglich ich die IDs der Tweets, die ich über Standard- und Premium-API gesammelt habe. Dafür habe ich die höchste und niedrigste ID im Premium-Datensatz ermittelt und über diese den Standard-Datensatz eingeschränkt. Das war möglich, weil Tweet-IDs zwar nicht sequenziell, aber geordnet sind. Somit erhielt ich zwei Datensätze mit Tweets aus dem gleichen Zeitraum, die ich vergleichen konnte. Die 25.000 Tweets des Premium-Datensatzes und 23.367 Tweets aus dem Standard-Datensatz, die im gleichen Zeitraum veröffentlicht wurden.

Zwischen Premium- und Standard-Datensatz ergab sich ein Unterschied von 1.619 Tweets. Das entspricht 7,5 % von 25.000 Tweets im Premium-Datensatz. 1.633 der erhobenen Tweets wurden ausschließlich im Premium-Datensatz erhoben; 14 Tweets wurden ausschließlich im Standard-Datensatz gesammelt. Die qualitative Einzelbetrachtung der 14 Tweets im Standard-Datensatz ergab, dass es sich um acht Retweets über Adolf Hitlers „Mein Kampf“ handelte, einen Tweet über Kurdistan, einen inzwischen privaten Tweet und vier weitere Tweets, die in Deutschland zurückgehalten wurden (nicht abrufbar sind). Möglicherweise waren die betroffenen Accounts während der Sammlung der Tweets über die Premium-API auf privat gestellt. Da die Abfrage über die Standard-API wesentlich länger braucht als über die Premium-API kann es sein, dass sich in diesem Zeitraum der Status der Tweets geändert hat.

Es lässt sich festhalten, dass die Standard-API in diesem kurzen Test für deutschsprachige Tweets etwas über 90 % aller verfügbaren Tweets erfasst.

Tweets von privaten Accounts können weder über die Standard- noch die Premium-API erfasst werden. Die genaue Anzahl privater Accounts kann nur Twitter selbst feststellen, weshalb jede Erhebung durch Dritte unvollständig ist.

6.3 Erhebungsfehler am 2020-10-15

Eine Analyse und Auswertung ergab, dass im Gesamt-Datensatz Tweets am 2020-10-15 zwischen 21:33 und 23:15 Uhr fehlen. Ein nachträgliches Erfassen der Tweets über die Standard-API war nicht mehr möglich. Da es sich um etwa 0,06 % des gesamten Datensatzes handelt, gehe ich davon aus, dass der Fehler keinen relevanten Einfluss auf das Ergebnis hat. Aufgrund der Anzahl an Tweets in dem Zeitraum plus minus 30 Minuten kann davon ausgegangen werden, dass zwischen 10.000 und 40.000 Tweets nicht erfasst wurden.

Der Grund für den Ausfall dürfte eine fehlerhafte Wiederaufnahme der Datenerfassung nach einem Stromausfall gewesen sein.

6.4 Prüfung auf False-Positives

Grundsätzlich wird Twitter rund um den Globus und in vielen Sprachen verwendet. Die Anzahl von Tweets in einigen anderen Sprachen übersteigt die Anzahl deutscher Tweets. Gemäß Alshaabi et al. (2020) war im Jahr 2019 Deutsch die zwölfthäufigste Sprache nach Englisch, Japanisch, Spanisch, undefiniert (Tweets, bei denen Twitter keine Sprache erkannt hat), Portugiesisch, Thailändisch, Arabisch, Koreanisch, Französisch, Indonesisch und Türkisch. Die Wahrscheinlichkeit von False-Positives, also Tweets in anderen Sprachen, die als deutschsprachig erkannt wurden, war daher hoch. Um zu überprüfen, ob die Anzahl der False-Positives für die Untersuchung relevant sein würde, analysierte ich, welche Sprache die Accounts des Datensatzes am häufigsten nutzten. Dies geschah aufgrund der umfangreichen Datenmenge auf Basis einer Stichprobe.

Für die Stichprobe habe ich die Accounts nach Anzahl der Tweets im Datensatz unterteilt. In einem Topf sind alle Accounts, die mit einem Tweet im Datensatz vertreten sind, im nächsten alle Accounts die mit zwei Tweets vertreten sind und so weiter. Anschließend habe ich aus jedem Topf 300 Accounts nach dem Zufallsprinzip ausgewählt. Von diesen Accounts habe ich die jeweils letzten 200 Tweets über die Twitter-Standard-API gesammelt und ihnen aufgrund der verwendeten Sprachen in den Tweets einer primären Sprache zugeordnet. Als primäre Sprache ist die Sprache zu verstehen, die Twitter selbst diesen Tweets am häufigsten zugeordnet hat. Das bedeutet, wenn bei einem Account 101 Tweets als deutschsprachige zugeordnet worden sind, ist die primäre Sprache des Accounts Deutsch. Auch dann, wenn es 80 deutschsprachige Tweets, 70 englischsprachige und 50 französische sind, wurde die primäre Sprache als Deutsch ausgewertet, weil es in dieser Sprache die meisten Tweets gab. Erhebungszeitpunkt war 2020-11-06.

Die Anzahl an erhobenen Tweets je Account hat technische Gründe. 200 Tweets können maximal über eine API-Abfrage abgefragt werden. Der statuses/user_timeline Endpoint besitzt ein Limit von 1.500 Abfragen je 15 Minuten. Für die Stichprobe bedeutet das, dass bei der Abfrage von 300 Accounts je Topf (x Tweets im Datensatz) pro Stunde 20 Töpfe überprüft werden können.

Das Ergebnis dieses Tests sieht man in Abbildung 1. Knapp 4 % der Accounts (also 11 von 300) aus dem ersten Topf, die mit exakt einem Tweet im Datensatz vertreten waren, twitterten primär auf Deutsch. Mit exakt zwei Tweets verdoppelt sich der Anzahl auf über 8 % (25 von 300) und im Topf mit Accounts von exakt drei Tweets auf 15 % (45 von 300). Bei Accounts mit exakt 13 Tweets konnte bei 47 % (142 von 300) Deutsch als Primärsprache festgestellt werden. In den Töpfen mit mehr als 13 Tweets steigert sich der Anteil an deutschsprachigen Tweets noch leicht, aber nicht mehr so stark wie bei den Accounts, die nur selten in der Stichprobe beziehungsweise in weiterer Folge im Gesamtdatensatz vertreten sind.

Abbildung 1: Stichprobe zeigt Verteilung der Sprachen nach Accounts mit x Tweets im Datensatz.

Dennoch: Nur weil ein Account primär in einer anderen Sprache als Deutsch twittert, bedeutet dies im Umkehrschluss nicht, dass dieser Account nicht Teil der deutschsprachigen Twittersphäre ist. Auf Twitter können zahlreiche multilinguale Accounts festgestellt werden. Trotzdem zeigt die Verteilung der Sprachen in Abbildung 1, dass gerade jene Accounts, die nur selten im Datensatz vorhanden waren (mit beispielsweise vier Twets oder weniger), häufig eine andere Sprache als Deutsch als primäre Sprache hatten.

Aufgrund dieses Tests kann davon ausgegangen werden, dass je geringer die Anzahl der als deutschsprachig eingestuften Tweets eines Accounts im Untersuchungszeitraums ist, desto höher ist die Wahrscheinlichkeit, dass es sich dabei um False Positives handelt. Mehr als die Hälfte der Accounts im Gesamtdatensatz hatten nur einen einzigen deutschsprachigen Tweet im Untersuchungszeitraum veröffentlicht. Es handelte sich um 3,4 Millionen Accounts. Nur 4 % von ihnen, also etwa 140.000, twitterten primär auf Deutsch. Die anderen 96 % twitterten primär in einer anderen Sprache als Deutsch. Indem diese Accounts (61 % aller Accounts im Datensatz) von der weiteren Auswertung ausgeschlossen wurden, konnte die Menge an False-Positives stark reduziert werden.

6.5 Aktivität: Mindestens zwei Tweets in einem Monat

Das Ziel dieser Arbeit ist die aktive deutschsprachige Twittersphäre möglichst vollständig zu beschreiben. Wenn aber über die Hälfte der erfassten Accounts nicht primär deutschsprachig twittert, dann verzerren diese das Bild der vorliegenden Arbeit. Für die Auswertung wurden daher nur Accounts betrachtet, die mindestens zweimal im Datensatz vorhanden waren, also innerhalb des Untersuchungszeitraums von einem Monat mindestens zwei Tweets veröffentlicht haben, die wiederum der Algorithmus von Twitter als deutschsprachig eingestuft hatte. Dadurch fielen etwa 140.000 deutschsprachige Accounts aus dem Datensatz heraus sowie 3,4 Millionen Accounts, die primär in einer anderen Sprache twitterten.

Durch den Ausschluss dieser Accounts wurden 3,4 Millionen Tweets in der weiteren Auswertung nicht mehr näher beleuchtet – etwa 7 % der Gesamtdatenmenge.

6.6 Follow-Netzwerk: Mindestens vier Tweets wegen technischer Limitierung

Da die Menge der Daten für die Auswertung des Follow-Netzwerks auf der für dieses Vorhaben vorhandenen Hardware (siehe Kapitel „Hardware und Software“) zu groß war, musste die Datenmenge für Netzwerkauswertung noch weiter limitiert werden. Daher wurde nur Accounts mit mindestens vier Tweets im Untersuchungszeitraum beachtet. Accounts mit weniger als vier Tweets fanden in der Netzwerkauswertung keine Aufnahme. Die dadurch entstandene Datenmenge entsprach circa einer Million Accounts. Die Menge der Verbindungen reduzierte sich ebenso entsprechend und wäre auch bei noch größeren Einschränkungen beinahe konstant geblieben:

  • 8 oder mehr Tweets: 52 % Accounts und 53 % Verbindungen
  • 16 oder mehr Tweets: 29 % Accounts und 33 % Verbindungen
  • 32 oder mehr Tweets: 17 % Accounts und 22 % Verbindungen

6.7 Erhebung des Follow-Netzwerkes

Viele Untersuchungen arbeiten mit Interaktions-Netzwerken (Schünemann 2020; Lutkenhaus, Jansz, und Bouman 2019; Arlt, Rauchfleisch, und Schäfer 2019; Maireder und Ausserhofer 2014; Gaisbauer et al. 2020; Van Geenen et al. 2016; Kelly et al. 2012). Gerade wenn man einzelne Debatten beschreiben möchte, ist das eine gute Option. Interaktionen wie Retweets, Replys und Mentions formen die Debatte. Zugleich bleibt dadurch die Struktur des darunter liegenden Netzwerks verborgen. Ein Account, der eigentlich von einer anderen Gruppe an Accounts gefolgt wird, und somit stabile Verbindungen zu diesen hat, kann aber aufgrund von der Erhebung bloßer Interaktionen einem anderen Cluster zugeordnet werden. Somit ist die Verortung eines Accounts innerhalb eines Clusters nur für die jeweilige Debatte korrekt: Die Netzwerkvisualisierung positioniert den Account dort, wo er die meisten Interaktionen hat. Ich hingegen habe die deutschsprachige Twittersphäre nicht über Interaktionen, sondern über stabilere Verbindungen und zwar in Form von Follows erkundet.

Die Analyse von Follow-Netzwerken wird selten eingesetzt, wenn es um große Mengen von Accounts geht (Bruns et al. 2017; Bruns 2019; Bruns und Enli 2018). Vor allem bei der Auswertung kleinerer Gruppen kommt diese Methode zum Einsatz (Vliet, Törnberg, und Uitermark 2020; Hsu und Park 2012; Münch und Rossi 2020; Doğu 2017), wie zum Beispiel bei Accounts von Politiker_innen. Ein wichtiger Grund für diese Entscheidung dürfte ein technischer sein. Wie weiter oben bereits erwähnt, kann der friends/ids API-Endpoint nur 15 Mal je 15 Minuten abgefragt werden[16]. Je Abfrage können bis zu 5.000 Follows eines Accounts abgefragt werden[17]. Folgt ein Account mehr als 5.000 Accounts, müssten weitere Abfragen vorgenommen werden. Das Sammeln eines Follow-Netzwerks von lediglich 60 Accounts dauert mindestens eine Stunde.

Für die Erstellung eines Follow-Netzwerks wird zuerst eine Liste mit den Accounts erstellt, die man auswerten möchte. Bei dieser Untersuchung waren das alle Accounts, die im Untersuchungszeitraum mindestens zwei deutschsprachige Tweets veröffentlicht hatten. Für jeden dieser Accounts werden dann die Account-IDs aller Followings gesammelt. Die IDs wurden dann Account für Account durchgegangen, um für jede ID, die in der Liste der relevanten Accounts war, eine Verbindung zwischen den Accounts zu erstellen.

Für Accounts, die mehr als 5.000 Accounts folgten, habe ich entschieden, die ausgehenden Verbindungen nicht zu erfassen. Der Aufwand, sie zu erheben, war für den Rahmen dieser Arbeit zu hoch. Darüber hinaus gilt: Je mehr Accounts ein Account folgt, desto wahrscheinlicher ist es, dass einzelnen Verbindungen für den Account eine geringere Bedeutung bekommen. Eben weil ein solcher Account so vielen anderen folgt. Aus den weiter oben und der eben skizzierten Limitierungen des Datensatzes resultiert eine Datenmenge von 2,2 Millionen Accounts. Um die Account-IDs der Followings all dieser über die Standard-API abzufragen, wäre ein Abfrage-Zeitraum von 1.536 Tagen (2.211.922 Accounts durch 60 Requests je 24 Stunden) beziehungsweise mehr als vier Jahren nötig gewesen.

Daher habe ich folgenden Weg gewählt: Über die Website lucahammer.at/spenden konnten mir beliebige Personen Twitter-Tokens für die Abfrage spenden[18]. Durch den Token kann man Abfragen im Namen des Accounts machen, der den Token gespendet hat. Da die Abfrage-Limits je App angewandt werden, entstanden dadurch den Spender_innen keine Einschränkungen. Das Vorgehen setzte sie jedoch einer anderen Gefahr aus, die offen auf der Website kommuniziert wurde. Da ich mittels Read-Only-Tokens Zugriff auf ihre Accounts bekam, konnte ich zwar weder Tweets über die Accounts der Spender_innen veröffentlichen, noch auf Direktnachrichten zugreifen, aber es wäre theoretisch möglich gewesen, den Feed der Spender_innen zu lesen. Wenn diese dann auch noch privaten Accounts folgten, dann wäre somit ein Zugriff auf Tweets dieser privaten Accounts möglich gewesen. Um diesen Missbrauch zu verhindern, nutzte ich gespendete Tokens nur zum Sammeln der Account-IDs von Followings. 167 gespendete Tokens wurden für die Erhebung genutzt, wodurch der Erhebungszeitraum von vier Jahren auf zehn Tage reduziert werden konnte.

Abschließend sei noch erwähnt, dass von 15.980 Accounts im Datensatz keine Followings gesammelt werden konnten. Dafür sind zwei Ursachen zu nennen: Die Accounts existierten entweder nicht mehr oder wurden auf privat gestellt. Laut Chowdhury et al. (2020) suspendierte Twitter innerhalb eines Monats (von 2018-08 auf 2018-09) 0,4 % aller aktiven Accounts (Datensammlung über 1 % Streaming API; 2,4 Millionen von 560 Millionen Accounts im Sample wurden suspendiert). Weiters konnten keine Followings von Accounts gesammelt werden, die von Nutzer_innen selbst gelöscht wurden.

12.276 Accounts folgten selbst keinem anderen Account und 17.100 weitere folgten mehr als 5.000 Accounts. In beiden Fällen wurden die Followings nicht erfasst.

6.8 Hardware und Software

Es gibt inzwischen zahlreiche Fachbücher und Artikel, die sich mit der wissenschaftlichen Untersuchung von Twitter befassen und erklären wie Twitter wissenschaftlich untersucht werden kann (Pfaffenberger 2016; Mayerl und Faas 2019; Bürger und Dang-Anh 2014; Rahlf und Weller 2014; Díaz-Faes, Bowman, und Costas 2019; Theocharis und Jungherr 2020; Sapountzi und Psannis 2018; Iglesias et al. 2016; Lertvittayakumjorn et al. 2015). Einen guten Überblick über die Thematik geben Antonakaki, Fragopoulou und Ioannidis (2021). Das Gros der vorhandenen Fachliteratur beschränkt sich jedoch auf die allgemeinen Methoden und genutzten Tools und Algorithmen. Dabei sind es teilweise Einschränkungen auf Ebene der Hardware, die bestimmen, wie ein Datensatz ausgewertet werden kann. Auch im Sinne der Wiederholbarkeit der vorliegenden Analyse möchte ich auf die konkret eingesetzte Hardware und Software im Rahmen dieser Arbeit eingehen.

Die gesamte Datenerfassung und Auswertung wurden auf einem einzelnen Computer durchgeführt. Als Prozessor kam ein AMD Ryzen 3900X mit zwölf Kernen und 24 Threads zum Einsatz. Weiters 64 GB RAM Arbeitsspeicher und eine 1 TB NVMe SSD. Der Arbeitsspeicher war nicht für alle angestellten Berechnungen ausreichend, weshalb auf der SSD eine 128GB große Swap-Datei angelegt wurde, um das auszugleichen. Die Grafikkarte war eine Nvidia Geforce GTX 760. Als Betriebssystem wurde Ubuntu 20.04 genutzt. Grafikkarte und Betriebssystem sind für diesen Prozess nicht entscheidend gewesen.

Die Datenerfassung könnte auch auf einem viel schwächeren Gerät umgesetzt werden, da diese vor allem durch die Rate-Limits der Twitter-API eingeschränkt waren, weshalb die Datenerfassung jeden Tag mehrere Stunden laufen musste. Dabei wurden die Tweets, die Twitter über die API als JSON liefert, als JSONL in eine Datei geschrieben[19]. Diesen Ansatz nutzt auch das Tool twarc der Washington University in St. Louis, der University of California, Riverside, und des Maryland Institute for Technology in the Humanities (Galarza 2018). Die Dateien für diese Untersuchung könnten somit ebenfalls mit twarc gesammelt und ausgewertet werden und umgekehrt. Insgesamt habe ich 21 JSONL-Dateien mit einer Gesamtgröße von 220,6 GB erfasst. Die größte Datei war 28,4 GB groß, weil diese eine Erfassung von vier Tagen umfasst. Für eineinhalb Millionen Tweets (durchschnittliches deutschsprachiges Tweetvolumen eines Tages) musste das Skript etwa zwölf Stunden laufen.

Sowohl Datenerfassung als auch Auswertung fanden – mit der Ausnahme der Netzwerkanalyse – in Jupyter Notebook 1.0.3 statt. Dabei handelt es sich um eine interaktive Python-Umgebung, in der Code blockweise ausgeführt werden kann.[20]

Für die Auswertung der Tweets wurden diese in ein Pandas-Dataframe (McKinney 2010) geladen. Das parallele Laden aller Dateien dauert etwa acht Minuten, die Umwandlung in ein Dataframe weitere elf Minuten.

Für das Erstellen des Follow-Netzwerks habe ich NetworkX 2.5 (Hagberg, Swart, und S Chult 2008) eingesetzt. Dafür wurde zuerst das Tweet-Dataframe in ein Account-Dataframe reduziert und dieses als Knoten dem Graphen zugeführt. Für die Verbindungen wurde aus dem Account-Dataframe ein Set aus Account-IDs erstellt. Für jeden Account wurde geprüft, ob eine Datei mit Followings vorhanden ist. Falls dem so war, wurde sie geladen und mit dem Set an Account-IDs abgeglichen. Alle Verbindungen zu Accounts im Graphen, wurden ebenfalls diesem hinzugefügt. Dies dauerte zwölf Minuten. Der Graph wurde als GRAPHML-Datei exportiert. Dieser Export dauerte knapp elf Minuten und die daraus resultierende Datei war sieben GB groß. Sie enthielt alle Accounts, die mindestens viermal im Untersuchungszeitraum einen deutschsprachigen Tweet veröffentlicht haben. Die Datei mit den Accounts mit mindestens zwei deutschsprachigen Tweets war 16 GB groß.

Zum Öffnen des großen Netzwerks (Zwei Millionen Accounts, 262 Millionen Verbindungen, mindestens zwei deutschsprachige Tweets) brauchte Gephi 0.9.2 (Bastian et al. 2009) zweieinhalb Stunden und etwa 130 GB Arbeitsspeicher (RAM + Swap). Das kleinere Netzwerk (Eine Million Accounts, 120 Millionen Verbindungen, mindestens vier deutschsprachige Tweets) war schneller geladen und benötigte etwa 100 GB Arbeitsspeicher.

Die Auswertung der deutschsprachigen Twittersphäre ist somit auf einem einzelnen gut ausgestatteten Computer möglich, benötigt jedoch je nach Arbeitsschritt viel Geduld. Vor allem, wenn Schritte wiederholt werden müssen. Mit einem besser ausgestatteten Gerät (256 GB RAM) wäre keine Reduktion des Follow-Netzwerks auf Accounts mit mindestens vier deutschsprachigen Tweets im Untersuchungszeitraum nötig gewesen.

7 Ergebnis

7.1 Volumen

Im Schnitt wurden im Untersuchungszeitraum von 2020-10-04 bis 2020-11-04 1,46 Millionen deutschsprachige Tweets pro Tag veröffentlicht. Der Median lag bei 1,45 Millionen Tweets pro Tag. Die meisten Tweets gab es mit 1,63 Millionen am 2020-11-03, dem Tag nach der Präsidentschaftswahl in den USA. Am ersten Tag der Erhebung, dem 2020-10-04, wurden mit 1,3 Millionen am wenigsten Tweets im Untersuchungszeitraums veröffentlicht. Dies ergibt einen Unterschied von etwa 300.000 Tweets beziehungsweise 18 % mehr Tweets am Tag mit den meisten Tweets.

Dass die Schwankungen von Tag zu Tag grundsätzlich gering waren, sieht man in Abbildung 2, in der Tweets je Stunde des gesamten Untersuchungszeitraums dargestellt werden. Der Unterschied zwischen Tag und Nacht hingegen war groß. Tagsüber gab es auch ein sich wiederholendes Muster. Mittags gab es weniger Tweets als am Morgen und nachmittags oder abends wurde meist das höchste Volumen erreicht.

Während am bereits erwähnten 2020-11-04 die meisten Tweets an einem Tag veröffentlicht wurden, wurde am Abend des Vortags die Stunde mit den meisten Tweets im Untersuchungszeitraum identifiziert: Dem Tag der Präsidentschaftswahl in den USA selbst. Das zweithöchste Volumen gab es zwei Tage zuvor, als am 2020-11-02 ein Terroranschlag in Wien verübt wurde. Am 2020-10-30 fand unter dem Hashtag #StopMacron eine geplante Kampagne statt[21].

Abbildung 2: Tweets je Tag je Stunde

2020-10-15 wiederum gab es den im Kapitel 6.3 beschriebenen und dokumentierten Erhebungsfehler, welcher auch in Abbildung 2 an der negativen Amplitude sichtbar ist.

7.1.1 Tweets je Wochentag

Die meisten Tweets wurden am Mittwoch veröffentlicht (durchschnittlich 1,51 Millionen) – knapp gefolgt von Dienstag (1,49 Millionen), Freitag (1,48 Millionen), Donnerstag (1,48 Millionen) und Montag (1,47 Millionen). Am Wochenende wurden etwa 100.000 Tweets weniger veröffentlicht. Samstags und sonntags wurden jeweils im Schnitt 1,40 Millionen Tweets veröffentlicht.

7.1.2 Tagesverlauf

Um den Tagesverlauf sichtbarer zu machen, sind in Abbildung 3 die Tweets aller Tage zur jeweiligen Stunde aufsummiert. Die Uhrzeiten sind ebenso wie in den anderen Abbildungen auch in der Zonenzeit UTC+0 angegeben. Zur mitteleuropäischen Sommerzeit (MESZ) sind zwei, zur mitteleuropäischen Winterzeit (MEZ) eine Stunde hinzuzurechnen. Da der Tag der Umstellung von MESZ auf MEZ (2020-10-25) im Erhebungszeitraum lag, stellt die Grafik den Tagesverlauf zwar korrekt dar, zu welchem Zeitpunkt wie viel getwittert wurde, aber ist für eine Interpretation jedoch zu beachten, dass der Tagesrhythmus der meisten Menschen an die jeweilige Zeitzone angepasst ist.

Abbildung 3: Tweets nach Uhrzeit

Für Abbildung 4 und 5 habe ich die Tweets nach Uhrzeit, also den Tagesverlauf, in die Zeiträume vor und nach der Zeitumstellung in Grafiken nach MESZ und MEZ unterteilt. Auf den ersten Blick sehen beide Diagramme gleich aus. Die Verschiebung um eine Stunde ist bei genauer Betrachtung jedoch klar erkennbar. Gab es während der Sommerzeit in der ersten und zweiten Stunde des Tages am wenigsten Aktivität, war es in der Winterzeit die Zweite und Dritte. Umgerechnet in die lokale Zeit war es immer die zweite und dritte Stunde des Tages, zu denen am wenigsten Tweets veröffentlicht wurden. Die meisten Tweets gab es jeweils am Abend in der zwanzigsten Stunde.

Abbildung 4: Sommerzeit Tweets
Abbildung 5: Winterzeit Tweets

7.1.3 Die Hälfte der Tweets sind Replys

Der Großteil der deutschsprachigen Tweets waren Replys (49 %, 23 Millionen). Fast ein Drittel (25,4 %, 12 Millionen) waren Retweets. Lediglich 19 % (9 Millionen) der deutschsprachigen Tweets waren normale Tweets. Am seltensten wurden Quote-Tweets genutzt (3,9 %, 2 Millionen). Auch Replys oder Retweets können Quote-Tweets sein (das heißt einen Tweet angehängt haben). Diese wurden hier explizit herausgerechnet und nur alleinstehende Quote-Tweets gezählt.

Ausgehend von den Ergebnissen der reinen Datenanalyse würde ich die oft gestellte Frage, ob Twitter nun eher ein Newsmedium oder ein Social Network ist (Kwak et al. 2010), damit beantworten, dass die Funktion des  Social Networks im Mittelpunkt steht, da jeder zweite Tweet der von mir erhobenen Daten eine Reply war.

Bei der Verteilung der Arten von Tweets ergab sich eine große Abweichung zu den Untersuchungsergebnissen von Pflugmacher aus dem Jahr 2019 (Pflugmacher et al. 2020). Dort wurden 31 % Replys (hier 49 %), 38 % Retweets (hier 25,4 %), 27 % normale Tweets (hier 19 %) und 3,7 % Quote-Tweets (hier 3,9 %) festgestellt. Ein Grund für diese Diskrepanz könnte die unterschiedliche Auswahl der Tweets sein, ein anderer, dass sich das Verhalten der Nutzer_innen innerhalb von eineinhalb Jahren signifikant verändert hat. Die Auswertung von Alshaabi et al. (2020) (10 % Sample aller Tweets; eigene Sprachklassifizierung) zeigt, dass bei den deutschsprachigen Tweets der Anteil der Retweets von 2009 bis 2018 stetig gestiegen ist und bis 2020 wieder leicht gesunken. Der genaue Anteil der Retweets ist in der Grafik von Alshaabi et al. nicht eindeutig abzulesen, liegt aber unter 40 %.

2020-10-20 hat Twitter die Funktionsweise des Retweet-Buttons in den offiziellen Apps verändert[22]. Anstatt eines Auswahlmenüs, ob man retweeten oder einen Quote-Tweet erstellen möchte, öffnete sich nach dem Tag der Änderung direkt eine Oberfläche für das Erstellen eines Quote-Tweets. Um ab diesem Zeitpunkt einen Retweet zu erstellen, musste man den Quote-Tweet ohne eigenen Text abschicken. Dadurch entstand und entsteht seither ein nativer Retweet. Ziel dieser Änderung war es, dadurch die Verbreitung von Falschinformationen einzudämmen. Abbildung 6 zeigt, dass nach dem 2020-10-20, als das Feature ausgerollt wurde, die Anzahl der Retweets stark gesunken und die Anzahl der Quote-Tweets etwas angestiegen ist.

Abbildung 6: Veränderung des Anteils an Retweets- und Quote-Tweets durch Änderung des Retweet-Buttons

7.2 Accounts

2,2 Millionen Accounts haben von 2020-10-04 bis 2020-11-04 mindestens zwei deutschsprachige Tweets veröffentlicht.

7.2.1 Vergleich mit anderen Studien

Von 70,6 Millionen Menschen über 14 Jahren in Deutschland nutzen laut Beisch und Schäfer (2020) 5 % Twitter mindestens einmal pro Woche. Das entspricht circa 3,5 Millionen Menschen. Da es bei der Befragung im letzten Jahr 4 % waren und in der Studie auf volle Prozent gerundet wird, dürften es jedoch eher 3,2 Millionen (~4,56%) sein – immer noch eine Million mehr, als es aktive deutschsprachige Accounts gab. Hinzu kommt, dass manche Nutzer_innen mehrere Accounts betreiben und es Organisationsaccounts, Gruppenaccounts und automatisierte Accounts gibt, deren Betreiber_innen nicht als Nutzer_in betrachtet werden können. Allerdings kann Twitter auch rein konsumierend genutzt werden, ohne selbst etwas zu veröffentlichen. Auch dafür finden sich Hinweise in der Studie von Beisch und Schäfer. Zwar wurde die Nutzung von Twitter nicht detaillierter abgefragt, aber von Instagram und Facebook. In beiden Fällen werden die Plattformen vor allem passiv genutzt. 46 % der Personen, die angaben Instagram zu nutzen, haben angegeben, mindestens einmal im letzten Monat einen Beitrag geliked zu haben. Bei Facebook waren es nur 26 %. Ein Like kann am ehesten mit einem Fave auf Twitter verglichen werden. Da Faves in dieser Untersuchung nicht erfasst wurden, kann damit noch kein kein Vergleich gezogen werden. Aber bei der Nutzung von Kommentaren, die Ähnlichkeiten mit Replys haben. Jeweils 10 % der Nutzer_innen von Facebook und Instagram gaben an Kommentare zu nutzen. Immerhin 13 % der Instagram-Nutzer_innen posten selbst Beiträge. Auf Facebook sind es nur 8 %. Auf Instagram sind somit zwischen 13 % und 23 % der Nutzer_innen aktiv, im Sinne von Interaktion oder Beiträge veröffentlichen. Auf Facebook sind maximal 18 % aktive Nutzer_innen zugegen. Nimmt man an, dass auf Twitter die Verteilung der aktiven Nutzer_innen ähnlich ist, also etwa 20 % der Nutzer_innen aktiv sind, wären das bei 3,5 Millionen Nutzer_innen gesamt (Beisch und Schäfer 2020) nur noch 0,7 Millionen Nutzer_innen, die faven oder twittern. Hinzu kämen deutschsprachige Nutzer_innen von außerhalb Deutschlands, Nutzer_innen mit mehreren Accounts, Organisationsaccounts und automatisierte Accounts.

Etwas mehr als 0,7 Millionen aktive Accounts aus Deutschland sowie Accounts, von Nutzer_innen außerhalb Deutschlands, passt von der Größenordnung zu den 2 Millionen aktiven Twitteraccounts, die in dieser Untersuchung erhoben wurden.

7.2.2 Accountalter

Die Accounts im Datensatz waren am 2020-11-04 im Durchschnitt knapp vier Jahre alt (1401 Tage und 38 Minuten). Der älteste Account war fast 15 Jahre (5282 Tage) alt und der jüngste 47 Minuten. Abbildung 7 zeigt die Verteilung der Accounts gemäß Zeitpunkt der Registrierung. Diese Verteilung kann jedoch keine Rückschlüsse auf das Wachstum von Twitter geben, da nur Accounts erhoben wurden, die im Untersuchungszeitraum aktiv waren. Inaktive Accounts sind in dieser Untersuchung und damit in der Grafik nicht enthalten.

Abbildung 7: Altersverteilung der aktiven Accounts

In der Altersverteilung ist auch die Popularität von Twitter eingeschrieben. Der Anstieg im Jahr 2007 korreliert mit dem Hype rund um Twitter bei der Technologiekonferenz SXSW in Austin, Texas (Burgess et al. 2013). Um die Verteilung jedoch detaillierter interpretieren zu können, müsste man untersuchen, wie viele Accounts sich jeweils insgesamt angemeldet haben, oder alternativ dazu die gleiche Verteilung zu einem anderen Zeitpunkt, um sie in einen Vergleich stellen zu können.

Etwas über 80.000 deutschsprachige Accounts wurden während des einmonatigen Untersuchungszeitraums angemeldet. Von den Accounts, die im Monat zuvor angemeldet wurden, waren im Untersuchungszeitraum noch 81.000 aktiv. Von denen, die zwei Monate zuvor angemeldet wurden, noch 75.000, von denen, die drei Monate zuvor angemeldet wurden, noch 70.000. Es kann also gesagt werden, dass pro Monat um die 80.000 Accounts angemeldet werden, von denen ein gewisser Teil mit jeden vergehenden Monat wahrscheinlich inaktiv wird. Um festzustellen wie viele inaktiv werden, bräuchte man einen Datensatz, der mehrere Monate umfasst.

In der Altersverteilung gibt es ein paar Ausreißer, die man genauer untersuchen könnte, was jedoch nicht Gegenstand dieser Untersuchung war. Etwa: 2018-05-25 wurden wesentlich mehr Accounts erstellt, die heute noch aktiv sind, als an den Tagen zuvor und danach. Ebenso war dies am 2018-07-5 der Fall.

7.2.3 Falsches Erstelldatum

Bei zehn Accounts war das Erstelldatum fehlerhaft. Dort war 1970-01-01 angegeben, auch bekannt als die Unix Epoch oder Unixzeit. Viele Computer zählen, seit der Entwicklungs des Betriebssystems Unix, die Zeit über die Differenz (anhand von Sekunden oder Millisekunden) zu 1970-01-01 00:00 UTC. Bei den betroffenen Accounts dürfte es beim Speichern des Erstelldatums zu einem Fehler gekommen sein, wodurch die Unix Epoch ohne Differenz ausgegeben wurden. Diese Accounts zeigten auch auf der Twitter-Website dieses fehlerhafte Erstelldatum.

Allerdings wäre es möglich über die ID[23], das tatsächliche Erstelldatum der Accounts zu berechnen. Aufgrund der geringen Menge an Accounts mit diesem Fehler wurde das für diese Untersuchung nicht gemacht und die Accounts lediglich bei der Auswertung nach Account-Alter ausgeschlossen.

7.3 Follower und Followings

Im Schnitt hatten die eine Million aktiven Accounts (vier oder mehr deutschsprachige Tweets) 1.955 Follower. Das Ergebnis im Durchschnitt betrachtet unterliegt jedoch Verzerrungseffekten, da einzelne Accounts mehrere Millionen Follower besaßen. Der Median lag bei realistischeren 204 Followern. Bei den Followings lag der Durchschnitt bei 771, der Median hingegen bei 290. Davon kann man ableiten, dass die meisten Accounts mehr Accounts folgten, als ihnen selbst folgten.

Zugleich gibt es einige Aspekte, die bei der Interpretation der Zahlen beachtet werden müssen. Jede_r nutzt Twitter unterschiedlich, und wie schon bei den Retweets und Quote-Tweets gibt es auch bei den Followings plattformbedingte Artefakte in den Daten. So hat 2015-10-27 Twitter das Limit der Accounts, denen man ohne Einschränkung folgen kann, von 2.000 auf 5.000 erhöht. Ab 5.000 kann man nur mehr maximal 10 % mehr Accounts folgen, als einem selbst folgen. Hat der Account 10.000 Follower, kann er 11.000 Accounts folgen und so weiter. Diese Limitierung wird auch in der Abbildung 8 sichtbar. 5.447 Accounts folgten zwischen 4.950 und 5.050 Accounts.

Abbildung 8: Follower zu Followings (Friends) zeigt technische Begrenzung bei 5.000 Followings.

Eine weitere Häufung war bei 1.000 Followings feststellbar, allerdings bei Weitem nicht so klar ausgeprägt. Für diese Beobachtung sind mir keine technischen Limitierungen bekannt.

Ebenfalls in Abbildung 8 zu erkennen sind Accounts mit einem Followings- zu Followerverhältnis von annähernd 1:1 ersichtlich. Bei einem großen Teil dürfte es sich um Followback-Spammer handeln. Hierbei handelt es sich um Accounts, die andere wieder entfolgen, wenn diese nicht zurückfolgen. Das Folgen löst eine Benachrichtigung bei dem gefolgten Account aus. Followback-Spammer folgen jenen Accounts, die ihnen folgen teilweise automatisiert, teilweise händisch zurück. Beides ist laut den Twitter Richtlinien nicht gestattet. 131.000 Accounts (12 %) haben ein Follow/Followings-Verhältnis zwischen 0.9 und 1.1. Der quantitativ größte von ihnen (@KHCadenas) folgt 647.000 Accounts und hat 627.000 Follower.

7.4 Follow-Netzwerk

Um herauszufinden, ob und welche Communities es in der deutschsprachigen Twittersphäre gibt, habe ich mit networkx (Python Library) ein Follow-Netzwerk erstellt (wie in Kapitel 6.8 näher erläutert) und dieses mit Gephi 0.9.2 ausgewertet.

7.4.1 Cluster

Zur Berechnung des Layouts kam ForceAtlas2 (Jacomy et al. 2014) zum Einsatz. Dieser Algorithmus simuliert die Accounts als physisches Netzwerk. Vereinfacht gesagt, stoßen sich alle Accounts voneinander ab. Die Kanten (Follows in diesem Fall) sorgen für eine Anziehung zwischen den verbundenen Knoten (Accounts). Aufgrund der Größe habe ich den Algorithmus über zwölf Stunden (mehrere Hundert Iterationen) laufen lassen. Schon nach wenigen Stunden hat sich das Layout allerdings nur noch minimal verändert. Nach einer kürzeren Laufzeit war die Struktur bereits sehr gut erkennbar. Das Ergebnis zeigt Abbildung 9. Häufungen von Knoten werden als Cluster bezeichnet und entsprechen im Kontext von Twitter meist Communities mit ähnlichen Interessen.

Abbildung 9: Follow-Netzwerk der Accounts, die vier oder mehr deutschsprachige Tweets veröffentlicht haben

Während die gezeigte Struktur auf den ersten Blick nach einem komplexen Netzwerk mit zahlreichen Communities (Cluster) aussieht, stellt sich bei genauerer Betrachtung heraus, dass die meisten kleineren Communities nicht deutschsprachig sind. Auch das zeigt wieder die Ungenauigkeit der Spracherkennung, die in Kapitel 6.4 ausführlicher besprochen wurde.

Anstatt ein automatisiertes Verfahren zur Auswertung zu wählen, habe ich die Profile einzelner Accounts der jeweiligen Cluster auf Twitter aufgerufen und nach Gemeinsamkeiten (häufiges Thema, Sprache) zwischen den Accounts gesucht. Sobald sich die identifizierten Gemeinsamkeiten mit dem Aufruf von zwei bis drei weiteren Profilen nicht mehr verändert haben, habe ich keine weiteren Accounts des Clusters aufgerufen.

Viele Cluster haben sich als nicht deutschsprachig herausgestellt. Jedoch konnten die Cluster nicht zur Aussortierung des Datensatzes genutzt werden, weil sie nur Accounts mit vier oder mehr Tweets im Datensatz enthielten, bei der restlichen Auswertung jedoch doppelt so viele Accounts enthalten waren (zwei oder mehr deutschsprachige Tweets). Die Cluster erlauben aber prozentuelle Rückschlüsse auf den Gesamtdatensatz.

Bei den Anteilen des Netzwerks auf der rechten und unteren Seite, mit den zahlreichen kleineren Clustern, handelt es sich um Fans von unterschiedlichen Musikkünstler_innen (Solo und Bands), die großteils aus dem asiatischen Raum stammen (etwa BTS, Enhypen oder Blackpink). Teilweise gibt es zu einzelnen Bands mehrere Cluster, in denen jeweils unterschiedliche Sprachen dominieren, aber aufgrund des gemeinsamen Interesses Follow-Verbindungen zwischen den einzelnen Clustern existieren.

Auch die Cluster am oberen Rand sind nicht deutschsprachig, sondern können Sri Lanka, Indien und Pakistan zugeordnet werden.

Schließlich bleibt der große Cluster links der Mitte, an dem mehrere kleinere Cluster hängen. Laut Modularity-Klassen (Blondel et al. 2008) handelt es sich um etwa 75 % der Accounts. Diese Cluster bezeichne ich als deutschsprachig. Bei den drei Clustern, die oben anhängen, handelt es sich um einen, dessen Accounts sich vor allem mit der Schweiz beschäftigen sowie einen, in dem österreichische Themen dominieren, und einem, in dem vorwiegend rassistische und Corona leugnende Inhalte geteilt werden. Alle drei Cluster sind stark mit dem Hauptcluster verbunden.

Vom Hauptcluster nach rechts unten ist ein größerer Cluster sichtbar, den ich als deutschsprachigen Entertainment/YouTube-Cluster bezeichne. Darüber gibt es einen eher diffusen Fußball-Cluster, an dem weitere internationale Cluster wie Südafrika, Nigeria, Ghana, Angola, Senegal, Frankreich und Türkei hängen. Diese sind wahrscheinlich durch Tweets zu deutschen Fußballer_innen und Clubs in der Auswertung gelandet.

Auf der anderen Seite des Entertainment/YouTube-Clusters befindet sich ein kleiner Cluster mit recht wenigen Verbindungen zum deutschsprachigen Hauptcluster. Dieser Cluster ist dennoch eindeutig deutschsprachig. Inhaltlich geht es um das Harry-Potter-Universum, weshalb ich die dafür selbstgewählte Bezeichnung einiger dieser Accounts übernehme und den Cluster jenen der „Potterheads“ nenne.

Links neben den „Potterheads“ befindet sich ein Cluster, in dem vor allem pornografische Inhalte geteilt werden und nochmals daneben ein deutsch-türkischer.

Abbildung 10 zeigt die deutschsprachigen Cluster sowie die von mir gewählten Bezeichnungen. Dabei ist es wichtig zu beachten, dass eine Nähe von Clustern nicht bedeutet, dass es Verbindungen zwischen den Clustern oder eine inhaltliche Nähe gibt. Die Verbindungen jedes einzelnen Accounts bilden eine eigene Dimension. Bei der Netzwerkvisualisierung werden alle Dimensionen auf zwei (x,y) reduziert. Accounts, die sich im gleichen Cluster befinden, haben mit hoher Wahrscheinlichkeit zahlreiche indirekte Verbindungen. Bei zwei Clustern, die nebeneinander sind, muss das allerdings nicht der Fall sein.

Abbildung 10: Versuch die Cluster im Follow-Netzwerk zu benennen (Vergrößerung)

7.4.2 Aktive Follower

Follower-Zahlen werden häufig als Hinweis auf Relevanz oder Reichweite interpretiert. Aber wie bereits gezeigt, wird diese Logik durch Followback-Spam widerlegt. Auch kommet es vor, dass Personen dafür bezahlt, dass sie einem anderen Account folgen[24]. Twitter geht gegen automatisierte Accounts vor und zählt seit 2018-07-11 nur noch Accounts als Follower, deren Account nicht unter Automatisierungsverdacht[25]. Neben solchen Betrugsversuchen gibt es aber auch andere unterschiedliche Motivationsgründe, warum Personen jemandem folgen, zum Beispiel aus Höflichkeit oder der Hoffnung, die Person würde dann zurück folgen (Paßmann 2018).

Während die Anzahl der Follower nicht technisch beschränkt ist, gibt es einen Mechanismus, der bei der Interpretation der Daten beachtet werden sollte: Je älter ein Account, desto mehr Follower hat er. Von den im Untersuchungszeitraum aktiven Accounts haben nur die Accounts von 2006 bis 2008 im Median mehr Follower als Followings (siehe Abbildung 11). Danach ist es umgekehrt.

Abbildung 11: Erstelldatum und Follower-Anzahl: Ältere Accounts haben mehr Follower als Followings

Ich habe zwei Erklärungsansätze, warum sich dies so entwickelt haben könnte. Der erste beruht auf der Annahme, dass man mit einer längeren Zeit auf der Plattform mehr Berührungspunkte mit anderen Nutzer_innen hat und somit mehr Möglichkeiten, Follower zu bekommen hat. Der zweite, dass Menschen eher jenen Accounts folgen, die bereits viele Follower haben. Auch der Algorithmus empfiehlt einem eher Accounts, zu denen man bereits indirekte Verbindungen hat. Es könnte jedoch auch sein, dass die Early Adopter, die Twitter bereits in den ersten Jahren genutzt haben und noch bis heute aktiv sind, insgesamt aktiver sind und durch die geringe Zahl an Accounts aus jener Zeit die Statistik somit verzerrt ist.

Durch den Datensatz der aktiven deutschsprachigen Accounts konnte ich aber neben der Auswertung der allgemeinen Follower-Zahlen (enthalten inaktive Accounts) auch die eingehenden und ausgehenden Verbindungen zu anderen aktiven deutschsprachigen Accounts auswerten. Bei den Follower-Zahlen zählt Twitter auch alle Accounts, die nicht mehr auf der Plattform aktiv sind.

Im Schnitt wurde jeder Account von 116 aktiven Accounts gefolgt und folgten selbst ebenfalls so vielen. Der Median lag mit 24 eingehenden Verbindungen viel niedriger. Bei den ausgehenden Verbindungen war der Median 52. Dabei ist zu beachten, dass nur ein Drittel (eine Million) der insgesamt erfassten Accounts (3,3 Millionen) beachtet wurden. Nämlich jene, die mindestens vier deutschsprachige Tweets veröffentlicht haben. Der tatsächliche Wert wird höher gelegen haben. Darüber hinaus gab es etwa zehnmal so viele passive Nutzer_innen, wie ich im Kapitel 7.2.1 auf Basis der ARD/ZDF Onlinestudie (Beisch und Schäfer 2020) gezeigt habe.

Die meisten eingehenden Verbindungen hatte der Account @janboehm (Satiriker Jan Böhmermann) mit 105.185. Das waren etwa 4,8 % seiner 2,2 Millionen Follower. Mit der Annahme, dass es zehnmal so viele passive Follower (105.185 * 10 = 1.051.850) gab, könnten etwa die Hälfte der Follower die Chance gehabt haben, seine Tweets zu sehen.

Beim Account @c_drosten (Virologe Prof. Dr. Christian Drosten) waren 20 % (103.000) der 504.000 Follower aktive deutschsprachige Accounts. Zehnmal so viele passive Follower sind in diesem Fall gar nicht möglich.

7.4.3 50 Accounts mit den meisten eingehenden Verbindungen aktiver, deutschsprachiger Accounts

screen_nameindegreefollowers_countindegree_zu_follow
janboehm105.1852.200.5364.78 %
c_drosten102.633504.23820.35 %
tagesschau97.9152.781.5503.52 %
Der_Postillon92.3001.047.2058.81 %
heuteshow87.7071.053.4808.33 %
zeitonline81.0092.252.6523.60 %
derspiegel79.0332.676.9262.95 %
SZ71.0321.642.2474.33 %
extra367.400911.4147.40 %
nicosemsrott63.951298.17721.45 %
ralphruthe59.297530.83311.17 %
NetflixDE57.3421.112.2625.16 %
KuehniKev56.437237.68323.74 %
AuschwitzMuseum55.7291.069.5825.21 %
rezomusik54.461413.91613.16 %
MartinSonneborn52.828290.32918.20 %
RegSprecher52.753962.3895.48 %
maithi_nk52.367172.54130.35 %
tazgezwitscher51.472616.2008.35 %
Karl_Lauterbach51.196252.59720.27 %
damitdasklaas49.2111.852.6252.66 %
saschalobo48.295747.4066.46 %
MontanaBlack48.183783.4296.15 %
zdfmagazin47.919628.1837.63 %
rki_de47.915344.26313.92 %
SPIEGEL_EIL47.1821.844.9312.56 %
ZDFheute46.762645.4187.25 %
welt46.5841.415.1943.29 %
Gronkh46.0691.314.3593.51 %
Volksverpetzer45.630134.58433.90 %
dunjahayali45.321475.2299.54 %
ZDF45.2121.239.4083.65 %
hazelbrugger44.715234.99819.03 %
faznet43.551600.6867.25 %
unge43.0262.249.8451.91 %
Luisamneubauer42.905166.88525.71 %
titanic42.606535.6167.95 %
erzaehlmirnix41.831118.92935.17 %
Natascha_Strobl41.701100.37841.54 %
Astro_Alex40.8301.243.2883.28 %
netzpolitik39.786408.8329.73 %
AuswaertigesAmt39.008747.2925.22 %
dpa38.792351.56211.03 %
GregorGysi38.262378.90810.10 %
Die_Gruenen38.240525.9887.27 %
DiePARTEI37.972197.79619.20 %
BILDblog37.794208.79118.10 %
c_lindner36.849408.1639.03 %
SophiePassmann36.769147.33624.96 %
drguidoknapp36.366114.81331.67 %

Eine Reihung von Accounts aufgrund der eingehenden Verbindungen von aktiven Accounts ist eine bessere Annäherung an die Reichweite der Accounts als eine Sortierung nach absoluten Followerzahlen, weil bei jenen auch inaktive Accounts mitgezählt werden. Allerdings wurden Follower, die nicht auf Deutsch twittern, bei den eingehenden Verbindungen nicht mitgezählt, wodurch eingehende Verbindungen in dieser Untersuchung nur die Reichweite in der deutschsprachigen Twittersphäre zeigt.

Lediglich sechs sieben Accounts von Frauen befinden sich unter den 50 Accounts mit den meisten eingehenden Verbindungen: @maithi_nk (Platz 18), @dunjahayali (31), @hazelbrugger (33), @Luisamneubauer (36), erzaehlmirnix (38), @Natascha_Strobl (39) und @SophiePassmann (49).

8 Fazit

Das Ziel dieser Arbeit war die Vermessung der deutschsprachigen Twittersphäre anhand der Methode einer Datenanalyse. Im Untersuchungszeitraum gab es zwischen 0,75 und 2,2 Millionen aktive deutschsprachige Twitteraccounts. 0,75 Millionen ist das untere Limit aufgrund der Netzwerkanalyse, die gezeigt hat, dass nur 75% der Accounts mit deutschsprachigen Tweets auch einem deutschsprachigen Cluster zuzuordnen waren. Pro Monat kommen ungefähr 80.000 Accounts hinzu, die aktiv twittern.

Ein durchschnittlicher deutschsprachiger Twitteraccount war vier Jahre alt und hatte 204 Follower, wovon nur 24 aktive deutschsprachige Accounts waren. Er folgte im Durchschnitt 290 Accounts, wovon 52 aktive deutschsprachige Accounts waren. Zählt man auch Accounts mit nur zwei statt vier Tweets je Monat als aktiv, verdoppelt sich die Anzahl der aktiven Follower und Followings.

Jeden Tag wurden um die 1,6 Millionen deutschsprachige Tweets veröffentlicht. Diese hier ermittelte Zahl liegt etwas höher als bei anderen Studien (Pflugmacher et al. 2020; Scheffler et al. 2014), was auf die vollständigere Erhebungsmethode der vorliegenden Arbeit zurückzuführen ist. Etwa 10 % davon waren nicht über die kostenlose Standard-API abrufbar, sondern nur über die Premium-API. Mit dieser Zahl als Referenz lassen sich Empörungswellen und Debatten auf Twitter ab sofort zumindest größentechnisch einsortieren. Zum Beispiel entsprechen die 107.000 Tweets mit dem Hashtag #NazisRaus[26] knapp 7 % eines durchschnittlichen Tagestweetvolumens.

Als Felix Victor Münch und Ben Thies beim Association of Internet Research Flashpoint Symposium “Below the Radar: Private Groups, Locked Platforms and Ephemeral Contents” “Walking Through Twitter: Sampling a Language-Based Follow Network of Influential Twitter” (Münch et al. 2020) vorgestellt haben wurden sie gefragt[27], ob man mit ihrer Methode auch bisher unbekannte Communities aufspüren könne, da sie sich lediglich auf die 1 % der einflussreichsten Accounts fokussiert haben. Während ihre Methode dafür nicht geeignet ist, kann ich die dahinter liegende Frage, ob es Gruppen auf Twitter gibt, die nicht mit den anderen vernetzt sind, nach der vorliegenden Untersuchung wie folgt beantworten: Nein, es gibt keine größeren, aktiven Cluster an deutschsprachigen Accounts, die vom zentralen Cluster losgelöst sind. Die „Potterheads“ würden nach meiner Auffassung am ehesten als isolierter Cluster angesehen werden. Sie haben zwar Verbindungen zum zentralen Cluster, allerdings nur sehr wenige, weshalb sie je nach Erhebungsmethode nicht erfasst werden könnten.

Mir ist es gelungen mit dieser Arbeit zu zeigen, dass Twitter-Daten nicht ohne Kontext interpretiert werden dürfen. Die Erkennung der Sprache in Tweets durch Twitter ist insgesamt zwar sehr gut, vorausgesetzt der Tweet enthält ausreichend Text. Aber aufgrund der viel größeren Menge an Tweets in anderen Sprachen gelangen so viele False-Positives in den Datensatz. Über drei Millionen im Fall dieser Arbeit. Die Zuverlässigkeit erhöht sich, je mehr Tweets von einem Account beachtet werden. Auch konnte ich zeigen, dass technische Limitierungen und die Einführung von Features in den Daten sichtbar sind. Als das Retweet-Feature in ein Quote-Tweet-Feature umgestellt wurde, gab es eine doppelt so hohe Menge an Quote-Tweets, während der Anteil an Retweets zurückgegangen ist. Auch die Regelung über das Follow-Limit von 5.000 Accounts hinterlässt in den Daten seine Spuren. Ebenso tauchen Praktiken wie Follow-Spam bei der Anzahl der Follows in den Daten auf. Und die Zeitumstellung lässt das Tweet-Volumen um eine Stunde wandern, wenn die Menschen kollektiv ihren Tag einem neuen Rhythmus anpassen. Betrachtet man die Daten ohne solche Phänomene miteinzubeziehen, können solche Einschreibungen zu falschen Interpretationen führen.

Am Ende jedoch zeigt eine Vermessung nur die Dinge, die man auch vermessen kann und deren Einheiten man festgelegt hat. Die Anzahl aktiver deutschsprachiger Follower mag eine andere Bedeutung haben als Follower insgesamt. Auch kann sie nicht die Menschen hinter den Accounts in Zahlen ausdrücken, noch zeigen, welche Qualität sie dem Follow beimessen. Eine Vermessung bietet aber durchaus einen fundierten und quantifizierten Rahmen, von dem ausgehend eine tiefergehende Auseinandersetzung mit einzelnen Phänomenen begonnen und verortet werden kann.


[1] Twitter Blog https://blog.twitter.com/en_us/topics/company/2020/2020-election-changes.html Abgerufen 2020-11-30

[2] Twitter Blog https://blog.twitter.com/en_us/a/2006/six-more-twitter-updates.html
Abgerufen 2020-11-30

[3] Twitter Blog https://blog.twitter.com/en_us/a/2015/hearts-on-twitter.html Abgerufen 2020-11-19

[4] Twitter Blog https://blog.twitter.com/en_us/topics/product/2018/an-easier-way-to-save-and-share-tweets.html Abgerufen 2020-11-30

[5] Twitter Entwickler Dokumentation https://developer.twitter.com/en/docs/twitter-api/v1/tweets/filter-realtime/api-reference/post-statuses-filter Abgerufen 2020-11-28

[6] Twitter Entwickler Dokumentation https://developer.twitter.com/en/docs/twitter-api/v1/tweets/search/api-reference/get-search-tweets Abgerufen 2020-11-28

[7] Twitter Entwickler Dokumentation https://developer.twitter.com/en/docs/twitter-api/v1/tweets/search/api-reference/premium-search Abgerufen 2020-11-28

[8] Blogpost von Anil Dash, der auf der Liste war https://anildash.com/2009/12/29/life_on_the_list/ Abgerufen 2020-11-30

[9] Von mir selbst auf Twitter dokumentiert https://twitter.com/luca/status/903307848150654976 Abgerufen 2020-11-30

[10] Ankündigung durch den Twitter Support Account https://twitter.com/TwitterSupport/status/659082270737719296 Abgerufen 2020-11-30

[11] Twitter Fiscal Year 2013 Annual Report. https://s22.q4cdn.com/826641620/files/doc_financials/ar/Twitter-Inc-2013-Annual-Report.pdf
Abgerufen 2020-11-30

[12] Twitter Fiscal Year 2017 Annual Report. https://s22.q4cdn.com/826641620/files/doc_financials/ar/FiscalYR2016_Twitter_Annual_Report.pdf Abgerufen 2020-11-30

[13] Zeitzonen sind seit 2018-05-23 nicht mehr über die API abrufbar. https://twittercommunity.com/t/upcoming-changes-to-the-developer-platform/104603 Abgerufen 2020-11-19

[14] „lang“ ist der Operator, um Tweets einer bestimmten Sprache abzufragen. „de“ steht für deutschsprachig. Weitere Operatoren findet man auf der von Igor Brigadir gestarteten Liste “Advanced Search on Twitter” https://github.com/igorbrigadir/twitter-advanced-search

[15] Twitter Entwickler Dokumentation https://developer.twitter.com/en/docs/twitter-api/v1/tweets/search/overview/premium Abgerufen 2020-11-30

[16] Twitter Entwickler Dokumentation https://developer.twitter.com/en/docs/twitter-api/v1/rate-limits Abgerufen 2020-11-30

[17] Twitter Entwickler Dokumentation https://developer.twitter.com/en/docs/twitter-api/v1/accounts-and-users/follow-search-get-users/api-reference/get-friends-ids Abgerufen 2020-11-30

[18] Gespendete Token haben schon andere Untersuchungen vor mir genutzt: Zum Beispiel von Michael Kreil. https://twitter.com/MichaelKreil/status/805792455736049664

[19] JSONL bedeutet, dass ein JSON-Object, in dem Fall ein Tweet, je Zeile in der Datei steht

[20] Die Jupyter Notebooks mit dem für die Untersuchung genutzten Code können auf der Website lucahammer.com/ba2020 abgerufen werden.

[21] Hinter dem Hashtag stand die islamistische Organisation Hizb ut-tahrir. https://twitter.com/DerRami_/status/1321974450653437952 Abgerufen 2020-11-29

[22] Twitter Blog https://blog.twitter.com/en_us/topics/company/2020/2020-election-changes.html Abgerufen 2020-11-30

[23] Twitter Blog https://blog.twitter.com/engineering/en_us/a/2010/announcing-snowflake.html
Abgerufen 2020-11-30

[24] Dokumentation von mir einer solchen Plattform, wo Geld für Interaktionen auf Twitter bezahlt wird. https://twitter.com/luca/status/1313875853915361280 Abgerufen 2020-11-30

[25] Twitter Blog https://blog.twitter.com/en_us/topics/company/2018/Confidence-in-Follower-Counts.html Abgerufen 2020-11-30

[26] Daten von mir selbst erfasst https://twitter.com/luca/status/1082659674900611075
Abgerufen 2020-11-30

[27] Aufzeichnung des Talks.  https://www.youtube.com/watch?v=qsnGTl8d3qU&t=6h29m18s
Abgerufen 2020-11-29

9 Literaturverzeichnis

Almaatouq, A., Alabdulkareem, A., Nouh, M., Shmueli, E., Alsaleh, M., Singh, V. K., Alarifi, A., Alfaris, A., & Pentland, A. (Sandy). (2014). Twitter: Who gets caught? Observed trends in social micro-blogging spam. Proceedings of the 2014 ACM conference on Web science – WebSci \textquotesingle14. https://doi.org/10.1145/2615569.2615688

Alshaabi, T., Adams, J. L., Arnold, M. V., Minot, J. R., Dewhurst, D. R., Reagan, A. J., Danforth, C. M., & Dodds, P. S. (2020). Storywrangler: A massive exploratorium for sociolinguistic, cultural, socioeconomic, and political timelines using Twitter. ArXiv. https://doi.org/arXiv:2007.12988v2

Alshaabi, T., Dewhurst, D. R., Minot, J. R., Arnold, M. V., Adams, J. L., Danforth, C. M., & Dodds, P. S. (2020). The growing amplification of social media: Measuring temporal and social contagion dynamics for over 150 languages on Twitter for 2009–2020. arXiv:2003.03667 [cs, stat]. http://arxiv.org/abs/2003.03667

Antonakaki, D., Fragopoulou, P., & Ioannidis, S. (2021). A survey of Twitter research: Data model, graph structure, sentiment analysis and attacks. Expert Systems with Applications, 164, 114006. https://doi.org/10.1016/j.eswa.2020.114006

Arlt, D., Rauchfleisch, A., & Schäfer, M. S. (2019). Between Fragmentation and Dialogue. Twitter Communities and Political Debate About the Swiss “Nuclear Withdrawal Initiative”. Environmental Communication, 13(4), 440–456. https://doi.org/10.1080/17524032.2018.1430600

Ausserhofer, J., & Maireder, A. (2013). NATIONAL POLITICS ON TWITTER: Structures and topics of a networked public sphere. Information, Communication & Society, 16(3), 291–314. https://doi.org/10.1080/1369118x.2012.756050

Bastian, M., Heymann, S., Jacomy, M., & others. (2009). Gephi: An open source software for exploring and manipulating networks. Icwsm, 8(2009), 361–362.

Beisch, N., Koch, W., & Schäfer, C. (2019). ARD/ZDF-Onlinestudie 2019: Mediale Internetnutzung und Video-on-Demand gewinnen weiter an Bedeutung. Media Perspektiven, 9(2019), 374–388.

Beisch, N., & Schäfer, C. (2020). Internetnutzung mit großer Dynamik: Medien, Kommunikation, Social Media. Media Perspektiven, 20.

Blondel, V. D., Guillaume, J.-L., Lambiotte, R., & Lefebvre, E. (2008). Fast unfolding of communities in large networks. Journal of Statistical Mechanics: Theory and Experiment, 2008(10), P10008. https://doi.org/10.1088/1742-5468/2008/10/p10008

Boyd, D., Golder, S., & Lotan, G. (2010). Tweet, Tweet, Retweet: Conversational Aspects of Retweeting on Twitter. 2010 43rd Hawaii International Conference on System Sciences, 1–10. https://doi.org/10.1109/hicss.2010.412

Bruns, A. (2019). Digital public spheres in Australia. In A. K. S. Schapals, A. Bruns, & B. McNair (Hrsg.), Digitizing Democracy (S. 133–146). Routledge. https://www.routledge.com/Digitizing-Democracy-1st-Edition/Schapals-Bruns-McNair/p/book/9781351054867

Bruns, A., & Enli, G. S. (2018). The Norwegian Twittersphere: Structure and dynamics. Nordicom Review, 39(1), 129–148. https://doi.org/10.2478/nor-2018-0006

Bruns, A., & Moon, B. (2019). One Day in the Life of a National Twittersphere. Nordicom Review, 40(s1), 11–30. https://doi.org/10.2478/nor-2019-0011

Bruns, A., Moon, B., Münch, F., & Sadkowsky, T. (2017). The Australian Twittersphere in 2016: Mapping the Follower/Followee Network: Social Media + Society. https://doi.org/10.1177/2056305117748162

Bürger, T., & Dang-Anh, M. (2014). Twitter Analytics. In Handbuch Online-Forschung: Sozialwissenschaftliche Datengewinnung und -auswertung in digitalen Netzen. Halem. https://ids-pub.bsz-bw.de/frontdoor/index/index/docId/7551

Burgess, J., Mahrt, M., Bruns, A., & Weller, K. (2013). Twitter and Society. Peter Lang Publishing Group.

Chowdhury, F. A., Allen, L., Yousuf, M., & Mueen, A. (2020). On Twitter Purge: A Retrospective Analysis of Suspended Users. Companion Proceedings of the Web Conference 2020, 371–378. https://doi.org/10.1145/3366424.3383298

Dash, A. (2009). Life on the List. In Anil Dash. https://anildash.com/2009/12/29/life_on_the_list/

Díaz-Faes, A. A., Bowman, T. D., & Costas, R. (2019). Towards a second generation of ‘social media metrics’: Characterizing Twitter communities of attention around science. PLOS ONE, 14(5), e0216408. https://doi.org/10.1371/journal.pone.0216408

Doğu, B. (2017). Turkey’s news media landscape in Twitter: Mapping interconnections among diversity. Journalism, 21(5), 688–706. https://doi.org/10.1177/1464884917713791

Gaisbauer, F., Pournaki, A., Banisch, S., & Olbrich, E. (2020). How Twitter affects the perception of public opinion: Two case studies. arXiv:2009.01666 [physics]. https://doi.org/10.13140/rg.2.2.32140.95363

Galarza, A. (2018). Documenting the Now. Journal of American History, 105(3), 792–793. https://doi.org/10.1093/jahist/jay444

Garimella, K., Weber, I., & De Choudhury, M. (2016). Quote RTs on Twitter: Usage of the new feature for political discourse. Proceedings of the 8th ACM Conference on Web Science, 200–204.

Hagberg, A., Swart, P., & S Chult, D. (2008). Exploring network structure, dynamics, and function using NetworkX. Los Alamos National Lab.(LANL), Los Alamos, NM (United States).

Herwig, J. (2009, Januar). Liminality and Communitas in Social Media: The Case of Twitter. Internet: Critical. http://homepage.univie.ac.at/jana.herwig/PDF/herwig_ir10_liminalitycommunitastwitter_v5oct09.pdf

Hsu, C., & Park, H. W. (2012). Mapping online social networks of Korean politicians. Government Information Quarterly, 29(2), 169–181. https://doi.org/10.1016/j.giq.2011.09.009

Hutto, C. J., Yardi, S., & Gilbert, E. (2013). A longitudinal study of follow predictors on twitter. Proceedings of the SIGCHI Conference on Human Factors in Computing Systems, 821–830. https://doi.org/10.1145/2470654.2470771

Iglesias, J. A., García-Cuerva, A., Ledezma, A., & Sanchis, A. (2016). Social network analysis: Evolving Twitter mining. 2016 IEEE International Conference on Systems, Man, and Cybernetics (SMC), 001809–001814. https://doi.org/10.1109/smc.2016.7844500

Jacomy, M., Venturini, T., Heymann, S., & Bastian, M. (2014). ForceAtlas2, a Continuous Graph Layout Algorithm for Handy Network Visualization Designed for the Gephi Software. PLOS ONE, 9(6), e98679. https://doi.org/10.1371/journal.pone.0098679

Keller, T. R. (2020). To Whom Do Politicians Talk and Listen? : Mapping Swiss Politicians’ Public Sphere on Twitter. Computational Communication Research, 2(2), 175–202. https://doi.org/10.5117/ccr2020.2.003.kell

Kelly, J., Barash, V., Alexanyan, K., Etling, B., Faris, R., Gasser, U., & Palfrey, J. G. (2012). Mapping Russian Twitter (SSRN Scholarly Paper ID 2028158). Social Science Research Network. https://papers.ssrn.com/abstract=2028158

Kwak, H., Lee, C., Park, H., & Moon, S. (2010). What is Twitter, a social network or a news media? Proceedings of the 19th international conference on World wide web, 591–600. https://doi.org/10.1145/1772690.1772751

Lertvittayakumjorn, P., Nimnual, P., Vateekul, P., & Tsukamoto, P. (2015). A system to analyze Twitter data for social science study. 2015 7th International Conference on Information Technology and Electrical Engineering (ICITEE), 581–586. https://doi.org/10.1109/iciteed.2015.7409014

Lutkenhaus, R. O., Jansz, J., & Bouman, M. P. A. (2019). Mapping the Dutch vaccination debate on Twitter: Identifying communities, narratives, and interactions. Vaccine: X, 1, 100019. https://doi.org/10.1016/j.jvacx.2019.100019

Maireder, A., & Ausserhofer, J. (2012). Political Discourses on Twitter: Networking Topics, Objects and People. 11.

Maireder, A., & Ausserhofer, J. (2014). Political Discourses on Twitter: Networking Topics, Objects and People. In Twitter and society. Katrin Weller, Axel Bruns, Jean Burgess, Merja Mahrt and Cornelius Puschmann.

Maireder, A., & Schlögl, S. (2015). Twitter-Öffentlichkeiten: Identifikation und Interpretation der Strukturen von Follower-Netzwerken. In A. Maireder, J. Ausserhofer, C. Schumann, & M. Taddicken (Hrsg.), Digitale Methoden in der Kommunikationswissenschaft (Bd. 2, S. 115–139). https://doi.org/10.17174/dcr.v2.6

Marwick, A. E., & Boyd, D. (2010). I tweet honestly I tweet passionately: Twitter users, context collapse, and the imagined audience. New Media & Society, 13(1), 114–133. https://doi.org/10.1177/1461444810365313

Mayerl, J., & Faas, T. (2019). Quantitative Analyse von Twitter und anderer usergenerierter Kommunikation. In N. Baur & J. Blasius (Hrsg.), Handbuch Methoden der empirischen Sozialforschung (S. 1027–1040). Springer Fachmedien. https://doi.org/10.1007/978-3-658-21308-4_73

McKinney, W. (2010). Data Structures for Statistical Computing in Python. Proceedings of the 9th Python in Science Conference. https://doi.org/10.25080/majora-92bf1922-00a

Münch, F. V., Thies, B., Puschmann, C., & Bruns, A. (2020). Walking Through Twitter: Sampling a Language-Based Follow Network of Influential Twitter Accounts. arXiv:1908.07788 [cs]. http://arxiv.org/abs/1908.07788

Myers, S. A., Sharma, A., Gupta, P., & Lin, J. (2014). Information network or social network? The structure of the twitter follow graph. Proceedings of the 23rd International Conference on World Wide Web, 493–498. https://doi.org/10.1145/2567948.2576939

Paßmann, J. (2018). Die soziale Logik des Likes: Eine Twitter-Ethnografie. Campus Verlag.

Paßmann, J., & Gerlitz, C. (2014). „Good’platform-political reasons for’bad’platform data. Zur sozio-technisches Geschichte der Plattformaktivitäten’Fav“,’Retweet’und’Like’. Mediale Kontrolle unter Beobachtung, 3(1), 1–40.

Pfaffenberger, F. (2016). Twitter als Basis wissenschaftlicher Studien. Springer Fachmedien Wiesbaden. https://doi.org/10.1007/978-3-658-14414-2

Pflugmacher, J., Escher, S., Reubold, J., & Strufe, T. (2020). The German-Speaking Twitter Community Reference Data Set. IEEE INFOCOM 2020 – IEEE Conference on Computer Communications Workshops (INFOCOM WKSHPS), 1172–1177. https://doi.org/10.1109/infocomwkshps50562.2020.9162728

Rahlf, T., & Weller, K. (2014). Visualisierung großer Datenmengen aus Social Media Diensten. In C. König, M. Stahl, & E. Wiegand (Hrsg.), Soziale Medien: Gegenstand und Instrument der Forschung (S. 137–159). Springer Fachmedien. https://doi.org/10.1007/978-3-658-05327-7_8

Rauchfleisch, A., & Kaiser, J. (2020). The False Positive Problem of Automatic Bot Detection in Social Science Research. SSRN Electronic Journal. https://doi.org/10.2139/ssrn.3565233

Scheffler, T., Gontrum, J., Wegel, M., & Wendler, S. (2014). Mapping German Tweets to Geographic Regions. https://hildok.bsz-bw.de/frontdoor/index/index/year/2014/docId/298

Seethaler, J., & Melischek, G. (2019). Twitter as a tool for agenda building in election campaigns? The case of Austria. Journalism, 20(8), 1087–1107. https://doi.org/10.1177/1464884919845460

Van Geenen, D., Schäfer, M. T., Boeschoten, T., Hekman, E., Bakker, P., & Moons, J. (2016). Mining One Week of Twitter. Mapping Networked Publics in the Dutch Twittersphere.

Vliet, L. van, Törnberg, P., & Uitermark, J. (2020). The Twitter parliamentarian database: Analyzing Twitter politics across 26 countries. PLOS ONE, 15(9), e0237073. https://doi.org/10.1371/journal.pone.0237073

10 Code