Chlubí se Andrej Babiš na Twitteru falešnými followery? #sorryjako

Napsal/a Josef Šlerka 17. května 2017
FacebookTwitterPocketE-mail

V minulých dnech se objevila řada spekulací o pravosti či nepravosti followerů, tedy lidí sledujících twitterový účet českého ministra financí Andreje Babiše. Argumentem je podivná skladba účtů, které Andreje Babiše sledují. Prý vypadají podezřele. Skutečně takové jsou?

Důkazem má být to, že tyto účty mají samy málo followerů, či vůbec žádné, samy nic nepíší, vznikly nedávno a podobně. Dokladem falešnosti Babišových followerů má být i výstup ze služby Twitter Audit, který přisoudil Babišovi plných 56 % falešných účtů.


Text publikujeme se svolením Josefa Šlerky. Celý jeho text v nezkrácené podobě najdete na serveru Databoutique.cz


Služba Twitter Audit sama píše, že využívá pro svoje výpočty údaje o počtu tweetů, datumu posledního tweetu a poměru followers a friends. Nakolik se v datech z Twitteru pohybuji, považuji všechny tyhle údaje za více než pochybné, pokusím se vysvětlit proč a vysvětlení podepřít i nějakými čísly.

Aktivní uživatelé i roboti

Při práci s daty z Twitteru nastává řada problémů. Zásadní je způsob, jak vytvořit něco jako relevantní vzorek uživatelů Twitteru, na kterém by bylo možné něco zkoumat, protože neexistuje nic jako seznam všech Twitter uživatelů.

Můžete začít nějakým velkým účtem, rozbalovat postupně jeho graf a podívat se na to, koho sledují lidé, kteří sledují daný účet. Nicméně, tím předpokládáte, že Twitter je spojitý graf, což je předpoklad více než troufalý.

Další problém je aktivita uživatelů, či distribuce počtu followerů, která je značně nerovnoměrná. Podle některých starších výzkumů se zdá, že 44 % registrovaných účtů nebylo nikdy použito a přibližně 40 % účtů nemá žádné followery.

Jinými slovy, na Twitteru je jistě řada hodně aktivních uživatelů, ale pak je tu také spousta těch, co si někdy vytvořili účet ze zvědavosti, pro přístup k nějaké službě atp. To je také důvod, proč Twitter reportuje jaký je počet měsíčně aktivních uživatelů, nikoli počet zřízených účtů.

Pak jsou ovšem tzv. bots, tedy účty zřízené stroji a stroji manipulované. Výzkumníci z University of Southern California a Indiana University odhadují že jich je 9 až 15 % , nicméně, jejich strojová detekce není zdaleka tak jednoduchá.

Jak třeba naložit s účty, které automaticky posílají na Twitter vaše nově publikovaná videa na YouTube? Twitter se snaží s boty dlouhodobě bojovat a zabíjet je, takže životnost některých účtů je velmi malá.

Navíc je tu ještě jeden problém. Na Twitteru spolehlivě funguje tzv. Matoušův efekt. Čím větší je účet na Twitteru, tím větší má šanci, že dostane víc nových followerů, a to jak od botů, které se snaží prostě přemísťovat po grafu podle spojnic, a ty vedou k větším účtům častěji než k menším, tak protože jsou větší účty častěji nabízeny k následování.

Zde nastává další problém. Twitter vrací seznamy followerů od nejnovějších po nejstarší. V praxi tak máte mnohem větší šanci mezi účty, které vidíte na seznamu followerů ve webovém rozhraní, vidět směsku divných účtů, než na jeho konci.

To je důvod, proč nemá smysl zkoumat posledních X followerů účtu, ale vždy účet celý.

Pár čísel z domácího Twitteru

Vraťme se k nyní k twitterovému účtu Andreje Babiše. Protože jsem se problémem toho, kolik má český Twittter uživatelů a jak se chovají, zabýval už v minulosti, vyhrabal jsem jeden starší dataset ze září 2015, který obsahuje seznam a detaily k vybraným followerům (seznam níže v tabulce).

Před pár dny jsem si stáhl aktuální seznam followerů Andreje Babiše. Tentokrát jsem ale použil knihovnu rtweet. Výsledný seznam je ke stažení zde.

V knihovně rtweet se nejdříve stahují ID uživatelů a pak k nim detaily. Twitter mi odmítl vrátit detaily k 22 776 účtům z celkového počtu 314 093 Babišových followerů, automaticky jsem s nimi tedy pracoval jako podezřelými (víc dále).

Pokud se podívám na zmíněný dataset ze září 2015, najdeme v něm údaje o celkem 391 379 unikátních twitterových účtech. Median počtu followerů lidí, kteří followují naše účty, jsou pouzí dva followeři, průměr pak 377.

To potvrzuje, že počty followerů na Twitteru jsou velmi nerovnoměrně distribuované. Přesněji, v našem vzorku má 75 % účtů 8 nebo méně followerů. A 99 % účtů z našeho datasetu má 724 nebo méně followerů.

Čím více má účet followerů, tím více bude pravděpodobně jejich struktura podobná průměrné populaci českého Twitteru, naopak čím méně má followerů, tím větší je šance, že se od ní bude (třeba i radikálně) lišit.

Pojďme s podívat na počty účtů, které jsou odlišné od běžného očekávání, nemají třeba žádného followera, nikdy nepublikovaly žádný status, nemají popisku a podobně. Tedy vhodné adepty na klasifikaci jako podezřelý účet. V našem datasetu ze září 2015 vypadají následovně:

Zaměřil jsem se jen na jednu hodnotu, a to počet účtů s nulovým počtem followerů v poměru k celkovému počtu followerů. Pokud si je vyneseme na graf uvidíme (po logaritmizaci) tohle:

Co nás ale zajímá teď, je otázka, jak dopadne v tomto modelu účet Andreje Babiše v roce 2017.

Přidejme tedy účet @andrejbabis z roku 2017 k našemu datasetu a nevrácených 22 776 přičtěme k těm účtům, které jsou brány jako účty s nula followery. Výsledek je následující:

Zdá se, že účet Andreje Babiše je svými followers přesně tam, kde má být.

Kolik má Babiš falešných následovníku? Je možné, že jich má plno, nicméně to nejde zjistit tak jednoduše, jak to vypadalo na první pohled.

Z pohledu prezentovaných kritérií nevypadá účet @andrejbabis jako nějak zvlášt jiný, než ostatní zkoumané účty.

Pop-up mobil Mobile (207451)
SMR mobil článek Mobile (207411)
SMR mobil článek 2 Mobile (207416)
SMR mobil článek 2 Mobile (207416-2)
SMR mobil článek 2 Mobile (207416-3)
SMR mobil pouze text Mobile (207431)

Líbil se vám tento text? Pokud nás podpoříte, bude budoucnost HlídacíPes.org daleko jistější.

Přispět 50 KčPřispět 100 KčPřispět 200 KčPřispět 500 KčPřispět 1000 Kč

LockPlatbu on-line zabezpečuje Darujme.cz

Skyscraper 2 Desktop (211796-4)