Trendy ve svete vs. RSS zdroje

Uz nez se u nas rozjela medialni masinerie na tema COVID-19 byly domainery zaregistrovany tematicky domeny. Jak mohli o tom vedet tak brzo ? Protoze sleduji deni, ktere se do nasi malicke kotliny dostava az se spozdenim.

Napadlo me, kdyz uz mam ty RSS zdroje, udelal malou analyzu jestli se vyplati nejak vic sledovat statistiky vyplyvajici ze svetovych trendu (samozrejme vyplati, ale clovek musi mit spravna a relevantni data).

RSS sbiram uz nekdy od prosince, vybral jsem tedy vcerejsi den „dvacateho“ dle UTC casu a vytahl si pocty ten den nactenych svetovych prispevku.

V Prosinci jsem si s tim jeste hral, proto je tam malo dat, nicmene od ledna do brezna jsem byl mimo republiku na ceste kolem sveta, takze zdroje se pouzivali stejne – je zde tedy videt docela brutalni narust mezi 20. lednem 2020 a 20. breznem 2020 a to cca o 80%.

 

Datum Počet clanku
2019-12-20 539.914
2020-01-20 1.080.503
2020-02-20 1.265.729
2020-03-20 1.857.075

ElasticSearch mi umoznuje udelat tkzv. significant aggregaci nad datama, pro vstup jsem pouzil tedy „title“ a vytahl TOP 20 slovicek z titulku vsech clanku pro dany obdobi:

2019-12-20 2020-01-20 2020-02-20 2020-03-20
7386 christmas 23523 porno 34421 diagram 49915 black
4047 piercing 21050 rss 27362 wiring 46754 coronavirus
4046 plug 9423 livre 27138 porno 30199 light
3868 december 9229 livres 21122 service 27354 white
3536 acryl 8537 landscape 17410 manual 22880 shirt
3098 ohrschmuck 3726 sag 15714 repair 22826 blue
2432 schraub 3650 schlafzimmer 10380 resume 17832 covid
748 batteri 2729 jungle 3637 hanau 16344 leather
684 silbern 1358 miroir 2912 bloomberg 15959 dress
594 charmel 1336 aix 340 tesler 13847 adidas
507 [utf-8] 1323 tricot 337 dotafrog 13805 womens
442 [utf-8] 1314 naipaul 282 onhax 12744 navy
366 vva 1285 travers 242 nebria 11667 mens
135 plastisch 1102 schreibtische 221 [utf-8] 10126 corona
133 stumellenker 481 [utf-8] 190 [utf-8] 9896 predaj
111 gotype 481 [utf-8] 190 [utf-8] 9502 prenajom
85 fianitom 462 [utf-8] 175 [utf-8] 5380 priestory
78 rapalyte 394 [utf-8] 163 [utf-8] 5165 dakine
48 [utf-8] 359 dalvey 141 [utf-8] 4082 chaussure
48 [utf-8] 131 orospi 139 [utf-8] 3721 administrativne

Data v cinstine, japonstine, arabstine jsem nahradil za [utf-8] znacku. Nicmene, z vyse uvedene tabulky lze videt nasledujici:

  • RSS zdroje nelze pouzit pro trends ?
  • v RSS zdrojich se pletou eshopy :-/
  • nebo ES zvlastne pocita ty hodnoty
  • nebo to mam cele blbe 😀

Proto jsem zkusil vytahnout jeste jednu tabulku, a to vyskyt jednotlivych vyrazu: coronavirus, corona, covid pro ty same dny:

Datum coronavirus corona covid
2019-12-20 0 39 0
2020-01-20 844 101 0
2020-02-20 5.099 603 1.252
2020-03-20 46.754 10.126 17.832

Zde je trend uz jasne viditelny. Nejdrive zacali clanky na tema coronavirus, a pozdeji se pridaly na covid-19 kdyz dostal virus pojmenovani. Zkusil jsem jeste vytahnout data, ne pro konkretni nesmyslne dny, ale pro cele mesice:

Datum coronavirus corona covid
2019-12 7 1.050 2
2020-01 80.617 14.006 197
2020-02 276.004 33.611 29.137
2020-03 730.611 96.493 172.467

V ramci mesicni statistiky uz neni o cem diskutovat, ten trend je zcela jasny, a je spise otazka co presne pocita significant agregace a jak docilit vytazeni spravnych dat z tech nekolika desitek milionu zaznamu.

Podivame-li se na .CZ domeny, tak nejstarsi domena obsahujici „coronavirus“ je primo coronavirus.cz registrovana 24.1.2020 a koronavirus.cz registrovana 23.1.2020. Domeny covid.cz, covid-19.cz a covid19.cz byly registrovany az 11.2.2020. Se vcasnou analyzou by tady bylo tedy dost casu si tyto domeny regnout drive, nez o tom zacali ceska media vyrazne psat.

V pripade .COM je to uplne mimo 🙂 coronavirus.com byla registrovana jiz v roce 2002. Nicmene domena covid-19.com byla taktez az 11.2.2020 jako .CZ varianta.

Takze ukol do priste je naprosto jasny – je treba vymyslet algoritmus kterym se vytahne statistika slov z titulku RSS clanku (desitky miliony zaznamu, stovky milionu az miliardy slov) a pokusit se zacit sledovat svetove trendy pro vcasne registrace predevsim .COM domen 🙂

1 komentář: „Trendy ve svete vs. RSS zdroje

Napsat komentář

Vaše emailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *

Tato stránka používá Akismet k omezení spamu. Podívejte se, jak vaše data z komentářů zpracováváme..