Trendy ve svete vs. RSS zdroje

Uz nez se u nas rozjela medialni masinerie na tema COVID-19 byly domainery zaregistrovany tematicky domeny. Jak mohli o tom vedet tak brzo ? Protoze sleduji deni, ktere se do nasi malicke kotliny dostava az se spozdenim.
Napadlo me, kdyz uz mam ty RSS zdroje, udelal malou analyzu jestli se vyplati nejak vic sledovat statistiky vyplyvajici ze svetovych trendu (samozrejme vyplati, ale clovek musi mit spravna a relevantni data).
RSS sbiram uz nekdy od prosince, vybral jsem tedy vcerejsi den „dvacateho“ dle UTC casu a vytahl si pocty ten den nactenych svetovych prispevku.
V Prosinci jsem si s tim jeste hral, proto je tam malo dat, nicmene od ledna do brezna jsem byl mimo republiku na ceste kolem sveta, takze zdroje se pouzivali stejne – je zde tedy videt docela brutalni narust mezi 20. lednem 2020 a 20. breznem 2020 a to cca o 80%.
Datum | Počet clanku |
2019-12-20 | 539.914 |
2020-01-20 | 1.080.503 |
2020-02-20 | 1.265.729 |
2020-03-20 | 1.857.075 |
ElasticSearch mi umoznuje udelat tkzv. significant aggregaci nad datama, pro vstup jsem pouzil tedy „title“ a vytahl TOP 20 slovicek z titulku vsech clanku pro dany obdobi:
2019-12-20 | 2020-01-20 | 2020-02-20 | 2020-03-20 | ||||
7386 | christmas | 23523 | porno | 34421 | diagram | 49915 | black |
4047 | piercing | 21050 | rss | 27362 | wiring | 46754 | coronavirus |
4046 | plug | 9423 | livre | 27138 | porno | 30199 | light |
3868 | december | 9229 | livres | 21122 | service | 27354 | white |
3536 | acryl | 8537 | landscape | 17410 | manual | 22880 | shirt |
3098 | ohrschmuck | 3726 | sag | 15714 | repair | 22826 | blue |
2432 | schraub | 3650 | schlafzimmer | 10380 | resume | 17832 | covid |
748 | batteri | 2729 | jungle | 3637 | hanau | 16344 | leather |
684 | silbern | 1358 | miroir | 2912 | bloomberg | 15959 | dress |
594 | charmel | 1336 | aix | 340 | tesler | 13847 | adidas |
507 | [utf-8] | 1323 | tricot | 337 | dotafrog | 13805 | womens |
442 | [utf-8] | 1314 | naipaul | 282 | onhax | 12744 | navy |
366 | vva | 1285 | travers | 242 | nebria | 11667 | mens |
135 | plastisch | 1102 | schreibtische | 221 | [utf-8] | 10126 | corona |
133 | stumellenker | 481 | [utf-8] | 190 | [utf-8] | 9896 | predaj |
111 | gotype | 481 | [utf-8] | 190 | [utf-8] | 9502 | prenajom |
85 | fianitom | 462 | [utf-8] | 175 | [utf-8] | 5380 | priestory |
78 | rapalyte | 394 | [utf-8] | 163 | [utf-8] | 5165 | dakine |
48 | [utf-8] | 359 | dalvey | 141 | [utf-8] | 4082 | chaussure |
48 | [utf-8] | 131 | orospi | 139 | [utf-8] | 3721 | administrativne |
Data v cinstine, japonstine, arabstine jsem nahradil za [utf-8] znacku. Nicmene, z vyse uvedene tabulky lze videt nasledujici:
- RSS zdroje nelze pouzit pro trends ?
- v RSS zdrojich se pletou eshopy :-/
- nebo ES zvlastne pocita ty hodnoty
- nebo to mam cele blbe 😀
Proto jsem zkusil vytahnout jeste jednu tabulku, a to vyskyt jednotlivych vyrazu: coronavirus, corona, covid pro ty same dny:
Datum | coronavirus | corona | covid |
2019-12-20 | 0 | 39 | 0 |
2020-01-20 | 844 | 101 | 0 |
2020-02-20 | 5.099 | 603 | 1.252 |
2020-03-20 | 46.754 | 10.126 | 17.832 |
Zde je trend uz jasne viditelny. Nejdrive zacali clanky na tema coronavirus, a pozdeji se pridaly na covid-19 kdyz dostal virus pojmenovani. Zkusil jsem jeste vytahnout data, ne pro konkretni nesmyslne dny, ale pro cele mesice:
Datum | coronavirus | corona | covid |
2019-12 | 7 | 1.050 | 2 |
2020-01 | 80.617 | 14.006 | 197 |
2020-02 | 276.004 | 33.611 | 29.137 |
2020-03 | 730.611 | 96.493 | 172.467 |
V ramci mesicni statistiky uz neni o cem diskutovat, ten trend je zcela jasny, a je spise otazka co presne pocita significant agregace a jak docilit vytazeni spravnych dat z tech nekolika desitek milionu zaznamu.
Podivame-li se na .CZ domeny, tak nejstarsi domena obsahujici „coronavirus“ je primo coronavirus.cz registrovana 24.1.2020 a koronavirus.cz registrovana 23.1.2020. Domeny covid.cz, covid-19.cz a covid19.cz byly registrovany az 11.2.2020. Se vcasnou analyzou by tady bylo tedy dost casu si tyto domeny regnout drive, nez o tom zacali ceska media vyrazne psat.
V pripade .COM je to uplne mimo 🙂 coronavirus.com byla registrovana jiz v roce 2002. Nicmene domena covid-19.com byla taktez az 11.2.2020 jako .CZ varianta.
Takze ukol do priste je naprosto jasny – je treba vymyslet algoritmus kterym se vytahne statistika slov z titulku RSS clanku (desitky miliony zaznamu, stovky milionu az miliardy slov) a pokusit se zacit sledovat svetove trendy pro vcasne registrace predevsim .COM domen 🙂
Raddo -
Super, pozeram ze na sk niekto vyuzil domenu koronavIrus sk pre eshop.. registrovana 25.1.2020