Co si o nas povida internet

Analyza dat je krasna prace. Clovek se tak nauci ruzne nastroje, ktere mu umoznuji shromazdovat a nasledne analyzovat obrovsky mnozstvi zaznamu. Ja trebas aktualne zpracovavam az 5 miliard dat denne. Neni to malo ? 🙂 Nicmene, muj zajem o data se tyka trafficu domen. Tzn prakticky by cela prace sla shrnout jen do hledani domen s rozumne velkou navstevnosti realnych lidi. Vse ostatni je pro me bezcenne. Urcity problem ale nastava v situaci, kdy zjistim, ze z 5 miliard zaznamu denne je pro me pouzitelnych zhruba 0,1%. Co pak ale obsahuje tech zbyvajicich 99,9% trafficu ?
Pro konkretni pripady jsem zvolil jako zdroj dat primo svuj parking. Pokud vemu zakladni data ze vcerejsiho dne 27.5.2022, pak plati:
- 332.711.509 hitu na webserver
- 63.062 unikatnich domen
- 191.218.433 GET pozadavku
- 138.850.276 POST pozadavku
- 2.642.800 ostatni pozadavku (OPTIONS, HEAD, PUT, DELETE, …)
Z poctu je videt, ze skoro polovina requestu se tykala POST (tzn posila data nam) a nikoliv GET (ziskava data od nas). Kdyz se mrkneme jeste nejprve na GET blize, tak pokud by se jednalo o bezneho uzivatele internetu, pozadoval by po nas nejakou HTML stranku, takze pozadavek by obsahoval Content-Type: text/html. Jenze co nam rikaji statistiky ?
- 181.767.083 nema vyplneny Content-Type
- 6.498.367 ma application/jsonx
- 983.111 ma application/x-stream
- 725.617 ma application/json
- 465.053 ma text/html
- 325.201 ma application/json; charset=utf-8
- 234.772 ma application/x-www-form-urlencoded
- 140.323 ma application/json
- 17.672 ma text/plain
- 13.981 ma text/xml; charset=UTF-8
- 47.253 ma vsemozny ostatni varianty
Tohle je uz ale trochu desivy. 181 milionu hitu ze 191 milionu hitu .. tedy 95% vsech hitu za cely den nema vyplneny Content-Type. Vsechny regulerni prohlizece ho ale vyplnuji. Jedna se tedy o traffic robotu, aplikaci, pripadne od viru, malware, atd … 6,5 milionu hitu + 725 tisic hitu vyzaduje v odpovedi JSON data – tedy se jedna opet o pozadavky predevsim od aplikaci a skodliveho software na ruzne JSON konfigurace. 983 tisic hitu vyzaduje nejaky datovy stream. Az teprve 465 tisic hitu (tj hluboce pod 1%) vyzaduje text/html a to se muzeme jeste prit o to kolik je z toho realny uzivatel, protoze vetsina prohlizecu v tom posila i dalsi parametry jako je trebas jazyk, nebo znakova sada. Tudiz, tady jsme si ukazali ze uz i na GET pozadavcich jde o drtivou vetsinu pouze a jen o robotickou navstevnost. Co nam ale na server chce prijit za data (POST) ?
- 69.614.050 ma ruzne varianty x-www-form-urlencode – tedy snazi se nam poslat nejaky vetsi data (a casto to byvaji i soubory)
- 52.117.244 ma ruzne varianty application/json – tedy posila nam JSON data
- 16.824.371 ma vsechny mozne ostatni Content-Type (bez CT, octet-stream, text/plain, atd..)
- 294.611 ma multipart/form-data – tedy posila vice ruznych dat
Pak nastava jeste otazka kdo a proc nam nejaky data vubec posila ?
- 85.761.329 se identifikuje jako Android – z toho 72.858.642 jako Dalvik
- 20.688.844 se identifikuje jako okhttp
- 12.935.929 se identifikuje jako Windows
- 10.345.940 nema vyplneny User-Agent
- 3.162.529 se identifikuje jako Java
- 622.701 se identifikuje jako iPhone
- 260.727 se identifikuje jako Curl
- 190.416 se identifikuje jako Linux (bez Android)
- 110.776 se identifikuje jako OS X
Dalvik a okhttp jsou HTTP klienti pouzivany v Android OS. Z vystupu vyse je az silene, ze drtiva vetsina POST requestu na server je z Android zarizeni. Ve srovnani se sotva 0,2% hitu z IOS/OSX zarizeni to zni jeste desiveji.

V tuhle chvili nijak nezpracovavam ty data co se posilaji pres POST pozadavek. Nicmene, pro ucely dalsiho dilu tohoto clanku to u svych parkovanych domen nastavim, protoze se jeste budem mozna divit co se siri internetem. Zatim se tedy zkusme podivat na domeny jako takovy a jejich URI adresy kam se ty data posilaji, a zkusme hadat co tam asi tak poleze.
TOP 10 domen:
- 35.500.460 – czshuju.com
- 11.926.172 – spndownload.com
- 7.854.546 – lslinker.com
- 6.842.106 – i360box.com
- 6.397.282 – x8noiklan.com
- 6.010.309 – sen-sdk.com
- 3.430.774 – liquidlink.io
- 3.045.418 – x8sz.com
- 2.924.063 – pv3c2q.com
- 2.768.485 – playergetlist.com
Nejsou to teda zadne troskari 🙂 Miliony pozadavku za jediny den 🙂 Pojdme na ne mrknout detailne:
czshuju.com
100% trafficu je na /api URL, s content-type pro JSON. Bez detailu tedy nelze rict co se na server posila.
98% trafficu je z Ciny, 2% z HongKongu
spndownload.com
Traffic je z „okhttp“ klienta, a pravdepodobne nejaka aplikace posila sve logy + nejake dalsi informace. Nejcastejsi URL jsou:
- 11.331.330 – /cms/app/region
- 241.586 – /qs/update/update.php
- 98.671 – /cms/key/mget
- 50.186 – /v1/googleplay/notice
- 48.195 – /qs/pstat/plog.php
- 36.004 – /vpn/server/upload
- 21.290 – /channel/nav
- 13.761 – /v2/hotkey/listtype
- 13.722 – /vpn/v6/server/info
- 11.907 – /cms/test/dl_supervpn_watchvideo
50% trafficu je z Iranu, pak nemaly mnozstvi z Indonesie, USA, Indie, Mynamaru, atd..
Po trose googlovani by se snad melo jednat o aplikaci k VPN pripojeni pro Android (jak jinak :D)
lslinker.com
Tato domena ma pouze dva URI pointy, a to /datetime.php a /report.php. Na report jde zhruba asi 10% trafficu.
Primarne ma evropsky traffic, nejvice DE, BE, PT, FR …
A melo by se jednat o neco co jede ve Windows.
i360box.com
Dalsi z Android rodiny.
- 6.752.108 – /api/ghl.do
- 14.975 – /api/vsp/report.do
- 14.589 – /api/vsp/reportDeviceInstalledApps.do
- 14.588 – /api/vsp/getDeletePluginAppList.do
- 14.578 – /api/vsp/getMediaApps.do
- 14.577 – /api/vsp/getVspConfig.do
- 14.515 – /api/vsp/getDeviceInfo.do
- 612 – /api/getServerTime.do
- 546 – /api/eventReport.do
- 350 – /api/getAdInfoById.do
90% Trafficu je Cina, pote nasleduje HK, ES, US, MY, JP …
Google me moc nepomohl, takze tady netusim co by mohlo byt obsahem, ale nelibi se mi tech cca 14 tisic requestu na API ohledne prehledu instalovanych aplikaci, atd … uvidime
x8noiklan.com
Dalsi Android domena, tentokrat 99% traffic pouze a jen z Indonesie:
- 6.358.119 /
- 39.163 /modbybudiramadhan
Jedna se o POST dotazy s x-www-form-urlencoded, tedy na 90% nejaky soubory.
Podle google by snad mohlo jit o nejakou „Domino“ hru, tezko rict ale co posila za data v takovym mnozstvi.
sen-sdk.com
Opet dalsi Android domena.
- 6.008.274 – /sync_data
- 1.364 – /im2
- 304 – /v4/com.game.candywitch.cookie.stars.free/crash.php
- 259 – /sync
- 56 – /ic2
- 10 – /initoffer
- 10 – /install/whole
- 7 – /checkfgeAndDist
- 6 – /event
- 4 – /checkfge
Traffic primarne z Ciny (90%) ale take i z dalsich asijskych zemich – TH, ID, VN, LA, HK …
Protoze to ma v 99% x-www-form-urlencoded data, desi me uplne vyskyt te adresy zde: https://aapks.com/apk/sweet-selfie-lite/version/48265953/ – copak nam asi aplikace na domenu posila ? (spekulace)
liquidlink.io
Tohle je hodne zajimava domena, zde se vola nejaky API, kde vetsina pozadavku vypada takto:
/api/v2/android/af28wj/stats/events?certFinger=F0%3ABD%3A27%3AD4%3A0E%3A77%3A7E%3A2B%3A91%3A52%3AE2%3A23%3A19%3A16%3AD1%3A62%3A37%3A19%3AB9%3ABA&macAddress=02%3A00%3A00%3A00%3A00%3A00&serialNumber=unknown&apiVersion=2.3.0&dcc=&deviceId=&pkg=com.nuts.extremspeedup&version=10&installId=cf8f3a7af1a2ca10dc3db66f&androidId=53b2aabbf0597a5d&versionCode=7×tamp=1653613199311
/api/v2/android/af28wj/init?certFinger=F0%3ABD%3A27%3AD4%3A0E%3A77%3A7E%3A2B%3A91%3A52%3AE2%3A23%3A19%3A16%3AD1%3A62%3A37%3A19%3AB9%3ABA&macAddress=02%3A00%3A00%3A00%3A00%3A00&serialNumber=unknown&apiVersion=2.3.0&dcc=&deviceId=&pkg=com.nuts.extremspeedup&version=10&installId=&androidId=82b96e03fd1b2b2f&versionCode=7×tamp=1653613197858
/api/v2/android/af28wj/init?certFinger=F0%3ABD%3A27%3AD4%3A0E%3A77%3A7E%3A2B%3A91%3A52%3AE2%3A23%3A19%3A16%3AD1%3A62%3A37%3A19%3AB9%3ABA&macAddress=02%3A00%3A00%3A00%3A00%3A00&serialNumber=unknown&apiVersion=2.3.0&dcc=&deviceId=&pkg=com.nuts.extremspeedup&version=11&installId=&androidId=583225afeddad48e&versionCode=7×tamp=1653612785683
/api/v2/android/af28wj/init?certFinger=F0%3ABD%3A27%3AD4%3A0E%3A77%3A7E%3A2B%3A91%3A52%3AE2%3A23%3A19%3A16%3AD1%3A62%3A37%3A19%3AB9%3ABA&macAddress=02%3A00%3A00%3A00%3A00%3A00&serialNumber=unknown&apiVersion=2.3.0&dcc=&deviceId=&pkg=com.nuts.extremspeedup&version=11&installId=&androidId=b11a83a720a0bb87&versionCode=7×tamp=1653612844685
jsou tam v 90% Android zarizeni a 10% i IOS. Traffic z celeho sveta.
x8sz.com
Dalsi domena z Android rodiny 🙂
- 1685516 – /api/accstat/
- 733133 – /api/updatesdk/
- 209393 – /api/accvalue/
- 209298 – /api/x8status/
- 207992 – /api/sdknotices/
- 81 – /api/updatecdk/
- 5 – /api/apdatesdk/
Traffic je z 95% pouze Indonesie, a zbylych 5% pak ruzne zeme z Asie
pv3c2q.com
Tentokrat domena z rodiny Windows systemu.
Na tuto domenu je pristup pouze a jen na / – tedy koren domeny bez zadnych parametru, atd …
Vetsina trafficu (95%) je ze Spanelska, pak nasleduje Maroko, Francie, Israel, US, Irak, …
O domene Google vubec nic nevi, jen ji videl v Droplistu, a pak na mem parkingu.
playergetlist.com
Posledni domena se mi nelibi 🙂 Nema vyplneny user-agent, content-type odkazuje na urlencoded form data, takze muze (a nemusi) jit o soubory.
2408708 – /nmpsp_server/ali/turn/service
359765 – /ali/service
Traffic je primarne z Ciny. Pak neco malo z US, HK, a dalsich.
Pri hledani co je nmpsp_server jsem nasel cinsky blog s kusem kodu: https://blog.51cto.com/embeddedaskbai/774228 a pri hledani domeny pak jiny post: http://my.lcdhome.net/read-htm-tid-248053-displayMode-1.html
Tohle je jen takova mala ukazka toho co pres internet tece, toho jak drtiva vetsina lidi netusi co jejich telefony/pocitace posilaji a toho, jak na prvni pohled je Android za me docela nebezpecny system. Upravim parkovaci software tak, aby ty POST requesty zpracovaval a sepisu pokracovani tohoto clanku, a ukazem si co konkretne se z nasich nezabezpecenych zarizeni siri.
Uprimne, uz me desi ted co zjistim.
Raddo -
Super clanok 👍🏻😊