Franta – Občasník malého ajťáka

Domény, Hosting, Cestování

Co si o nas povida internet

Analyza dat je krasna prace. Clovek se tak nauci ruzne nastroje, ktere mu umoznuji shromazdovat a nasledne analyzovat obrovsky mnozstvi zaznamu. Ja trebas aktualne zpracovavam az 5 miliard dat denne. Neni to malo ? 🙂 Nicmene, muj zajem o data se tyka trafficu domen. Tzn prakticky by cela prace sla shrnout jen do hledani domen s rozumne velkou navstevnosti realnych lidi. Vse ostatni je pro me bezcenne. Urcity problem ale nastava v situaci, kdy zjistim, ze z 5 miliard zaznamu denne je pro me pouzitelnych zhruba 0,1%. Co pak ale obsahuje tech zbyvajicich 99,9% trafficu ?

Pro konkretni pripady jsem zvolil jako zdroj dat primo svuj parking. Pokud vemu zakladni data ze vcerejsiho dne 27.5.2022, pak plati:

  • 332.711.509 hitu na webserver
  • 63.062 unikatnich domen
  • 191.218.433 GET pozadavku
  • 138.850.276 POST pozadavku
  • 2.642.800 ostatni pozadavku (OPTIONS, HEAD, PUT, DELETE, …)

Z poctu je videt, ze skoro polovina requestu se tykala POST (tzn posila data nam) a nikoliv GET (ziskava data od nas). Kdyz se mrkneme jeste nejprve na GET blize, tak pokud by se jednalo o bezneho uzivatele internetu, pozadoval by po nas nejakou HTML stranku, takze pozadavek by obsahoval Content-Type: text/html. Jenze co nam rikaji statistiky ?

  • 181.767.083 nema vyplneny Content-Type
  • 6.498.367 ma application/jsonx
  • 983.111 ma application/x-stream
  • 725.617 ma application/json
  • 465.053 ma text/html
  • 325.201 ma application/json; charset=utf-8
  • 234.772 ma application/x-www-form-urlencoded
  • 140.323 ma application/json
  • 17.672 ma text/plain
  • 13.981 ma text/xml; charset=UTF-8
  • 47.253 ma vsemozny ostatni varianty

Tohle je uz ale trochu desivy. 181 milionu hitu ze 191 milionu hitu .. tedy 95% vsech hitu za cely den nema vyplneny Content-Type. Vsechny regulerni prohlizece ho ale vyplnuji. Jedna se tedy o traffic robotu, aplikaci, pripadne od viru, malware, atd … 6,5 milionu hitu + 725 tisic hitu vyzaduje v odpovedi JSON data – tedy se jedna opet o pozadavky predevsim od aplikaci a skodliveho software na ruzne JSON konfigurace. 983 tisic hitu vyzaduje nejaky datovy stream. Az teprve 465 tisic hitu (tj hluboce pod 1%) vyzaduje text/html a to se muzeme jeste prit o to kolik je z toho realny uzivatel, protoze vetsina prohlizecu v tom posila i dalsi parametry jako je trebas jazyk, nebo znakova sada. Tudiz, tady jsme si ukazali ze uz i na GET pozadavcich jde o drtivou vetsinu pouze a jen o robotickou navstevnost. Co nam ale na server chce prijit za data (POST) ?

  • 69.614.050 ma ruzne varianty x-www-form-urlencode – tedy snazi se nam poslat nejaky vetsi data (a casto to byvaji i soubory)
  • 52.117.244 ma ruzne varianty application/json – tedy posila nam JSON data
  • 16.824.371 ma vsechny mozne ostatni Content-Type (bez CT, octet-stream, text/plain, atd..)
  • 294.611 ma multipart/form-data – tedy posila vice ruznych dat

Pak nastava jeste otazka kdo a proc nam nejaky data vubec posila ?

  • 85.761.329 se identifikuje jako Android – z toho 72.858.642 jako Dalvik
  • 20.688.844 se identifikuje jako okhttp
  • 12.935.929 se identifikuje jako Windows
  • 10.345.940 nema vyplneny User-Agent
  • 3.162.529 se identifikuje jako Java
  • 622.701 se identifikuje jako iPhone
  • 260.727 se identifikuje jako Curl
  • 190.416 se identifikuje jako Linux (bez Android)
  • 110.776 se identifikuje jako OS X

Dalvik a okhttp jsou HTTP klienti pouzivany v Android OS. Z vystupu vyse je az silene, ze drtiva vetsina POST requestu na server je z Android zarizeni. Ve srovnani se sotva 0,2% hitu z IOS/OSX zarizeni to zni jeste desiveji.

V tuhle chvili nijak nezpracovavam ty data co se posilaji pres POST pozadavek. Nicmene, pro ucely dalsiho dilu tohoto clanku to u svych parkovanych domen nastavim, protoze se jeste budem mozna divit co se siri internetem. Zatim se tedy zkusme podivat na domeny jako takovy a jejich URI adresy kam se ty data posilaji, a zkusme hadat co tam asi tak poleze.

TOP 10 domen:

  • 35.500.460 – czshuju.com
  • 11.926.172 – spndownload.com
  • 7.854.546 – lslinker.com
  • 6.842.106 – i360box.com
  • 6.397.282 – x8noiklan.com
  • 6.010.309 – sen-sdk.com
  • 3.430.774 – liquidlink.io
  • 3.045.418 – x8sz.com
  • 2.924.063 – pv3c2q.com
  • 2.768.485 – playergetlist.com

Nejsou to teda zadne troskari 🙂 Miliony pozadavku za jediny den 🙂 Pojdme na ne mrknout detailne:


czshuju.com

100% trafficu je na /api URL, s content-type pro JSON. Bez detailu tedy nelze rict co se na server posila.

98% trafficu je z Ciny, 2% z HongKongu

spndownload.com

Traffic je z „okhttp“ klienta, a pravdepodobne nejaka aplikace posila sve logy + nejake dalsi informace. Nejcastejsi URL jsou:

  • 11.331.330 – /cms/app/region
  • 241.586 – /qs/update/update.php
  • 98.671 – /cms/key/mget
  • 50.186 – /v1/googleplay/notice
  • 48.195 – /qs/pstat/plog.php
  • 36.004 – /vpn/server/upload
  • 21.290 – /channel/nav
  • 13.761 – /v2/hotkey/listtype
  • 13.722 – /vpn/v6/server/info
  • 11.907 – /cms/test/dl_supervpn_watchvideo

50% trafficu je z Iranu, pak nemaly mnozstvi z Indonesie, USA, Indie, Mynamaru, atd..

Po trose googlovani by se snad melo jednat o aplikaci k VPN pripojeni pro Android (jak jinak :D)

lslinker.com

Tato domena ma pouze dva URI pointy, a to /datetime.php a /report.php. Na report jde zhruba asi 10% trafficu.

Primarne ma evropsky traffic, nejvice DE, BE, PT, FR …

A melo by se jednat o neco co jede ve Windows.

i360box.com

Dalsi z Android rodiny.

  • 6.752.108 – /api/ghl.do
  • 14.975 – /api/vsp/report.do
  • 14.589 – /api/vsp/reportDeviceInstalledApps.do
  • 14.588 – /api/vsp/getDeletePluginAppList.do
  • 14.578 – /api/vsp/getMediaApps.do
  • 14.577 – /api/vsp/getVspConfig.do
  • 14.515 – /api/vsp/getDeviceInfo.do
  • 612 – /api/getServerTime.do
  • 546 – /api/eventReport.do
  • 350 – /api/getAdInfoById.do

90% Trafficu je Cina, pote nasleduje HK, ES, US, MY, JP …

Google me moc nepomohl, takze tady netusim co by mohlo byt obsahem, ale nelibi se mi tech cca 14 tisic requestu na API ohledne prehledu instalovanych aplikaci, atd … uvidime

x8noiklan.com

Dalsi Android domena, tentokrat 99% traffic pouze a jen z Indonesie:

  • 6.358.119 /
  • 39.163 /modbybudiramadhan

Jedna se o POST dotazy s x-www-form-urlencoded, tedy na 90% nejaky soubory.

Podle google by snad mohlo jit o nejakou „Domino“ hru, tezko rict ale co posila za data v takovym mnozstvi.

sen-sdk.com

Opet dalsi Android domena.

  • 6.008.274 – /sync_data
  • 1.364 – /im2
  • 304 – /v4/com.game.candywitch.cookie.stars.free/crash.php
  • 259 – /sync
  • 56 – /ic2
  • 10 – /initoffer
  • 10 – /install/whole
  • 7 – /checkfgeAndDist
  • 6 – /event
  • 4 – /checkfge

Traffic primarne z Ciny (90%) ale take i z dalsich asijskych zemich – TH, ID, VN, LA, HK …

Protoze to ma v 99% x-www-form-urlencoded data, desi me uplne vyskyt te adresy zde: https://aapks.com/apk/sweet-selfie-lite/version/48265953/ – copak nam asi aplikace na domenu posila ? (spekulace)

liquidlink.io

Tohle je hodne zajimava domena, zde se vola nejaky API, kde vetsina pozadavku vypada takto:

/api/v2/android/af28wj/stats/events?certFinger=F0%3ABD%3A27%3AD4%3A0E%3A77%3A7E%3A2B%3A91%3A52%3AE2%3A23%3A19%3A16%3AD1%3A62%3A37%3A19%3AB9%3ABA&macAddress=02%3A00%3A00%3A00%3A00%3A00&serialNumber=unknown&apiVersion=2.3.0&dcc=&deviceId=&pkg=com.nuts.extremspeedup&version=10&installId=cf8f3a7af1a2ca10dc3db66f&androidId=53b2aabbf0597a5d&versionCode=7&timestamp=1653613199311
/api/v2/android/af28wj/init?certFinger=F0%3ABD%3A27%3AD4%3A0E%3A77%3A7E%3A2B%3A91%3A52%3AE2%3A23%3A19%3A16%3AD1%3A62%3A37%3A19%3AB9%3ABA&macAddress=02%3A00%3A00%3A00%3A00%3A00&serialNumber=unknown&apiVersion=2.3.0&dcc=&deviceId=&pkg=com.nuts.extremspeedup&version=10&installId=&androidId=82b96e03fd1b2b2f&versionCode=7&timestamp=1653613197858
/api/v2/android/af28wj/init?certFinger=F0%3ABD%3A27%3AD4%3A0E%3A77%3A7E%3A2B%3A91%3A52%3AE2%3A23%3A19%3A16%3AD1%3A62%3A37%3A19%3AB9%3ABA&macAddress=02%3A00%3A00%3A00%3A00%3A00&serialNumber=unknown&apiVersion=2.3.0&dcc=&deviceId=&pkg=com.nuts.extremspeedup&version=11&installId=&androidId=583225afeddad48e&versionCode=7&timestamp=1653612785683
/api/v2/android/af28wj/init?certFinger=F0%3ABD%3A27%3AD4%3A0E%3A77%3A7E%3A2B%3A91%3A52%3AE2%3A23%3A19%3A16%3AD1%3A62%3A37%3A19%3AB9%3ABA&macAddress=02%3A00%3A00%3A00%3A00%3A00&serialNumber=unknown&apiVersion=2.3.0&dcc=&deviceId=&pkg=com.nuts.extremspeedup&version=11&installId=&androidId=b11a83a720a0bb87&versionCode=7&timestamp=1653612844685

jsou tam v 90% Android zarizeni a 10% i IOS. Traffic z celeho sveta.

x8sz.com

Dalsi domena z Android rodiny 🙂

  • 1685516 – /api/accstat/
  • 733133 – /api/updatesdk/
  • 209393 – /api/accvalue/
  • 209298 – /api/x8status/
  • 207992 – /api/sdknotices/
  • 81 – /api/updatecdk/
  • 5 – /api/apdatesdk/

Traffic je z 95% pouze Indonesie, a zbylych 5% pak ruzne zeme z Asie

pv3c2q.com

Tentokrat domena z rodiny Windows systemu.

Na tuto domenu je pristup pouze a jen na / – tedy koren domeny bez zadnych parametru, atd …

Vetsina trafficu (95%) je ze Spanelska, pak nasleduje Maroko, Francie, Israel, US, Irak, …

O domene Google vubec nic nevi, jen ji videl v Droplistu, a pak na mem parkingu.

playergetlist.com

Posledni domena se mi nelibi 🙂 Nema vyplneny user-agent, content-type odkazuje na urlencoded form data, takze muze (a nemusi) jit o soubory.

2408708 – /nmpsp_server/ali/turn/service
359765 – /ali/service

Traffic je primarne z Ciny. Pak neco malo z US, HK, a dalsich.

Pri hledani co je nmpsp_server jsem nasel cinsky blog s kusem kodu: https://blog.51cto.com/embeddedaskbai/774228 a pri hledani domeny pak jiny post: http://my.lcdhome.net/read-htm-tid-248053-displayMode-1.html


Tohle je jen takova mala ukazka toho co pres internet tece, toho jak drtiva vetsina lidi netusi co jejich telefony/pocitace posilaji a toho, jak na prvni pohled je Android za me docela nebezpecny system. Upravim parkovaci software tak, aby ty POST requesty zpracovaval a sepisu pokracovani tohoto clanku, a ukazem si co konkretne se z nasich nezabezpecenych zarizeni siri.

Uprimne, uz me desi ted co zjistim.

Tags:  , ,

One Comment

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna.

Tato stránka používá Akismet k omezení spamu. Podívejte se, jak vaše data z komentářů zpracováváme..