Franta – Občasník malého ajťáka

Domény, Hosting, Cestování

.CZ domény a CMS

Dneska jsem vzal seznam .CZ domen co generuji na cctld.cz, upravil crawlera z minuleho clanku a zkusil se popidit na cem je vlastne provozovana vetsina webu pouzivajici nejake CMS.

Vyhodou vetsiny komercnich (i opensource) CMS systemu je, ze generuji metatag “generator” a podle toho se da pri urcitych upravach provest detekce na jakem CMS system bezi. Neni to uplne perfektni, protoze mnoho webu ma tuto vlastnost vypnutou, a weby na jinych technologiich ji ani nezobrazuji. Nicmene, ciste ze statistickeho pohledu to uz nejaka cisla hodi.

Upravil jsem tedy crawler aby:

  • nacital vzdy jen uvodni stranku
  • zjistil metatag
  • pripadne chybovy kod, pokud se web v poradku nenacte
  • a idealne to jelo v 1000 vlaknech

Vysledkem byl jednoduchy script, ktery projel 1.340.671 domen v radech nizsich desitek minut. U cca 255 tisíc domén doslo k timeoutu na pripojeni, coz ale bylo zpusobeno vetsinou IPS/IDS ochranou webhostingu, a proto jsem tyto zbyle domeny projel jeste dodatecne v mnohem mensim cyklu. Nasledne vygenerovany JSON jsem nacpal do Elastiku abych mohl udelat agregacni statistiky. A jak si tedy CMS systemy v .CZ vedou ?

V elastiku jsem si vytvoril index podle struktury z crawlera:

PUT /cz_generators/
{
    "mappings": {
      "properties": {
            "domain": {
              "type": "keyword"
            },
            "statuscode": {
              "type": "integer"
            },
            "error": {
              "type": "text"
            },
            "generators": {
              "properties": {
                "cms" : {
                  "type": "keyword"
                }, "version": {
                  "type": "keyword"
                }
              }
            }
          }
    }
}

A nasypal do nej data:

user@hdd:~# esbulk -index cz_cms -server http://server:9200 -size 10000 -type _doc -verbose result.json

A co jsme se teda dozvedeli ?

Nejprve tabulku dostupnosti stranek na CZ domenach:

HTTP Status Code Počet domén Poznámka
200 1.078.666 Domena v poradku nacetla nejaky obsah
500 117.924 Internal Server Error
0 73.290 Connection Timeout, Connection Refushed, Certificate Error, DNS problem atd ..
403 30.824 Forbidden
404 20.022 Not found (stránka nenalezena)

Dale zakladni udaje k CMS:

Domen s detektovatelnym CMS 267.289
Domen s nedetektovatelnym CMS 1.073.382

A nyni TOP 10 CMS ktere se pouzivaji na CZ domenach:

WordPress 162.699
Webnode 26.600
Joomla! 22.122
Prestashop 5.240
PSPad 3.571
Site Kit by Google 2.837
WIX.com 2.686
Drupal 2.546
TYPO3 CMS 2.286
InPage 2.151

A jak si na tom stoji CZ domeny dle DNS navstevnosti 100k/den a více ?

HTTP Status Code Počet domén Poznámka
200 1.200 Domena v poradku nacetla nejaky obsah
500 99 Internal Server Error
0 56 Connection Timeout, Connection Refushed, Certificate Error, DNS problem atd ..
403 17 Forbidden
404 8 Not found (stránka nenalezena)

Dale zakladni udaje k CMS:

Domen s detektovatelnym CMS 139
Domen s nedetektovatelnym CMS 1.248

A nyni TOP 10 CMS ktere se pouzivaji na CZ domenach s trafficem 100k/den a vice:

WordPress 76
Joomla! 10
Drupal 7
TYPO3 CMS 5
Plone 3

A co nam tedy jede na WordPressu ?

 

aazdravi.cz
apm.cz
autojournal.cz
autoweb.cz
bcas.cz
bourky.cz
businessinfo.cz
casd.cz
cesnet.cz
cgi.cz
chytrysoftware.cz
cnews.cz
coprosys.cz
czi.cz
drosera.cz
elcoma.cz
eltodo.cz
epochaplus.cz
euro.cz
eurosignal.cz
faster.cz
femina.cz
greenhousing.cz
helapc.cz
humlak.cz
i.cz
idoklad.cz
infinion.cz
jenporno.cz
kaora.cz
krasapromeny.cz
kvados.cz
leady.cz
lepsija.cz
lesycr.cz
living.cz
magazinzahrada.cz
maiva.cz
mamci.cz
money.cz
multisport.cz
myzone.cz
mzcr.cz
nafilmu.cz
necoss.cz
nextis.cz
nwt.cz
omegatech.cz
otechnice.cz
persoo.cz
placenevolani.cz
popeservis.cz
pravyprostor.cz
prazskyden.cz
primawebhosting.cz
procechy.cz
prosvet.cz
qcm.cz
ruik.cz
silinet.cz
skhosting.cz
slavnet.cz
slevarna.cz
sprintel.cz
starnet.cz
suenee.cz
superkancl.cz
svetkreativity.cz
tcservis.cz
ttc.cz
tvguru.cz
ujep.cz
utb.cz
valvera.cz
watchwrestling.cz
zdopravy.cz
zupraha.cz

 

Zde bych jen opravdu rad zduraznil, ze patri mezi TOP100k DNS trafficu, coz neznamena ze maji webovou navstevnost. Domeny mohou mit DNS traffic z jinych duvodu – posta, DNS, PTR, systemovy sluzby, atd …

Zaver

Shrnu-li vyse uvedene statistiky, tak zhruba 1/5 domen obsahuje meta tag generator, tedy ma rozpoznatelny CMS system. Zbytek jsou domeny bez obsahu, s vlastnim systemem, simple HTML strankou, nebo s potlacenym meta tagem generator. Z tech co lze poznat je skoro 30% WordPress, coz je docela zajimave cislo. I mezi velkymi domenami je celkem zastoupeny WordPress, i kdyz zde jsou cisla vyrazne mensi. 10% webu vyuziva nejaky “bezny” CMS a z nich 50% WordPress. Co se mi jeste libi je vyuziti ceskych website generatoru Webnode a InPage ktere se umistili docela pekne 🙂

Co me jeste zaujalo tak jsou verze WP:

bez informace 37.102
5.5.3 29.816
5.4.4 12.867
5.3.6 12.731
4.9.16 10.011
5.2.9 8.128
5.1.8 5.666
4.8.15 4.315
4.7.19 3.707
5.5.1 2.829

Nejstarsi verze ktera se sama napraskala byla pak 2.7.1 kterou ma 45 domen.

(6) Comments

  1. Opětovné/ pravidelné spouštění scriptu - Odpovědět

    Dobrý den,
    bylo by možné akci ještě někdy opakovat? Připadá mi, že počet domén, na kterých je provozováno jedno nejmenované CMS je výrazně vyšší, než vámi naměřený počet. Případně akci opakovat nějak pravidelně, neb poskytnutá data jsou velice zajímavá a bylo užitečné mít nějaký ucelený přehled i zdlouhodoobějšího horizontu, jak se mění zastoupení jednotlivých CMS na českém internetu v čase.

    děkuji a přeji pěkný den

  2. Urcite neni problem. To generovani trva nekolik hodin se vsim vsudy, takze to lze urcite zpracovavat v case.

    O jaky CMS by se melo jednat? Je take otazkou jestli vzdy na web generuje meta tag “generated”, podle ktereho delam prehled.

    Take je nutne nezapomenout, ze se jedna pouze o .CZ domeny. V CR je ale hostovano hodne generiky i EU domen, coz by samozrejme pocty navysilo.

  3. Pingback:.SK domény a CMS – Franta – Občasník malého ajťáka

Napsat komentář: Opětovné/ pravidelné spouštění scriptu Zrušit odpověď na komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *

Tato stránka používá Akismet k omezení spamu. Podívejte se, jak vaše data z komentářů zpracováváme..