Google se stal jedničkou na trhu i díky velmi rychlé indexaci nových stránek. Využívá různé důmyslné metody, které mu umožňují hledat nový obsah a jakmile ho najde, tak ho co nejdříve projde robotem, zpracuje a publikuje. Většina obsahu je tak na Google do několika hodin, aktivní producenti obsahu mohou dokonce být v indexu do několika minut. Co ale dělat, pokud se vám to nedaří ani v řádech dnů?
Duplicita a nekvalitní obsah
I nekvalitní obsah se může dostat do indexu Google. To samé platí i o okopírovaném textu. Google počítá s tím, že každý obsah může být za určitých okolností důležitý. I když je pravda, že ten méně kvalitní a duplicitní posouvá hodně hluboko, takže jej vlastně nikdo nenajde.
Ovšem velké množství nekvalitního a duplicitního obsahu má jeden důsledek a tím je právě pomalejší indexace. Robot Google postupně prochází jednu stránku za druhou. Přeskakuje mezi nimi díky odkazům. Vaše stránka má nějakou hierarchii, kdy jednotlivé stránky na sebe postupně odkazují.
Problém nastává, když je na nějakou podstránku těžké se dostat. Například z hlavní stránky musíte kliknout na kategorii, pak 5x další než se dostanete na 6tou stránku dané kategorie z které vede odkaz na konkrétní podstránku. Čím hlouběji musíte jít, tím náročnější to pro Google je.
Pokud bude obsah na vašem webu celkově nekvalitní či duplicitní dlouhodobě. Může se Googel vracet jen jednou za pár dnů. Při té návštěvě se mu už ale nemusí chtít všechno procházet. Takže zavadnutá stránka může ležet bez povšimnutí i několik týdnů.
Závěr: Duplicita a nekvalitní text negativně ovlivňují rychlost indexace stránek. Zvláště tím trpá penalizované stránky.
Zastrčený obsah
Google se pořád zlepšuje v procházení stránek. Nejen že má více technických prostředků ke stahování dat, ale také využívá různé tipy z jiných stránek a služeb. I tak se ale může stát, že velice zastrčený obsah může mít problém s indexováním.
Toto se dá řešit dvěma způsoby. Prvním je vytvoření sitemap.xml a její nahrání do Google Console. Většina redakčních systémů umí tuto mapu vytvářet, popřípadě si můžete stáhnout nějaký plugin na její vytvoření. Google Console bere i RSS výstup jako sitemap. Klidně jej napojte na Google Console a budete indexování rychleji.
Dobré je také zmínit se o novém obsahu na frekventovaných místech, kudy prochází Googlebot každý den. Diskuzní fóra, veřejně přístupné stránky/profily na sociálních sítích anebo agregátory obsahu. Googlebot je lační po zpětných odkazech, využijte toho.
Chyby na webu
Google nesnáší rozbité weby. Pokud by procházení bude narážet na 404 (stránka nenalezena), 50X (chyba serveru), tak to brzy vzdá, protože cesta dál nevede. Tyto chyby je dobré mít pod kontrolou a hlídat si je.
Pro chybu 404 si můžete vytvořit speciální stránku, která vám pošle třeba přes PHP email s detaily. Snadno tak budete vědět, kam lidi chodí a neměli by. Jen je dobré to vyřešit nějakým logem a odesílat v dávce. Po vašem webu se prohání desítky robotů, kteří skouší všechno možné, tak abyste neměli plnou schránku falešných varování.
Chyby 50X poznáte jen z error_log. Jedná se o soubor, který vytváří server, když se objeví chyba. Většina moderních webhostingů jej umí vytvářet automaticky anebo na požádání. Jen je třeba připravit se na to, že když je toho více můžete stahovat i desítky až stovky megabajtů dat.
Důležité jsou i timeout. Tedy chyby kdy se stránka načítá tak dlouho, že spojení ukončí prohlížeč návštěvníka anebo server.
Výskyt těchto chyb má drastický vliv na indexaci stránek všemi vyhledávači.
Pomalý webhosting
Robot, který musí čekat dlouho na načtení stránky stojí Google peníze. A kdo by také rád navštěvoval stránky, které se dlouho načítají. Je dobré na to myslet a udržovat web v nějaké rozumné podobě. Hlídat si hlavně aby složité věci, jako je stahování obsahu, zálohování, aktualizace, údržbu atd. neřešil skript, který má servírovat uživateli obsah stránky. Nechte to na robotovi někde vzadu, kterého aktivuje CRON.
Je dobré také zvážit jestli při velké návštěvnosti už to pomalu nebude na přechod z webhostingu na VPS/dedikovaný server. Než se ale rozhodnete investovat do nového hostingu, zamyslete se jestli by nestačilo doladit cache.
Rychlost načítání stránek nemá vliv jen na indexaci, ale i pozice v Google.