Jak se vnutit vyhledavačům

Napsáno 08.06.2010 pro Joomla! a označeno jako tvorba webu

aby vás konečně vzaly na vědomí...

SEO

Představte si to... Se zpoceným čelem a takřka zavařenou mozkovnou dokončíte své krásné nové webové stránky, zveřejníte je a natěšeně očekáváte, že do týdne, maximálně do dvou budou na prvních místech ve vyhledavačích a Vaše návštěvnost strmě poroste. Tak čekáte týden, dva, měsíc a ono nic. Vyhledavače vás neznají a návštěvníci nikde. Pomalu Vám začíná docházet, že je něco špatně a přemýšlíte, kde může být zakopaný pes....

Vyhledávače
Servery, které mají velikou databázi stránek s informacemi o tom, která stránka internetu obsahuje jaké slovo. Protože takové vyhledávače umějí hledat v celém textu stránek, říká se jim fulltextové. Nepleťte si prosím fulltextové vyhledávače s katalogy (Yahoo, katalog Seznamu).

Fór je v tom, že boti jsou jako lidé - kde to neznají, tam nechodí, dokud je někdo nepozve nebo dokud jim někdo nedá k návštěvě doporučení. Nerozumíte? Zkuste se na to podívat takto - na internetu jsou miliony stránek a každý den přibývají další. Aby v té záplavě našel bot právě ty vaše, musí na ně získat odkaz, který mu to umožní - to znamená odkaz, který není blokován příkazem "noindex, nofollow". Takovýto odkaz může bot získat buď tak, že mu ho podstrčíte, čili si ho pozvete, nebo že ho najde na jiných stránkách, které zná - to jest, dostane doporučení. Osobně se pro urychlení přikláním k možnosti své stránky vyhledačům vnutit, ale jak to udělat, že?

Věřte nevěřte, je to prosté, většina vyhledavačů má někde stránku, na které vám umožní vložit odkaz na vaše stránky, jde jen o to, ji najít a s tím vám snadno pomůžu, pojďme na to.

Seznambot

Nejnavštěvovanější portál českého internetu má samozřejmě svého vlastního bota, stránku pro napráskání vašeho webu naleznete zde.

Bot
Automatický program, který prochází a indexuje webové stránky pro potřebu vyhledávačů a katalogů.
Bot začíná vyhledávat, většinou v některém katalogu, najde odkaz a sleduje ho, nalezenou stránku si stáhne pro zaindexování, zároveň hledá další odkazy, které případně opět sleduje.
Z toho vyplývá, že robot může odhalit pouze stránku, na kterou vede nějaký klasický odkaz.
Googlebot

Zřejmě nejdůležitější vyhledavač, stránku pro nahlášení nových stránek máte zde.

Jyxobot

A máme tu dalšího botíka, pokud vám jeho jméno nic neříká, vězte že vyhledává třeba pro Atlas či Zoznam.sk, stránku pro pozvání bota naleznete zde.

holmes/3.7

Poslední z těch na českém webu důležitých je vyhledavač Morfeo, šmejdící pro Centrum.cz - odkazy na stránku pro přidání URL na webu Morfeo bohužel nefungují.

Aktualizace 6.11.2013 - K dnešnímu dni již je vyhledávač Morfeo zrušen.

Slurp

Jméno vám asi nic neřekne, ale jedná se o botíka, pracujícího pro Yahoo, URL mu nabídnete zde.

Aktualizace 6.11.2013 - K dnešnímu dni již je stejně jako Morfeo vyhledávač Slurp zrušen a pro Yahoo nyní vyhledává Bing.

Bing

Další z gigantů, tento dělá pro Microsoft a pozvat ho můžete zde.


To bychom měli pozvánky, teď se ještě ve zkratce podíváme na dvě další oblasti, související s činností botů na našich stránkách. První z nich je problematika souboru robots.txt a druhou soubor sitemap.xml.

robots.txt

robots.txt je textový soubor, který umožňuje správci webu rozhodnout ,které ze stránek webu budou respektive nebudou indexovány fulltextovými roboty. Autor stránky s jeho pomocí nastaví, na které části webu může nebo nemůže který fulltextový robot chodit. Název souboru robots.txt musí být psán malými písmeny a musí se nacházet v kořenovém adresáři daného webu.

Problematika tohoto souboru je poměrně obsáhlá, takže pokud vás to zajímá, doporučuji si prostudovat materiály uvedené v použitých zdrojích, já se zde nadále omezím na specifika souboru robots.txt pro Joomla!

Soubor z výchozí instalace obsahuje následující instrukce:

User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/
Disallow: /images/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/
Disallow: /hsconfig/

Zjednodušeně řečeno to znamená, že tento soubor zakazuje všem botům přístup do uvedených adresářů a jejich součástí - v této souvislosti bych rád uvedl, že mnohá rozšíření vytvářejí ve zdrojové složce Joomla! vlastní složky, typickým, příkladem jsou správci stahování či galerie. V případě, že některé z těchto rozšíření používáte, doporučuji doplnit jeho složku do seznamu zapovězených území. Jelikož i já některá z takových rozšíření používám, vypadá můj robots.txt přibližně takto:

User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/
Disallow: /images/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/
Disallow: /hsconfig/
Disallow: /rokdownloads/

sitemap.xml

Soubor sitemap.xml pomáhá indexovacím robotům v lepší indexaci obsahu daných stránek. Zavedením souboru sitemap.xml máte větší šanci, že robot indexuje všechny stránky webu. Dále pak prohlížečům sdělujete důležitost vašich stránek a jejich aktualizaci.
I když se jedná o poměrně jednoduchý XML soubor, tak je nutné dodržet protokol sitemaps.org. Samotný soubor musí být zapsaný v kódu UTF-8.

Protokol Sitemap podporují v současné době vyhledávače Google, Yahoo!, Microsoft a také Seznam.

Vytvoření souboru sitemap.xml.

Nepředpokládám, že si budete soubor psát sami, spíš zřejmě využijete služeb některého z dostupných generátorů, které uvádím v Použitých zdrojích či přímo použijete některé vhodné rozšíření z této sekce Joomla! Extension, jedním z nejoblíbenějších rozšíření, generujících soubor sitemap.xml je zde například Xmap.

Uložení souboru sitemap.xml.
URL sitemap.xml musí být v robots.txt absolutní.

Roboti implicitně hledají soubor sitemap.xml v hlavním adresáři domény. Vytvořený soubor je tedy doporučeno uložit do zdrojového adresáře webu, kde ho mimochodem testuje i oblíbený SEO-Servis. Pokud soubor z nějakého důvodu není možné do zdrojového adresáře uložit, existuje možnost sdělit robotům, kde se přesně soubor nachází, a to zápisem do souboru robots.txt, který bude vypadat takto:

Sitemap: http://VaseDomena/sitemap.xml

Celý zápis v robots.txt by pak měl vypadat takto:

User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/
Disallow: /images/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/
Sitemap: http://VaseDomena/sitemap.xml
Pokud používáte Nástroje pro Webmastery od Google, máte možnost uložit pomocí rozhraní nástroje libovolnou cestu k vašemu sitemap.xml přímo odtud.

Použité zdroje

Jak psát web - Jak fungují vyhledávače
Jak psát web - Zakázání přístupu vyhledávačům
Google - Blokování nebo odebrání stránek pomocí souboru robots.txt
Google - Vytváření a odesílání souborů Sitemap
Seznam.cz - Komunikace s vyhledávači - robots.txt
Seznam.cz - Sitemaps
wall.cz - sitemap.xml
Generátor sitemaps.xml na XML-Sitemaps.com
Validátor souboru robots.txt

Komentáře (0)

Napsat komentář

Pro přidání komentáře se prosím přihlaste.