Przeważająca większość osób trafiających pod konkretny adres internetowy dowiaduje się o jego istnieniu z różnego rodzaju wyszukiwarek. To tam internauci próbują znaleźć informacje o stronach zawierających informacje na szukany temat. Każdemu właścicielowi stron WWW powinno zależeć, aby skutecznie pozyskiwać użytkowników wyszukiwarek szukających informacji na konkretny temat.



go to: main / web positioning /

robots.txt

Plik robots.txt umieszczany w głównym katalogu serwisu WWW umożliwia zdefiniowanie części serwisu, kt óre nie powinny być odwiedzane przez programy wyszukiwarek indeksujących zasoby sieci Internet.

Zawartość pliku robots.txt może przedstawiać się następująco:


User-agent: *
Disallow: /cgi-bin/
Disallow: /private/
Zdefiniowany w ten sposób plik informuje wszystkie programy wyszukiwarek, że katalogi cgi-bin oraz private nie powinny być indeksowane.

Przykłady definicji plików robots.txt:

  • wykluczenie całego serwisu z indeksacji przez wszyskie programy wyszukiwarek:
    
    User-agent: *
    Disallow: /
    
  • wykluczenie części serwisu z indeksacji przez wszyskie programy wyszukiwarek:
    
    User-agent: *
    Disallow: /cgi-bin/
    Disallow: /private/
    
  • wykluczenie całego serwisu z indeksacji przez jeden program wyszukiwarki:
    
    User-agent: WebCrawler
    Disallow: /
    
Aby umożliwić wszystkim programom wyszukiwarek indeksację całego serwisu można postąpić następ ująco:
  • zdefiniować pusty plik robots.txt,
  • zdefiniować plik robots.txt następująco:
    
    User-agent: *
    Disallow:
    
Alternatywa
W przypadku braku możliwości utworzenia pliku robots.txt wynikającego np. z charakterystyki posiadane go konta, analogincze możliwości sterowania programami wyszukiwarek daje odpowiednie zastosowanie znaczników META.
Rozmiar: 268 bajtów