Robots.txt - wszystko o pliku

Kuba PawlakKuba Pawlak | 10 Grudzień 2021 | Techniczne SEO
Robots.txt - wszystko o pliku

Plik robots.txt dostępny jest na zdecydowanej większości stron internetowych. Nauczę Cię tworzyć, edytować oraz przede wszystkim zrozumieć zasady działania tego pliku.

Plik robots.txt

Plik robots.txt odpowiedzialny jest za przekazywanie robotom wyszukiwarek informacji, do których adresów URL w Twoje stronie roboty te nie będą mogły uzyskać dostępu.

Plik był wykorzystywany głównie po to, aby Twoja strona internetowa nie była przeciążona zapytaniami w celu zindeksowania treści czy grafik. Robots.txt nie jest jednak przeznaczony do ukrywania strony internetowej przed Google.

Jeśli bot znajdzie link do danej podstrony na innej witrynie to i tak ją pobierze i przeanalizuje. Zatem plik robots.txt określa dostęp do stron. Natomiast Metatag robots określa, czy strona będzie indeksowana w wynikach wyszukiwania.

Jeśli nie chcesz, aby Twoja strona była indeksowana przez Google, najlepiej zablokuj indeksowanie za pomocą tagu noindex lub zabezpiecz ją hasłem.

Najprościej mówiąc plik robots.txt pozwala zarządzać ruchem indeksowania i wykluczać pliki graficzne lub wideo z wyników wyszukiwania Google.

Pamiętaj, że inne strony lub osoby mogą cały czas kierować użytkowników do wybranych podstron czy plików graficznych za pomocą linków.

Jak utworzyć plik robots.txt

Plik robots.txt udostępniany jest w katalogu głównym witryny. W przypadku witryny https://kubapawlak.pl/ plik robots.txt znajduje się pod adresem https://kubapawlak.pl/robots.txt.

Ma on format zwykłego tekstu i jest zgodny ze standardem Robots Exclusion Protocol. Plik robots.txt musi zawierać co najmniej 1 regułę. Każda reguła umożliwia dostęp lub blokuje określonego robota do wskazanego adresu lub pliku w danej witrynie.

Edycja pliku robots.txt

Domyślnie indeksowane mogą być wszystkie pliki, o ile nie jest to określone inaczej w robots.txt.

Aby utworzyć plik robots.txt wystarczy skorzystać z dowolnego edytora tekstowego np. notatnik w Windowsie czy Visual Studio Code i zapisać plik o nazwie robots.txt.

  1. Utwórz plik o nazwie robots.txt.
  2. Dodaj reguły do pliku robots.txt.
  3. Wgraj plik robots.txt do głównego folderu strony (/public_html/).
  4. Przetestuj poprawność pliku.

Czy plik robots.txt jest wymagany?

Nie. Gdy Googlebot odwiedza stronę, w pierwszej kolejności próbuje odczytać plik robots.txt, aby sprawdzić, czy ma pozwolenie na indeksowanie. Witryna bez pliku robots.txt, metatagów robots jest zazwyczaj skanowana i indeksowana w typowy sposób.

Co umieścić w pliku robots.txt

Gdy plik robots.txt znajduje się już na Twoim serwerze serwer, możesz zacząć go edytować.

Za jego pomocą, tak jak już wcześniej wspomniałem, możesz w pewnym stopniu kontrolować interakcję robotów z Twoją stroną. Robisz to za pomocą trzech podstawowych poleceń:

  • "User-agent" - to polecenie wskazujące reguły dla okreslonych botów. "User-agent" to inaczej nazwa identyfikacyjna bota wyszukiwarki, np. Googlebot.
  • "Disallow" - jest poleceniem odpowiedzialnym za informowanie botów, do którego obszaru strony nie powinien mieć dostępu.
  • "Allow" - komenda zezwala na dostęp do określonego folderu podrzędnego lub rozszerzenia, znajdującego się w folderze nadrzędnym.

Przykłady reguł pliku robots.txt

Stworzenie takich reguł nie jest trudne, a tak naprawdę banalnie proste.

Proces tworzenia reguł polega na określeniu do którego robota/wyszukiwarki się odnosisz ("User-agent"),a następnie wprowadzasz reguły, do których robot ma się stosować.

Za pomocą komend "Allow:" i "Disallow:" (pozwól i zablokuj) wskazujesz jakie zasoby w postaci plików, stron, grafik mają być blokowane lub nie.

Katalog główny to znak "/". natomiast jeśli reguła dotyczy wszystkiego korzystasz z znaku "*".

Poniżej przygotowałem kilka przykładów reguł z opisami co dokładnie oznaczają.

Zakaz indeksowania całej witryny

User-agent: *
Disallow: /

Zakaz indeksowania katalogu i jego zawartości

User-agent: *
Disallow: /blog/
Disallow: /o-nas/

Zezwól na dostęp jednemu robotowi na indeksowanie

User-agent: Googlebot
Allow: /

User-agent: *
Disallow: /

Zezwól na dostęp wszystkim robotom oprócz jednego

User-agent: jakistambot
Disallow: /

User-agent: *
Allow: /

Zakaz dostępu do konkretnej strony

User-agent: *
Disallow: /auta.html

Zakaz dostępu do wybranego zdjęcia w Grafice Google

User-agent: Googlebot-Image
Disallow: /obrazy/auto.jpg

Zakaz dostępu do plików z konkretnym rozszerzeniem

User-agent: Googlebot
Disallow: /*.jpg$

Zakaz dostępu strony z opcją analizy treści w celu wyświetlania reklam

User-agent: *
Disallow: /

User-agent: Mediapartners-Google
Allow: /

Wksazanie pliku Sitemap.xml lub mapy witryny (opcjonalne)

Sitemap: https://kubapawlak.pl/sitemap.xml

Jak sprawdzić poprawność pliku robots.txt

Możesz w bardzo prosty sposób przetestować plik robots.txt. Wystarczy, że otwórz w przeglądarce okno przeglądania prywatnego i przejdź do lokalizacji pliku robots.txt.

Na przykład: https://kubapawlak.pl/robots.txt

Jeśli widzisz zawartość pliku robots.txt, to znak, że możesz przetestować znaczniki.

Google oferuje dwie opcje testowania znaczników w pliku robots.txt, ale najlepszym rozwiązaniem jest skorzystanie z Testera pliku robots.txt w Google Search Console.

Pamiętaj, że z tego narzędzia możesz korzystać tylko w przypadku plików robots.txt, które są już dostępne w Twojej witrynie. Zewnętrzne źródła nie są obsługiwane.

Komentarze

  • Kuuubex

    Kuuubex2 lat temu

    Czy tworzenie tego pliku wpływa na SEO?

    • Kuba

      Kuba2 lat temu

      Nie, nie wpływa to na SEO. Tworzenie tego pliku można pominąć i się tym nie przejmować.

Dodaj komentarz