Robots.txt - wszystko o pliku


Plik robots.txt dostępny jest na zdecydowanej większości stron internetowych. Nauczę Cię tworzyć, edytować oraz przede wszystkim zrozumieć zasady działania tego pliku.
- Plik robots.txt
- Jak utworzyć plik robots.txt
- Co umieścić w pliku robots.txt
- Przykłady reguł pliku robots.txt
- Jak sprawdzić poprawność pliku robots.txt
Plik robots.txt
Plik robots.txt odpowiedzialny jest za przekazywanie robotom wyszukiwarek informacji, do których adresów URL w Twoje stronie roboty te nie będą mogły uzyskać dostępu.
Plik był wykorzystywany głównie po to, aby Twoja strona internetowa nie była przeciążona zapytaniami w celu zindeksowania treści czy grafik. Robots.txt nie jest jednak przeznaczony do ukrywania strony internetowej przed Google.
Jeśli bot znajdzie link do danej podstrony na innej witrynie to i tak ją pobierze i przeanalizuje. Zatem plik robots.txt określa dostęp do stron. Natomiast Metatag robots określa, czy strona będzie indeksowana w wynikach wyszukiwania.
Jeśli nie chcesz, aby Twoja strona była indeksowana przez Google, najlepiej zablokuj indeksowanie za pomocą tagu noindex lub zabezpiecz ją hasłem.
Najprościej mówiąc plik robots.txt pozwala zarządzać ruchem indeksowania i wykluczać pliki graficzne lub wideo z wyników wyszukiwania Google.
Pamiętaj, że inne strony lub osoby mogą cały czas kierować użytkowników do wybranych podstron czy plików graficznych za pomocą linków.
Jak utworzyć plik robots.txt
Plik robots.txt udostępniany jest w katalogu głównym witryny. W przypadku witryny https://kubapawlak.pl/ plik robots.txt znajduje się pod adresem https://kubapawlak.pl/robots.txt.
Ma on format zwykłego tekstu i jest zgodny ze standardem Robots Exclusion Protocol. Plik robots.txt musi zawierać co najmniej 1 regułę. Każda reguła umożliwia dostęp lub blokuje określonego robota do wskazanego adresu lub pliku w danej witrynie.
Domyślnie indeksowane mogą być wszystkie pliki, o ile nie jest to określone inaczej w robots.txt.
Aby utworzyć plik robots.txt wystarczy skorzystać z dowolnego edytora tekstowego np. notatnik w Windowsie czy Visual Studio Code i zapisać plik o nazwie robots.txt.
- Utwórz plik o nazwie robots.txt.
- Dodaj reguły do pliku robots.txt.
- Wgraj plik robots.txt do głównego folderu strony (/public_html/).
- Przetestuj poprawność pliku.
Czy plik robots.txt jest wymagany?
Nie. Gdy Googlebot odwiedza stronę, w pierwszej kolejności próbuje odczytać plik robots.txt, aby sprawdzić, czy ma pozwolenie na indeksowanie. Witryna bez pliku robots.txt, metatagów robots jest zazwyczaj skanowana i indeksowana w typowy sposób.
Co umieścić w pliku robots.txt
Gdy plik robots.txt znajduje się już na Twoim serwerze serwer, możesz zacząć go edytować.
Za jego pomocą, tak jak już wcześniej wspomniałem, możesz w pewnym stopniu kontrolować interakcję robotów z Twoją stroną. Robisz to za pomocą trzech podstawowych poleceń:
- "User-agent" - to polecenie wskazujące reguły dla okreslonych botów. "User-agent" to inaczej nazwa identyfikacyjna bota wyszukiwarki, np. Googlebot.
- "Disallow" - jest poleceniem odpowiedzialnym za informowanie botów, do którego obszaru strony nie powinien mieć dostępu.
- "Allow" - komenda zezwala na dostęp do określonego folderu podrzędnego lub rozszerzenia, znajdującego się w folderze nadrzędnym.
Przykłady reguł pliku robots.txt
Stworzenie takich reguł nie jest trudne, a tak naprawdę banalnie proste.
Proces tworzenia reguł polega na określeniu do którego robota/wyszukiwarki się odnosisz ("User-agent"),a następnie wprowadzasz reguły, do których robot ma się stosować.
Za pomocą komend "Allow:" i "Disallow:" (pozwól i zablokuj) wskazujesz jakie zasoby w postaci plików, stron, grafik mają być blokowane lub nie.
Katalog główny to znak "/". natomiast jeśli reguła dotyczy wszystkiego korzystasz z znaku "*".
Poniżej przygotowałem kilka przykładów reguł z opisami co dokładnie oznaczają.
Zakaz indeksowania całej witryny
User-agent: *
Disallow: /
Zakaz indeksowania katalogu i jego zawartości
User-agent: *
Disallow: /blog/
Disallow: /o-nas/
Zezwól na dostęp jednemu robotowi na indeksowanie
User-agent: Googlebot
Allow: /
User-agent: *
Disallow: /
Zezwól na dostęp wszystkim robotom oprócz jednego
User-agent: jakistambot
Disallow: /
User-agent: *
Allow: /
Zakaz dostępu do konkretnej strony
User-agent: *
Disallow: /auta.html
Zakaz dostępu do wybranego zdjęcia w Grafice Google
User-agent: Googlebot-Image
Disallow: /obrazy/auto.jpg
Zakaz dostępu do plików z konkretnym rozszerzeniem
User-agent: Googlebot
Disallow: /*.jpg$
Zakaz dostępu strony z opcją analizy treści w celu wyświetlania reklam
User-agent: *
Disallow: /
User-agent: Mediapartners-Google
Allow: /
Wksazanie pliku Sitemap.xml lub mapy witryny (opcjonalne)
Sitemap: https://kubapawlak.pl/sitemap.xml
Jak sprawdzić poprawność pliku robots.txt
Możesz w bardzo prosty sposób przetestować plik robots.txt. Wystarczy, że otwórz w przeglądarce okno przeglądania prywatnego i przejdź do lokalizacji pliku robots.txt.
Na przykład: https://kubapawlak.pl/robots.txt
Jeśli widzisz zawartość pliku robots.txt, to znak, że możesz przetestować znaczniki.
Google oferuje dwie opcje testowania znaczników w pliku robots.txt, ale najlepszym rozwiązaniem jest skorzystanie z Testera pliku robots.txt w Google Search Console.
Pamiętaj, że z tego narzędzia możesz korzystać tylko w przypadku plików robots.txt, które są już dostępne w Twojej witrynie. Zewnętrzne źródła nie są obsługiwane.
Komentarze
Kuuubex2 lat temu
Czy tworzenie tego pliku wpływa na SEO?
Kuba2 lat temu
Nie, nie wpływa to na SEO. Tworzenie tego pliku można pominąć i się tym nie przejmować.