Друга стъпка от оптимизирането на една уеб страница е създаването и ъплоудването на хостинга на т.нар. документ robots.txt

Файла robots.txt е текстов файл, чието единствено предназначение е да укаже на роботите на търсещите машини кои папки и файлове могат да индексират и кои не бива да бъдат индексирани. По-точно файла robots.txt съдържа списъка на тези файлове и папки (директории) от сайта, които не трябва да бъдат индексирани от търсещите машини.

Освен това чрез този файл може да се укаже определен файл да бъде забранен за индексиране от дадена търсачка, но да бъде разрешен за индексиране от друга търсачка, която няма да бъде в списъка на robots.txt.

Файлът robots.txt се поставя винаги в основната директория, т.е. адреса му трябва да бъде https://your-domain.com/robots.txt,
а не например https://your-domain.com/folder1/robots.txt

Името на файла трябва да е с малки букви – robots.txt, а не например Robots.txt или ROBOTS.TXT

Отделните записи в robots.txt се разделят с празен ред.

Този файл се използва когато на хостинга има различни файлове, например скриптови файлове и др., които е по-добре да не бъдат индексирани.

Файла robots.txt има определен формат на записване, който трябва да се спазва.

Файла съдържа два основни типа записи

1. Запис, указващ робота на съответната търсачка.
Този запис има следния вид:

User-Agent: име на робот

Тук под „име на робот“ се има предвид името на претърсващата програма на съответната търсачка. Например името на робота на Гугъл е Googlebot. Следователно ако искате да забраните индексирането на определени папки или файлове от Гугъл, трябва да напишете:

User-Agent: Googlebot

От казаното става ясно това, което беше споменато и по-горе, че чрез robots.txt може да се укаже не само кои папки и файлове да не бъдат индексирани, но също се указва и кои точно търсачки да не индексират определени файлове и директории. Т.е. възможно е да се забрани индексирането на даден файл от една търсачка (и да се разреши индексирането на същия файл от всички други търсачки, доколкото те няма да бъдат указани в списъка в robots.txt). За целта е необходимо да се знаят названията на претърсващите програми на търсачките. Обикновено търсещите машини дават информация за роботите си на страницата на съответната търсачка и обикновено (но не винаги) имената на роботите включват в себе си името на търсачката – както е в случая с Googlebot. Списък на роботите на търсещите машини може да видите на следния адрес:https://www.robotstxt.org/wc/active/html/

Като значение на user-agent може да се зададе знака „звезда“ (user-agent: *). В такъв случай записите с указаните по-долу забранени
за индексиране файлове и папки ще важат за всички търсещи машини, за които няма изричен запис user-agent: име на робот.
Във файла robots.txt може да има и само един запис-указание за имената на роботите във вида:

User-Agent: *

В такъв случай записите с указаните забранени за индексиране файлове и папки ще важат за всички роботи на всички търсещи машини.

Всеки робот трябва да бъде указан на отделен ред, макар че този стандарт беше разширен и сега е възможно
няколко робота да се укажат с един запис User-agent, като имената им бъдат разделени с табулатор (бутон Tab).

2. Втория запис указва кои точно файлове или директории да не се индексират от съответния робот. Този запис има вида:

Disallow: точно указване на пътя до име на файл или папка, които са забранени за индексация

Например ако желаете търсещите машини да не индексират файла в основната директория script.php, директорията cgi-bin,
файловете file1.html и file2.php, намиращи се в директория dir1 и цялото съдържание на папка dir2, намираща се в папка dir1,
трябва да въведете в robots.txt следния запис:

Disallow: script.php
Disallow: /cgi-bin/
Disallow: /dir1/file1.html
Disallow: /dir1/file2.php
Disallow: /dir1/dir2/

Ако в директорията dir1 има 3-ти файл, например file3.html, той ще може да бъде индексиран, a file1.html file2.php няма да бъдат индексирани.
Ако в dir1 няма други файлове, които бихте искали да бъдат индексирани от търсещите машини, тогава може да забраните индексирането на file1.html и file2.php като напишете само

Disallow: /dir1/

При писането на записите robots.txt има следните особености:

– може да напишете само началните букви с наклонена черта отпред, например:

Disallow: /scr

В такъв случай няма да бъдат индексирани нито един един файл и папка, чието название започва с тези букви.

– ако запишете само

Disallow:

роботите ще индексират целия сайт

– ако запишете

Disallow: /

нито един файл и папка няма да бъдат индексирани

Ако желаете да сложите някакъв пояснителен коментар, който да не се отрази на работата на файла robots.txt, може да направите това, като започнете реда на коментара с диез (#), например:

# Това е първи ред коментар
# и това е 2-ри ред коментар

При писането на robots.txt трябва да се спазват следните правила:

– да не се оставя празен ред в един запис (празния ред се таксува като разделител на два записа)
– всяко указване на папка или файл трябва да бъде на отделен ред

Някои роботи, сред които и робота на Гугъл – googlebot – могат да възприемат забрана за индексиране на файлове с определено
разширение, например:

Disallow: *.php

ще забрани индексирането на всички файлове с разширение .php

Трябва да се има предвид, че не всички роботи на търсещи машини се съобразяват с указанията, дадени в robots.txt

Файлът robots.txt не може да служи за „скриване“ на важни папки и файлове, до които не желаете да имат достъп странични хора,
защото този файл е достъпен за всички и e известно, че може да се види на адрес your-domain.com/robots.txt

За да напишете robots.txt отворете някакъв прост текстов редактор, например Notepad и съхранете файла като robors.txt

ПРИМЕРИ:

# Пример за разрешаване на всички търсещи машини
# да индексират всички папки и файлове на сайта
User-Agent: *
Disallow:

# Пример за забрана на всички търсещи машини
# да индексират всички папки и файлове на сайта
User-Agent: *
Disallow: /