Помощни статии: Споделен Хостинг
Какво е robots.txt?
Коментирано от Включен 14 January 2014 15:47

Какво е robots.txt?

Когато имате уеб сайт и искате да дадете инструкции на уеб роботите (ботове/паяци) колко често да обхождат сайта ви, както и кои части от него да обхождат, е необходимо да заложите файл robots.txt в главната директория на Вашия сайт.

Например, ако Вашият сайт е primerensait.com , файлът трябва да бъде в:

http://primerensait.com/robots.txt

Този текстови файл съдържа инструкци за уеб роботите, зададени в специфичен формат, които те стриктно изпълняват. Ако този файл не съществува, уеб роботите предполагат, че собственикът на сайта не желае да изпълняват конкретни инструкции и следователно обхождат целия сайт - всяка една негова страница, под страница, статия, линк и т.н.

Robots.txt файлът може да подава различни инструкции на уеб паяците, като например кои страници да обхождат или кои страници да не обхождат.

В случай, че във Вашият сайт има качена информация, която не желаете да бъде визуализирана в търсачки като Google, Bing, Yahoo и т.н., чрез robots файла може да скриете тези страници от тях.

Независимо колко уеб сайта има разположени във Вашия хостинг, всеки уеб сайт има свой собствен robots.txt файл.

 

Кои са най-често използваните инструкции за robots.txt файла?

Може да контролирате роботите/паяците посещаващи Вашия уеб сайт, чрез някои от следните команди, въвеждайки ги във файла robots.txt

 

Чрез тази инструкция Вие казвате на роботите, че желаете да обходят напълно Вашия уеб сайт и всяка една негова страница.

 

User-agent: *

Disallow:


Чрез следния код ще може да скриете от уеб роботите конкретни директории:

 

User-agent: *

Disallow: /cgi-bin/

Disallow: /tmp/

Disallow: /junk/

 

Следващата команда оказва на роботите да стоят настрана от определен файл:

 

User-agent:*

Disallow: /directory/file.html

 

Може да блокирате конкретни роботи да не посещават Вашия уеб сайт:

 

User-agent:

 BadBot # replace 'BadBot' with the actual user-agent of the bot

Disallow: /

 

Необходимо е да замените името BadBot с името на този робот, който не искате да има достъп до Вашия сайт.

Използвайки следната команда скривате една единствена папка от един определен робот:


User-agent:

 BadBot # replace 'BadBot' with the actual user-agent of the bot

Disallow: /private/

 

Чрез последната команда може да блокирате достъпа на всички ботове до Вашия уеб сайт:

 

User-agent: *

Disallow: /

 

По този начин може да сте сигурни, че ботовете няма да генерират трафик към Вашия сайт.

Спиране на ботовете посещаващи Вашия уеб сайт, чрез .htaccess

Освен чрез файла robots.txt, може да спрете посещенията на нежелани ботове към Вашия уеб сайт, чрез залагането на следния код в .htaccess файла на Вашия уеб сайт:

 

BrowserMatchNoCase \*bot bad_bot 
BrowserMatchNoCase bot\* bad_bot 
Order Deny,Allow 
Deny from env=bad_bot 

RewriteCond %{HTTP_USER_AGENT} ^-?$ 
RewriteRule ^ - [F]

 

Необходимо е да земените bad_bot с името на конкретния бот, който желаете да не посещава Вашия уеб сайт.

Например ако не желаете Google бот да посещава Вашия уеб, .htaccess кодът ще изглежда по следния начин:

 

BrowserMatchNoCase \*bot Googlebot 
BrowserMatchNoCase bot\* Googlebot 
Order Deny,Allow 
Deny from env=Googlebot 

RewriteCond %{HTTP_USER_AGENT} ^-?$ 
RewriteRule ^ - [F]

 

Повече информация относно имената на паяците/роботите на Google може да откриете на следния адрес:

https://support.google.com/webmasters/answer/1061943?hl=en

 

Скриване на директории от ботове, чрез robots.txt

Нека вземем за пример един сайт разработен под системата Joomla.

В случай, че желате конкретни директории да бъдат неизвестни за роботите,  можете да ги ограничите като заложите следните инструкции в robots.txt файла:

 

User-agent: * 
Disallow: /administrator/ 
Disallow: /cache/ 
Disallow: /components/ 
Disallow: /images/ 
Disallow: /includes/ 
Disallow: /installation/ 
Disallow: /language/ 
Disallow: /libraries/ 
Disallow: /media/ 
Disallow: /modules/ 
Disallow: /plugins/ 
Disallow: /templates/ 
Disallow: /tmp/ 
Disallow: /xmlrpc/


Например ако желаем да забраним достъпа на ботовете до папка с име icntest123, добавяме следния ред:

 

Disallow: /icntest123/

 

Ето и подробни изображения как можем да създадем robots.txt файл и да въведем желаните от нас инструкции:

 

 

 


Използването на уеб роботи улеснява откриването на Вашия уеб сайт в Google и други популярни уеб търсачки и е един добър старт за неговата SEO оптимизация и реклама без влагане на финансов ресурс.

* Имайте предвид, че промените в конфигурацията за обхождане от ботове могат също така да повлияят и на SEO оптимизацията на Вашия сайт. Поради тази причина Ви препоръчваме, ако не сте сигурни какво е необходимо да промените, винаги да се консултирате с техническо лице, което е добре запознато в тази област


Коментари (0)
Направи нов коментар
 
 
Три имена:
Имейл:
Коментари:
CAPTCHA верификация 
 
Моля въведете текста, изписан на снимката в текстовото поле по-долу. Това е необходимо, за да се предотвратят автоматизирани регистрации и заявки.