1 Востаннє редагувалося Djalin (21.05.2016 14:42:08)

Тема: robots.txt – для сайту на wordpress

Що таке robots.txt і для чого він потрібен? (деталі описано у окремій статті тут)

Цей файл дозволяє вказати пошуковим роботам, чи якщо точніше дати рекомендації, що потрібно індексувати на вашому сайті, а що ні.  Він дозволяє позбутись дублів, закрити непотрібні сторінки – як то адмінка чи наприклад технічний розділ.

Слід пам’ятати що це все ж рекомендації, а не залізне правило тому варто дійсно важливі дані захищати не тільки так.

Більш детально про цей файл можна почитати у вікіпедії, а я розгляну файл що використовується на цьому сайті й поясню деякі моменти.

Власне вміст самого файлу

User-agent: *
Crawl-delay: 1  
Disallow: /webstat/
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: /wp-trackback
Disallow: /wp-feed
Disallow: /comments
Disallow: /wp-comments
Disallow: /xmlrpc.php
Disallow: */trackback
Disallow: */feed
Disallow: /feed/
Disallow: */comments
Disallow: /category
Disallow: /category/*/*
Disallow: /tag
Disallow: /*?*
Disallow: /*?
Disallow: /to/
Disallow: /&*
Disallow: /page/
Disallow: /goto/
Disallow: /goto/*
 
Sitemap: http://site.com/sitemap.xml.gz
Host: site.com

   

Crawl-delay: 1

Вказує роботам таймаут в одну секунду, це дозволяє не завалити сайт, коли індексується відразу багато сторінок – не всі роботи його  дотримуються.

   

User-agent: *

Я використовую зірочку – вказуючи що правила дійсно для усіх роботів -дуже часто роблять окремо для гугла, яндекса та усіх інших – особисто я не бачу в цьому сенсу, бо:

  • це дубляж, який лише збільшує розмір фалу

  • можуть бути помилки – чим більший файл тим більша можливість одруківки

  • правильний роботс має бути універсальним – моя особиста думка.

Цей роботс закриває непотрібні технічні розділи

Disallow: /webstat/
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /webstat/
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes

А також дублі, коментарі (теж дублюються бо є на сторінці допису) фід, трекбреки, категорії та теги.

Disallow: /trackback
Disallow: */trackback
Disallow: /wp-trackback
Disallow: /wp-feed
Disallow: /comments
Disallow: /wp-comments
Disallow: /xmlrpc.php
Disallow: */trackback
Disallow: */feed
Disallow: /feed/
Disallow: */comments
Disallow: /category
Disallow: /category/*/*
Disallow: /tag
Disallow: /trackback
Disallow: */trackback
Disallow: /wp-trackback
Disallow: /wp-feed
Disallow: /comments
Disallow: /wp-comments
Disallow: /xmlrpc.php
Disallow: */trackback
Disallow: */feed
Disallow: /feed/
Disallow: */comments
Disallow: /category
Disallow: /category/*/*
Disallow: /tag

Також закриваються автоматично генеровані адреси (їх і не повинно бути) та інше сміття.



Таким чином бачимо що для індексування лишаються:

    Головна
    Пости з нормальним урлами
    Сторінки з нормальними урлами – не автоматично генеровані.

До речі гугл теж має свій robots.txt

А які правила використовуєте ви?

Подякували: leofun01, Анатолій2

2

Re: robots.txt – для сайту на wordpress

Самі стандартні

User-Agent: *
Allow: /wp-content/uploads/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /template.html
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content
Disallow: /tag
Disallow: /category
Disallow: /archive
Disallow: */trackback/
Disallow: */feed/
Disallow: */comments/
Disallow: /?feed=
Disallow: /?s=

Host: site.ru
Sitemap: http://site.ru/sitemap.xml

3 Востаннє редагувалося Djalin (30.06.2016 09:06:54)

Re: robots.txt – для сайту на wordpress

Disallow: /template.html
гм такого у мене немає - що за файлик, якщо не секрет?

4

Re: robots.txt – для сайту на wordpress

не знаю, це з сайту роботс.тхт.орг

5 Востаннє редагувалося Djalin (29.10.2016 17:23:56)

Re: robots.txt – для сайту на wordpress

Трохи підправив - тепер гугл краще розпізнає мобільні теми

User-agent: *
Crawl-delay: 1  
Disallow: /webstat/
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Allow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: /wp-trackback
Disallow: /wp-feed
Disallow: /comments
Disallow: /wp-comments
Disallow: /xmlrpc.php
Disallow: */trackback
# Disallow: */feed
# Disallow: /feed/
Disallow: */comments
# Disallow: /category
# Disallow: /category/*/*
Disallow: /tag
# Disallow: /*?*
# Disallow: /*?
Disallow: /to/
Disallow: /&*
Disallow: /page/
Disallow: /goto/
Disallow: /goto/*

Sitemap: site.com/sitemap.xml.gz
Host: site.com 

Закоментовані рядки які можуть викликати проблеми при використанні.