Тема: robots.txt – для сайту на wordpress
Що таке robots.txt і для чого він потрібен? (деталі описано у окремій статті тут)
Цей файл дозволяє вказати пошуковим роботам, чи якщо точніше дати рекомендації, що потрібно індексувати на вашому сайті, а що ні. Він дозволяє позбутись дублів, закрити непотрібні сторінки – як то адмінка чи наприклад технічний розділ.
Слід пам’ятати що це все ж рекомендації, а не залізне правило тому варто дійсно важливі дані захищати не тільки так.
Більш детально про цей файл можна почитати у вікіпедії, а я розгляну файл що використовується на цьому сайті й поясню деякі моменти.
Власне вміст самого файлу
User-agent: *
Crawl-delay: 1
Disallow: /webstat/
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: /wp-trackback
Disallow: /wp-feed
Disallow: /comments
Disallow: /wp-comments
Disallow: /xmlrpc.php
Disallow: */trackback
Disallow: */feed
Disallow: /feed/
Disallow: */comments
Disallow: /category
Disallow: /category/*/*
Disallow: /tag
Disallow: /*?*
Disallow: /*?
Disallow: /to/
Disallow: /&*
Disallow: /page/
Disallow: /goto/
Disallow: /goto/*
Sitemap: http://site.com/sitemap.xml.gz
Host: site.com
Crawl-delay: 1
Вказує роботам таймаут в одну секунду, це дозволяє не завалити сайт, коли індексується відразу багато сторінок – не всі роботи його дотримуються.
User-agent: *
Я використовую зірочку – вказуючи що правила дійсно для усіх роботів -дуже часто роблять окремо для гугла, яндекса та усіх інших – особисто я не бачу в цьому сенсу, бо:
це дубляж, який лише збільшує розмір фалу
можуть бути помилки – чим більший файл тим більша можливість одруківки
правильний роботс має бути універсальним – моя особиста думка.
Цей роботс закриває непотрібні технічні розділи
Disallow: /webstat/
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /webstat/
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
А також дублі, коментарі (теж дублюються бо є на сторінці допису) фід, трекбреки, категорії та теги.
Disallow: /trackback
Disallow: */trackback
Disallow: /wp-trackback
Disallow: /wp-feed
Disallow: /comments
Disallow: /wp-comments
Disallow: /xmlrpc.php
Disallow: */trackback
Disallow: */feed
Disallow: /feed/
Disallow: */comments
Disallow: /category
Disallow: /category/*/*
Disallow: /tag
Disallow: /trackback
Disallow: */trackback
Disallow: /wp-trackback
Disallow: /wp-feed
Disallow: /comments
Disallow: /wp-comments
Disallow: /xmlrpc.php
Disallow: */trackback
Disallow: */feed
Disallow: /feed/
Disallow: */comments
Disallow: /category
Disallow: /category/*/*
Disallow: /tag
Також закриваються автоматично генеровані адреси (їх і не повинно бути) та інше сміття.
Таким чином бачимо що для індексування лишаються:
Головна
Пости з нормальним урлами
Сторінки з нормальними урлами – не автоматично генеровані.
До речі гугл теж має свій robots.txt
А які правила використовуєте ви?