1 Востаннє редагувалося Анатолій (29.02.2016 15:39:59)

Тема: Що таке Robots.txt та Sitemap.xml?

http://не-дійсний-домен/pictures_06/robot_txt.jpg

ІНТРО

Анатолій. З власного веб-життя,
- Навіщо взагалі мені потрібен цей файлик robot.txt чи навіть sitemap.xml? А хто з них головніший?
Справа в тому, що розвиваю власний сайт в мережі Інтернет, щось створюю, редагую, щось видаляю за рекомендаціями доброго друга google.com/webmasters/tools (правда він не відразу став мені другом, певний час я гордовито сам скидав в інтернет веб-сторінки, за що, чесно соромно й до цього часу прибираюсь). Враховуючи, що оптимізацією (SEO) власного сайту я спочатку не займався, так як я про неї не знав, а якщо й знав, то не надав достатньо уваги, вважаючи що не варто витрачати час на щось таке незрозуміле: розкрутка сайту, пошукові системи, навіщо? Вважаючи, потрібно буде - самі знайдуть.
Що ж знайшли, хтось знайшов, щось знайшло, Воно мене знайшло, тепер питання:
- Може все ж краще пошукові системи будуть індексувати та видавати і в мережу Інтернет мої хороші веб-сторінки? А 404, чи ті, що мені самому вже не потрібні, та яку я власне сам видалив, якось заявити пане Круелс (Crawlers, англ. crawl- повзти) будь-ласка не враховуйте...
- Що ж давайте спробуємо розібратись, що ми можемо дізнатись з тієї ж мережі Інтернет стосовно robot.txt та sitemap.xml?

Глосарій пошукової системи

http://не-дійсний-домен/pictures_06/spider_feature.jpg
Пошукова система (або скорочено пошуковик) певна база даних — онлайн-служба (програмно-апаратний комплекс з веб-інтерфейсом), що надає можливість пошуку інформації в Інтернеті. У просторіччі під пошуковою системою розуміють веб-сайт, на котрому розміщено інтерфейс системи. Програмною частиною пошукової системи є пошукова машина (пошуковий рушій) — комплекс програм, що забезпечує функціональність пошукової системи і, зазвичай, є комерційною таємницею компанії-розробника пошукової системи.
Відомі пошукові системи: Google, Яндекс, Yahoo!, Ask.com, Bing, ...
Індексація в пошукових системах сайтів здійснюється пошуковим роботом.
Пошуковий робот (також англ. web crawler, англ. web spider) — програма, що є складовою частиною пошукової системи та призначена для обходу сторінок інтернету з метою занесення інформації про них (ключових слів) до бази даних.
Павуки здійснюють загальний пошук інформації в Інтернеті. Вони повідомляють про зміст знайденого документа, індексують його і добувають підсумкову інформацію. Вони також переглядають заголовки, деякі посилання і відправляють проіндексовану інформацію до бази даних пошукового механізму.
Sitemaps — це XML-файл з інформацією для пошукових систем про сторінки веб-сайту, які підлягають індексації. Sitemaps може допомогти пошуковикам визначити місце знаходження сторінок сайту, час їхнього останнього поновлення, частоту оновлення та важливість щодо інших сторінок сайту для того, щоб пошукова машина змогла більш розумно індексувати сайт.
robots.txt – це файл обмеження доступу роботів до вмісту на http-сервері.
Файли Robots.txt служать лише для одного - "розповісти" спайдерам ПМ які сторінки не потрібно індексувати.

Про пошукові системи

Згідно статистики, близько 85% користувачів шукають інформацію за допомогою пошукових машин, які забезпечують від 70% до 85% від загальної відвідуваності ресурсу. Отже пошукова оптимізація сайту - це невід'ємна частина просування веб-сайту в мережі Інтернет.
Пошукові системи звичайно складаються з трьох компонентів:
- агент (павук чи кроулер), що переміщається по Мережі і збирає інформацію;
- база даних, що містить всю інформацію, що збирається павуками;
- пошуковий механізм, що люди використовують як інтерфейс для взаємодії з базою даних.

http://не-дійсний-домен/pictures_06/index_build.jpg

Засоби пошуку типу агентів, павуків, кроулерів і роботів використовуються для збору інформації про документи, що знаходяться в Мережі Інтернет. Це спеціальні програми, що займаються пошуком сторінок у Мережі, витягають гіпертекстові посилання на цих сторінках і автоматично індексують інформацію, що вони знаходять для побудови бази даних. Кожен пошуковий механізм має власний набір правил, що визначають, як збирати документи. Деякі випливають за кожним посиланням на кожній знайденій сторінці і потім, у свою чергу, досліджують кожне посилання на кожній з нових сторінок, і так далі. Деякі ігнорують посилання, що ведуть до графічних і звукових файлів, файлам мультиплікації; інші ігнорують посилання до ресурсів типу баз даних WAIS; інші проінструктовані, що потрібно переглядати найперше найбільш популярні сторінки.
Агенти - самі "інтелектуальні" з пошукових засобів. Вони можуть робити більше, ніж просто шукати: вони можуть виконувати навіть трансакції від імені користувача. Уже зараз вони можуть шукати cайти специфічної тематики і повертати списки cайтів, відсортованих по їх відвідуваності. Агенти можуть обробляти зміст документів, знаходити й індексувати інші види ресурсів, не лише сторінки. Вони можуть також бути запрограмовані для витягу інформації з уже існуючих баз даних. Незалежно від інформації, що агенти індексують, вони передають її назад базі даних пошукового механізму.
Загальний пошук інформації в Мережі здійснюють програми, відомі як павуки. Павуки повідомляють про зміст знайденого документа, індексують його і витягають підсумкову інформацію. Також вони переглядають заголовки, деякі посилання і посилають проіндексовану інформацію базі даних пошукового механізму.
Кроулери переглядають заголовки і повертають лише перше посилання.
Роботи можуть бути запрограмовані так, щоб переходити по різним посиланнях різної глибини вкладеності, виконувати індексацію і навіть перевіряти посилання в документі. Через їхню природу вони можуть застрявати в циклах, тому, проходячи по посиланнях, їм потрібні значні ресурси Мережі. Однак, маються методи, призначені для того, щоб заборонити роботам пошук по сайтах, власники яких не бажають, щоб вони були проіндексовані.
Агенти витягають і індексують різні види інформації. Деякі, наприклад, індексують кожне окреме слово в документі, що зустрічається, у те час як інші індексують лише найбільш важливих 100 слів у кожнім, індексують розмір документа і число слів у ньому, назва, заголовки і підзаголовки і так далі. Вид побудованого індексу визначає, який пошук може бути зроблений пошуковим механізмом і як отримана інформація буде інтерпретована.
Агенти можуть також переміщатися по Інтернет і знаходити інформацію, після чого поміщати її в базу даних пошукового механізму. Адміністратори пошукових систем можуть визначити, які сайти чи типи сайтів агенти повинні відвідати і проіндексувати. Проіндексована інформація відсилається базі даних пошукового механізму так само, як було описано вище.
Коли користувач хоче знайти інформацію, доступну в Інтернет, він відвідує сторінку пошукової системи і заповнює форму, що деталізує інформацію, що йому необхідна. Тут можуть використовуватися ключові слова, дати й інші критерії. Критерії у формі пошуку повинні відповідати критеріям, використовуваним агентами при індексації інформації, що вони знайшли при переміщенні по Мережі.
База даних відшукує предмет запиту, заснований на інформації, зазначеної в заповненій формі, і виводить відповідні документи, підготовлені базою даних. Щоб визначити порядок, у якому список документів буде показаний, база даних застосовує алгоритм ранжирування. В ідеальному випадку, документи, найбільш відповідному користувальницькому запиту будуть поміщені першими в списку.

Різні пошукові системи використовують різні алгоритми ранжирування.

Що таке robots.txt?

которко про призначення

Robots.txt – це файл обмеження доступу роботів до вмісту на http-сервері. Інакше кажучи, цей файл вказує, які файли індексувати, а які – ні. Файли Robots.txt служать лише для одного - "розповісти" спайдерам ПМ які сторінки не потрібно індексувати.
Пошукові роботи (crawlers) перед тим, як почати індексацію сайту, перевіряють, чи є у ньому файл robots.txt. Знайшовши цей файл, роботи поводяться відповідно до вказівок (директив) у цьому файлі.
В основному, якщо немає жодної користі від появи сторінки в результатах пошуку машин, то ви можете приховати ці сторінки від спайдерів використовуючи robots.txt. Це не лише збільшить ресурси ПМ, витрачені на ваші важливі сторінки, але також допоможе захистити ваш сайт від хакерів, які можуть в своїх цілях використовувати результати пошукової машини або роздобути важливу інформацію про вашу компанію або сайт. Спайдери ПМ досить охоче індексують що-небудь, що вони можуть знайти в мережі, включаючи такі речі як файли, де зберігаються паролі.
Файл повинен перебувати у корені сайту. При наявності декількох субдоменів файл повинен розташовуватися в кореневому каталозі кожного з них.
Використання файлу robots.txt є добровільним.
Наприклад, більшість адміністраторів не хочуть, аби індексувалася тека cgi-bin. В цьому випадку у файлі Robots.txt варто вказати:
User-agent: *
Disallow: /cgi-bin/
синтаксис файлу robots.txt

Синтаксис robots.txt має в своєму розпорядженні слідуючі інструкції:
- User-agent,
- Disallow,
- Allow,
- Crawl-delay,
- Request-rate,
- Visit-time,
- Host,
- Sitemap.

Файл Sitemap.xml

Що ми могли дізнатись про файл Sitemap.xml з Мережі?
Файл Sitemap це список посилань на всі або основні сторінки вашого web-майданчика. Через цей файл пошуковій системі набагато простіше вивчити сайт і пройти по посиланнях для перегляду контенту.
Створення карти сайту sitemap.xml - дуже важливий момент внутрішньої оптимізації. Пошукові роботи переміщаються по вашому сайту не аби як. Боти не можуть перескакувати зі сторінки на сторінку, тому вони переходять по посиланнях, які знайдуть на сторінках сайту. Для цього важливо грамотно вибудувати структуру веб-ресурсу, щоб винести основні матеріали в доступні сторінки, і подбати про внутрішні посилання. Чим менше глибина вложеності сторінок, тим вони більше доступні пошуковику. Оскільки під час свого одноразового відвідування пошукова програма проходить по невеликій кількості посилань, власнику ресурсу доводиться чекати поки вона обійде всі його сторінки і виведе їх в пошук. Залежно від обсягу веб-проекту на це може піти від декількох тижнів до декількох місяців (залежить це від кількості сторінок і якості наповнення).
Важливою властивістю файлу sitemap.xml є те, що він включає абсолютно всю структуру сайту, при цьому пошуковики бачать всі сторінки і не пропускають їх при індексації. Тепер пошуковому роботу легше працювати з сайтом, так як йому не треба переходити з однієї сторінки на іншу, коли він шукає не проіндексований контент.
Переваги застосування Sitemap:

- Збільшення ймовірності, що пошуковою системою проіндексовані будуть усі сторінки сайту;
- Cамостійне регулювання пріоритету індексації кожної сторінки.
- Після використання sitemap.xml швидкість індексації сайту збільшується.


Цікаво про пошукових павуків

Частота індексування сайтів

Логіка роботи пошукових систем з індексації документів (сторінок):
- Після знаходження і індексації нової сторінки, робот відвідує її наступного дня.
- Після порівняння вмісту сторінки з тим, що було вчора і не знайшовши відмінностей робот пошукової системи зайде на неї за три дні.
- Якщо і цього разу на даній сторінці нічого не змінитися, то робот навідується за тиждень і т.д.
З часом, частота відвідування пошукового робота до сторінки наблизиться до частоти її оновлення. Час повторного заходу робота пошукових систем може вимірюватися для різних сайтів як в хвилинах, так і в роках. Розумні пошукові системи встановлюють індивідуальний графік відвідування для різних сторінок різних сайтів.


Висновок

Переглядаючи матеріал про пошукові системи, можна стверджувати, так чи інакше матеріал Вашого сайту буде проіндексований пошуковими системами, проте задля правильної та більш швидкої індексації Вашого матеріалу варто використовувати вказівки (Robots.txt та Sitemap.xml) для пошукових роботів, та пам'ятаємо що:
Robots.txt - файл створений для дозволу або заборони індексації сторінок пошуковими роботами.
Sitemap.xml — сторінка використовувана пошуковими роботами для індексації сторінок сайту.
- Що ж на цьому лиш бажаю вдалої оптимізації Вашого сайту!

Подякували: Replace, leofun01, fed_lviv, NaharD, /KIT\5

2

Re: Що таке Robots.txt та Sitemap.xml?

- До чого я вів то :) ?,
- Я останнім часом прибирався на Власному сайті і справді видалив десяток веб-сторінок, а тепер мені GoogleFriend (google.com/webmasters/tools/) заявляє 404 Page Not Found, та я знаю що їх немає, я так розумію в мене є а ж цілих два рішення по даному питанню:
1. Почистити всі інші веб-сторінки що посилаються на видалену веб-сторінку.
2. Заборонити Роботу її індексувати, хоча що тут індексувати якщо її нема, виходить що виконуємо п.1.

Дякую всім за підказку :)

P.S. -Будуть пропозиції вислухаю.

Подякували: Replace1

3

Re: Що таке Robots.txt та Sitemap.xml?

Звичайно круто, але мабуть краще було б якби окремо було про robots.txt та sitemap.xml.
Про пошукові системи - теж мабуть окремо краще.
При розгляді robots.txt можна ще додати трохи про meta-тег robots (<meta name="robots" ...>)

- Cамостійне регулювання пріоритету індексації кожної сторінки.

Ось ця штука для Google та Яндекс особливо не діє. Для них все-таки більш важливо внутрішня перелінковка та зовнішні посилання на окремі сторінки, так і виставляється пріоритет. А також важлива якість сторінки.

Sitemap.xml — сторінка використовувана пошуковими роботами для індексації сторінок сайту.

Взагалі sitemap.xml не обов'язково повинен мати назву саме "sitemap.xml". Можна використовувати будь-яку назву, але обов'язково необхідно вказати це в robots.txt або відправити в інструментах Google/Яндекс.
Можна ще додати про те що sitemap може містити посилання на інші файли. Тобто для інтернет-магазину це може бути: sitemap/products.xml, sitemap/categories.xml, sitemap/news.xml, sitemap/articles.xml, sitemap/other.xml.

Ще додам, що так чи інакше не потрібно зациклюватись на sitemap. Часто щоб його згенерувати потрібно витратити трохи часу, а не така вже й важлива річ, особливо зараз.

ПМ - пошукові мережі? правильно все-таки пошукові системи (ПС).

P.S. все-таки рекомендую розбити статтю на окремі, так буде легше сприйматись і це буде краще для пошукових систем. :)
А в robots.txt додати більше прикладів.

Подякували: Анатолій1

4

Re: Що таке Robots.txt та Sitemap.xml?

Взагалі то, я спочатку хотів лиш з robots.txt розібратись, так би мовити зібрати інформацію загалом, що це таке.
Але якщо просто розібратись в загальному, що таке  robots.txt - то варто сказати, що він відноситься до елементів Пошукових Систем, відповідно варто ознайомитись загалом, що таке і Пошукова Система.
А біля них вже й крутиться sitemap.
Через те я й позбирав на власний розсуд з інтернету саме загальну інформацію про них. Якщо вже глибше копати які директиви Robot має, чи навіть за Пошукові системи, та й  про sitemap, то воно й справді краще розбити на окремі теми, але й то вже не було моєю ціллю.

Мені необхідно було лиш ознайомитись так би мовити з основами, такий от особистий компроміс.

Тепер при нагоді сяду перегляну до яких папок веб-сайту мені варто застосовувати Robot, хоча ще й так не всі власні веб-сторінки перебрав/переробив під зручність перегляду мобільними гаджетами, ще трохи є лінків битих,- ну загалом є з чим бавитись...