1

Тема: Витягти домен сайту.

Потрібно витягти з різних ІП адрес істинний домен сайту. Наприклад сайт-злодій і 123.сайт-злодій - потрібно витягти сайт-злодій. У когось є ідеї? Справа в тому що мені потрібно перебирати мільйони сайтів і витягати домен...

2

Re: Витягти домен сайту.

Дайте визначення істиного домена — чим він відрізняється від неістиного? Йдеться про перенаправлення? Тоді слід законектитись і перевірити наявність/відсутність Location: http://true.domain у хедерах (хоча перенаправлення з одного й того ж домена можуть вести на різні сайти в різних доменах...). Чи йдеться про рівень? Але тоді sasha.narod.ru й masha.narod.ru будуть вважатися одним доменом разом з narod.ru (хоча вміст їх буде різним).

3 Востаннє редагувалося Dopamine (25.06.2015 00:49:10)

Re: Витягти домен сайту.

P.Y. написав:

Дайте визначення істиного домена — чим він відрізняється від неістиного? Йдеться про перенаправлення? Тоді слід законектитись і перевірити наявність/відсутність Location: http://true.domain у хедерах (хоча перенаправлення з одного й того ж домена можуть вести на різні сайти в різних доменах...). Чи йдеться про рівень? Але тоді sasha.narod.ru й masha.narod.ru будуть вважатися одним доменом разом з narod.ru (хоча вміст їх буде різним).

Мав на увазі рівень.
Була ідея брати літери розділені двома крапками пред слешом, але тоді вийде щось типу "org.ua", "com.ua" замість нормального google.com.ua

У мене зараз виходить щось таке:

http://s013.сайт-злодій/i323/1506/4c/26748107f5cf.png

4

Re: Витягти домен сайту.

Google -> how to extract domain name from url
І читайте. Ви - не перший з такою проблемою. Непогано розуміти, що таке regular expression.

5

Re: Витягти домен сайту.

mich_retten написав:

Google -> how to extract domain name from url
І читайте. Ви - не перший з такою проблемою. Непогано розуміти, що таке regular expression.

Хотів уже дискутувати з вами, але ні, ваш спосіб працює. Перша тема стековерфлов в гуглі, перша відповідь:

No, there is no "intrinsic" way of knowing that (e.g.) zap.co.it is a subdomain (because Italy's registrar DOES sell domains such as co.it) while zap.co.uk isn't (because the UK's registrar DOESN'T sell domains such as co.uk, but only like zap.co.uk).