1

Тема: Витягти домен сайту.

Потрібно витягти з різних ІП адрес істинний домен сайту. Наприклад vk.com і 123.vk.com - потрібно витягти vk.com. У когось є ідеї? Справа в тому що мені потрібно перебирати мільйони сайтів і витягати домен...

2

Re: Витягти домен сайту.

Дайте визначення істиного домена — чим він відрізняється від неістиного? Йдеться про перенаправлення? Тоді слід законектитись і перевірити наявність/відсутність Location: http://true.domain у хедерах (хоча перенаправлення з одного й того ж домена можуть вести на різні сайти в різних доменах...). Чи йдеться про рівень? Але тоді sasha.narod.ru й masha.narod.ru будуть вважатися одним доменом разом з narod.ru (хоча вміст їх буде різним).

py -3 -m pip install git+https://github.com/snoack/python-goto
∩⍴○⌈⍴⍺/∧\∨/⊢○ ⌿⍀⍴⌊

3 Востаннє редагувалося Dopamine (25.06.2015 01:49:10)

Re: Витягти домен сайту.

P.Y. написав:

Дайте визначення істиного домена — чим він відрізняється від неістиного? Йдеться про перенаправлення? Тоді слід законектитись і перевірити наявність/відсутність Location: http://true.domain у хедерах (хоча перенаправлення з одного й того ж домена можуть вести на різні сайти в різних доменах...). Чи йдеться про рівень? Але тоді sasha.narod.ru й masha.narod.ru будуть вважатися одним доменом разом з narod.ru (хоча вміст їх буде різним).

Мав на увазі рівень.
Була ідея брати літери розділені двома крапками пред слешом, але тоді вийде щось типу "org.ua", "com.ua" замість нормального google.com.ua

У мене зараз виходить щось таке:

http://s013.radikal.ru/i323/1506/4c/26748107f5cf.png

4

Re: Витягти домен сайту.

Google -> how to extract domain name from url
І читайте. Ви - не перший з такою проблемою. Непогано розуміти, що таке regular expression.

5

Re: Витягти домен сайту.

mich_retten написав:

Google -> how to extract domain name from url
І читайте. Ви - не перший з такою проблемою. Непогано розуміти, що таке regular expression.

Хотів уже дискутувати з вами, але ні, ваш спосіб працює. Перша тема стековерфлов в гуглі, перша відповідь:

No, there is no "intrinsic" way of knowing that (e.g.) zap.co.it is a subdomain (because Italy's registrar DOES sell domains such as co.it) while zap.co.uk isn't (because the UK's registrar DOESN'T sell domains such as co.uk, but only like zap.co.uk).

МАКЕ ЦКЯАІИЕ БЯЕАТ АБАІИ