Тема: Потрiбен парсер Facebook
Вітаю, потрібен парсер фб. Мета: Спарсити увесь Фейсбук
Реалізація:
Фейсбук має жорсткі ліміти на майже весь парсинг, крім парсинга за типом ім'я + місто.
Цим і скористаємося.
Вказуємо список містом і список імен. Парсимо все, що нам видають.
Алгоритм буде приблизно таким:
Є міста Нью-Йорк, Філадельфія
імена: Мінді, Джон, Аліса
Парсер обробляє так:
Мінді + Нью-йорк, Джон + Нью-йорк, Аліса + Нью-йорк
Мінді + Філадельфія, Джон + Філадельфія, Аліса + Філадельфія
Знадобиться десь 1 до потоків. Ймовірно, використовувати амазон (як я розумію, вони для цих цілей мають сервера)
Проксі ipv6.
Ймовірно, через браузер або імітацію його. Хоча можна і через хттп запити спробувати.
Акаунти, в будь-якому випадку, будуть летіти в бан, так що потрібен реєстратор, який буде підтягувати акаунти на час парсинга.
Далі все це збирається в базу. В якій ми можемо:
1) Використовувати мінус-слова по потрібним нам категоріям. (Наприклад, ім'я та слово "Лера". Всі люди з ім'ям Лера, втечуть)
2) Плюс слова по потрібним нам категоріям. Наприклад, ім'я та слово "Лера". Всі люди з ім'ям Лера, залишаться.
Етап фільтрації багатоступінчастий. Тобто операції плюс і мінус слів можуть використовуватися кілька разів. Як у звичайній бд.
А також знадобиться рейтинг по найпопулярнішим збігів. Наведу приклад. У нас є категорія Ім'я. Софт вважає, скільки імен збігається і вибудовує рейтинг від найбільшої кількості до найменшому.
Якщо у нас в Списку:
Сергій Філатов
Сергій Єсєнін
Олександр Пушкін
Софт вибудує все так:
Сергій - 2
Олександр 1
категорії:
1)! Вся! графа Favorites (рейтинг)
2) Освіта
3) Місто
4) ім'я та прізвище
5) Улюблені цитати (рейтінг_)
6) Робота (рейтинг)
7) підлогу
Для зв'язку телеграм - @Jricher