парсинг рекламних постів facebook

1 Тема від Eff1c 20.03.2020 14:41:53

Eff1c
Користувач
Поза форумом

Звідки: Луцьк
Дата реєстрації: 15.01.2018
Повідомлень: 448

: 91

Тема: парсинг рекламних постів facebook

Потрібно парсити рекламні пости з стрічки новин facebook.
Вирішив зробити авторизацію через selenium і разом з тим парсити ним же.
З авторизацією проблем не виникло, а от з парсингом...

from selenium import webdriver
from time import sleep

def authorization():
    usr = input('Enter Email Id: ')
    pwd = input('Enter Password: ')

    username_box = driver.find_element_by_id('email')
    username_box.send_keys(usr)
    sleep(3)

    password_box = driver.find_element_by_id('pass')
    password_box.send_keys(pwd)
    sleep(1)

    login_box = driver.find_element_by_id('loginbutton')
    login_box.click()
    sleep(2)

driver = webdriver.Firefox(executable_path="/home/eff1c/project/parser_fb/geckodriver") # була помилка з geckodriver, тому мусив його встановити і вказати шлях до нього
driver.get('https://www.facebook.com/') # переходим на FB
sleep(3)

authorization()

arr_post = driver.find_elements_by_class_name('_1dwg _1w_m _q7o') # дістаєм всі пости з стрічки
print(arr_post)
arr_advertising = [ads for ads in arr_post if ads.find_element_by_xpath('//div[@class="_5pcp _5lel _2jyu _232_"]/a')] # вибираємо серед постів рекламу
print(arr_advertising)

input('Press anything to quit ')
driver.quit()
print("Finished")

Спочатку збираю всі пости (по класу "_1dwg _1w_m _q7o")
При варіанті:

arr_post = driver.find_elements_by_class_name('_1dwg _1w_m _q7o')

Повертає пустий список. А якщо шукати через xpath то повертає щось типу:

[<selenium.webdriver.firefox.webelement.FirefoxWebElement (session="a5a75724-17e9-413c-af4d-fce6a0fea62d", element="27fa7d68-f8ef-447c-ac39-ec71649ef895")>, <selenium.webdriver.firefox.webelement.FirefoxWebElement (session="a5a75724-17e9-413c-af4d-fce6a0fea62d", element="32c1f50a-ba80-4cea-b100-8b6cab528a55")>]

А рекламні серед них вибирав по тому, що у рекламних в тезі div з класом "_5pcp _5lel _2jyu _232_" є два тега <a> i тег <span>, а у звичайних тега <a> немає:

if ads.find_element_by_xpath('//div[@class="_5pcp _5lel _2jyu _232_"]/a')

Якщо шукав пости через xpath, то повертає аналогічний список, нічого не відфільтровувавши. Міг би спробувати не через xpath, але немає сенсу так як на вхід буде пустий список.
Зараз спробую парсити через bs4, але хотілося б дізнатись що тут не так.

2 Відповідь від koala 20.03.2020 14:48:16

koala
Лінива тваринка
Поза форумом

Дата реєстрації: 01.05.2013
Повідомлень: 15 820

Репутація

: 13485

Re: парсинг рекламних постів facebook

Вони з AdBlocker-ами воюють, ви ніц не вдієте. Навіть якщо ви знайдете сьогодні конкретну ознаку реклами, завтра вона може повністю змінитися.

Подякували: Eff1c, ostap34PHP, /KIT\3

koala вебсайт

3 Відповідь від Eff1c 20.03.2020 15:18:25

Eff1c
Користувач
Поза форумом

Звідки: Луцьк
Дата реєстрації: 15.01.2018
Повідомлень: 448

Репутація

: 91

Re: парсинг рекламних постів facebook

koala написав:

Вони з AdBlocker-ами воюють, ви ніц не вдієте. Навіть якщо ви знайдете сьогодні конкретну ознаку реклами, завтра вона може повністю змінитися.

Розумію. Ну я готовий час від часу міняти код, це не так страшно.
Але проблема тут не в цьому, так як навіть самі пости не хоче парсити.

4 Відповідь від Eff1c 20.03.2020 16:46:23

Eff1c
Користувач
Поза форумом

Звідки: Луцьк
Дата реєстрації: 15.01.2018
Повідомлень: 448

Репутація

: 91

Re: парсинг рекламних постів facebook

Все-таки строка

arr_post = driver.find_elements_by_xpath('//div[@class="_1dwg _1w_m _q7o"]')

працює правильно
Залишається лише проблема з відсіювання не рекламних постів.

arr_advertising = [ads for ads in arr_post if ads.find_element_by_xpath('//div[@class="_5pcp _5lel _2jyu _232_"]/a')]

Що тут може бути не так? *SCRATCH*

5 Відповідь від plusxx 20.03.2020 16:54:05

plusxx
Amator
Поза форумом

Дата реєстрації: 23.04.2019
Повідомлень: 1 053

Репутація

: 683

Re: парсинг рекламних постів facebook

А попробуйте може в лоб. find_element(By.PARTIAL_LINK_TEXT)

6 Відповідь від Eff1c 20.03.2020 17:31:22

Eff1c
Користувач
Поза форумом

Звідки: Луцьк
Дата реєстрації: 15.01.2018
Повідомлень: 448

Репутація

: 91

Re: парсинг рекламних постів facebook

pluszz написав:

А попробуйте може в лоб. find_element(By.PARTIAL_LINK_TEXT)

Була така ідея)
А якщо браузер буде не в українській розкладці і link_text буде не "Реклама"?
Передбачити можливу англійську розкладку і перевірити ще на слово "advertasing" (чи як там воно підписується в фейсбуці)?
І, до речі, в фейсбуці можна робити текст з посиланням? Якщо так, то можуть бути звичайні пости, в яких опис чи будь-який текст містить слово "реклама" з посиланням.

7 Відповідь від Eff1c 24.03.2020 15:52:16

Eff1c
Користувач
Поза форумом

Звідки: Луцьк
Дата реєстрації: 15.01.2018
Повідомлень: 448

Репутація

: 91

Re: парсинг рекламних постів facebook

Поки що зробив так:

arr_post = driver.find_elements_by_xpath('//div[@class="_1dwg _1w_m _q7o"]') # дістаєм всі пости з стрічки
arr_post = [i.get_attribute("outerHTML") for i in arr_post] # переводим кожен пост в html

driver.quit() # закриваєм вкладку

arr_advertising = [ads for ads in arr_post if "Реклама</a>" in ads or "Advertising</a>" in ads]  # вибираємо серед постів рекламу

Помилок, поки що, не було.

Подякували: plusxx1

Ласкаво просимо!

Повідомлення: 7

1 Тема від Eff1c 20.03.2020 14:41:53

Тема: парсинг рекламних постів facebook

2 Відповідь від koala 20.03.2020 14:48:16

Re: парсинг рекламних постів facebook

3 Відповідь від Eff1c 20.03.2020 15:18:25

Re: парсинг рекламних постів facebook

4 Відповідь від Eff1c 20.03.2020 16:46:23

Re: парсинг рекламних постів facebook

5 Відповідь від plusxx 20.03.2020 16:54:05

Re: парсинг рекламних постів facebook

6 Відповідь від Eff1c 20.03.2020 17:31:22

Re: парсинг рекламних постів facebook

7 Відповідь від Eff1c 24.03.2020 15:52:16

Re: парсинг рекламних постів facebook

Повідомлення: 7

Переглядають тему: 1 гість, 0 користувачів