1 Востаннє редагувалося dialectstat (29.08.2020 11:33:08)

Тема: Проблема з скрапінгом сайту

Хочу скрапити сторінки типу такої http://climatebase.ru/station/33345/from2000
Пишу

import requests
url="http://climatebase.ru/station/33345/from2000"
html_content = requests.get(url).text
print(html_content)

На виході лише

<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd">
<html>

<head>
  <META HTTP-EQUIV="CACHE-CONTROL" CONTENT="NO-CACHE">
  <META HTTP-EQUIV="PRAGMA" CONTENT="NO-CACHE">
  <META HTTP-EQUIV="REFRESH" CONTENT="1;">
  <title>Browser Check Page</title>
</head>

<body>
  <script type="text/javascript">
    document.cookie = 'CHECK=0; path=/';
  </script>
</body>

</html>

Як бути?

2

Re: Проблема з скрапінгом сайту

Виглядає як перевірка на ботів, спробуйте headless-chrome

3 Востаннє редагувалося VTrim (29.08.2020 14:59:40)

Re: Проблема з скрапінгом сайту

curl 'http://climatebase.ru/station/33345/from2000' -H 'User-Agent: Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:80.0) Gecko/20100101 Firefox/80.0' -H 'Accept: text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8' -H 'Accept-Language: uk-UA,uk;q=0.8,en-US;q=0.5,en;q=0.3' --compressed -H 'Connection: keep-alive' -H 'Cookie: CHECK=0' -H 'Upgrade-Insecure-Requests: 1' -H 'Pragma: no-cache' -H 'Cache-Control: no-cache'

Все норм, просто треба ставити потрібні заголовки, куки.
Особлива увага на куку
Cookie: CHECK=0

Подякували: plusxx1

4 Востаннє редагувалося dialectstat (29.08.2020 16:43:37)

Re: Проблема з скрапінгом сайту

VTrim написав:
curl 'http://climatebase.ru/station/33345/from2000' -H 'User-Agent: Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:80.0) Gecko/20100101 Firefox/80.0' -H 'Accept: text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8' -H 'Accept-Language: uk-UA,uk;q=0.8,en-US;q=0.5,en;q=0.3' --compressed -H 'Connection: keep-alive' -H 'Cookie: CHECK=0' -H 'Upgrade-Insecure-Requests: 1' -H 'Pragma: no-cache' -H 'Cache-Control: no-cache'

Все норм, просто треба ставити потрібні заголовки, куки.
Особлива увага на куку
Cookie: CHECK=0

Дякую
знайшов перекладач https://curl.trillworks.com/#python