Python: как проверить URL на правильность?

Question

JRazor @JRazor

Senior StarkOverFlow Programmer

Python

Python: как проверить URL на правильность?

Здравствуйте. Возникла проблема следующего характера: Scrapy глохнет при скармливании ему неправильного URL. Парсинг останавливается и дальнейшие URL не проверяются (например, "adsabs.harvard.edu/full/2002JIMO...30..199R").

Поэтому было придумано получать код ответа от URL через httplib. Была украдена функция со stackoverflow.com:

def get_status_code(self, host, path="/"):
        """ This function retreives the status code of a website by requesting
            HEAD data from the host. This means that it only requests the headers.
            If the host cannot be reached or something else goes wrong, it returns
            None instead.
        """
        try:
            conn = httplib.HTTPConnection(host)
            conn.request("HEAD", path)
            return conn.getresponse().status
        except StandardError:
            return None

Если код возвращает 200 - URL проходит, в остальных случаях - игнорируется. Но дело в том, что такая проверка очень долгая. Отправить запрос на каждый URL (а их порядка 30к) - это значительно замедляет парсер.

Была задумка проверять RegExp'ом, но пока хочу послушать, что скажут более опытные коллеги.

Может ли кто-нибудь порекомендовать альтернативный метод решения проблемы?

Вопрос задан более трёх лет назад
9482 просмотра

Комментировать

Подписаться 4 Сложный Комментировать

Решения вопроса 1

Комментировать

Пригласить эксперта

Ответы на вопрос 3

2 комментария

7 комментариев

JRazor @JRazor Автор вопроса

То, что вы предложили - я уже знаю. Отличная штука, удобная, но....не то. Это разбор строкового URL на части: http, domen, path, бла-бла-бла. Выше приведенный URL воспринимается нормально и, следовательно, в данном случае urlparse бесполезен.

Написано более трёх лет назад
yttrium @yttrium

прозвучало "неправильного URL".. я заподозрил URL который не соответствует требованиям URI.. приведите примеры неправильного URL

Написано более трёх лет назад
JRazor @JRazor Автор вопроса

Приводил пример выше: adsabs.harvard.edu/full/2002JIMO...30..199R. На таком URL Scrapy просто остановится, завершится и остальные URL не проверит.

Написано более трёх лет назад
yttrium @yttrium

да.. сорри.. както проглядел.. в этом случае URL соответствует общепринятой записи URI. А для вашей задачи посоветовал бы выделить критерии неправильности, и описать их регулярным выражением. Если не удасться выделить критерии, то остаётся только ваш способ, который возможно и производит единственную необходимую проверку "есть ли отклик по URL".

Написано более трёх лет назад
JRazor @JRazor Автор вопроса

Есть ли более быстрый способ проверить отклик? Не грузить страницу, а просто проверить доступность URL?

Написано более трёх лет назад
JRazor @JRazor Автор вопроса

У меня более 30К URl. Описать все критерии не представляется возможным

Написано более трёх лет назад
yttrium @yttrium

urllib2.urlopen('www.python.org') отбрасывает исключение даже если не делать ему read()

Написано более трёх лет назад

3 комментария

yttrium @yttrium

т.е. URL именно не URL потому что match'ится тем самым регулярним вырежением или потому что кликая по этому URL открывается веб-страница?

Написано более трёх лет назад
Lo-fi @hrls

Кликая по нему, http:// приклеивает браузер. В старых браузерах эта ссылка может и не открываться. А не URL потому что не удовлетворяет регулярке из RFC.

Написано более трёх лет назад
JRazor @JRazor Автор вопроса

Как ни странно, этот адрес таки открывался и прекрасно работал. Если такой вариант URL не удовлетворяет регулярке RFC, но мне необходимо с ним работать, не кажется ли вам глупым обсуждение валидности этого адреса? Я уже сверху объяснял, что проверять валидность мне не нужно: мне нужен код возврата. Проблему уже решил. Как - ниже.

Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

Python

+1 ещё

Простой
Как получить имена параметров, которые будут переданы при нажатии на кнопку «зарегистрироваться»?
- 1 подписчик
- 2 часа назад
- 21 просмотр
1

ответ
Python

+3 ещё

Простой
Нужна помощь/совет — Telegram бот?
- 1 подписчик
- 5 часов назад
- 66 просмотров
1

ответ
Python

+1 ещё

Средний
Как победить варнинг There is no current event loop в юнитестах?
- 1 подписчик
- 6 часов назад
- 27 просмотров
0

ответов
Python

+1 ещё

Простой
Как работают рекурсии?
- 1 подписчик
- 7 часов назад
- 70 просмотров
3

ответа
Python

+3 ещё

Средний
Как запустить обучение с deepspeed у себя на пк?
- 2 подписчика
- 9 часов назад
- 172 просмотра
1

ответ
Python

+1 ещё

Простой
Как показать зависимость скорости от O(nlogn)?
- 1 подписчик
- вчера
- 78 просмотров
2

ответа
Python

Средний
Как из проекта на python RenPY сделать установщик?
- 1 подписчик
- вчера
- 61 просмотр
1

ответ
Python

+3 ещё

Простой
С чем и как есть gRPC?
- 1 подписчик
- вчера
- 78 просмотров
1

ответ
Python

+1 ещё

Простой
Как увеличить паузу между отправкой запроса и получением результата?
- 1 подписчик
- вчера
- 106 просмотров
3

ответа
Python

Простой
Как исправить проблему с установкой torch?
- 1 подписчик
- вчера
- 74 просмотра
0

ответов
Показать ещё Загружается…

Team Lead (С++, Python)

TopAssistant • Москва

от 400 000 ₽

Python developer

Bell Integrator

До 350 000 ₽

Python developer

Greenway Global • Новосибирск

от 150 000 ₽

Необходимо сверстать приложение согласно макету Figma используя React

26 апр. 2024, в 22:22

1500 руб./за проект

Написать модуль подключения матрицы Sony к ПЛИС (Verilog)

26 апр. 2024, в 21:30

15000 руб./за проект

8266 f12 требуется сделать ревью и оптимизировать работу

26 апр. 2024, в 20:42

2000 руб./за проект

Answer 1 · 2014-06-28 19:43:19

JRazor @JRazor Автор вопроса

Senior StarkOverFlow Programmer

Проблему решил. Познакомился с функцией errback (альтернатива callback в Request запросах Scrapy).

Ответ написан более трёх лет назад

Комментировать

Answer 2 · 2014-06-19 12:22:15

Scrapy глохнет при скармливании ему неправильного URL.

А вы пробовали к ресурсу, адресуемому этим URL, обратиться браузером? У меня открывается статья, с библиографическим номером 2002JIMO...30..199R. Более того, при помощи requests я получаю HTTP 200 в ответ на HEAD:

>>> import requests
>>> response = requests.head('http://adsabs.harvard.edu/full/2002JIMO...30..199R')
>>> response
<Response [200]>

Есть мнение, что вы не до конца понимаете проблему, которую хотите решить. Предлагаю разобраться, почему

Scrapy глохнет при скармливании ему неправильного URL

(и так ли это вообще, может быть, эти явления не связаны). Может быть, сайт временно не работоспособен? Может быть, сервер вас (или ваш прокси) блокирует? Может быть, это ошибка Scrapy?
Зафиксируйте URL и проверьте, всегда ли (при каких условиях) Scrapy его [не]корректно обрабатывает.

Answer 3 · 2014-06-19 10:34:58

yttrium @yttrium

стучаться по урлам это не есть гуд
надо парсить урл вот чем https://docs.python.org/2/library/urlparse.html
или re

Ответ написан более трёх лет назад

7 комментариев

Answer 4 · 2014-06-28 16:27:28

adsabs.harvard.edu/full/2002JIMO...30..199R – это не URL.
Почитать и понять можно тут и тут (стоит сразу искать вхождение 'Parsing a URI Reference with a Regular Expression').
Наверное тут уже были stackoverflow.com/questions/7160737/python-how-to-...

Python: как проверить URL на правильность?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт