Как написать парсер файлов на сайте (Python)?

Question

JRazor @JRazor

Senior StarkOverFlow Programmer

Как написать парсер файлов на сайте (Python)?

Доброго времени суток, господа и немногочисленные дамы!

Ситуация такая: имеем URL сайта и необходимо найти все файлы на этом сайте.

Вопрос: что использовать? Регулярные выражения ('\.(php|txt|css)')? Методом подстановки? Как?

Спасибо!

Вопрос задан более трёх лет назад
7274 просмотра

3 комментария

Подписаться 5 Оценить 3 комментария

Пригласить эксперта

Ответы на вопрос 3

3 комментария

2 комментария

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

Python

+1 ещё

Простой
Как получить экземпляр родителя из дочернего класса?
- 1 подписчик
- 3 часа назад
- 23 просмотра
0

ответов
Python

Простой
Как указать когда нужна рекурсия а когда нет?
- 1 подписчик
- 5 часов назад
- 30 просмотров
1

ответ
Python

+1 ещё

Простой
Как сохранять сессию во Flask?
- 1 подписчик
- 11 часов назад
- 33 просмотра
0

ответов
Python

+1 ещё

Простой
Как реализовать Python-код, который будет распознавать речь, но будет реагировать только тогда, когда будет упомянуто определенное слово?
- 1 подписчик
- 13 часов назад
- 76 просмотров
2

ответа
Python

Простой
Как создать offline карту на python?
- 1 подписчик
- вчера
- 133 просмотра
2

ответа
Python

Простой
Какие модули есть в Python для целей анализа, форматирования, вывода текста?
- 2 подписчика
- вчера
- 218 просмотров
3

ответа
Регулярные выражения

Средний
Как выделить в группу повторяющееся выражение?
- 1 подписчик
- вчера
- 122 просмотра
1

ответ
Python

+1 ещё

Простой
Выбор: парсить на питоне с aiohttp, asyncio, bs4 или requests + bs4?
- 1 подписчик
- вчера
- 134 просмотра
2

ответа
PHP

+1 ещё

Простой
Как получить данные title на TradingView?
- 1 подписчик
- вчера
- 30 просмотров
1

ответ
Python

+1 ещё

Простой
Почему не срабатывает клик по элементу при открытии станицы selenium python?
- 1 подписчик
- 16 апр.
- 51 просмотр
1

ответ
Показать ещё Загружается…

Team Lead (С++, Python)

TopAssistant • Москва

от 400 000 ₽

Python developer

Bell Integrator

До 350 000 ₽

Python developer

Greenway Global • Новосибирск

от 150 000 ₽

Доработать телеграм бота

19 апр. 2024, в 03:52

1000 руб./за проект

Написать код на python

19 апр. 2024, в 03:01

1000 руб./за проект

Настройка сервера

18 апр. 2024, в 21:56

2000 руб./за проект

Вас интересуют абсолютно все файлы или конкретные? поиск всех может затянуться.
Меня интересуют файлы определенного расширения. Какого - не важно. Расширение значения не имеет. Если использовать метод подстановки, то конечно затянется, но я надеюсь на что-нибудь попроще. :)
Вам нужны файлы которые есть в открытом доступе (html) или вы хотите вообще все получить?

Answer 1 · 2013-11-27 23:13:59

alternativshik @alternativshik

дернуть wget'om и потом грепнуть нужное?

Ответ написан более трёх лет назад

3 комментария

Answer 2 · 2013-11-30 08:55:50

Я использовал регулярные выражения (модуль называется re). А конкретно, сначала получал код страницы:

from urllib import request
...
html = request.urlopen(your_url).read().decode('utf-8')

И потом что-нибудь вроде

filenames = re.findall('\w+\.(?:txt|php|css)', html)

Это запомнит в filenames все имена файлов (без пробелов), за которыми следует нужное расширение. Если имена файлов лежат в окружении каких-нибудь определённых тегов (например,

<tag1><div class='filenames'>имя файла.txt</div><br></tag1>

, то легко с помощью круглых скобок можно выделить ту часть текста, походящего под regexp, который нужен.

fiilenames = re.findall("<tag1><div class='filenames'>(.*?\.(?:txt|php|css)')</div><br>", html).

Почитай документацию по данному модулю и сделай по аналогии то, что нужно.

Answer 3 · 2013-12-16 13:56:12

Не идеальный, но вполне работающий паук - Grab. Может ходить по сайтам. искать все что вам надо, включая xPath и RegExp

Как написать парсер файлов на сайте (Python)?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт