Задать вопрос

Headballz @Headballz

python

Как указать файл для scrapy spider, если он лежит в той же папке?

Я выгружаю с помощью selenium в html нужную мне страницу.
Она попадает в папку где лежит проект Scrapy.
Сейчас мне нужно указывать полный путь к файлу для парсинга.
Можно ли настроить scrapy парсить html файлы, лежащие в той же директории?

Примерный код:

import scrapy
from urllib.parse import urljoin

class Htmlparse(scrapy.Spider):
    name = "htmlparse"
    start_urls = [
        'file:///C:/scrapyproject/alpabetsch23-43_28-09-2019.html',
    ]
    def parse(self, response):
        for post_link in response.xpath('//td').extract():
            url = urljoin(response.url, post_link)
            print(url)

Вопрос задан более трёх лет назад
88 просмотров

2 комментария

Подписаться 1 Простой 2 комментария

Александр @sanya84

start_urls = [
'alpabetsch23-43_28-09-2019.html',
]

Написано более трёх лет назад

Headballz @Headballz Автор вопроса

Так не работает:

File "c:\users\aa\appdata\local\programs\python\python36-32\lib\site-packages\
scrapy\http\request\__init__.py", line 69, in _set_url
    raise ValueError('Missing scheme in request url: %s' % self._url)
ValueError: Missing scheme in request url: Kandidate01-20_29-09-2019.html

Написано более трёх лет назад

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

Python

Простой
Пишу Todolist появилась ошибка, как исправить?
- 1 подписчик
- 2 часа назад
- 18 просмотров
0

ответов
Python

+1 ещё

Простой
Как решить проблему с терминалом PyCharm?
- 1 подписчик
- 2 часа назад
- 17 просмотров
0

ответов
Python

+2 ещё

Средний
Как пофиксить ошибку с сертификатом при работе с selenium?
- 1 подписчик
- 3 часа назад
- 12 просмотров
0

ответов
Python

+2 ещё

Средний
Возможно ли сделать так, чтобы Telegram GPT-Yandex.Cloud Бот отвечал не только на текстовые сообщения, но и на картинки? И если да, то как?
- 1 подписчик
- 4 часа назад
- 30 просмотров
2

ответа
Python

Средний
Как выполнить авторизацию MS CHAP 2?
- 1 подписчик
- 6 часов назад
- 22 просмотра
0

ответов
Python

+1 ещё

Простой
Как вычислить количество записей?
- 1 подписчик
- 10 часов назад
- 65 просмотров
2

ответа
Python

+1 ещё

Простой
Почему при использование webdriverIE все равно открывается EDge?
- 1 подписчик
- 11 часов назад
- 14 просмотров
0

ответов
Python

Простой
Почему мой discord бот не реагирует на свои команды?
- 1 подписчик
- 12 часов назад
- 56 просмотров
0

ответов
Python

Простой
Как получить экземпляр родителя из дочернего класса?
- 1 подписчик
- вчера
- 118 просмотров
1

ответ
Python

Простой
Как указать когда нужна рекурсия а когда нет?
- 1 подписчик
- вчера
- 78 просмотров
1

ответ
Показать ещё Загружается…

Team Lead (С++, Python)

TopAssistant • Москва

от 400 000 ₽

Python developer

Bell Integrator

До 350 000 ₽

Python developer

Greenway Global • Новосибирск

от 150 000 ₽

Доработать клиентское приложение для GTA 5 на C#

20 апр. 2024, в 00:51

1000 руб./за проект

Верстка и логика формы выбора билетов в зале для покупки

20 апр. 2024, в 00:43

10000 руб./за проект

Разработать формирование УПД на Java

20 апр. 2024, в 00:28

20000 руб./за проект