Какие ошибки в парсере?

Question

hardwellZero @hardwellZero

Какие ошибки в парсере?

Добрый вечер.
Начал изучать Python. Решил немного попрактиковаться и написать простенький парсер, а по-скольку я люблю смотреть сериалы от Лостфильма, то выбор пал именно на их сайт.
Вообщем скрипт работает, но отправляет сообщение каждый раз как проходит проверку. Какую нужно сделать проверку в стиле:
Если уже отправлял - не отправлять
Прошу простить меня за столь "быдловый" код. Я только начинаю ;)

# -*- coding: utf-8 -*-
from grab import Grab
import time
import smtplib
import email.utils
from email.mime.text import MIMEText

from_addr = 'имяотправителя@gmail.com'
to_addrs  = 'имяполучателя@yandex.ru'

text = 'Вышла новая серия! Чекай!'

msg = MIMEText(text, "", "utf-8")

msg['To'] = email.utils.formataddr(('Эй ты', to_addrs))
msg['From'] = email.utils.formataddr(('Свежие сериалы', from_addr))
msg['Subject'] = 'Свежак'

username = 'логин'
pwd = 'пароль'

server = smtplib.SMTP('smtp.gmail.com:587')
server.starttls()
server.login(username, pwd)

url = Grab()
url.go('http://www.lostfilm.tv/browse.php')

old_list_serials = [u'\u0412\u043e\u043d\u043d\u0430\u044f \u043b\u043e\u0449\u0438\u043d\u0430', u'\u041f\u0435\u0440\u0432\u043e\u0440\u043e\u0434\u043d\u044b\u0435', u'\u041a\u043e\u0432\u0430\u0440\u043d\u044b\u0435 \u0433\u043e\u0440\u043d\u0438\u0447\u043d\u044b\u0435', u'\u0427\u0435\u0440\u043d\u044b\u0435 \u043f\u0430\u0440\u0443\u0441\u0430', u'\u0411\u0438\u0431\u043b\u0438\u043e\u0442\u0435\u043a\u0430\u0440\u0438']
new_list_serials = []

url_select = url.doc.select('//span[@style="font-family:arial;font-size:14px;color:#000000"]')[:5]
check = 0
while check == 0:
    for serials in url_select:
        new_list_serials.append(serials.text())

    if new_list_serials == old_list_serials:
        print "EQUAL"
    elif new_list_serials != old_list_serials:
        server.sendmail(from_addr, to_addrs, msg.as_string())
        print "NOT EQUAL"
        del old_list_serials[:]
        for serials in url_select:
            old_list_serials.append(serials.text())
        print old_list_serials
    time.sleep(10)
    check = 0

Вопрос задан более трёх лет назад
2585 просмотров

Комментировать

Подписаться 2 Оценить Комментировать

Решения вопроса 1

3 комментария

hardwellZero @hardwellZero Автор вопроса

Не думал что его еще нужно переобъявлять каждый раз, спасибо.
А по поводу
old_list_serials = new_list_serials
Так я не заметил такого решения)

Написано более трёх лет назад
hardwellZero @hardwellZero Автор вопроса

Не подскажите еще алгоритм для проверки только на нужные сериалы.
Перебирать список на наличие определенных значений? Или можно как-то проще?

Написано более трёх лет назад
Виталий Беликов @Brick85

Ну без проверки списка не обойтись, можно что-то вроде:
for serials in url_select:
if serials.text() in favorite_serials:
new_list_serials.append(serials.text())

Написано более трёх лет назад

Пригласить эксперта

Ответы на вопрос 1

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

Программирование

+1 ещё

Простой
Как вывести изображение без окна как у Desktop Goose на C++?
- 1 подписчик
- час назад
- 23 просмотра
0

ответов
Python

+2 ещё

Простой
Как установить 2 версии libssl в kubuntu 22.04?
- 1 подписчик
- 2 часа назад
- 8 просмотров
0

ответов
Python

Простой
Как в библиотеке Flet при нажатии на кнопку сделать, чтобы появилось всплывающее окно?
- 1 подписчик
- 2 часа назад
- 9 просмотров
0

ответов
Python

+1 ещё

Сложный
Интерпретация результатов модели lambdamart?
- 1 подписчик
- 4 часа назад
- 17 просмотров
0

ответов
Python

Простой
Как в конце каждой строки файла добавить тэг?
- 1 подписчик
- вчера
- 112 просмотров
1

ответ
Python

+1 ещё

Простой
Почему asyncio.current_task() не передается в функцию?
- 1 подписчик
- вчера
- 80 просмотров
1

ответ
Python

+2 ещё

Простой
Срабатывает антивирус на скомпилированный файл python, как исправить?
- 1 подписчик
- вчера
- 189 просмотров
1

ответ
Python

Простой
Почему не срабатывает if? как это пофиксить?
- 1 подписчик
- вчера
- 143 просмотра
2

ответа
Python

+2 ещё

Простой
Как транслировать аудио в микрофон, py, c#, c++?
- 1 подписчик
- 22 апр.
- 167 просмотров
3

ответа
Python

Средний
Почему Низкий FPS анализ изображения yolov8 YOLO?
- 2 подписчика
- 22 апр.
- 33 просмотра
0

ответов
Показать ещё Загружается…

Team Lead (С++, Python)

TopAssistant • Москва

от 400 000 ₽

Python developer

Bell Integrator

До 350 000 ₽

Python developer

Greenway Global • Новосибирск

от 150 000 ₽

Сайт с вебзвонками и чатами на react

24 апр. 2024, в 17:33

10000 руб./за проект

Правки в webApp готового и написанного телеграмм бота next, tailwind

24 апр. 2024, в 17:26

6000 руб./за проект

Доработать сайт на React + Nest

19 апр. 2024, в 13:38

1500 руб./в час

Answer 1 · 2015-01-29 00:06:53

new_list_serials не сбрасывается, а при каждой итерации становится всё больше.
сразу после
while check == 0:
добавить
new_list_serials = []

И ещё:

del old_list_serials[:]
for serials in url_select:
    old_list_serials.append(serials.text())

можно заменить на
old_list_serials = new_list_serials

Answer 2 · 2015-01-29 00:06:55

У вас всегда new_list_serials != old_list_serials. Потому что в нью листе у вас берутся ссылки со страницы, а в олд листе просто добавляются.
Сделайте лучше запись в файл, и потом для каждого элемента проверять, есть ли он в файле, если нету, то добавлять в файл. В конце всех проверок, можно пускать письмо.
И лучше запускать в кронтабе каком-нибудь.
upd:
Смотрю в книгу вижу фигу... Прошу простить, вообще не то видел в коду.

Какие ошибки в парсере?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт