Как лучше организовать многопоточный парсер xml?

Question

beduin01 @beduin01

Python

Как лучше организовать многопоточный парсер xml?

Есть несколько сотен тысяч XML файлов, которые нужно распарсить и выгрузить в БД. Для разбора использую XPATH. Проблема в том, что если их выгружать по одному процесс идет слишком медленно.

Стоит ли мне пытаться вынести каждый отдельный скрипт в поток? Или есть какие-то другие варианты?

Проблема еще в том, что я хочу парсить результат отработки каждого отдельного файла, чтобы знать прошла ли успешно обработка или данный файл имеет отличную от ожидаемой структуру. Иными словами сейчас я просто паршу выдачу скрипта.

Как все это лучше организовать?

Вопрос задан более трёх лет назад
220 просмотров

Комментировать

Подписаться 1 Простой Комментировать

Пригласить эксперта

Ответы на вопрос 1

27 комментариев

Roman K @deliro

Зачем? Машина же одна. Хватит даже processpoolexecutor'а

Написано более трёх лет назад
Иван Шумов @inoise

Roman Kitaev, я в python не силен. Просто даю гарантированное решение, которое будет работать, обеспечивает решение задачи, горизонтальную масштабируемость и at least one delivery.

Написано более трёх лет назад
beduin01 @beduin01 Автор вопроса

А какой смысл в брокере воркеров? Я пути до файлов из БД выгребаю.

Написано более трёх лет назад
Иван Шумов @inoise

beduin01, вы делаете очередь в которую отправляете задания. На другом конце очередей может быть любое число обработчиков, которые параллельно получают оттуда задания и выполняют их. Таким образом вы получаете контролируемый набор заданий, которые никуда не пропадут если обработчик (один или все) умрет + в случае если надо сделать быстро то вы просто можете увеличить число обработчиков. Вы скорее упретесь в предел диска по IOPS чем в скорость обработки. Надо 1 воркер - пожалуйста, надо 1000 воркеров - да тоже пожалуйста, только серверов докиньте) вообще из хороших практик - 1 воркер на ядро, но это относительный показатель

Написано более трёх лет назад
beduin01 @beduin01 Автор вопроса

Каким образом должен быть оформлен обработчик? Если обработчик упал (не смог распарсить файл) то он должен в БД это событие логгировать?

И можно ли сделать подобное используя не очередь а БД? Просто из БД выгребать все таким же способом.

Написано более трёх лет назад
Иван Шумов @inoise

beduin01,
beduin01 beduin01 Автор вопроса
Каким образом должен быть оформлен обработчик? Если обработчик упал (не смог распарсить файл) то он должен в БД это событие логгировать?

Документацию почитать лень?

Если обработчик упал (не смог распарсить файл) то он должен в БД это событие логгировать?

Обычные логи приложения просто чтобы вы знали из-за чего происходит падения. Сообщение должно вернуться в очередь если не дождется сигнала окончания обработки

И можно ли сделать подобное используя не очередь а БД? Просто из БД выгребать все таким же способом.

Можно еще спать на потолке. Удобно наверное, как думаете? От БД отказываться в любом случае не советую - туда имеет смысл сохранять задания и результат их исполнения, с временными метками и другими данными, которые вам понадобятся

Написано более трёх лет назад
beduin01 @beduin01 Автор вопроса

Иван Шумов, я имею ввиду, я же из БД могу данные таким же макаром выгребать, зачем мне тогда вообще очередь нужна?

"Документацию почитать лень?"
Документацию по чему? По тому как очередь писать или как обработчики для очереди делать?

"Сообщение должно вернуться в очередь если не дождется сигнала окончания обработки"
Файл был не верного формата предположим. Зачем его обратно в очередь возвращать?

Написано более трёх лет назад
Иван Шумов @inoise

beduin01, по RabbitMQ (самый простой вариант для вас). Из БД вы можете выгребать, конечно. Что вы получите? То что вы будете делать это в 1 поток чтобы 2 раза ничего не обработать. Если будете делать в несколько потоков то вам придется придумывать как раздавать своим воркерам эти задания. То есть вы будете сами писать механизм очередей, гарантированно сделаете это через всем известное место и работать это будет по понятным причинам плохо, медленно и не качественно.

Давайте на пальцах объясню. Вы решили поесть суп. У вас есть суп. Вы взяли вилку и пробуете его есть вилкой. Я предлагаю вам ложку. Вам не нравится ложка по тому что она удобная и позволяет вам не заниматься фигней. Вы просите принести вам немного металла, газовую горелку и прочие инструменты, а так же инструкцию как сделать ложку с дырками.

Написано более трёх лет назад
beduin01 @beduin01 Автор вопроса

Иван Шумов, так а если допустим сделать так: Создаю 100 потоков. Каждый поток ставит напротив файла пометку ФайлВзятВРаботу. Запускам обработку в отдельном потоке через executeShell (или как там его) запускам обработку внутри потока. Отрабатываем файл. Меняем флаг. И тоже самое делаем с остальными 99 потоками. В чем минус? Какие проблемы будут?

Написано более трёх лет назад
Roman K @deliro

Иван Шумов, ты зря вступил в этот диалог)

Написано более трёх лет назад
Иван Шумов @inoise

beduin01, конкурирующие потоки и транзакции

Написано более трёх лет назад
Иван Шумов @inoise

Roman Kitaev, и не говори. Но я верю что есть адекватные люди. Увы, последнее время меня многие разочаровывают

Написано более трёх лет назад
beduin01 @beduin01 Автор вопроса

Иван Шумов, так каждый поток же будет брать для обработки файл у которого флага нет. Откуда может возникнуть конкуренция?

И можно ли про "транзакции" более развернуто. В чем проблема то?

Написано более трёх лет назад
Иван Шумов @inoise

beduin01, мои полномочия все. Я старался, честно, но у вас уровень подготовки на уровне плинтуса - пишите в файлики, вам пойдет

Написано более трёх лет назад
beduin01 @beduin01 Автор вопроса

Pavel Denisov, это так и есть..)) В чем минусы то блин. В том что два потока одновременно попытаются одну и ту же запись обработать? Так флаги можно напротив строк ставить

Написано более трёх лет назад
Иван Шумов @inoise

beduin01, ещё смешнее. Sqlite это по сути файлики. Когда у вас туда одновременно несколько скриптов писать будет у вас появятся записи, которые один уже обновил, а другой ещё нет и в результате жесть. Вы пробовали в 1000 потоков, например, в текстовый файл писать? Попробуйте, вам не понравится

Написано более трёх лет назад
beduin01 @beduin01 Автор вопроса

Иван Шумов, если бы в документации к sqlite было бы написано, что он однопоточный, у меня вопросов бы не было. А тут получается что он вроде как это умеет.
Я просто не совсем понимаю есть ли в БД какая-то атомарная блокировка или нет. Вот берет первый поток первую строку. Ставит ей флаг, что она в обработке. Получается второй может успеть захватить строку и тоже попытаться флаг поставить? Если так, то это во всех БД так или есть исключения?

Написано более трёх лет назад
Иван Шумов @inoise

beduin01, не умеет (на моей памяти не умел). И никто вам таких вещей не будет писать на первой странице документации

Написано более трёх лет назад
beduin01 @beduin01 Автор вопроса

Иван Шумов, так, а касательно второй части про блокировки. Я правильно рассуждаю хотя бы?

Написано более трёх лет назад
Иван Шумов @inoise

beduin01, если коротко то sqlite это не база данных, а специальный формат хранения данных в одном файле и набор sdk для разных языков. Нормальная база имеет сервер, который и управляет потоками чтения и записи, а также ACID транзакциями

Написано более трёх лет назад
Иван Шумов @inoise

beduin01, читайте мой последний комментарий

Написано более трёх лет назад
beduin01 @beduin01 Автор вопроса

Иван Шумов, спасибо, поясните пожалуйста только про захват строки разными потоками. Возможно ли ситуация, пока один поток будет менять флаг "строкаЗанята" второй поток попытается захватить эту же строку и дальше произойдет ошибка. Просто я упорно пытаюсь понять отличие полноценной очереди от этого пусть и костыльного варианта.

Написано более трёх лет назад
Иван Шумов @inoise

beduin01, это может произойти и в обычной базе. Просто в sqlite вы это в принципе гарантированно получите. + Sqlite медленный из-за хранения данных в одном файле и работе напрямую с диском. Брокер очередей вам позволит избежать коллизий.

Ошибки там будут или повторные обработки это уже как получится. В любом случае это будет работать плохо и на отладку проблемы вы потратите МНОГО времени. Почему вы не хотите использовать инструмент, созданный для вашей задачи?

Написано более трёх лет назад
beduin01 @beduin01 Автор вопроса

Иван Шумов, да просто потому что мне сходу не очевидны преимущества очереди. Очередь как я понял из всего написанного гарантирует, что данные будут браться поэлементно и не будет ситуации когда два потока попытаются захватить одну и ту же запись.

Написано более трёх лет назад
beduin01 @beduin01 Автор вопроса

будете смеяться, но до меня тут вообще в качестве БД использовали ini файл и мне ту же SQLite внедрить потребовалось не мало усилий "код уже написано, не вижу смысла его переделывать". Увы такие аргументы у начальства бывают весьма часто.

Написано более трёх лет назад
Иван Шумов @inoise

beduin01, идите и учитесь дальше. Тостер создан для того чтобы направлять людей, а не заниматься их обучением

Написано более трёх лет назад
Иван Шумов @inoise

beduin01, ваше начальство это лично ваше дело) или учитесь с ним работать или уходите

Написано более трёх лет назад