Как распарсить большое количество логов?

Question

Leks @Leksnsk

Как распарсить большое количество логов?

Доброго времени суток.

Как лучше всего подойти к задаче парсинга большого объема csv логов звонков (~ 12-15 ГБ), что бы получить максимальную скорость обработки данных?
Логи представляют из себя набор данных - "время, имя, длительность".
По итогу надо для каждого уникального имени получить суммарную длительность.

Таким скриптом на pyhton считалось > 2 часов, хотелось бы побыстрее:

import sys
import re

d = {}

for line in sys.stdin:
                        NameRE = re.compile("NAME=(\w+)")
                        TimeRE = re.compile("TIME=(\d+)")
                        if NameRE.search(line):
                                Name = str(NameRE.search(line).group(1))
                                Time = int(TimeRE.search(line).group(1))
                        if Name in d:
                                Time += d[Name]
                                d[Name] = Time
                        else:
                                d[Name] = Time
for k in d:
        print '%s  %s' % (k, d[k])

Вопрос задан более трёх лет назад
2432 просмотра

1 комментарий

Подписаться 3 Оценить 1 комментарий

Пригласить эксперта

Ответы на вопрос 8

2 комментария

Комментировать

8 комментариев

Leks @Leksnsk Автор вопроса

Лог файл несколько сложнее чем три поля "время, имя, длительность". Выцеплять эти поля с помощью grepов и awk оказалось несколлько сложнее чем написать скрип на питоне.
А почему прирост в скорости будет значительный?

Написано более трёх лет назад
Swartalf @Swartalf

эм.. у вас же csv с явним разделителем в виде "," вам только указать какие поля обрабатывать, тут без всязк grep'ов можно обойтись.
https://ru.wikipedia.org/wiki/AWK он изначально разрабатывался для "разбора" больших данных.
У меня приблизительно гигабайтный файл перебиратся около минуты(подсчет количества входждений по условиям)

Написано более трёх лет назад
Leks @Leksnsk Автор вопроса

"Длительность" может в одном файле быть на 20 позиции, а в другом на 15, в третьем на 19 с другими полями такая же фигня. простым awk -F "," {'print $2 $3'} и awk '{s += $1} END {print s}' не обойтись.
Но если вы говорите что разница однозначно будет, то попробую сделать с помощью awk , посмотрю что получится.

Написано более трёх лет назад
Swartalf @Swartalf

Вы протестируйте, а результаты сравнения python vs awk огласите, думаю многим будет интересно.
Для справки, awk умеет искать по шаблонам, использовать циклы и сравнения.

Написано более трёх лет назад
abcd0x00 @abcd0x00

Swartalf:

CSV может хранить разделители внутри полей в экранированном виде. С помощью awk ты их не отличишь от реальных разделителей.

Написано более трёх лет назад
Swartalf @Swartalf

abcd0x00: в условии задачи не говорилось даже что полей может быть разное количество.
Всегда можно прогнать сначала через sed, заменив разделитель на свой уникальный, а потом прогнать опять же через awk.
Спрашивают же как получить максимальную скорость обработки, а не максимальну скорость обработки на python.
Не совсем то, но вот интересная статья со сравнением. habrahabr.ru/post/267697

Написано более трёх лет назад
abcd0x00 @abcd0x00

Swartalf:

Всегда можно прогнать сначала через sed, заменив разделитель на свой уникальный

Через sed будет то же самое. Просто почитай, как устроен формат CSV, как там просходит экранирование символов.
Да и когда awk используешь, sed не нужен, потому что awk - полноценный язык. Да и повторный прогон, без которого легко можно обойтись, - тоже не лучший вариант.

В идеале ему нужно в sqlite загнать это, фильтрануть, а потом уже суммировать.

Написано более трёх лет назад
Swartalf @Swartalf

abcd0x00:
Как писали выше: "БД по ряду причин не вариант"
вообщем по тем данным которые предоставили, для скорости я рекомендую awk, возможно в обвязке с bash, sed.

Написано более трёх лет назад

Комментировать

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

Python

Средний
Как выполнить авторизацию MS CHAP 2?
- 1 подписчик
- 21 минуту назад
- 6 просмотров
0

ответов
Python

+1 ещё

Простой
Как вычислить количество записей?
- 1 подписчик
- 4 часа назад
- 57 просмотров
2

ответа
Python

+1 ещё

Простой
Почему при использование webdriverIE все равно открывается EDge?
- 1 подписчик
- 5 часов назад
- 14 просмотров
0

ответов
Python

Простой
Почему мой discord бот не реагирует на свои команды?
- 1 подписчик
- 6 часов назад
- 48 просмотров
0

ответов
Linux

Средний
Linux на SSD рядом с Win10, на внешний HDD или виртуализация?
- 1 подписчик
- 8 часов назад
- 120 просмотров
6

ответов
Python

Простой
Как получить экземпляр родителя из дочернего класса?
- 1 подписчик
- 18 часов назад
- 115 просмотров
1

ответ
Linux

+1 ещё

Простой
Что делать, если пишет «error: unknown filesystem Enering rescue mode... grub rescue>»?
- 1 подписчик
- 19 часов назад
- 102 просмотра
2

ответа
Python

Простой
Как указать когда нужна рекурсия а когда нет?
- 1 подписчик
- 20 часов назад
- 73 просмотра
1

ответ
Linux

+3 ещё

Простой
Как вернуть обратно gnome 44 в Kali linux?
- 1 подписчик
- 20 часов назад
- 66 просмотров
0

ответов
Linux

+1 ещё

Средний
Astra Linux — как избавиться от шума в HDD?
- 2 подписчика
- вчера
- 324 просмотра
4

ответа
Показать ещё Загружается…

Team Lead (С++, Python)

TopAssistant • Москва

от 400 000 ₽

Python developer

Bell Integrator

До 350 000 ₽

Python developer

Greenway Global • Новосибирск

от 150 000 ₽

DevOps задачи, работа с Yandex Cloud и Yandex Database

19 апр. 2024, в 18:38

1500 руб./в час

Верстка сайта -4-5 страниц

19 апр. 2024, в 18:36

1500 руб./за проект

MiniApp для телеграмм на React

19 апр. 2024, в 18:36

30000 руб./за проект

CSV нужно читать через модуль csv. Он правильно разделит на поля и там не нужно будет искать регекспами.

По идее, нужен многопоточный вариант, где один поток выбирает записи и передаёт другому, а другой разбирает записи и передаёт третьему, а третий считает разобранное и передаёт четвёртому, а четвёртый выводит результат.

И делать это нужно на каком-нибудь Go (там всё заточено под потоки).

Answer 1 · 2015-11-23 08:04:17

В БД положите

Для MySQl LOAD DATA INFILE (dev.mysql.com/doc/refman/5.7/en/load-data.html)
Для PostgreSql COPY (www.postgresql.org/docs/9.3/static/sql-copy.html)

Или можно в SQLite

Answer 2 · 2015-11-23 08:13:57

- re.compile нужно вынести из цикла.
- сделать из двух регулярок одну и вместо трех вызовов search делать один.
- убрать бесполезное преобразование str(NameRE.search(line).group(1))

Answer 3 · 2015-11-23 08:15:52

Посмотрите в сторону Apache Spark. Я летом проходил курс по нему
https://courses.edx.org/courses/BerkeleyX/CS100.1x...

там одной из первых лабораторок была как раз задача на парсинг логов Апача.
Спарк во-первых гораздо более человеко-любив, чем Хадуп и проще в основении.
Во-вторых за счет того, что можно хранить все данные в памяти скорее всего будет быстрее, если у вы выделите под него машины с достаточным объемом RAM. В общем я бы советовал потратить пару часов на изучение, в том курсе, который я скинул дается готовый Vagrantfile. Скачиваете сам Vagrant, потом Virtualbox, делаете vagrant up и у вас готовое окружение, можно пробовать решать ваша задачу.

Answer 4 · 2015-11-23 07:21:09

Stalker_RED @Stalker_RED

habrahabr.ru/company/dca/blog/267107

Ответ написан более трёх лет назад

Комментировать

Answer 5 · 2015-11-23 10:33:59

Немного не по теме, но если у вас линукс и нужно перебирать большие csv, то не проще ли использовать awk?
Прирост в скорости будет очень и очень заметным.

Answer 6 · 2015-11-23 12:23:59

beduin01 @beduin01

Вот статейку прочитайте, там примеры есть tech.adroll.com/blog/data/2014/11/17/d-is-for-data...

Ответ написан более трёх лет назад

Комментировать

Answer 7 · 2015-11-23 13:16:33

Если вопрос по коду, то в дополнение к neol могу добавить ещё
d[Name] = Time почему-то присутствует в обеих ветвях if, else что неоптимально.

Если вопрос по выбору подходящего инструмента, то альтернативой собственному скрипту можно также попробовать тот же Apache Spark.

Answer 8 · 2015-11-23 15:18:10

Добрый день, если в логах нет секретных данных, не могли бы выложить для теста скрипта? И какого вида результат вам нужен?

Как распарсить большое количество логов?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт