Как убрать дубли по key в большом файле?

Question

Андрей @prolisk

Верстая. Криво.

Python
JSON

Как убрать дубли по key в большом файле?

Имеется файл json на 8млн+ строк и 700+ мбайт размера, такого формата:

{'title':'7778', 'mes':'ruseo', 'coord': '755'}
{'title':'77789', 'mes':'ruseo', 'coord': '755'}
{'mes': 'seoru', 'title' : '7778', 'coord' : '-'}
{'mes': 'seoru', 'title' : '7778', 'coord' : '-'}

половина title вначале, половина в средине. Нужно убрать дубли по title, чтобы остались только уникальные.
Подскажите любой оперативный способ это сделать.
Сейчас обрабатываю на python.
1) json.loads и set (если списком) = memory error. (на сервере 64 гб ОЗУ)
2) открываю как текстовый файл, разбиваю, и по уникальности уже сверяю, но все очень долго. За 2 суток только 1,5 млн строк прошло.
(если детально:

Код

import json

with open(r'C:\json3toster.json', 'r', encoding="utf-8") as fp:
    ds = fp.readlines()

print(len(ds))
mem = []
for record in ds:
    name = record.replace('{','').split(',')
    for dat in name:
        dat2 = dat.split(': ')
        if dat2[0] == ' "title"':
            newline = dat2[1]
            if any(newline in lice for lice in mem):
                pass
            else:
                mem.append(record)
print(len(mem))
for newjs in mem:
    with open(r'd:/json_fin.json', 'a', encoding='utf-8') as fg:
        fg.write(newjs)

)

Изначально от дублей строк почистил через sort.
Можно любое решение, не обязательно питон.
Спасибо за любую подсказку.

Вопрос задан более трёх лет назад
399 просмотров

Комментировать

Подписаться 1 Простой Комментировать

Решения вопроса 1

36 комментариев

longclaps @longclaps

Множество - это громоздко, может не влезь в память. Посмотри на мой вариант.

Написано более трёх лет назад
Дмитрий Темников @exibite777

Andrey Dugin, оууу, eval( ) это круто - почитал доку, расширил познание питона, спасибо

Написано более трёх лет назад
Andrey Dugin @adugin Куратор тега Python

longclaps, твоё fp.readlines() с ещё большей вероятностью не влезет в память, не так ли?)

Написано более трёх лет назад
Andrey Dugin @adugin Куратор тега Python

Дмитрий Темников, eval() можно применять только если мы уверены в источнике данных. Лучше использовать другой eval:
from ast import literal_eval

Написано более трёх лет назад
Дмитрий Темников @exibite777
Andrey Dugin, longclaps, ну фиг знает посмотрите оба моё решение ниже со словарем, я сначала написал то что написал
title=line.split("title")[1].split("'")[2] dct[title]=line
на одном миллионе строк оно отработало за 0:00:02.051733
потом Andrey Dugin, открыл мне глаза на eval ( ) и я хотел было изменить ответ но
title = eval(line).get('title') dct[title]=line
на одном миллионе строк отработало за 0:00:22.765918
немного неожиданный результат
Написано более трёх лет назад
Дмитрий Темников @exibite777

Andrey Dugin, да, не стоит писать
eval(input())
>>> os.system('rm -R *')

:-)))

Написано более трёх лет назад
Andrey Dugin @adugin Куратор тега Python

Дмитрий Темников, я обновил свой код использованием literal_eval()

Написано более трёх лет назад
Andrey Dugin @adugin Куратор тега Python

Дмитрий Темников, логично, split() и взятие элемента по индексу - это простые и быстрые операции. Но читаемость кода ухудшают. Думаю, что в этой задаче пара десятков секунд ничего не решает.

Написано более трёх лет назад
Дмитрий Темников @exibite777

Andrey Dugin, 0:00:27.590960 ну в рамаках тех вариантов что мы с Вами предлагаем, да оно уже ничего не решает, в рамках решения автора вопроса, которое 1.000.000 строк обрабатывает за сутки видимо скорость работы алгоритма была критична, он видимо по работе это решает, а там время как известно деньги

:-)))

Написано более трёх лет назад
Andrey Dugin @adugin Куратор тега Python

Дмитрий Темников, в дополнение к познаниям по eval() взгляните на @lru_cache (я добавил вариант в ответ)

Написано более трёх лет назад
Роман @lastuniverse

Дмитрий Темников, rm -Rf же?

Написано более трёх лет назад
Роман @lastuniverse

Уважаемые, и тут спрошу, как ваш вариант будет работать если ваш файлик неожиданно окажется в районе 100Гб?

Написано более трёх лет назад
Andrey Dugin @adugin Куратор тега Python

Роман, если дубликатов много (т.е. кэш маленький), то нормально будет работать. Если нет - то можно подумать в сторону mmap и структур наподобие фильтра Блума (сам он в исходном виде не подойдёт ввиду вероятности ложноположительных срабатываний, но тут вопрос к топикстартеру - нужна ли 100% точность). Также можно перейти к типизированным данным (по сути title - это uint16/uint32 в виде строки) и массивам (сделать массив флагов длиной max_title, можно даже битовый массив). Также можно обрабатывать данные блоками и проходить по файлу в несколько итераций, постепенно уменьшая количество данных. В крайнем случае - сделать БД, применить методы BigData.

Написано более трёх лет назад
longclaps @longclaps

твоё fp.readlines() с ещё большей вероятностью не влезет в память, не так ли?)

Andrey Dugin, не так: во-первых топикстартер не жаловался на то, что его код не проходит строчку print(len(ds)). Так что не передёргивай - мой пройдёт наверняка.
К к моменту завершения твоего кода на N (почти) уникальных строк ты будешь иметь в памяти set размера N, а мой расход памяти составит list размера N, что, согласись, меньше.
Я ценю твоё ~~стремление~~ умение писать лаконичный код, но иногда это выливается в какой-то позор в плане элегантности и эффективности. Пример: b = choice(tuple(diff(a, b, c)))здесь. Я не плачу от этого кода кровавыми слезами, но там рядом лежит решение в императивном стиле, и оно мне нравится больше )

Написано более трёх лет назад
longclaps @longclaps

как ваш вариант будет работать если ваш файлик неожиданно окажется в районе 100Гб?

Роман, Andrey Dugin, большой файл бьётся на чанки, влезающие в память, например по 1гб, они сортируются и сохраняются в файлах.
Затем данные из этих файлов в один проход потоково сливаются с помощью heapq.

Написано более трёх лет назад
Andrey Dugin @adugin Куратор тега Python

longclaps, и что не так с choice(tuple(diff(a, b, c)))? В данном случае tuple() возникает из-за того, что choice() не принимает на вход set. Альтернативно можно использовать sample(..., k=1).

Написано более трёх лет назад
longclaps @longclaps

Andrey Dugin, да я знаю, что set не идексируется. Просто эта вынужденная глубина вложенности не элегантна, да и цепочка операций tuple(diff... тяжеловесна против моментально сходящихся итерацией у меня.

Написано более трёх лет назад
Andrey Dugin @adugin Куратор тега Python

longclaps, по поводу неэлегантности согласен, но се ля ви. Оптимизация по скорости - это отдельная задача, не всегда актуальная.

Написано более трёх лет назад
Дмитрий Темников @exibite777

Andrey Dugin, да @lru_cache тема хорошая, это я знал
с таймером выполнения Вы же вкурсе? ))))
не буду тут приводить пример, но разница между eval( ) и срезом-индексом примерно такая же

Написано более трёх лет назад
Andrey Dugin @adugin Куратор тега Python

Дмитрий Темников, я пока не увидел смысла привязываться к таймингу выполнения. Если топикстартеру надо однократно почистить файл за вменяемое время, то тайминг особого значения не имеет. 20 секунд против 2 секунд - это яйца выеденного не стоит. Тем более разменивать на читаемость кода.

Написано более трёх лет назад
Дмитрий Темников @exibite777

топик стартера я так понимаю в теме еще не было щас придет офигеет ))

Написано более трёх лет назад
Andrey Dugin @adugin Куратор тега Python

Дмитрий Темников, на миллионе записей

Написано более трёх лет назад
Дмитрий Темников @exibite777

Andrey Dugin, ну вот, теперь и быстро и элегантно, плюсанул, в ответе поправьте пример с lru_cache, я свой ответ поправил

Написано более трёх лет назад
Андрей @prolisk Автор вопроса

Вообще красота, спасибо огромнейшее

Написано более трёх лет назад
Роман @lastuniverse

большой файл бьётся на чанки, влезающие в память, например по 1гб, они сортируются и сохраняются в файлах.
Затем данные из этих файлов в один проход потоково сливаются с помощью heapq

longclaps, если честно, не знал про существование heapq, действительно интересная штука))
Но если копнуть глубже, то предложенный вами вариант делает ровно тоже что и большая часть рядовых БД при работе с таблицами содержащими большое количество записей и имеющие поля помеченные как уникальные.

Написано более трёх лет назад
longclaps @longclaps

Роман, ну и что?
Я намекнул на простое решение средствами питона, зачем мне дискуссия? Я уж с Andrey Dugin подискутировал.
Читай.

Написано более трёх лет назад
Роман @lastuniverse

longclaps, да я и не спорю (не оспариваю), просто был искренне удивлен наличием столь специфических средств встроенных в ЯП. А дискурссия тут действительно не нужна.

Написано более трёх лет назад
longclaps @longclaps

Роман, это не средства языка, а стандартная библиотека.

Написано более трёх лет назад
Роман @lastuniverse

longclaps, ключевое слово "стандартная", это и имел в ввиду под фразой "встроенных в ЯП", то есть доступных из коробки после установки ЯП. Ну а про термин "средства" тоже можно поспорить, но зачем? Вы ведь прекрасно поняли смысл который я вложил в этот термин, пусть даже в данном контексте принято вкладывать в этот термин несколько более ограниченный/узкий смысл.

Написано более трёх лет назад
longclaps @longclaps

Роман, дело не в том, что я вас понял/не понял (я понял) - дело в том, что ясное лучше мутного. Для вас же и лучше. Если нечто входит в число стандартных библиотек, и почитать о нём можно в разделе документации "стандантные библиотеки" - всё пучком. А вот раздела "средства языка" я не припомню.
Не надо вкладывать в термины какой-то свой смысл - ведь это то же самое, что велосипедить в программировании )

Написано более трёх лет назад
Роман @lastuniverse

longclaps, Вы не правы, я не свой смысл вкладывал в термин "средство" а общепринятый. И не моя беда, что в некотором узкоспециализированном социуме данный термин в связке с термином "ЯП" резко перестает быть обобщенным, и приобретает конкретный, жестко привязанный к данной узкой специализации смысл. Не стоит мне впихивать ваше мнение, что нормы применения терминологии в узкой группе лиц являются более приоритетными. Ведь посудите сами, любая библиотека содержит в себе не что иное как средства для достижения тех или иных целей, а средства стандартной библиотеки (встроенной в ЯП) без всяких поправок на "так не принято" можно назвать средствами встроенными в ЯП. Если Вы все же хотите настоять на своей точке зрения, то пожалуйста, приведите мне хоть один пруф на то, что средствами встроенными в ЯП можно называть только те средства что предоставляются базовым функционалом ядра ЯП.

Написано более трёх лет назад
longclaps @longclaps

Роман, мы тут на специализированом ресурсе. Ресурсе пониженного ~~социального~~ профессионального уровня, но всё-таки. И вот мы столкнулись, как лёд и пламень - я выступил как занудный педант, а вы - как ниспровергатель всего такого. Помилуйте, ну что я вам могу впихивать! Щас набигут школьники и порвут этот дискурс в клочья!
Тем не менее, библиотека вовсе не встроена в ЯП - просто эталонная реализация питона поставляется со стандартной библиотекой. И эта библиотека живёт какой-то своей жизнью - что-то в неё входит, а что-то - выходит.
Но что-то я разболтался. Признаю: я неправ. Вы победили меня в споре, потому что вы умнее и лучше. И еще общепринятей. Идите в общепринятый мир и там сейте разумное, доброе, вечное общепринятыми словами, без всяких поправок на "так не принято". А я пойду разгребаться со своей бедой )

Написано более трёх лет назад
Роман @lastuniverse

мы тут на специализированом ресурсе

longclaps, тут с вами согласен, именно поэтому начал огрызаться только после того, как вы решили потыкать меня носом:
Не надо вкладывать в термины какой-то свой смысл

И вообще в научных кругах частенько можно услышать:
О терминах не спорят, о них договариваются

Другими словами, там где термин может иметь двоякое толкование, хорошим тоном является его раскрыть (в тезаурусе или по тексту) что я и сделал после Вашего первого замечания. До сих пор не могу понять, зачем вы написали свой следующий комментарий))))

Ну и в качестве юмористической разрядки:
Входит и выходит не довод. Даже в ядра ЯП постоянно что то входит или выходит

Написано более трёх лет назад
Роман @lastuniverse

longclaps, согласитесь, что данный разговор до сих пор не завершен лишь по той причине, что мы оба как мальчишки хотим оставить последнее слово за собой. А так как спорить тут на самом деле не о чем, то просто меряемся д̶л̶и̶н̶о̶й̶ ̶п̶и̶с̶ю̶н̶о̶в̶ умением выдвигать тезисы и их обосновывать. Предлагаю лучше не бессмысленно препирается между собой а найти подходящую кандидатуру для троллинга и немного повеселится))))

ЗЫ: Ох. Оказывается уже завершен. Жаль)

Написано более трёх лет назад
longclaps @longclaps

Роман, заходи сюда.

Написано более трёх лет назад
Роман @lastuniverse

longclaps, что-то там никто не ведется))))

Написано более трёх лет назад

Пригласить эксперта

Ответы на вопрос 1

11 комментариев

Andrey Dugin @adugin Куратор тега Python

Написано более трёх лет назад
Роман @lastuniverse

если это
к̶а̶к̶ ̶в̶а̶р̶и̶а̶н̶т̶ ̶м̶о̶ж̶н̶о̶ ̶п̶о̶п̶р̶о̶б̶о̶в̶а̶т̶ь̶ ̶т̶а̶к̶

про мой ответ, то я все равно ни фига не понял ( в̶о̶д̶к̶а̶ python это не мое)))

Написано более трёх лет назад
longclaps @longclaps

Andrey Dugin, рад за тебя.
Однако я просто поменял несколько строк из кода топикстартера, сохранив его стиль и имена переменных, так что ему легче разобраться и он имеет рабочий код.
Так что собери глаза в тряпочку и будь добр, прими как данность: твой код на сожрёт гораздо больше памяти и на больших наборах уникальных строк, возможно, упрётся в своп.

Написано более трёх лет назад
Andrey Dugin @adugin Куратор тега Python

longclaps, ещё раз укажу на то, что мой код не читает файл в память целиком.

Написано более трёх лет назад
longclaps @longclaps

Andrey Dugin, еще раз укажу: если все строки уникальные - в конце концов все они окажутся в твоём множестве cache, в памяти.

Написано более трёх лет назад
Andrey Dugin @adugin Куратор тега Python

longclaps, ещё раз укажу на то, что в кэш складываются только значения title, а не строки целиком. И есть подозрение, что количество знаков в title очень ограничено.

Написано более трёх лет назад
longclaps @longclaps

Andrey Dugin, на каждый айтем сета уходит 96 байт помимо памяти на хранение самого айтема.
Ну да ладно, можем разойтись каждый при своих подозрениях )

Написано более трёх лет назад
Andrey Dugin @adugin Куратор тега Python

longclaps, безусловно, set() имеет размер. Также безусловно не стоит решать проблему, которая не возникла. В одном из комментов я описал кучу способов сэкономить память.

Написано более трёх лет назад
longclaps @longclaps

Andrey Dugin, давай не зарубаться: возникла, не возникла. Вон Ведущий аналитик предлагал рассмотреть вариант на 100Гб - у него возникла.
Я начал разговор как обсуждение, но зачем продолжать его, если ты в нём не заинтересован.

Написано более трёх лет назад
Andrey Dugin @adugin Куратор тега Python

longclaps,
Имеется файл json на 8млн+ строк и 700+ мбайт размера

А проектировать паровоз, чтобы он ещё и летать умел (вдруг понадобится?) - это излишне. В любом случае, я описал варианты здесь.

Написано более трёх лет назад
longclaps @longclaps

Andrey Dugin, в качестве варианта я указал сортировку/фильтрацию, на больших данных - сортировку слиянием. Так можно. Тебе не интересно.
Я начал разговор как обсуждение, но зачем продолжать его, если ты в нём не заинтересован.

Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

Python

+1 ещё

Сложный
Почему при использование webdriverIE все равно открывается EDge?
- 1 подписчик
- 45 минут назад
- 6 просмотров
0

ответов
Python

Простой
Почему мой discord бот не реагирует на свои команды?
- 1 подписчик
- час назад
- 26 просмотров
0

ответов
Парсинг

+1 ещё

Средний
Как правильно написать функцию IMPORTJSON для парсинга цен криптовалют в гугл таблицу?
- 1 подписчик
- 2 часа назад
- 9 просмотров
0

ответов
Python

Простой
Как получить экземпляр родителя из дочернего класса?
- 1 подписчик
- 13 часов назад
- 95 просмотров
0

ответов
Python

Простой
Как указать когда нужна рекурсия а когда нет?
- 1 подписчик
- 15 часов назад
- 66 просмотров
1

ответ
Python

+1 ещё

Простой
Как сохранять сессию во Flask?
- 1 подписчик
- 21 час назад
- 42 просмотра
0

ответов
Python

+1 ещё

Простой
Как реализовать Python-код, который будет распознавать речь, но будет реагировать только тогда, когда будет упомянуто определенное слово?
- 1 подписчик
- 23 часа назад
- 96 просмотров
2

ответа
Python

Простой
Как создать offline карту на python?
- 1 подписчик
- вчера
- 137 просмотров
2

ответа
Python

Простой
Какие модули есть в Python для целей анализа, форматирования, вывода текста?
- 2 подписчика
- вчера
- 231 просмотр
3

ответа
Python

+1 ещё

Простой
Выбор: парсить на питоне с aiohttp, asyncio, bs4 или requests + bs4?
- 1 подписчик
- 17 апр.
- 137 просмотров
2

ответа
Показать ещё Загружается…

Team Lead (С++, Python)

TopAssistant • Москва

от 400 000 ₽

Python developer

Bell Integrator

До 350 000 ₽

Python developer

Greenway Global • Новосибирск

от 150 000 ₽

Софт на js

19 апр. 2024, в 13:31

10000 руб./за проект

Разработка Pwa сайта

19 апр. 2024, в 13:12

35000 руб./за проект

Доработать вебпроект со стеком: yii2, jquery, vue

19 апр. 2024, в 13:06

6000 руб./за проект

Answer 1 · 2019-10-20 23:57:02

Вы делаете что-то ужасное. Особенно плох поиск по списку вместо множества. Сделайте так:

from ast import literal_eval as eval  # ast.literal_eval() безопасный, обычный eval() - нет

with open('input.txt', 'r') as fi, open('output.txt', 'w') as fo:
    cache = set()
    for line in fi:
        title = eval(line).get('title')
        if title not in cache:
            cache.add(title)
            fo.write(line)

Можно оригинально реализовать кэширование декоратором:

from ast import literal_eval as eval
from functools import lru_cache

@lru_cache(None)
def process(title):
    print(record, file=fo)

with open('input.txt', 'r') as fi, open('output.txt', 'w') as fo:
    for record in map(eval, fi):
        process(record['title'])

Ну и глянуть статистику кэша заодно:

>>> process.cache_info()
CacheInfo(hits=994960, misses=5040, maxsize=None, currsize=5040)

Answer 2 · 2019-10-20 23:48:10

~~как вариант можно попробовать так~~ Говно вопрос:

import re

with open(r'C:\json3toster.json', 'r', encoding="utf-8") as fp:
    ds = fp.readlines()
d = {"'title'": 0, "'mes'": 1, "'coord'": 2}
print(len(ds))
findall, buf = re.compile(r"'[^']*'").findall, [''] * 3
for i, s in enumerate(ds):
    l = findall(s)
    while l:
        w = l.pop()
        buf[d[l.pop()]] = w
    ds[i] = '\t'.join(buf)
ds.sort()
a = ''
with open(r'd:/json_fin.json', 'a', encoding='utf-8') as fg:
    for s in ds:
        title, mes, coord = s.split('\t')
        if a != title:
            a = title
            fg.write(f"{{'title': {title} 'mes': {mes}, 'coord': {coord}}}\n")

Как убрать дубли по key в большом файле?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт