Как обработать огромный текстовый файл?

Question

Nubzilo @Nubzilo

Изучаю C#

Как обработать огромный текстовый файл?

Добрый вечер. Как наиболее быстро или просто возможно осуществить такую задачу:
Есть 2 огромных текстовых файла. В 1 - 70 млн строк, в 2 - 60 млн строк.
Задача - извлечь в файл 3 все строки из 1 файла которые не встречаются во 2. Тоесть извлечь все уникальные строки из первого по отношению ко второму файлу.

Вопрос задан более трёх лет назад
1083 просмотра

Комментировать

Подписаться 2 Оценить Комментировать

Решения вопроса 4

Комментировать

10 комментариев

Nubzilo @Nubzilo Автор вопроса

В лоб - это какое? Брать строку из файла 2 и сравнивать с каждой строкой из файла 1, а при несовпадении добавлять ее в файл 3?

Написано более трёх лет назад
Владимир Мартьянов @vilgeforce

Nubzilo: Читать из файла 2 все строки, добавлять в какой-то контейнер уникальные. Потом читать из файла 1 по строке и проверять что она есть в контейнере.

Написано более трёх лет назад
Nubzilo @Nubzilo Автор вопроса

Честно говоря не совсем понял. В каждом из файлов все строки уникальные. Они могут быть не уникальные только по отношению друг к другу. Тоесть в файле 1 и в файле 2 могут быть одинаковые строки, но в самих файлах дублирования строк нет. Тоесть по сути нужно перебрать все 60 млн строк из второго файла, что б найти уникальные между первым файлом и вторым.

Написано более трёх лет назад
Владимир Мартьянов @vilgeforce

Nubzilo: А, если они гарантированно уникальные в каждом файле - даже не надо проверять перед помещением в контейнер. Читаете построчно файл2, кажду строку помещаете в "контейнер" в памяти. Потом читаете построчно файл1 и проверяете наличие прочитанной строки в "контейнере"

Написано более трёх лет назад
Nubzilo @Nubzilo Автор вопроса

В таком способе смущает большое потребление памяти. Файл может быть и 50 млн строк и 120 млн.

Написано более трёх лет назад
Владимир Мартьянов @vilgeforce

Nubzilo: Объем файла в байтах какой? Пара гигов, думаю, влезет без проблем. Если больше - хэширование. MD5 со скоростью хэширования в районе 10MH/s дает хэши в 16 байт длиной. То есть 120M строк - 12 секунд хэшировать и около 2G памяти. Грубо говоря :-)

Написано более трёх лет назад
Nubzilo @Nubzilo Автор вопроса

Да, что то я совсем про хеш забыл...Спасибо!

Написано более трёх лет назад
Владимир Мартьянов @vilgeforce

Nubzilo: Да не за что :-) Главное посмотреть объемы файлов, может оно там и не нужно...

Написано более трёх лет назад
Nubzilo @Nubzilo Автор вопроса

С обьемами вы практически угадали. 80 млн - 2.8гб. Тоесть тут можно и без хеширования обойтись, но при возрастании до 150 млн лучше уже с ним )

Написано более трёх лет назад
Владимир Мартьянов @vilgeforce

Nubzilo: Если строки сильно различаются по длине - можно поискать порог для хэширования, но нужно учитывать размеры блоков хэшей (55 байт для MD5, например).

Написано более трёх лет назад

1 комментарий

3 комментария

bobrovskyserg @bobrovskyserg

> хранить набор хэш-кодов строк из второго файла
> и сравнивать с хэш-кодом каждой строки из первого.

O(n^2) - богато живёте

Написано более трёх лет назад
lam0x86 @lam0x86

Перечитайте еще раз, пожалуйста. Слово "набор" в моём сообщении означает "Set" в терминах Computer Science. Алгоритмическая сложность поиска в HashSet - O(1). Если иметь HashSet хэш-кодов строк из второго файла в памяти, то можно за O(n) пробежаться по строкам первого файла и найти хэш-коды этих строк в Set-е хэшей второго файла.

Написано более трёх лет назад
Nubzilo @Nubzilo Автор вопроса

Именно это и имел в виду vilgeforce, на сколько я понял.

Написано более трёх лет назад

Пригласить эксперта

Ответы на вопрос 3

2 комментария

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

Алгоритмы

Средний
Справится ли алгоритм с задачей по поиск слов в словаре?
- 1 подписчик
- 19 часов назад
- 61 просмотр
1

ответ
C#

+1 ещё

Простой
Как решить проблему database is locked?
- 1 подписчик
- 22 часа назад
- 63 просмотра
1

ответ
Алгоритмы

Простой
Как определить сложность алгоритма?
- 1 подписчик
- 16 апр.
- 100 просмотров
3

ответа
C#

Простой
C# и несколько CPU?
- 6 подписчиков
- 15 апр.
- 3173 просмотра
3

ответа
C#

+1 ещё

Простой
Как сделать смену обьекта при приближении?
- 1 подписчик
- 14 апр.
- 67 просмотров
1

ответ
Windows

+2 ещё

Простой
Как обеспечить относительный путь к БД SQLite?
- 1 подписчик
- 14 апр.
- 114 просмотров
3

ответа
C#

+1 ещё

Простой
Как понять что я выучил основы C#?
- 1 подписчик
- 12 апр.
- 457 просмотров
4

ответа
C#

+1 ещё

Средний
Почему не работают миграции при переходе на новый csproj формат?
- 1 подписчик
- 12 апр.
- 54 просмотра
1

ответ
C#

Простой
Что означает оператор => в linq c#?
- 1 подписчик
- 12 апр.
- 133 просмотра
2

ответа
Алгоритмы

+2 ещё

Простой
Какая может быть формула для решения этой задачи?
- 3 подписчика
- 11 апр.
- 5320 просмотров
3

ответа
Показать ещё Загружается…

Разработчик C# (криптография)

Avanpost

от 200 000 ₽

Middle+ .Net(C#) developer

RateX

от 200 000 до 300 000 ₽

Middle C# developer

ЮГПА • Ростов-на-Дону

от 130 000 до 170 000 ₽

Перекрасить 2 вкладыша в новый цвет

18 апр. 2024, в 11:36

300 руб./за проект

Разработать модуль на Python для создания bitcoin транзакций

18 апр. 2024, в 11:20

5000 руб./за проект

Доработать калькулятор, исправить ошибки (PHP, YII2) Часть 3

18 апр. 2024, в 11:12

8200 руб./за проект

Answer 1 · 2015-03-31 23:54:25

mikhail_404 @mikhail_404

Используйте хэширование для данной задачи.

Ответ написан более трёх лет назад

Комментировать

Answer 2 · 2015-03-31 23:45:30

Владимир Мартьянов @vilgeforce

Раздолбай и программист

Решение "в лоб" вас по скорости уже не устраивает? Предполагаю, что оно решит задачу за минуты.

Ответ написан более трёх лет назад

10 комментариев

Answer 3 · 2015-04-01 00:12:08

uvelichitel @uvelichitel

habrahabr.ru/users/uvelichitel

Фильтр Блума

Ответ написан более трёх лет назад

1 комментарий

Answer 4 · 2015-04-01 00:23:31

Если строки короткие, то, в принципе, подойдёт такое решение:

var secondFileLines = new HashSet<string>(File.ReadLines("<файл2>"));
using (var writer = new StreamWriter("<файл3>"))
{
    foreach (var line in File.ReadLines("<файл1>"))
    {
        if (!secondFileLines.Contains(line))
        {
            writer.WriteLine(line);
        }
    }
}

Если длина строк неограничена, то могут возникнуть проблемы с расходом памяти. В этом случае, всё сильно усложняется. Вам, вероятно, придётся хранить набор хэш-кодов строк из второго файла и сравнивать с хэш-кодом каждой строки из первого. Но тут могут возникнуть ложно-положительные срабатывания, если у разных строк хэши будут совпадать. В этом случае, необходимо будет сравнивать строки посимвольно. Это при идеальной реализации. Впрочем, вероятность совпадения хэшей - 1/2^32. Ну, и надо умножить на 70 миллионов. Если задача позволяет добавить пару лишних строк в результирующий файл, я бы так и поступил.
Можно немного улучшить алгоритм с хэшами: если, например, использовать 256-битную хэш-функцию, а не стандартную (GetHashCode), можно снизить вероятность ложного срабатывания до 1e-77 (в случае использования SHA1). Думаю, такой мизерной вероятности будет достаточно, чтобы считать задачу решённой. Правда, придётся немного усложнить алгоритм сравнения хэшей - придётся сравнивать массивы.

Answer 5 · 2015-04-01 00:12:37

Отсортируйте оба файла.
Дальше просто:
считываете по строке из файлов -> сравниваете->записываете/пропускаете -> считываете еще строки по мере надобности. Очень похоже на сортировку слиянием.

Answer 6 · 2015-04-01 13:31:47

Пример легко адаптируемый под вашу задачу описан в самом начале книги: The D Programming Language.

Там очень просто. Я недавно нечто подобное делал, правда строк было не миллион а около 700 тыс.

Answer 7 · 2015-04-02 15:43:17

Егор Казанцев @saintbyte

Django developer

Хеши , external sort и сравнивать хеши , потом искать по хешу

Ответ написан более трёх лет назад

Комментировать

Как обработать огромный текстовый файл?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт