Как улучшить мой алгоритм сохранения данных на жесткий диск? (C#)

Question

slovo @slovo

Как улучшить мой алгоритм сохранения данных на жесткий диск? (C#)

Вкратце, необходимо обрабатывать очень большой объем текстовой информации, после чего сохранять на жесткий диск в виде zip архивов. Задача усложняется тем, что обработка должна происходить многопоточно.
Пользователь класса ZipSaver

...
ZipSaver saver = new ZipSaver(10000); // 10000 - это количество элементов, когда надо сохранять архив на жесткий диск
Parallel.ForEach(source, item => {
    string workResult = ModifyItem(item);
    saver.AddItem(workResult);
});

Часть класса ZipSaver (использует библиотеку Ionic ZipFile)

private ConcurrentQueue<ZipFile> _pool;
public void AddItem(string src){
    ZipFile currentZipFile;
    if(_pool.TryDequeue(out currentZipFile) == false){
        currentZipFile = InitNewZipFile(); // если в пуле нет свободных архивов, создаем новый
    }
    currentZipFile.AddEntry(path, src); // добавление элемента в архив. path - просто путь в архиве
    // если после добавления элемента в архив, достигнуто максимальное количество элементов,
    // которое задается в конструкторе, сохраняем этот архив на жесткий диск,
    // иначе - возвращаем архив в общий пул
    if(currentZipFile.Enties.Count > _maxEntries){
        SaveZip(currentZipFile); // выполняется порядочно времени
    }else{
         _pool.Enqueue(currentZipFile);
    }
}

Можно, конечно, поиграть с цифрой максимального количества элементов в архиве, но от этого напрямую зависит и размер выходных архивов, что, в идеале, должно настраиваться. Сейчас ситуация такова, что при большом количестве элементов в исходной коллекции, которая обрабатывается в цикле, создается множество потоков, практический каждый из которых имеет "свой" инстанс ZipFile, что, естественно, приводит к переполнению оперативной памяти. Все работает неплохо, когда элементов мало, но, скажем с миллионом, оперативы может изыматься до 10 Гб.

Страшно подумать, что произойдет, если приложение запустить на машине с 4 Гб...
Вопрос к более опытным коллегам: как улучшить данный механизм сохранения, учитывая перечисленные недостатки?

Вопрос задан более трёх лет назад
3348 просмотров

Комментировать

Подписаться 2 Оценить Комментировать

Пригласить эксперта

Ответы на вопрос 1

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

Python

+1 ещё

Простой
Как показать зависимость скорости от O(nlogn)?
- 1 подписчик
- 8 часов назад
- 47 просмотров
2

ответа
Windows

+1 ещё

Простой
По какой причине ошибка «NET-BroadcastEvenWindow»?
- 1 подписчик
- 12 часов назад
- 22 просмотра
0

ответов
C#

+3 ещё

Простой
Проблема при попытке загрузки файла в s3 bucket cloud.ru evolution?
- 1 подписчик
- 18 часов назад
- 23 просмотра
0

ответов
C#

Простой
Как обрабатывать событие клика глобально и двигать курсор в рамках всего монитора (или другого приложения)?
- 1 подписчик
- вчера
- 75 просмотров
1

ответ
C#

Простой
Возможно чтобы код С# испольнялся на GPU?
- 1 подписчик
- вчера
- 83 просмотра
2

ответа
C#

+1 ещё

Простой
Как отправить post запрос на сайт крипты Bybit?
- 1 подписчик
- вчера
- 35 просмотров
1

ответ
C#

Простой
Почему client gRPC не подключается к service gRPC?
- 1 подписчик
- вчера
- 53 просмотра
1

ответ
C#

+1 ещё

Простой
Как лучше реализовать обновление данных о процессах, используя winforms c#?
- 1 подписчик
- 24 апр.
- 66 просмотров
0

ответов
C#

+1 ещё

Средний
Отклик при соприкосновении с коллайдером 2D?
- 1 подписчик
- 24 апр.
- 37 просмотров
1

ответ
C#

+1 ещё

Простой
Почему коллайдеры деревьев на террайне съезжают?
- 1 подписчик
- 23 апр.
- 40 просмотров
1

ответ
Показать ещё Загружается…

Backend Developer C#

Enqo • Москва

от 200 000 ₽

Middle+ .Net(C#) developer

Zam.io

от 200 000 до 300 000 ₽

Разработчик C# (криптография)

Avanpost

от 200 000 ₽

Найти ошибку flutter_map

26 апр. 2024, в 05:31

1000 руб./за проект

Разработать электронику для весов с Wi-Fi

26 апр. 2024, в 01:22

1000 руб./в час

Очень срочно нужно помочь запустить программу с UI

26 апр. 2024, в 00:13

1000 руб./за проект

Answer 1 · 2014-03-04 20:34:30

IO лучше в нескольких потоках не делать. Seek'и будут долгими.
Попробуйте реализовать сжатие многопоточно в памяти, а запись в файл сжатой информации уже последовательно, по одному файлу.

Посмотрите в сторону чего нибудь вроде TPL Dataflow. Он как раз для задач подобной вашей создавался.

Как улучшить мой алгоритм сохранения данных на жесткий диск? (C#)

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт