.NET неоправдано сжирает память?

Question

Дмитрий Гавриленко @Maddox

C#
.NET

.NET неоправдано сжирает память?

Бонсуар, господа!
В общем есть у меня программка, которая:

Читает файл и записывает в буфер байты
Через GZipStream сжимает данные и опять же записывает их заново в то самый буфер
Читает буфер и записывает данные в память

Т.е смотрите.
Первый снимок это пустой буфер.
Второй снимок это создание MemoryStream, запись в него данных буфера (GC), использование этого MemoryStream в GZipStream, запись данных в буфер. (GC для обоих Stream)
Третий снимок это запись данных буфера в файл.

GC - этим я пометил моменты, на которых должна быть сборка мусора.

Если точнее то эти моменты выглядят так:

byte[] buffer = new byte[1000000000]; // RAM заюзалась
buffer = null;
buffer = new byte[100]; // (<b>GC</b>) тот же самый буфер. Но памяти при этом выделено под 1000000100 байт.

В конечном итоге у меня 0.5гб оперативки для работе с файлом в 100мб.

Читаем файл +100мб
Создаем MemoryStream +0мб = 100мб
Сжимает данные GZip`ом и пишем их в MemoryStream +131мб (сжатые данные весят больше WTF?????) = 230мб
.... +100мб = 330мб
Создаем файл, пишем в него данные из буфера +0мб = 230
В конце концов GC срабатывает на последней строчке кода -200мб = 130мб (остатки от буфера)

Каждый ресурс использую через using
Перед каждой записью новой порцией данных в буфер, я его null`ую.

Как заставить GC работать агрессивнее?
Доп.: Какого черта GZipStream с CompressionLevel.Optimal выдает больше данных чем было? (не актуально для действительно сжимаемых данных, такие как тестовые файлы, изображения)

Вопрос задан более трёх лет назад
695 просмотров

Комментировать

Подписаться 5 Оценить Комментировать

Пригласить эксперта

Ответы на вопрос 3

7 комментариев

Дмитрий Гавриленко @Maddox Автор вопроса

Может потому, что буфер это у меня статическое свойство?

Написано более трёх лет назад
Дмитрий Гавриленко @Maddox Автор вопроса

И как же так, если ссылок в память нет, зачем ее держать?

Написано более трёх лет назад
Вячеслав Золотов @SZolotov

Дмитрий Гавриленко: жестите коллега, никогда так не делайте =)

Написано более трёх лет назад
Вячеслав Золотов @SZolotov

Дмитрий Гавриленко: Потому что сборщик мусора не работает на каждый чих. У него свой алгоритм работы.

Написано более трёх лет назад
Станислав Силин @byme

Дмитрий Гавриленко: Статическое свойство тут не причем. То что вы его занулили тоже не заставит его работать. using освобождает управляемые ресурсы, но память тут не причем. GC отработатет тогда когда ее станет вообрез или изменится фаза луны. Вы не должны заботиться об этом. Сколько у вас свободной памяти при запуске приложения?

Написано более трёх лет назад
Дмитрий Гавриленко @Maddox Автор вопроса

Станислав Силин: вот и я тоже думаю, что статические не при чем. свободной памяти ну на пике прожорливости приложения ну уровне 500мб, не больше, возможно даже меньше, ибо FF + VS15 Debbuging + система + подкачка 700мб = остается свободной около 500 мб. Но я заметил, что это критический уровень. Т.е. я не разу не видел, чтобы система не оставила в резерве эти 500мб.

Написано более трёх лет назад
Дмитрий Гавриленко @Maddox Автор вопроса

Станислав Силин: можно сделать все это в одном методе и без использования буфера. Но моем случае критически важно где-то хранить эти куски данных в виде буфера, потому что если придет большой файл, все это нужно будет распараллеливать. Читать-обрабатывать-записывать файл придется по кускам в 150-200 мб, чтобы максимально нагрузить проц, оперативку и диск.

Написано более трёх лет назад

20 комментариев

tnnmi @tnnmi

вроде объекты больше 80 кб сразу попадают в поколение 2.

Написано более трёх лет назад
ayazer @ayazer

tnnmi: не совсем так. CLR выделяет фиксированное кол-во памяти для g0 и g1. размер памяти под g2 не ограничен (всм, не ограничен со стороны CLR). Это для SOH. Для LOH выделяеться вообще отдельный сегмент памяти, потому понятие "поколение" для такие обьектов не применимо. Но да, чистка LOH происходит только во время полной чистки (когда мы проверяем g0, g1, g2, LOH).

и да, начиная с 4.5.1 мы можем использу GCSettings.LargeObjectHeapCompactionMode сказать GC что для LOH таки нужно проводить дефрагментацию.

Написано более трёх лет назад
Дмитрий Гавриленко @Maddox Автор вопроса

ayazer: на счет сжатых данных которые весят больше. Да, возможно для сжатия требуется доп. память. Но, у меня и на выходе получается "сжатый" файл в 131мб. Тестировал на pdf файле. Для изображений он с 800кб сжимает до 240кб.

Написано более трёх лет назад
ayazer @ayazer

Дмитрий Гавриленко: надо смотреть на конкретную пдфку. Пдф сам по себе весьма сложный формат (официальная спецификация с описанием формата порядка 1300 страниц). В себе он может содержать куски зашифрованной информации, картинки в разных форматах етц. Т.е. вполне может оказаться что 90 процентов информации с той пдфки - уже какие-то сжитые бинарные данные. А GZipStream использует код хаффмана для сжатия, который будет крайне плохо работать для бинарных данных.

Я бы предолжил для начала посжимать этот файл ручками используя разные алгоритмы. Тот-же LZMA должен нормально справляться. А потом уже смотреть какой алгоритм лучше всего подходит для задачи.

Написано более трёх лет назад
Дмитрий Гавриленко @Maddox Автор вопроса

ayazer: переписал алгоритм программы. Теперь на каждом шагу стоит Collect, но память что равно освобождается долго и так в раскачку 200-400-500-200-100. Из-за этого не могу запустить другие такие же потоки на выполнение.

Написано более трёх лет назад
ayazer @ayazer

не совсем понимаю в чем проблема. Если в системе физически не хватает памяти чтоб запустить 2 алгоритма сжатия - надо пересматривать сами алгоритмы сжатия. Как минимум уменьшая степень сжатия можно очень заметно влиять на кол-во потребляемой памяти. Но я уверен что есть какие-то модификации алгоритмов с упором на "работаем медленее, но и тратим заметно меньше оперативки". Если памяти хватает, но алгоритм просто занимает "лишние" ресурсы - это не проблема, GC в случае надобности сам все почистит потом.

бтв,
папка весом в ~130Мб (первое что нашел похожее по размерам у себя на диске) со всякими mp3 внутри (которые фактически уже сжатый формат, потому почти не сжимаються архиваторами)

LZMA2, словарь 64Kb, размер слова 32, размер блока 8Мб, 8 потоков, ультра сжатие - тратит порядка 700мб оперативки.

LZMA2, словарь 64Kb, размер слова 32, размер блока 8Мб, 8 потоков, скоростное сжатие - тратит порядка 32мб оперативки.

если это не чисто академическая задача - я бы просто подключил 7z и использовал бы его для сжатия файлов. В репозитории есть куча готовых пакетов + его всегда можно просто через консоль вызывать.

и да, на каждом шаге Collect точно не стоит делать, это крайне тяжелая операция. Особенно Collect(2), который тут будет полезен, но заставит систему перебирать всю занятую память.

Написано более трёх лет назад
Дмитрий Гавриленко @Maddox Автор вопроса

ayazer: у меня стандартная реализация GZip в .NET. Создавая GZipStream можно выбрать либо режим [compress/decompress] либо уровень [Optimal, Fastest, не сжимать]. я использую режимы. Попробую конечно попробовать Fastest. Еще дело в том, что в данной задаче надо использовать именно GZip из пространства System.IO.Compression. Не иначе. На данном этапе прога при работе с файлом 1.2гб вылетает с исключением из-за недостатка памяти, но это мой косяк, т.к. у меня кривая реализация запуска потоков.

Написано более трёх лет назад
ayazer @ayazer

Дмитрий Гавриленко: может все-же необходимо использовать алгоритм сжатия Deflate, а не определенную дотнетовскую библиотеку?

как вариант - сжимать сразу не весь файл размеров в несколько гигабайт, а делить его на блоки по 20-100Мб, и сжимать каждый блок в отдельный архив. Но в случае с использованием именно GZipStream эту логику прийдеться самому писать.

Написано более трёх лет назад
Дмитрий Гавриленко @Maddox Автор вопроса

ayazer: логика уже есть. у меня несколько потоков в зависимости от размера файла, доступной памяти и кол-ва потоков процессора. Читает файл по частям, ра/сжимает данные, сохраняет в папку Temp. Но я сейчас хочу попросить у вас помощи. Дело в том, что я, в целях сохранения ОЗУ пытаюсь в GZipStream передать MemoryStream в котором хранится буфер, а потом в этот же MemoryStream записать обработанные GZip`ом данные.
Выглядит это примерно так:
using(MemoryStream memory = new MemoryStream)
{
memory.write(buffer, 0, buffer.lenght);
using(GZipStream gzip = new GZipStream(memory, Fastest))
{
gzip.CopyTo(memory); // если так exception gzip неподдерживает чтение
memory.CopyTo(gzip); // а так memory содержит нулевые байты, к том количестве, в котором были изначально
}
}

Написано более трёх лет назад
Дмитрий Гавриленко @Maddox Автор вопроса

ayazer: я мог бы создать еще один MemoryStream и в него записать сжатые данные, но это дополнительно выделенная ОЗУ

Написано более трёх лет назад
Дмитрий Гавриленко @Maddox Автор вопроса

ayazer: еще фигня в том, что GZipStream работает, извините за выражение, через жопу. Или я так работаю.. Для сжатия ему нужен один поток, для распаковки другой.. CanRead, CanSeek всегда false. Но я не могу отойти от него. Это обязательное требование.

Написано более трёх лет назад
ayazer @ayazer

Дмитрий Гавриленко: эм... как я уже писал выше, GZipStream использует алгоритм Deflate. Он кодирует скользящим окном, потому время от времени будет откатываться назад (при составлении словаря для каких-то новых комбинаций слов). Потому переписывать байты которые алгоритм уже вроде как проанализировал - точно плохая идея. Искать такую плавающую багу будет потом крайне весело.

и еще, а зачем результат в мемори стрим обратно писать? почему не сразу в файл?

Написано более трёх лет назад
Дмитрий Гавриленко @Maddox Автор вопроса

ayazer: сейчас посмотрю почему я не пишу в файл. Накидайте пожалуйста литературы, которую вы читали, что бы все это знать и понимать. Что-нибудь на уровне Троелсена.

Написано более трёх лет назад
ayazer @ayazer

уф... то неловкое чуство когда никогда не читал Троелсена... =)

с банального и очевидного - рихтер "CLR via c#". От корки до корки. Ее все советуют, и она действительно весьма хороша. Причем перечитывать нужно несколько раз с перерывом на практику.

если пойти глубже - Chris Farrell and Nick Harrison "Under the Hood of .NET Memory management". Как возможная замена - Sasha Goldshtein with Dima Zurbalev and Ido Flatow "Pro .NET Performance". Но последняя у меня самого висит в очереди на прочтение, хотя выглядит достаточно интересно.

если еще глубже - Serge Lidin "Expert .NET 2.0IL Assebmler" вкупе с 3ей секцией Common Language Infrastucture (CIL Instruction Set). Собственно этого будет уже достаточно чтоб в купе с каким-то ANTLR попробовать по фану написать свой собственный язык под .нет.

ну и вообще какие-то общие знания по криптографии/алгоритмам/етц лишними не будет. Без бесполезного заучивания, но с пониманием основных подходов и принципов. А все детали уже все-равно будут гуглиться под конкретную задачу. Увы, никаких книг конкретных посоветовать не могу.

вот тут у меня небольшая книгопомойка висит, все книги которые я называл - тут валяются

https://drive.google.com/open?id=0B6uc7zomZNk-fmVy...

Написано более трёх лет назад
Дмитрий Гавриленко @Maddox Автор вопроса

ayazer: поменял реализацию для compress, петерь сразу пишет в файл. С Decompress такое не прокатит. Пришлось передать в GZipStream new MemoryStream. Все сработало. Но появилась новая невиданна зверушка: Decompress.CopyTo(outFile) выдает - Неправильное магическое число в заголовке GZip. Передача должна идти в поток GZip. К примеру для fb2 файла размером 840кб компрессия до 300кб. Обратно все работает. Для файла pdf размером 96мб компрессия не работает, как вы и отмечали - он уже сжат, при декомпрессии выдает это исключение.

Написано более трёх лет назад
Дмитрий Гавриленко @Maddox Автор вопроса

ayazer: я перепутал и имел ввиду Рихтера) Я не читал его пока полностью, книга лежит, в свободное время почитываю.

Написано более трёх лет назад
ayazer @ayazer

хм.. судя по тексту ошибки - я бы сказал что проблема с хедером (разница между стандратным deflate и gzip в том, что последний добавляет дополнительно свой хедер). Первых 3 байта должны быть 0x1f 0x8b 0x08

Написано более трёх лет назад
Дмитрий Гавриленко @Maddox Автор вопроса

ayazer: верно. Для маленьких файлов распила на куски не. Для больших идет распил файла по 70мб и каждая часть компрессится отдельно. Сейчас понял в чем причина. 31 139 8 находятся в начале каждой части. Потом-то я эти части "клею" в один файл, в котором и получается 31 139 8 ...... 31 139 8 ...... 31 139 8. А исходные файлы, что при компресси, что при декомпересии читаются кусками фиксированного размера. Следовательно, первый кусок может и корректно декомпрессуется, но вот остальное корявые. Придется перед декомпрессией искать в файле эти байты и по ним делить на куски.

Написано более трёх лет назад
tnnmi @tnnmi

ayazer:
"CLR выделяет фиксированное кол-во памяти для g0 и g1" -

да, но насколько я помню, можно увеличить этот размер при создании потока.

Написано более трёх лет назад
tnnmi @tnnmi

Дмитрий Гавриленко:
"Теперь на каждом шагу стоит Collect, но память что равно освобождается долго" -

попробуй так:

GC.Collect();
GC.WaitForPendingFinalizers();
GC.Collect();

Написано более трёх лет назад

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

C#

+2 ещё

Простой
Почему получается подключить Core в Dockerfile?
- 3 подписчика
- 19 часов назад
- 488 просмотров
3

ответа
C#

Простой
Как из файла txt записать в Dictionary?
- 1 подписчик
- вчера
- 90 просмотров
1

ответ
Python

+2 ещё

Простой
Как транслировать аудио в микрофон, py, c#, c++?
- 1 подписчик
- вчера
- 142 просмотра
3

ответа
C#

+1 ещё

Простой
OpenCL в C# — какими средствами и где взять HelloWorld?
- 1 подписчик
- вчера
- 54 просмотра
0

ответов
Python

+1 ещё

Средний
Сервер C# не принимает сообщения от клиента. Почему так?
- 1 подписчик
- 21 апр.
- 120 просмотров
0

ответов
C#

+1 ещё

Простой
Как в Delphi импортировать внешнюю библиотеку классов на языке C#?
- 1 подписчик
- 19 апр.
- 125 просмотров
0

ответов
C#

+1 ещё

Простой
Как решить проблему database is locked?
- 1 подписчик
- 17 апр.
- 92 просмотра
1

ответ
C#

Простой
C# и несколько CPU?
- 6 подписчиков
- 15 апр.
- 4234 просмотра
3

ответа
C#

+1 ещё

Простой
Как сделать смену обьекта при приближении?
- 1 подписчик
- 14 апр.
- 75 просмотров
1

ответ
Windows

+2 ещё

Простой
Как обеспечить относительный путь к БД SQLite?
- 1 подписчик
- 14 апр.
- 124 просмотра
3

ответа
Показать ещё Загружается…

Middle+ .Net(C#) developer

Zam.io

от 200 000 до 300 000 ₽

C# разработчик

САТЕЛ

от 120 000 до 200 000 ₽

Разработчик C# (криптография)

Avanpost

от 200 000 ₽

Разработать видеочатбота с ответами на вопросы абитуриентов

23 апр. 2024, в 17:07

6500 руб./за проект

Разработать прототип для бч Solana

22 апр. 2024, в 16:15

18000 руб./за проект

Wagtail(Django)

23 апр. 2024, в 16:55

10000 руб./за проект

Answer 1 · 2016-12-16 17:31:10

трудно что-то сказать не видя всего кода. Но вот тут:

byte[] buffer = new byte[1000000000]; // RAM заюзалась
buffer = null;
buffer = new byte[100]; // (<b>GC</b>) тот же самый буфер. Но памяти при этом выделено под 1000000100 байт.

Нет никакой гарантии что сборщик мусора сработает. От может сработать, а может когда-нибудь потом.
Что происходит в этом коде? Вы выделяете память, buffer = null не говорит о том что память должна освободиться, а только что переменная ссылается на другой участок памяти (с адресом 0). Далее выделяете еще память и теперь переменная ссылается на новый участок памяти..
По поводу сборщика мусора. В 99,999% случаев, когда программисту хочется поработать вручную со сборщиком мусора, нужно править код.

Answer 2 · 2016-12-16 18:56:11

1) алгоритмы сжатия изпользуют доп. память для генерации словарей. Размер словаря будет зависеть как от алгоритма сжатия, так и от данных которые надо сжать.
2) для того чтоб освободить память от кучи хлама - можно сделать GC.Collect для инициализации сборщика мусора. В данном случае прийдеться делать GC.Collect(2), что достаточно дорогая операция.

кроме того, следует помнить про нюансы сборки мусора для LOH. В отличии от SOH, для LOH не будет проводиться дефрагментация данных в памяти, а CLR будет просто пытаться переиспользовать освободившиеся куски. Потому вполне возможна ситуация когда память в куче вроде как есть, но CLR продолжает ее выделять для новых обьектов.

Answer 3 · 2016-12-20 21:09:00

Сборщик будет отдавать память, когда у программы будет простой и/или системе она(память) потребуется и/или в системе будет доступно менее некоторого % памяти.
По графику вызова GC, он вызывался только в самом начале.

Если хотите другого поведения - вынесите выделение и использование массива в функцию, и крутите в цикле функцию, при этом поставьте у gc параллельную серверную сборку. Тогда выброшенные фреймы стека с указателем на ваш старый byte[] должны быстро подбираться параллельной сборкой мусора, приложение начнет интенсивнее отдавать память.
Соответствующие флаги в appConfig-е

https://msdn.microsoft.com/ru-ru/library/ms229357(...
https://msdn.microsoft.com/ru-ru/library/ms229357(...

.NET неоправдано сжирает память?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт