Ответы, понравившиеся пользователю Everything_is_not_so_bad

Что за файлы и как с ними жить дальше?

Alex G. @Alex_Geer Автор вопроса

System Engineer

Ни кто не хочет писать ответ, напишу сам. В общем через команду file можно убедится что это действительно дампы процесса. Нашел ошибки в логах LibreOffice когда файлы удаляются ранее чем преобразовались в PDF, процесс зависает и система его убивает. Возможно эта информация будет кому то полезна.

Ответ написан 17 часов назад

1 комментарий

Почему постоянно выводится расстояние 0(Алгоритм Дейкстры для городов)?

Wataru @wataru

Разработчик на С++, экс-олимпиадник.

Вы выводите d[begin_index], это расстояние до начальной вершины. Естественно там 0 будет. А выводить надо расстояние до конечной. Надо end использовать (и выводить после того, как вы end нашли).

Ответ написан 22 апр.

Комментировать

Как в Debian с помощью find нати каталоги созданные 1 час назад?

Дмитрий @Stariyded

Сетевой админ

Попробуйте ключ -cmin

Ответ написан 22 апр.

Комментировать

Что означает запись [4]byte в языке Go?

igorzakhar @igorzakhar

Массив из 4 значений у которых тип byte

Ответ написан 22 апр.

2 комментария

Что означает запись [4]byte в языке Go?

chemdev @chemdev

Пройти типы в go и узнать, что это массив из byte длиной 4

Ответ написан 22 апр.

3 комментария

Как происходит пошаговое обучение языковых моделей азам?

rPman @rPman

Ответ в виде короткого гайда ты не получишь, он не влезет в формате qna, да и некому тебе его дать.. гугли, все есть в интернете.

Для начала, чтобы повторить свою языковую модель, которая начнет показывать признаки интеллекта (т.е. нейронка построит внутри модель человеческого интеллекта), нужно минимум десятки миллионов долларов (это оптимистичная оценка). Это при условии наличии специалистов (команда), данных (все бросились парсить интернет и те кто эти данные хостят внезапно осознали что их данные имеют цены) и мотивацию. И да ее качество, в лучшем случае будет на уровне gpt3.5 от openai...
Например у богатейшей в мире компании google, создавшей собственно алгоритм transformer, стоящий в основе современных llm-ок, имеющей огромные ресурсы, собранные данные со всего интернета, собственное железо (их TPU на порядок энергоэффективнее видеокарт, и развиваются уже десятилетие) - догнать по возможностям openai gpt4, не получилось!

Причина - gpt стала показывать такие признаки при значительном увеличении количества как параметров нейронной сети (миллиарды) так и обучающих данных (трилионы токенов). Чтобы это все обработать в разумные сроки (месяцы-годы), нужны суперкомпьютеры на основе nvidia видеокарт, от монополиста, удерживающего рынок так что цены на это дело 10х от возможных (или даже 100х), плюс санкции добавляют еще Nx к цене да и не найти адекватного оборудования.

НО! можно взять готовую нейронную сеть (ключевое слово pretrained или base или completion приписка у тех кто публикует такие сетки бесплатно) и использовать их токенизер (между прочем токенизация, тоже не простой процесс, поэтому лучше брать готовый) и finetuning на своих данных. С некоторым везением, результата можно будет добиться с 100-кратно меньшими денежными затратами (была статья где перец за 100$ дообучил llama7B до симуляции чата своих друзей). Помним, что если в обучающей выборке не было твоих знаний (не фактов а именно умений и пониманий) то дообучить этому будет сложнее и скорее всего итоговый результат - сеть начнет забывать что ранее знала и галлюцинировать еще сильнее. Тюнинг обычно используют чтобы повысить качество уже имеющихся умений и определить формат общения (например обучить модель общаться не в форме чата а в форме инструкций). Качество данных (соответствие обучающей выборке) - в этом случае имеет наиважнейшее значение.

Ну, и есть разные алгоритмы - ключевые слова для гуглинга - finetuning, peft, rhlf. Есть алгоритмы поверх llm-ок, не трогая их веса можно повысить возможности с помощью RAG...

Лучшие сетки с доступными весами на текущий момент, для обучения и работы с которыми хватит домашних видеокарт - llama3-8B (вышла 3 дня назад, всех шокирует, особенно 70B), openchat35-7B (на основе mistral)

Ответ написан 21 апр.

Комментировать

Какие существуют методы сравнения качества изображения?

alexalexes @alexalexes

Я бы попробовал взвесить удельный информационный вес одного пикселя изображения:
P = размер файла / (длина * ширина).
Если изображение jpeg, то бы еще посмотрел степень компрессии по качеству Q.
И потом бы взял результат:
order by P desc, Q desc
Это самый наивный анализ без влезания в оценку частотных и вивлет преобразований.

Ответ написан 21 апр.

1 комментарий

Какой носитель выбрать для долгосрочного хранения данных в случае ЧС?

Сергей Соловьев @AshBlade

Просто хочу быть счастливым

Ленточный накопитель

Ответ написан 21 апр.

5 комментариев

Как запустить два параллельных процесса бота: бесконечную функцию, проверяющую имеются ли обновления, и обработчики событий и сообщений?

fenrir @fenrir1121

Начни с документации

Не читай про мультипроцессинг, читай про asyncio.gather или asyncio.wait :)

Ответ написан 21 апр.

5 комментариев

С чего начать изучать разработку приложений под Linux?

Saboteur @saboteur_kiev Куратор тега Linux

software engineer

Нужно определиться зачем вы планируете изучить детально систему - вы собираетесь заняться системным программированием?
ИЛи прикладным? Если прикладным, то для GUI приложений просто осваиваете любой фреймворк, типа qt, который работает в Линукс и пишете.
Библиотеки для С++ есть и там и там.

Ответ написан 13 апр.

2 комментария

Системы для анализа эмоций в видео и автоматической генерации текстовых реакций. Существует ли такое?

fenrir @fenrir1121

Начни с документации

Существует ли такое?

Не существует.

Эмоциональный контекст это что вообще? Есть определение и алгоритм его нахождения? Одно и то же видео может интерпретироваться в зависимости от возраста, воспитания, вероисповедания, интеллекта и десятка других факторов совершенно по-разному. Вероятно видео, которое трехлетнего ребенка приведет в восторг меня будет вгонять в тоску.

выдавать предварительно рандомные текстовые реакции типа "это круто", "мне грустно", "да", "давайте поможем", в зависимости от контекста видео

Это такое натягивание совы на глобус, что подозреваю, что с тем же успехом можно давать совершенно случайные реакции к любому видео.

Дополнительно хотелось бы иметь функцию, которая может отслеживать персонажей в видео и записывать информацию о них в файл для дальнейшего анализа

Это пожалуйста. Берете opencv и вперед.

какие подходы, фреймворки или библиотеки вы бы рекомендовали для реализации такой системы?

Рекомендую не браться за задачу, которую вы описали, она слишком абстрактна. Ставьте четкие задачи и последовательно их решайте.

Ответ написан 10 апр.

Комментировать

Системы для анализа эмоций в видео и автоматической генерации текстовых реакций. Существует ли такое?

Saboteur @saboteur_kiev Куратор тега Python

software engineer

Набираете десятки тысяч фото, проставляете им теги настроение, скармливаете нейросети для обучения. В результате получите нейросеть, которая примерно пытается понимать реакцию по фото.
Потом анализируете несколько фото из видео, получаете прогноз сети.
Займет это n-цать лет, n-цать $

А готовых, еще и для бесплатного использования - вряд ли будет в таком виде, как вы хотите.
Можете погуглить что-то вроде https://imentiv.ai/pricing/

Ответ написан 10 апр.

Комментировать

Как поменять часовой пояс в MYSQL Docker-контейнере?

Виктор @vhood

Не забывайте отмечать решения

mysql:
  environment:
    MYSQL_DATABASE: marzban
+   TZ: Europe/Moscow

Ответ написан 10 апр.

4 комментария

Существует ли программа для сжатия нескольких фотографий, прямо из папки?

Константин Цветков @tsklab

Здесь отвечаю на вопросы.

Это называется "Пакетная обработка". Она много где есть.

Ответ написан 09 апр.

Комментировать

Как избежать падения nginx при отсутствии backend, proxy_pass контейнера?

ky0 @ky0 Куратор тега Nginx

Миллиардер, филантроп, патологический лгун

Сделать в композе связку healthcheck и depends_on, чтобы nginx поднимался только после того, как проба бэкенда пройдёт успешно.

Ответ написан 09 апр.

2 комментария

Как лучше сделать обновление данных строго по времени?

ThunderCat @ThunderCat Куратор тега Веб-разработка

{PHP, MySql, HTML, JS, CSS} developer

Задача состоит в том что нужно в начале каждого часа обновлять данные на сайте.

Не понятно, данные на сайте, или у клиента данные с сайта?
Если первое - зачем тут вообще сокет и при чем тут вообще клиент?
Если второе - крон + скрипт рассылки в открытые сокеты

Ответ написан 09 апр.

Комментировать

Что в теории накладывает меньший штраф на производительность? systemd-nspawn или lxc?

ky0 @ky0

Миллиардер, филантроп, патологический лгун

Довольно бессмысленно, имхо, сравнивать производительность сортов cgroups, когда всё равно примерно в 100% случаев всё упирается в диск или сеть (иногда ещё в кривую настройку СУБД).

Ответ написан 08 апр.

Комментировать

Ошибка при проверке на подписку на канал при создании бота на языке программирования Python?

Everything_is_bad @Everything_is_bad

тебе явно указали проблему в сообщении об ошибке, дебаж и смотри что именно ты передаешь в chat_id
ну и код форматируй тегом code

Ответ написан 07 апр.

Комментировать

Почему svg теряет качество при масштабировании?

Everything_is_bad @Everything_is_bad

ну так глянь исходники, у тебя внутри не вектор, а растр в png формате

Ответ написан 08 апр.

6 комментариев

Как хранить большие объёмы текста?

o5a @o5a

База данных выглядит подходящим вариантом. Сможете хранить полностью свои тексты и обращаться к ним в любом нужном порядке. Даже простой встроенный в python sqlite подойдет, если не планируется совместный доступ к данным.

В json тоже можно, но менее эффективно, т.к. каждый раз его придется полностью считывать, да и хранить большие объемы текста не совсем его предназначение.

Ответ написан 07 апр.

16 комментариев

Войдите на сайт