• Что за файлы и как с ними жить дальше?

    Alex_Geer
    @Alex_Geer Автор вопроса
    System Engineer
    Ни кто не хочет писать ответ, напишу сам. В общем через команду file можно убедится что это действительно дампы процесса. Нашел ошибки в логах LibreOffice когда файлы удаляются ранее чем преобразовались в PDF, процесс зависает и система его убивает. Возможно эта информация будет кому то полезна.
    Ответ написан
    1 комментарий
  • Почему постоянно выводится расстояние 0(Алгоритм Дейкстры для городов)?

    wataru
    @wataru
    Разработчик на С++, экс-олимпиадник.
    Вы выводите d[begin_index], это расстояние до начальной вершины. Естественно там 0 будет. А выводить надо расстояние до конечной. Надо end использовать (и выводить после того, как вы end нашли).
    Ответ написан
    Комментировать
  • Как в Debian с помощью find нати каталоги созданные 1 час назад?

    @Stariyded
    Сетевой админ
    Попробуйте ключ -cmin
    Ответ написан
    Комментировать
  • Что означает запись [4]byte в языке Go?

    igorzakhar
    @igorzakhar
    Массив из 4 значений у которых тип byte
    Ответ написан
    2 комментария
  • Что означает запись [4]byte в языке Go?

    @chemdev
    Пройти типы в go и узнать, что это массив из byte длиной 4
    Ответ написан
    3 комментария
  • Как происходит пошаговое обучение языковых моделей азам?

    @rPman
    Ответ в виде короткого гайда ты не получишь, он не влезет в формате qna, да и некому тебе его дать.. гугли, все есть в интернете.

    Для начала, чтобы повторить свою языковую модель, которая начнет показывать признаки интеллекта (т.е. нейронка построит внутри модель человеческого интеллекта), нужно минимум десятки миллионов долларов (это оптимистичная оценка). Это при условии наличии специалистов (команда), данных (все бросились парсить интернет и те кто эти данные хостят внезапно осознали что их данные имеют цены) и мотивацию. И да ее качество, в лучшем случае будет на уровне gpt3.5 от openai...
    Например у богатейшей в мире компании google, создавшей собственно алгоритм transformer, стоящий в основе современных llm-ок, имеющей огромные ресурсы, собранные данные со всего интернета, собственное железо (их TPU на порядок энергоэффективнее видеокарт, и развиваются уже десятилетие) - догнать по возможностям openai gpt4, не получилось!

    Причина - gpt стала показывать такие признаки при значительном увеличении количества как параметров нейронной сети (миллиарды) так и обучающих данных (трилионы токенов). Чтобы это все обработать в разумные сроки (месяцы-годы), нужны суперкомпьютеры на основе nvidia видеокарт, от монополиста, удерживающего рынок так что цены на это дело 10х от возможных (или даже 100х), плюс санкции добавляют еще Nx к цене да и не найти адекватного оборудования.

    НО! можно взять готовую нейронную сеть (ключевое слово pretrained или base или completion приписка у тех кто публикует такие сетки бесплатно) и использовать их токенизер (между прочем токенизация, тоже не простой процесс, поэтому лучше брать готовый) и finetuning на своих данных. С некоторым везением, результата можно будет добиться с 100-кратно меньшими денежными затратами (была статья где перец за 100$ дообучил llama7B до симуляции чата своих друзей). Помним, что если в обучающей выборке не было твоих знаний (не фактов а именно умений и пониманий) то дообучить этому будет сложнее и скорее всего итоговый результат - сеть начнет забывать что ранее знала и галлюцинировать еще сильнее. Тюнинг обычно используют чтобы повысить качество уже имеющихся умений и определить формат общения (например обучить модель общаться не в форме чата а в форме инструкций). Качество данных (соответствие обучающей выборке) - в этом случае имеет наиважнейшее значение.

    Ну, и есть разные алгоритмы - ключевые слова для гуглинга - finetuning, peft, rhlf. Есть алгоритмы поверх llm-ок, не трогая их веса можно повысить возможности с помощью RAG...

    Лучшие сетки с доступными весами на текущий момент, для обучения и работы с которыми хватит домашних видеокарт - llama3-8B (вышла 3 дня назад, всех шокирует, особенно 70B), openchat35-7B (на основе mistral)
    Ответ написан
    Комментировать
  • Какие существуют методы сравнения качества изображения?

    @alexalexes
    Я бы попробовал взвесить удельный информационный вес одного пикселя изображения:
    P = размер файла / (длина * ширина).
    Если изображение jpeg, то бы еще посмотрел степень компрессии по качеству Q.
    И потом бы взял результат:
    order by P desc, Q desc
    Это самый наивный анализ без влезания в оценку частотных и вивлет преобразований.
    Ответ написан
    1 комментарий
  • С чего начать изучать разработку приложений под Linux?

    saboteur_kiev
    @saboteur_kiev Куратор тега Linux
    software engineer
    Нужно определиться зачем вы планируете изучить детально систему - вы собираетесь заняться системным программированием?
    ИЛи прикладным? Если прикладным, то для GUI приложений просто осваиваете любой фреймворк, типа qt, который работает в Линукс и пишете.
    Библиотеки для С++ есть и там и там.
    Ответ написан
    2 комментария
  • Системы для анализа эмоций в видео и автоматической генерации текстовых реакций. Существует ли такое?

    fenrir1121
    @fenrir1121
    Начни с документации
    Существует ли такое?
    Не существует.

    Эмоциональный контекст это что вообще? Есть определение и алгоритм его нахождения? Одно и то же видео может интерпретироваться в зависимости от возраста, воспитания, вероисповедания, интеллекта и десятка других факторов совершенно по-разному. Вероятно видео, которое трехлетнего ребенка приведет в восторг меня будет вгонять в тоску.

    выдавать предварительно рандомные текстовые реакции типа "это круто", "мне грустно", "да", "давайте поможем", в зависимости от контекста видео
    Это такое натягивание совы на глобус, что подозреваю, что с тем же успехом можно давать совершенно случайные реакции к любому видео.

    Дополнительно хотелось бы иметь функцию, которая может отслеживать персонажей в видео и записывать информацию о них в файл для дальнейшего анализа
    Это пожалуйста. Берете opencv и вперед.

    какие подходы, фреймворки или библиотеки вы бы рекомендовали для реализации такой системы?
    Рекомендую не браться за задачу, которую вы описали, она слишком абстрактна. Ставьте четкие задачи и последовательно их решайте.
    Ответ написан
    Комментировать
  • Системы для анализа эмоций в видео и автоматической генерации текстовых реакций. Существует ли такое?

    saboteur_kiev
    @saboteur_kiev Куратор тега Python
    software engineer
    Набираете десятки тысяч фото, проставляете им теги настроение, скармливаете нейросети для обучения. В результате получите нейросеть, которая примерно пытается понимать реакцию по фото.
    Потом анализируете несколько фото из видео, получаете прогноз сети.
    Займет это n-цать лет, n-цать $

    А готовых, еще и для бесплатного использования - вряд ли будет в таком виде, как вы хотите.
    Можете погуглить что-то вроде https://imentiv.ai/pricing/
    Ответ написан
    Комментировать
  • Как поменять часовой пояс в MYSQL Docker-контейнере?

    vhood
    @vhood
    Не забывайте отмечать решения
    mysql:
      environment:
        MYSQL_DATABASE: marzban
    +   TZ: Europe/Moscow
    Ответ написан
    4 комментария
  • Существует ли программа для сжатия нескольких фотографий, прямо из папки?

    tsklab
    @tsklab
    Здесь отвечаю на вопросы.
    Это называется "Пакетная обработка". Она много где есть.
    Ответ написан
    Комментировать
  • Как избежать падения nginx при отсутствии backend, proxy_pass контейнера?

    ky0
    @ky0 Куратор тега Nginx
    Миллиардер, филантроп, патологический лгун
    Сделать в композе связку healthcheck и depends_on, чтобы nginx поднимался только после того, как проба бэкенда пройдёт успешно.
    Ответ написан
    2 комментария
  • Как лучше сделать обновление данных строго по времени?

    ThunderCat
    @ThunderCat Куратор тега Веб-разработка
    {PHP, MySql, HTML, JS, CSS} developer
    Задача состоит в том что нужно в начале каждого часа обновлять данные на сайте.
    Не понятно, данные на сайте, или у клиента данные с сайта?
    Если первое - зачем тут вообще сокет и при чем тут вообще клиент?
    Если второе - крон + скрипт рассылки в открытые сокеты
    Ответ написан
    Комментировать
  • Что в теории накладывает меньший штраф на производительность? systemd-nspawn или lxc?

    ky0
    @ky0
    Миллиардер, филантроп, патологический лгун
    Довольно бессмысленно, имхо, сравнивать производительность сортов cgroups, когда всё равно примерно в 100% случаев всё упирается в диск или сеть (иногда ещё в кривую настройку СУБД).
    Ответ написан
    Комментировать
  • Ошибка при проверке на подписку на канал при создании бота на языке программирования Python?

    @Everything_is_bad
    тебе явно указали проблему в сообщении об ошибке, дебаж и смотри что именно ты передаешь в chat_id
    ну и код форматируй тегом code
    Ответ написан
    Комментировать
  • Почему svg теряет качество при масштабировании?

    @Everything_is_bad
    ну так глянь исходники, у тебя внутри не вектор, а растр в png формате
    Ответ написан
    6 комментариев
  • Как хранить большие объёмы текста?

    @o5a
    База данных выглядит подходящим вариантом. Сможете хранить полностью свои тексты и обращаться к ним в любом нужном порядке. Даже простой встроенный в python sqlite подойдет, если не планируется совместный доступ к данным.

    В json тоже можно, но менее эффективно, т.к. каждый раз его придется полностью считывать, да и хранить большие объемы текста не совсем его предназначение.
    Ответ написан