Какой алгоритм использовать для поиска лучшей вероятности среди множества событий?

Question

Думай Головой @thinkbrain2

Какой алгоритм использовать для поиска лучшей вероятности среди множества событий?

Всём привет

Сразу скажу, в алгоритмах я полный ноль, был бы признателен не сколько решению задачи, а просто советам, что нужно прочитать, какие темы, чтобы понимать как работать над такими вопросами.

Задача:
Искомая вероятность является вероятностью происшествия INCIDENT, которое либо наступает, либо нет. Кратко запишем это как INCIDENT->true и INCIDENT->false.
INCIDENT зависит от описанных ниже пар объект-событие и их комбинаций.

Имеется множество объектов A...Z с разными полями-событиями a....z. Причём некоторые события являются не простыми, а составными (включают в себя некоторые параметры) т.е. имеет место быть вложенность, но не более двух уровней. Чтобы было проще понять, структура данных для событий такая:

[
  {
    "Object A": {
      "event": "(event name) a",
      "event": "(event name) b",
      "event": "(event name) c",
    },
    "Object B": {
      "event": "(event name) a",
      "event": "(event name) b",
      "event": "(event name) c",
    },
    "Object С": [{
      "event": {
        "event name": "(event name) a",
        "param1": "(param) 1",
        "param2": "(param) 2",
      },
      "event": {
        "event name": "(event name) a",
        "param1": "(param) 123",
        "param2": "(param) 321",
      }
    }]
  }
]

Как видно, имеются объекты типа C, события которых являются составными (включают в себя некоторые параметры param1, param2 etc).

Имеется база данных происшествий, в которой указаны состояния этих происшествий (INCIDENT->true или INCIDENT->false) и предшествующие им объекты с их событиями.
Требуется найти такие комбинации событий (и их параметров, в случае с составными событиями), при которых наступление INCIDENT->true было чаще всего.

Пример:

1) Имеется 100 записей с такими данными: у объекта A сработало событие a (краткая запись: A->a), 33% INCIDENT являются true среди множества всех INCIDENT с такими же событиями, остальные 66% INCIDENT являются false.

[
  {
    "A": "a",
    "INCIDENT": true x33 (33%)
    "INCIDENT": false x66 (66%)
  }
]

Если же одновременно вместе с этим событием (A->a) срабатывало событие B->a, то количество INCIDENT->true стало больше и теперь равно 50% от общего числа.

[
  {
    "A": "a",
    "B": "a",
    "INCIDENT": true x50 (50%),
    "INCIDENT": false x50 (50%),
  }
]

2) Добавим составное событие (вложенность). Если к событиям A->a и B->a добавляется C->a с параметром (param1 = 1), то количество INCIDENT->true уменьшается и становится 10% от общего числа.

[
  {
    "A": "a",
    "B": "a",
    "C": {
      "event name": "a",
      "param1": 1
    },
    "INCIDENT": true x10 (10%)
    "INCIDENT": false x90 (90%)
  },
]

А если к A->a и B->a добавляется такое же событие C->a, но с другими параметрами (param1 = 123) и (param2 = 321), то количество INCIDENT->true увеличивается и становится 60%.

[
  {
    "A": "a",
    "B": "a",
    "C": {
      "event name": "a",
      "param1": 123,
      "param3": 321
    },
    "INCIDENT": true x60 (60%)
    "INCIDENT": false x40 (40%)
  },
]

Всем спасибо!

Вопрос задан более трёх лет назад
195 просмотров

13 комментариев

Подписаться 1 Сложный 13 комментариев

dollar @dollar

Боже, как сложно!..

Может, лучше свести вашу проблему к паре абзацев, чем грузить таким количеством информации? Если вы это сделаете, то есть разобьете задачу на подзадачи, то вам же будет проще найти решение каждой из маленьких задач.

Написано более трёх лет назад
Думай Головой @thinkbrain2 Автор вопроса

dollar, большая часть вопроса это описание и пример. Суть сводится к: среди множества событий найти такие, при которых зависимое от них событие наступает с наибольшей вероятностью. Какой алгоритм здесь нужен или что почитать по поводу таких задач?

Написано более трёх лет назад
dollar @dollar

Нужно понять, как вычислять вероятность зависимого события. Это зависит от того, как события связаны. Например, если выпадет решка, то я кидаю игральную кость, чтобы выпало 6. Очевидно, что здесь нужно перемножить вероятности 0.5 * 1/6 и получится шанс итогового события.

Написано более трёх лет назад
NaName @NaName

много букв. можно в 3 предложения?

Написано более трёх лет назад
Думай Головой @thinkbrain2 Автор вопроса

NaName, уже есть, чуть выше.

Написано более трёх лет назад
Думай Головой @thinkbrain2 Автор вопроса

dollar, странная штука. Есть события a и b, которые по отдельности дают вероятность третьему (главному) событию 0.7 и 0.8 соответственно. Если их перемножить (то есть если два события наступают сразу), то вероятность главного события значительно уменьшается (0.7*0.8 = 0.56).

Написано более трёх лет назад
dollar @dollar

Это был пример. Вычисления зависят от того, как события связаны. Перемножать нужно, если третье событие наступает, при условии, если одновременно происходят события a и b. А если они не связаны совсем, то и перемножать не корректно.

Написано более трёх лет назад
Думай Головой @thinkbrain2 Автор вопроса

dollar, наверное я не правильно сформулировал вопрос.
События a и b - это события-факты, они не имеют собственной вероятности.
Но, событие P (обозначим главное событие) зависит от этих фактов.
Как уже сказано выше:
P(a) = 0.7
P(b) = 0.8
То есть, вероятность главного события нам известна, нам дано множество фактов и нужно найти те их комбинации, при которых P самое большое. То есть например:
P(?, ?, ?, ?) > 0.5
где знаки вопроса - это и есть искомая комбинация тех самых фактов из базы данных.

Написано более трёх лет назад
dollar @dollar
До конца не ясно, как связаны P(a) и P(b).
Если никак, то вероятности как бы складываются. То есть событие P наступает, когда хотя бы одно из событий a или b послужило причиной.
P = P(a) + P(b) - P(a)*P(b)
Очевидно, что в таком случае максимальная вероятность наступления события P будет при срабатывании всех факторов.
То есть P(a,b,c, ........, z) = max. Где a-z - это все имеющиеся факторы.
Алгоритм примерно такой будет
P = 0 for k in [a-z] { P = P + (1-P)*P(k) //k - очередной фактор. P(k) - вероятность }
Написано более трёх лет назад
Думай Головой @thinkbrain2 Автор вопроса

dollar, мы уже близко и эта формула сложения вероятностей отлично подходит под задачу, так как имеет место именно накопление вероятностей с подключением новых событий.

Но есть нюанс: событий очень, очень много и если заданная вероятность будет найдена для n событий из общего числа m, то получается, что остальные (m-n) не будут учитываться, то есть мы их как бы игнорируем. Например: требуется найти все события, при которых P > 50, мы в цикле проходим по порядку, начиная с события P(a) и на событии P(a....d) сумма вероятностей начинает превышать 50%, задача вроде выполнена, но нет. Нужно как-то учесть остальные события e...z. Запускать новый цикл с P(e) и снова искать сумму вероятности с нуля? Нет, совсем не то, так как в нашем множестве событий возможны такие ситуации:
P(a, c, k, y, z) > 50
P(a, b, e, m, s, u, v) > 50
P(e, f, j, h, i, j, k) < 50
и тому подобное
То есть, в рамках поставленной задачи нужно учесть все возможные события и их комбинации. Выходит, что нужно как-то скомпоновать формулу сложения вероятностей с комбинаторикой.

Написано более трёх лет назад
Думай Головой @thinkbrain2 Автор вопроса

dollar,
проще говоря, дано
P(x) = y
где x ∈ a...z
y ∈ 0...1

Найти множество A комбинаций среди a...z для которых
P(A) > 0.5

Написано более трёх лет назад
dollar @dollar

Сначала строите множество всех пар и их вероятностей. То есть (a,b) (b,c) (a,c) (a,d) и т.д. Если среди них будут решения - в вашу копилочку. Эти решения можно исключить, или делайте с ними, что хотите. Если, к примеру, P(b,c) > 0.5, то при добавлении любого фактора тоже будет > 0.5. В общем, исключаем.
Из оставшихся двоек делаете тройки. Нужно лишь прибавить вероятность третьего фактора.
Из троек - четверки и т.д.
Каждый раз не нужно пересчитывать сумму вероятностей всей цепочки. Достаточно прибавить вероятность нового фактора к предыдущей цепочке.

Чтобы не было повторений, достаточно "смотреть вперёд". То есть для (b,c) третьим фактором нельзя брать (a), потому что он сзади. Тройка (a,b,c) должна быть учтена при рассмотрении (a,b) - у нее впереди как раз (c). Соответственно, для (a,c) нельзя брать (b), - только (d) и выше.

Написано более трёх лет назад
Думай Головой @thinkbrain2 Автор вопроса

dollar, теперь то, что нужно!

Написано более трёх лет назад

Решения вопроса 1

5 комментариев

Думай Головой @thinkbrain2 Автор вопроса

Спасибо. То есть, в случае когда конечная вероятность уже дана (то есть количество INCIDENT->true из общего числа нам известно, обозначим P), получается выражение:

a1*(aa1+...+aaN)+a2*(bb1+...+bbN)+...+aN*(zz1+...+zzN) = P

Правильно?

Написано более трёх лет назад
Думай Головой @thinkbrain2 Автор вопроса
Суть ведь в том, что количество true/false главного события (происшествия) мне известно и есть некий массив событий, в которых это зафиксировано. Нужно найти не вероятность, а просто написать алгоритм обработки массива, который бы вытаскивал оттуда все элементы в которых INCIDENT->true составлял к примеру больше 50 из 100 элементов по каждой конкретной выборке событий (множеству событий) и скомпоновал комбинации событий в один массив (то есть тут задача больше о пересечении множеств).

То есть напирмер, у нас есть такие записи:

[ 100 записей такого характера: { "A": "a", "B": "a", "trueIncident": 50 }, 100 других: { "A": "a", "trueIncident": 33 }, и 100 таких: { "A": "a", "B": "a", "C": { "event name": "a", "param1": 123, "param3": 321 }, "trueIncident": 60 }, ]

И нам нужно найти такие элементы массива, в которых trueIncident был бы больше или равен 50. Казалось бы простейшая операция, на js это пишется так:
newArray = array.map( item=> (item.trueIncident >= 50 ) )

Но тут есть один нюанс: нужно как-то скомпоновать все сопутствующие этому новому массиву события в другой, отдельный массив так, чтобы все элементы были уникальны и было видно, при каких конкретно событиях мы имеем trueIncident > 50. Самих событий очень много, некоторые являются составными и собрать такой массив вручную/циклами не представляется возможным и вопрос как раз об этом.
Написано более трёх лет назад
xmoonlight @xmoonlight

Думай Головой,
Самих событий очень много, некоторые являются составными и собрать такой массив вручную/циклами не представляется возможным
Какие аргументированные доказательства этому есть?

Написано более трёх лет назад
Думай Головой @thinkbrain2 Автор вопроса

xmoonlight,
Пока формулировал основной вопрос и ответы к вашему, в итоге понял, насколько всё проще чем я думал. Тут достаточно сделать сравнение всех записей как объектов (у нас это объекты), готовая функция для этого есть на том же js, и на основе совпадающих объектов создать новый массив с этими объектами, получим то, что я как раз и искал - список (списки) событий для любой заданной вероятности.

Написано более трёх лет назад
xmoonlight @xmoonlight

Думай Головой, Я всегда говорил, что поиск верного решения всегда находится в абсолютном понимании условий и целей задачи.

Написано более трёх лет назад

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

Алгоритмы

Простой
Как устроен вывод в задаче?
- 1 подписчик
- 10 часов назад
- 80 просмотров
1

ответ
Алгоритмы

Простой
Какую формулу использовать?
- 1 подписчик
- вчера
- 101 просмотр
3

ответа
C++

+1 ещё

Простой
Рекурсивный ввод-вывод последовательности без использования массивов и списоков?
- 2 подписчика
- вчера
- 428 просмотров
1

ответ
Алгоритмы

Средний
Справится ли алгоритм с задачей по поиск слов в словаре?
- 1 подписчик
- 17 апр.
- 73 просмотра
1

ответ
Алгоритмы

Простой
Как определить сложность алгоритма?
- 1 подписчик
- 16 апр.
- 102 просмотра
3

ответа
Linux

+1 ещё

Простой
Инструмент для сохранения всех вариантов сочетаний по заданной маске?
- 2 подписчика
- 12 апр.
- 150 просмотров
2

ответа
Алгоритмы

+2 ещё

Простой
Какая может быть формула для решения этой задачи?
- 3 подписчика
- 11 апр.
- 5419 просмотров
3

ответа
Алгоритмы

+1 ещё

Простой
Как узнать, входит ли игрок1 (x,y,z) в поле игрок2 (x,y,z)?
- 1 подписчик
- 08 апр.
- 190 просмотров
3

ответа
C++

+1 ещё

Простой
Как решить данную задачу при помощи префиксного дерева?
- 2 подписчика
- 05 апр.
- 200 просмотров
1

ответ
Алгоритмы

+1 ещё

Средний
Есть ли современная реализации алгоритма триангуляции невыпуклого многоугольника с отверстиями?
- 1 подписчик
- 29 мар.
- 109 просмотров
0

ответов
Показать ещё Загружается…

С developer (алгоритмист)

СберТех • Москва

от 350 000 ₽

Бэкенд программист

Grade Factor • Москва

от 80 000 ₽

С++ developer

TQB - хай-тек рекрутмент по-хардкору • Москва

от 300 000 ₽

Дописать функцию на Flutter, работа с yandex map kit

20 апр. 2024, в 04:18

3000 руб./за проект

Английская версия для сайта на WordPress

20 апр. 2024, в 03:34

8000 руб./за проект

Доработать клиентское приложение для GTA 5 на C#

20 апр. 2024, в 00:51

1000 руб./за проект

Боже, как сложно!..

Может, лучше свести вашу проблему к паре абзацев, чем грузить таким количеством информации? Если вы это сделаете, то есть разобьете задачу на подзадачи, то вам же будет проще найти решение каждой из маленьких задач.
dollar, большая часть вопроса это описание и пример. Суть сводится к: среди множества событий найти такие, при которых зависимое от них событие наступает с наибольшей вероятностью. Какой алгоритм здесь нужен или что почитать по поводу таких задач?
Нужно понять, как вычислять вероятность зависимого события. Это зависит от того, как события связаны. Например, если выпадет решка, то я кидаю игральную кость, чтобы выпало 6. Очевидно, что здесь нужно перемножить вероятности 0.5 * 1/6 и получится шанс итогового события.
много букв. можно в 3 предложения?
dollar, странная штука. Есть события a и b, которые по отдельности дают вероятность третьему (главному) событию 0.7 и 0.8 соответственно. Если их перемножить (то есть если два события наступают сразу), то вероятность главного события значительно уменьшается (0.7*0.8 = 0.56).
Это был пример. Вычисления зависят от того, как события связаны. Перемножать нужно, если третье событие наступает, при условии, если одновременно происходят события a и b. А если они не связаны совсем, то и перемножать не корректно.
dollar, наверное я не правильно сформулировал вопрос.
События a и b - это события-факты, они не имеют собственной вероятности.
Но, событие P (обозначим главное событие) зависит от этих фактов.
Как уже сказано выше:
P(a) = 0.7
P(b) = 0.8
То есть, вероятность главного события нам известна, нам дано множество фактов и нужно найти те их комбинации, при которых P самое большое. То есть например:
P(?, ?, ?, ?) > 0.5
где знаки вопроса - это и есть искомая комбинация тех самых фактов из базы данных.
До конца не ясно, как связаны P(a) и P(b).
Если никак, то вероятности как бы складываются. То есть событие P наступает, когда хотя бы одно из событий a или b послужило причиной.
P = P(a) + P(b) - P(a)*P(b)
Очевидно, что в таком случае максимальная вероятность наступления события P будет при срабатывании всех факторов.
То есть P(a,b,c, ........, z) = max. Где a-z - это все имеющиеся факторы.
Алгоритм примерно такой будет
P = 0 for k in [a-z] { P = P + (1-P)*P(k) //k - очередной фактор. P(k) - вероятность }
dollar, мы уже близко и эта формула сложения вероятностей отлично подходит под задачу, так как имеет место именно накопление вероятностей с подключением новых событий.

Но есть нюанс: событий очень, очень много и если заданная вероятность будет найдена для n событий из общего числа m, то получается, что остальные (m-n) не будут учитываться, то есть мы их как бы игнорируем. Например: требуется найти все события, при которых P > 50, мы в цикле проходим по порядку, начиная с события P(a) и на событии P(a....d) сумма вероятностей начинает превышать 50%, задача вроде выполнена, но нет. Нужно как-то учесть остальные события e...z. Запускать новый цикл с P(e) и снова искать сумму вероятности с нуля? Нет, совсем не то, так как в нашем множестве событий возможны такие ситуации:
P(a, c, k, y, z) > 50
P(a, b, e, m, s, u, v) > 50
P(e, f, j, h, i, j, k) < 50
и тому подобное
То есть, в рамках поставленной задачи нужно учесть все возможные события и их комбинации. Выходит, что нужно как-то скомпоновать формулу сложения вероятностей с комбинаторикой.
dollar,
проще говоря, дано
P(x) = y
где x ∈ a...z
y ∈ 0...1

Найти множество A комбинаций среди a...z для которых
P(A) > 0.5
Сначала строите множество всех пар и их вероятностей. То есть (a,b) (b,c) (a,c) (a,d) и т.д. Если среди них будут решения - в вашу копилочку. Эти решения можно исключить, или делайте с ними, что хотите. Если, к примеру, P(b,c) > 0.5, то при добавлении любого фактора тоже будет > 0.5. В общем, исключаем.
Из оставшихся двоек делаете тройки. Нужно лишь прибавить вероятность третьего фактора.
Из троек - четверки и т.д.
Каждый раз не нужно пересчитывать сумму вероятностей всей цепочки. Достаточно прибавить вероятность нового фактора к предыдущей цепочке.

Чтобы не было повторений, достаточно "смотреть вперёд". То есть для (b,c) третьим фактором нельзя брать (a), потому что он сзади. Тройка (a,b,c) должна быть учтена при рассмотрении (a,b) - у нее впереди как раз (c). Соответственно, для (a,c) нельзя брать (b), - только (d) и выше.

Answer 1 · 2018-10-25 20:53:36

Полиномные цепочки связанных событий.
Для объекта A (поля-события: a1-aN, параметры составных событий: aa1-zzN), суммарная вероятность (для true - отдельно, для false - отдельно):

a1*(aa1+...+aaN)+a2*(bb1+...+bbN)+...+aN*(zz1+...+zzN)

и так - для каждого объекта (по два выражения на объект).

Но лучше - использовать нейросеть.

Какой алгоритм использовать для поиска лучшей вероятности среди множества событий?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт