Есть ли в python готовый алгоритм для нахождения часто встречающихся последовательностей?

Question

Дима Прядкин @Bangybug

tinker

Есть ли в python готовый алгоритм для нахождения часто встречающихся последовательностей?

Ищу алгоритм в около-Python, который по набору слов выделит наиболее часто встречающиеся части максимальной длины, либо наперёд заданной длины.

Например, вот слова (их гораздо больше): BSNREORG, BSNWA010,
На выходе хочу что-то вроде этого: BSN (встречается в 100% случаев), REORG (50%), WA010 (50%).

Вопрос задан более трёх лет назад
249 просмотров

2 комментария

Подписаться 1 Простой 2 комментария

Решения вопроса 1

1 комментарий

Дима Прядкин @Bangybug Автор вопроса

Спасибо что уделили время. Действительно я плохо поставил задачу, не нужно было вообще писать про "максимальную длину".

Я родил вот такой велосипед:

%matplotlib inline

import matplotlib
import numpy as np
import matplotlib.pyplot as plt
    
def getBigrams(word):
    bigram = ""
    bigrams= []
    for i in range ( len ( word ) ):
        bigram += word[i]
        if (len(bigram) == 2):
            bigrams.append(bigram)
            bigram = word[i]
    return bigrams

def buildBigramHistogram(words):
    bigramOccurence = {}
    for word in words:
        for bigram in getBigrams(word):
            if bigram not in bigramOccurence:
                bigramOccurence[bigram] = 0
            bigramOccurence[bigram] = bigramOccurence[bigram]+1

    for bigram in bigramOccurence:
        bigramOccurence[bigram] = bigramOccurence[bigram] / len(bigramOccurence)
    return bigramOccurence

def accumulateAverageBigramOccurenceCurve(bigramOccurence,word):
    y = []
    x = []
    k = 0
    bigrams = getBigrams(word)
    for bigram in bigrams:
        if k == 0: 
            accumulatedOccurence = bigramOccurence[bigram]
        else:
            accumulatedOccurence = (k-1)/k*accumulatedOccurence + bigramOccurence[bigram]/k;
        x.append(k)
        y.append(accumulatedOccurence)
        k = k + 1
    return { "x":x, "y":y, "bigrams":bigrams }

def findCurveSteps(y, threshold=0.001):
    ret = []
    yi = y[0]
    lastPeak = None
    length = len(y)
    for i in range(length):
        if (abs( y[i] -  yi ) > yi*threshold):
            ret.append(i) 
        yi = y[i]

    return ret


def splitWordByCurve(word, curve, threshold=0.001):
    prevStep = 0
    steps = findCurveSteps(curve["y"], threshold)
    steps.append( len(curve["y"])-1 )
    
    segments = []
    for step in steps:
        if (prevStep != step):
            segments.append([prevStep, step, ""])
            prevStep = step
    
    segments.sort(key=lambda seg: min(curve["y"][seg[0]], curve["y"][seg[1]]), reverse=True)
    
    token = []
    for i in range(len(word)):
        token.append('')
        
    for seg in segments:
        start = seg[0]
        stop = seg[1]
        
        if (stop == len(curve["y"])-1):
            stop = stop + 1
        if (token[start]):
            start = start + 1
        if (token[stop]):
            stop = stop - 1
        
        seg[2] = word[start:stop+1]
        
        for i in range(start,stop+1):
            token[i] = seg[2][i-start]
    
    segments.sort(key=lambda seg: seg[0])
    return list(map(lambda seg: seg[2], segments))


#
# Start
#

words = ["BSNREORG", "BSNWA010","ABSN"]

bigramOccurence = buildBigramHistogram(words)
    
plt.bar(list(bigramOccurence.keys()), bigramOccurence.values(), color='g')
plt.show()

# examine accumulated average character occurence rates in each word
for word in words:
    curve = accumulateAverageBigramOccurenceCurve(bigramOccurence,word)
    tokens = splitWordByCurve(word,curve,threshold=0.1)
    
    print("Word: ",word, tokens)
    plt.bar(curve["x"], curve["y"], color='b')
    plt.xticks(curve["x"], curve["bigrams"])
    plt.show()

Он возвращает такие разбиения:

BSNREORG ['BSN', 'R', 'EORG']
BSNWA010 ['BSN', 'W', 'A010']
ABSN ['A', 'BSN']

Смотрел ещё nltk.FreqDist, но там приходится жёстко задавать длину находимых последовательностей.

Написано более трёх лет назад

Пригласить эксперта

Ответы на вопрос 2

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

Python

+2 ещё

Простой
Как получить список приглосительных ссылок в телеграм канале?
- 1 подписчик
- 45 минут назад
- 1 просмотр
0

ответов
Python

Простой
Пишу Todolist появилась ошибка, как исправить?
- 1 подписчик
- 3 часа назад
- 21 просмотр
0

ответов
Python

+1 ещё

Простой
Как решить проблему с терминалом PyCharm?
- 1 подписчик
- 3 часа назад
- 19 просмотров
0

ответов
Python

+2 ещё

Средний
Как пофиксить ошибку с сертификатом при работе с selenium?
- 1 подписчик
- 5 часов назад
- 12 просмотров
0

ответов
Python

+2 ещё

Средний
Возможно ли сделать так, чтобы Telegram GPT-Yandex.Cloud Бот отвечал не только на текстовые сообщения, но и на картинки? И если да, то как?
- 1 подписчик
- 5 часов назад
- 32 просмотра
2

ответа
Python

Средний
Как выполнить авторизацию MS CHAP 2?
- 1 подписчик
- 7 часов назад
- 25 просмотров
0

ответов
Python

+1 ещё

Простой
Как вычислить количество записей?
- 1 подписчик
- 11 часов назад
- 65 просмотров
2

ответа
Python

+1 ещё

Простой
Почему при использование webdriverIE все равно открывается EDge?
- 1 подписчик
- 12 часов назад
- 14 просмотров
0

ответов
Python

Простой
Почему мой discord бот не реагирует на свои команды?
- 1 подписчик
- 13 часов назад
- 56 просмотров
0

ответов
Python

Простой
Как получить экземпляр родителя из дочернего класса?
- 1 подписчик
- вчера
- 118 просмотров
1

ответ
Показать ещё Загружается…

Team Lead (С++, Python)

TopAssistant • Москва

от 400 000 ₽

Python developer

Bell Integrator

До 350 000 ₽

Python developer

Greenway Global • Новосибирск

от 150 000 ₽

Доработать клиентское приложение для GTA 5 на C#

20 апр. 2024, в 00:51

1000 руб./за проект

Верстка и логика формы выбора билетов в зале для покупки

20 апр. 2024, в 00:43

10000 руб./за проект

Разработать формирование УПД на Java

20 апр. 2024, в 00:28

20000 руб./за проект

Что вы подразумеваете под "части"?
Например, вот слова (их гораздо больше): BSNREORG, BSNWA010,
На выходе хочу что-то вроде этого: BSN (встречается в 100% случаев), REORG (50%), WA010 (50%).

Answer 1 · 2018-02-13 10:45:29

Слово длины n содержит (n+1)*n/2 непустых подстрок, на тексте из m слов верхняя оценка - m*(n+1)*n/2 разных подстрок.
Задача PN-полная (ну то что ты написал - вообще черте-что, а не задача - что за хрень "наиболее часто встречающиеся" и как оно соотносится с "максимальной длины"?), так вот, задача решается полным перебором.
Морда не треснет?
ps вот грязненький код, который ищет максималные подстроки, встречающеся хоь в паре слов. Ужас-ужас.

from collections import defaultdict
from pprint import pprint

data = [w.strip() for w in "BSNREORG, BSNWA010".split(',')]
alphabet = set(c for w in data for c in w)

nxt = {}
for c in alphabet:
    tmp = [w for w in data if c in w]
    if len(tmp) > 1:
        nxt[c] = tmp
pprint(nxt)
while nxt:
    cur, nxt = nxt, defaultdict(set)
    for k, v in cur.items():
        for c in alphabet:
            for pattern in {k + c, c + k}:
                nxt[pattern].update(w for w in v if pattern in w)
    nxt = {k: v for k, v in nxt.items() if len(v) > 1}
pprint(dict(cur))

Answer 2 · 2018-02-13 16:51:54

думаю нужно для этого использовать библиотеку которая этого предназначена - NLTK
тут есть кучка примеров, посмотрите и подберите что Вам больше подходит

Answer 3 · 2018-02-13 11:31:36

Без перебора не обойтись, но его можно при необходимости ускорить.

Ваши оценки не совсем верны (к первой еще 1 добавить надо), но это не важно.

Мне казалось, всё-таки есть алгоритм разбиения последовательностей символов на части. Мне не обязательно чёткий алгоритм, поэтому я писал слово "вроде".

Посмотрю что удастся получить от гистограммы для последовательностей из двух букв на всём тексте.

Есть ли в python готовый алгоритм для нахождения часто встречающихся последовательностей?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт