Задать вопрос

AgentFSB @AgentFSB

машинное-обучение

Кластеризация смс сообщения и получение переменной части каждого кластера. Какие есть пути решения?

Имеется выборка смс сообщений. Задача составить для этих сообщений регулярные выражения. Тексты могут быть абсолютно на разные темы и какой-то определенной закономерности нету. Я разбил задачу на две.

Первая - это кластеризация.
Вторая - генерация регулярного выражения для каждого кластера.

Для кластеризации использую свой алгоритм основанный на алгоритме Оливера для сравнения похожести строк. Пробовал алгоритм db scan, но столкнулся с проблемой подбора epsilon и minPts. Для одних текстов слишком маленькое для других большое, что-то среднее найти не получилось. Например, есть тексты

"Raymond Adamson your are arrived. Phone - 12341234."
"Raymond Adamson your are arrived. Phone - 12341234."
"Peter Parker your are arrived. Phone - 12121212."

Они должны попасть в один кластер и на выходе должно быть что-то типо "{var} your are arrived. Phone - {var}."

или

assigned green Ford Escape A1234BC, +16507599755.
assigned red NISSAN V555QW, +16507512321.

Они тоже должны попасть в один кластер. И получим "assigned {var}".

Проблема в правильной кластеризации совершено разных и текстов. Кто-нибудь сталкивался с подобным?
Может есть готовые решения для задач такого рода или библиотеки

Вопрос задан более трёх лет назад
94 просмотра

Комментировать

Подписаться 1 Средний Комментировать

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

IT-образование

+3 ещё

Простой
Какая есть литература полезная и понятная по Data Science на русском?
- 3 подписчика
- 17 апр.
- 965 просмотров
1

ответ
Машинное обучение

+2 ещё

Простой
Создание нейронной сети для определения сортов яблок. Как осуществить?
- 1 подписчик
- 11 апр.
- 84 просмотра
0

ответов
Машинное обучение

+1 ещё

Средний
Как работает адаптивный бустинг для регрессии?
- 1 подписчик
- 05 апр.
- 24 просмотра
0

ответов
Машинное обучение

+1 ещё

Средний
Чем отличается стекинг от блендинга?
- 1 подписчик
- 02 апр.
- 48 просмотров
1

ответ
Машинное обучение

+2 ещё

Простой
Что технически(какие it решения, технологический стек) нужны для создания ии ,который сможет на основе жалоб ставить диагноз?
- 1 подписчик
- 21 мар.
- 113 просмотров
3

ответа
Машинное обучение

Средний
Какой метод машинного обучения применить и как?
- 1 подписчик
- 19 мар.
- 58 просмотров
1

ответ
Машинное обучение

Средний
Как исправить переобучение сверточной нейронной сети(keras)?
- 1 подписчик
- 18 мар.
- 47 просмотров
0

ответов
Машинное обучение

+2 ещё

Простой
Как выбрать своё направление из двух совершенно разных?
- 1 подписчик
- 16 мар.
- 97 просмотров
2

ответа
Машинное обучение

+1 ещё

Сложный
Как реализовать обучение нейросети в реальном времени?
- 2 подписчика
- 11 мар.
- 161 просмотр
2

ответа
Машинное обучение

Простой
Почему loss не уменьшается?
- 1 подписчик
- 03 мар.
- 46 просмотров
1

ответ
Показать ещё Загружается…

Data Scientist (Финтех)

Intelinvest

от 60 000 ₽

Senior ML Engineer (Computer Vision)

Gradient

от 450 000 ₽

Python/Django-разработчик (mobile+AI)

4Taps AI • Тольятти

от 150 000 до 250 000 ₽

Доработать клиентское приложение для GTA 5 на C#

20 апр. 2024, в 00:51

1000 руб./за проект

Верстка и логика формы выбора билетов в зале для покупки

20 апр. 2024, в 00:43

10000 руб./за проект

Разработать формирование УПД на Java

20 апр. 2024, в 00:28

20000 руб./за проект