Задать вопрос

ivodopyanov @ivodopyanov

NLP, python, numpy, tensorflow

data-mining

Data mining

Есть ли алгоритмы для автоматического выделения похожих числовых значений в наборе текстов?

В текстах могут часто встречаются всякие числовые значения - даты, номера телефонов, какие-нибудь уникальные номера вроде паспорта. Причем их формат вариативен - пользователь может написать дату с разделителем-точкой, может с разделителем-запятой или слэшем. В случае телефона вариативность написания еще больше. А тот же номер паспорт может состоять из одного слова; из двух; дополнительно включать в себя слова "серия" и "номер" или только символ "№". Пользователь может где-то поставить лишний пробел, а где-то наоборот пропустить.

Есть ли какие-нибудь алгоритмы для автоматической кластеризации подобных значений?
Сам пока пытаюсь что-нибудь придумать с n-граммами и word2vec, предварительно заменив все цифры на одну. Но хорошего результата не получается.

Вопрос задан более трёх лет назад
119 просмотров

Комментировать

Подписаться 2 Простой Комментировать

Пригласить эксперта

Ответы на вопрос 1

sgjurano

Владимир Олохтонов @sgjurano

Разработчик

Вообще звучит как задача для регулярных выражений, не следует пихать нейронные сети везде.

Ответ написан более трёх лет назад

2 комментария

2 комментария

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

Data mining

+1 ещё

Средний
Система управления майниг — ЦОДом, такое вообще существует?
- 2 подписчика
- более года назад
- 142 просмотра
2

ответа
API

+3 ещё

Простой
Каким образом сервисы аналитики типа MPStats получают данные о продажах с Wildberries, Ozon, итд?
- 1 подписчик
- более года назад
- 333 просмотра
1

ответ
Математика

+2 ещё

Средний
Как найти неизвестные параметры функции, зная ее значения?
- 1 подписчик
- более двух лет назад
- 336 просмотров
2

ответа
Парсинг

+1 ещё

Средний
Как проверить наличие ключевого слова на сайте из списка?
- 2 подписчика
- более двух лет назад
- 57 просмотров
1

ответ
Жёсткие диски

+1 ещё

Простой
Как подключиться к chives pool?
- 1 подписчик
- более двух лет назад
- 152 просмотра
1

ответ
Видеокарты

+2 ещё

Сложный
Какое охлаждение подойдёт на Rx590 armor, вместо штатного?
- 1 подписчик
- более двух лет назад
- 294 просмотра
2

ответа
PowerShell

+1 ещё

Простой
Копирование атрибутов файлов(даты создания, изминения) из оригинала в копию?
- 1 подписчик
- более трёх лет назад
- 297 просмотров
2

ответа
Data mining

+1 ещё

Сложный
Тонкие клиенты настройка?
- 1 подписчик
- более трёх лет назад
- 86 просмотров
1

ответ
Алгоритмы

+2 ещё

Простой
Какой фильтр надо использовать для графика XYZ?
- 1 подписчик
- более трёх лет назад
- 94 просмотра
2

ответа
Python

+2 ещё

Простой
Как спарсить даты в формат datetime в Pandas?
- 1 подписчик
- более трёх лет назад
- 1350 просмотров
2

ответа
Показать ещё Загружается…

ПАО «Ростелеком», Филиал ОЦО

До 261 000 ₽

Senior Data Engineer

Дром

от 250 000 ₽

Data Engineer / Дата инженер

А Деньги • Москва

от 300 000 ₽

Обработать массив фотографий

19 апр. 2024, в 08:46

5000 руб./за проект

Скрыть / убрать лишние поля в форме заказа

19 апр. 2024, в 07:30

1500 руб./в час

Взлом автомобильной программы

19 апр. 2024, в 05:01

999999 руб./за проект