Алгоритмы анализа строк, токенизации?

Question

OneManStartup @OneManStartup

Алгоритмы анализа строк, токенизации?

Есть такой руби проект Picky. Это поисковик, который принимает на входе только один поисковый запрос, но может разделять смысловые части. Делается это ввиде firstname:vova lastname:gagarin.

Категорий конечно может быть много, но я хочу сделать так что-бы поисковый запрос анализировался на содержание смысловых блоков без конкретных указаний. Например по ключевым словам из словаря.

И потом если есть сомнения, система бы выдавала бы ответ ввиде «вы имели ввиду фамилию или улицу?»

Искал долго, но очень много токенизаторов работает по одному слову, т.е. не разбивают строку на несколько смысловых.

Вроде как в solr можно сделать через фильтры. Но для меня вся эта тема нова, поэтому надеюсь на подсказки, куда копать.

(если есть какие-то библиотеки в помощь на руби было бы замечательно)

Вопрос задан более трёх лет назад
4263 просмотра

Комментировать

Подписаться 8 Оценить Комментировать

Пригласить эксперта

Ответы на вопрос 2

4 комментария

OneManStartup @OneManStartup Автор вопроса

Да вчера ночью начитался, да это NER. И есть несколько подходов, использовать классификатор(к примеру Наивный байесовский классификатор) или использовать регулярные выражения. Осталось только понять, что использовать лучше. И как классифицировать. Я вижу только как натаскивать классификатор по отдельным токенам и связкам токенов. Сложная конечно тема для меня, но интересная)

Написано более трёх лет назад
yourmary @yourmary

Если тема интересная, можно посмотреть для общего развития стэнфордский курс (просмотр видео вроде доступен независимо от курса). Про NER есть в четвертой неделе.

Написано более трёх лет назад
Cybersoph @Cybersoph

А что Вы понимаете под «смысловыми блоками»? И почему эти вещи, которые Вы называете то «блоками», то «частями», являются «смысловыми»? Что Вы понимаете под этим термином?

Написано более трёх лет назад
OneManStartup @OneManStartup Автор вопроса

2yourmary, уау спасибо за такую ссылку.
2Cybersoph, это просто мое косноязычие) А так я имел ввиду токены, которые можно определить как какой-либо тип данных. Т.е. как в гугле если вбить 200 pounds то он тебе скажет сколько это в килограммах.

Написано более трёх лет назад

2 комментария

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

JavaScript

+2 ещё

Средний
Как я могу сделать поиск по нескольким значениям в js используя elasticsearch?
- 1 подписчик
- 20 апр.
- 50 просмотров
1

ответ
JavaScript

+4 ещё

Простой
Что делать, если после залива приложения на VPS страница остается недоступной?
- 1 подписчик
- 15 апр.
- 96 просмотров
2

ответа
Поисковые системы

Простой
Как искать за переделённый период?
- 1 подписчик
- 11 апр.
- 44 просмотра
1

ответ
Android

+3 ещё

Простой
Нужно опенсорс приложение для Андройд для ESP32 painless mash?
- 1 подписчик
- 10 апр.
- 90 просмотров
0

ответов
Python

+1 ещё

Простой
Системы для анализа эмоций в видео и автоматической генерации текстовых реакций. Существует ли такое?
- 1 подписчик
- 10 апр.
- 98 просмотров
2

ответа
Поисковые системы

+1 ещё

Простой
Какие есть годные сайты/программы для процедур OSINT?
- 1 подписчик
- 31 мар.
- 71 просмотр
2

ответа
Программирование

+2 ещё

Простой
Альтернативы SourceTrail?
- 3 подписчика
- 28 мар.
- 232 просмотра
1

ответ
Windows

+3 ещё

Простой
Есть в Windows API для задания тега Write Combining для моей области памяти?
- нет подписчиков
- 25 мар.
- 79 просмотров
2

ответа
Программирование

Простой
Как сделать на сайте автоматическое открытие другого сайта?
- 1 подписчик
- 24 мар.
- 154 просмотра
1

ответ
Браузеры

+1 ещё

Средний
Как составить букмарклет для поиска в Yandex из Google?
- 1 подписчик
- 14 мар.
- 63 просмотра
1

ответ
Показать ещё Загружается…

Python developer

Bell Integrator

До 350 000 ₽

Разработчик программного обеспечения авионики

Котлин-Новатор • Санкт-Петербург

от 50 000 до 150 000 ₽

Ведущий разработчик программного обеспечения авионики

Котлин-Новатор

от 150 000 до 250 000 ₽

Собрать семантическое ядро + ТЗ копирайтеру для крупного сайта

23 апр. 2024, в 21:40

20000 руб./за проект

Реализовать редирект запросов в Chrome Extension Manifest v3

23 апр. 2024, в 21:14

1000 руб./за проект

Переместить сайт написанный на HTML, на python flask

23 апр. 2024, в 21:03

3000 руб./за проект

Answer 1 · 2012-05-16 18:55:17

Не уверен, что правильно понял задачу, но звучит похоже на NER — Named Entity Recognition. С помощью алгоритмов NER можно выделять из текстов имена, названия географических объектов и т.п. Но это по сути простая классификация, а не семантический анализ (т.е. никакого «анализа смысла»).

Answer 2 · 2012-05-16 21:48:04

Лучше использовать классификатор. Регулярками — только если что-то очень простое с устоявшимся паттерном (номера телефонов). По алгоритмам, лучше CRF. Наивный байес тоже подойдет. Главное, хороший корпус для тренировки.

А, да, еще можете сюда глянуть — www.freebase.com/. Гугловый проект, там народ вручную вбивает.

И да, не бросайтесь терминами «смысл». Народ, кто занимается с нлп этого не очень любит :).

Алгоритмы анализа строк, токенизации?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт