Что посоветуете для сравнения двух предложений по смыслу?

Question

Astrohas @Astrohas

Python/Django Developer

Что посоветуете для сравнения двух предложений по смыслу?

Здравствуете, уважаемы тостерчане! В одном проекте специализирующем на тестах, требуется семантическое и смысловое сравнение двух коротких (2-5 слов) предложений. Что можете посоветовать?
Пока что думаю над канонизацией и анализом через pymorphy2 а потом на основе базы синонимов унифицировать в один формат а потом сравнить.
Хотелось бы узнать ваш опыт по этому направлению.

Вопрос задан более трёх лет назад
1603 просмотра

6 комментариев

Подписаться 3 Оценить 6 комментариев

Решения вопроса 2

2 комментария

Комментировать

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

Нейронные сети

Простой
Какие нейросети имеют доступ к страницам сайте в интернете?
- 1 подписчик
- 3 часа назад
- 27 просмотров
1

ответ
Аудио

+2 ещё

Простой
Какой программой можно сделать из текста рэп?
- 1 подписчик
- 4 часа назад
- 128 просмотров
1

ответ
Python

+2 ещё

Простой
Как получить список приглосительных ссылок в телеграм канале?
- 1 подписчик
- 5 часов назад
- 24 просмотра
0

ответов
Python

+4 ещё

Простой
Aiogram, ERROR Yellow code, aiogram.types.web_app_info not imported?
- 1 подписчик
- 7 часов назад
- 51 просмотр
1

ответ
Python

+1 ещё

Простой
Бот не реагирует на заданные команды?
- 1 подписчик
- 9 часов назад
- 39 просмотров
0

ответов
Python

Простой
Сохраняется ли куда-то скриншот в Pyautogui?
- 1 подписчик
- 10 часов назад
- 29 просмотров
1

ответ
Python

Простой
Пишу Todolist появилась ошибка, как исправить?
- 1 подписчик
- 19 часов назад
- 47 просмотров
1

ответ
Python

+1 ещё

Простой
Как решить проблему с терминалом PyCharm?
- 1 подписчик
- 20 часов назад
- 48 просмотров
1

ответ
Python

+2 ещё

Средний
Как пофиксить ошибку с сертификатом при работе с selenium?
- 1 подписчик
- 21 час назад
- 22 просмотра
0

ответов
Python

+2 ещё

Средний
Возможно ли сделать так, чтобы Telegram GPT-Yandex.Cloud Бот отвечал не только на текстовые сообщения, но и на картинки? И если да, то как?
- 1 подписчик
- 21 час назад
- 55 просмотров
2

ответа
Показать ещё Загружается…

Team Lead (С++, Python)

TopAssistant • Москва

от 400 000 ₽

Python developer

Bell Integrator

До 350 000 ₽

Python developer

Greenway Global • Новосибирск

от 150 000 ₽

Разработать чат-бота telegram для миникурса

20 апр. 2024, в 18:09

70000 руб./за проект

Настроить доступ к Netflix

20 апр. 2024, в 18:04

3000 руб./за проект

Помочь настроить GeoIp у nginx для docker nginx:alpine

20 апр. 2024, в 17:55

3000 руб./за проект

Смотря какого качества сравнение нужно. Для надежного что-то типа облачного IBM Watson IMHO
Astrohas, а откуда взять базу синонимов? (не поделитесь линком?)
Astrohas, Нормально, так! Спасибо большое!
xmoonlight, на всякий случай - https://nlpub.ru/YARN/%D0%A4%D0%BE%D1%80%D0%BC%D0%... документация к Xml формату.

Answer 1 · 2017-09-08 17:58:58

Унифицирование подойдет как препроцессинг текста. Т.е, есть некоторое множество < K, V >, где K - числовое описание класса синонима ( например, различные синонимы в один класс ), V - тензор синонимов, где по 0-й оси отложены вектора со словами, содержащие кодированные ( Unicode, так понимаю в данном случае ) слова. Стоит обратная задача нахождения по V соответствующего K, почти как словарь, но наоборот. Предложение трансформируется в последовательность K_i, после чего эта унифицированная, как вы правильно сказали, анализируется. Перед анализом унифицированный вектор надо отобразить в пространство фиксированной размерностью, чтобы все предложения были как бы одинаковой длины. Можно просто дописать нули, например, чтобы вектор стал с 5 компонентами ( максимальная длина предложения )

Тут два варианта. 1-й более эффективный и сложный, 2-й более простой
1) LSTM-сети. Почему LSTM? Потому что данный вид RNN сетей наиболее подходит для анализа последовательностей.
По выходу определяете смысловой класс. Т.е, имеем RNN с 5 входами, и выходами, равными количеству смысловых классов, дающее k-мерный вектор распределения вероятностей по классам. argmax(output) будет наш класс. Типичная задача мультиклассовой классификации, но при помощи RNN сетей. Если с рнн не разберетесь, можно обычную MLP-сеть, но выход будет хреновеньким, т.к это последовательность завязанная на предыдущих состояниях элемента. У нас не бывает предложений вроде "привет нет да пока эх машина".

Нужно предобучение на огромной базе размеченной вручную. Т.е, такой вектор - такой класс.

2) Можно пойти по простому пути, без нейронных сетей использовать норму разницы между двумя векторами. Требуемым, и введенным, чем меньше норма - тем более близкое по смыслу предложение. Ведь числовая последовательность предложения является вектором в n-мерном пространстве. В нашем случае после нормализации в 5-мерном пространстве. А норма - это обобщение расстояния на большие размерности, т.е при разницы векторов предложений мы получаем третий вектор, чья длина - расстояние между векторами. Можно использовать различные метрики. Какая больше нравится. Я бы предпочел метрику минковского c p = 2.

Предобучение не требуется, никаких сложностей тоже. Просто школьная арифметика. Но и предложения, например:

"Сегодня я пошел в школу снова" и "Завтра я поеду в командировку опять" могут показаться одинаковыми по смыслу. О чем и говорил Максим Чернятевич, имея ввиду, что с базой синонимов можно сделать только самый простой анализ, т.к после нормализации по синонимам в один вектор, скорее будут полностью равны.

Answer 2 · 2019-07-20 00:12:02

xmoonlight @xmoonlight

https://sitecoder.blogspot.com

Вот такой вариант.
RNNTagger
UD_Russian_SynTagRus

Ответ написан более трёх лет назад

Комментировать

Что посоветуете для сравнения двух предложений по смыслу?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт