Обработка естественного языка на коленке, как научится выдергивать из текста город, улицу, район?

Доброго дня.

Буду признателен, если подскажите как на коленке можно написать скрипт, который будет выдергивать из текста объявления информацию о расположении - город, район, улица, проспект, деревня, метро.

Regex не очень эффективен, потому что есть тексты, где не употребляются слова "город {NAME}" или "г. {NAME}".
  • Вопрос задан
  • 224 просмотра
Пригласить эксперта
Ответы на вопрос 2
DanilBaibak
@DanilBaibak
Machine Learning engineer
Ваша задача называется Named-entity recognition. Существует ряд библиотек, которые решают эту задачу (spacy, NLTK). Большинство решений приведены для английского языка. Но, я думаю, есть примеры и для русского.
Ответ написан
Комментировать
@BorisKorobkov
Web developer
Проще воспользоваться уже готовыми сервисами типа https://dadata.ru/

Если же хотите именно сами все сделать, то надо составить базу всех городов, их синонимов, сокращений (Санкт-Петербург, Питер, СПб и т.д.) и перебирать. Потом добавить неточный поиск и исправление ошибок.
Можно как "на коленке", а можно "по уму" (раз уж поставлен тег "нейросети").
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы