Практические применения систем анализа текстов на естественном языке

Какое могло бы быть применение у системы анализа текстов на естественном языке, которая бы могла выполнять полный семантический анализ почти любых текстов? Интересует практическое применение подобных систем (типа вот этого), т.к. в большинстве статей и книг упоминаются такие применения: «анализ информации на предмет целевых критериев» или «выделение ключевой информации» — надо признать подобная «вода» не дает никакого представления о возможном применении.
Возможно, у кого-то в своих проектах возникают потребности в таких системах – про эти «потребности» хотелось бы услышать (в деталях).
  • Вопрос задан
  • 6132 просмотра
Пригласить эксперта
Ответы на вопрос 8
Antelle
@Antelle
Достижимые цели у этой задачи сейчас такие:
* автокаталог (поток новостей распихивать по темам)
* автореферат (из текста выбрать — или составить — то, что его вкратце опишет, и при поиске показать)
Недостижимая на сегодня цель — выделить сущности, устранить синтаксическую и семантическую неоднозначность, сохранить связи и отношения в базе знаний (пример: из текста этой статьи узнать о новой единице измерения и уметь переводить её в литры). То есть понять смысл текста так, как его понимает человек.
Если про своё про практическое, то я участвовал недолго в этом проекте. Применял его (ох...) для авто-реврайта текстов с учётом контекста (чтоб в тексте про машины заменяла бы слово «oil» на «petroleum», но никак не на «flattery»).
Ответ написан
@Rome
Чтобы узнать какой кандидат победит на выборах, достаточно подсчитать сколько раз его фамилия встречается в прессе. Проще говоря, сколько раз людям промыли мозги. Можно также узнать о разработке нового оружия, если о ключевых компонентах системы стали в прессе больше обсуждать или наоборот тема неожиданно исчезла из прессы. В последнем случае так произошло при разработке ядерной бомбы у американцев.
Если обращать внимание на конструкцию текста, то можно построить шаблоны. Если текст специально коверкается, то с чем это связано? Просто молодежь развлекается или что-то пытаются скрыть? Имея достаточно мощные сервера можно добиться очень качественный анализ текста по шаблонам.
Исходя из всего, вы должны понять почему пишется «вода» и никакой конкретики.
Ответ написан
Комментировать
becks
@becks
Я сейчас работаю над похожей системой (ссылку на которую привел автор). Определяются некоторые категории сущностей (ФИО, названия организаций, марки машин, номера телефонов и куча всего прочего) для них пишутся правила (как их выделять в тексте). По выделенным сущностям строится семантическая сеть. Для выделения отношений между сущностями тоже пишутся правила. Ну и собственно полученная сеть (или граф) красиво визуализируется, если нужно укладывается в базу. К сожалению более подробно я рассказывать не могу, но область применения очень широкая. Особенно хороший результат получается, если есть огромная кипа довольно похожих документов, различного рода оперативных справок (правил выделения писать для них меньше).
Если как-нибудь время найду и начальство не будет сильно против, обязательно напишу тут статью, думаю народу будет интересно.
Ответ написан
Комментировать
@Fahrenheit
Sentiment analysis для больших объемов текстов (социальные медиа в мировом масштабе). Чем лучше внутренний анализатор текстов — тем точнее отчеты. Сейчас работаю именно в этой области.
Ответ написан
Комментировать
alex4
@alex4
интернет-предприниматель
Мы думаем про что-то такое для своего проекта — человек пишет в поиск, де, «трёхкомнатная вилла на Майорке в конце августа» — и ему хоп, показывает результаты поиска с точно заданными параметрами.
Ответ написан
slpdmn
@slpdmn
Это совершенно не вода. Перевожу:
«анализ информации на предмет целевых критериев»
означает анализ рекламных объявлений типа куплю<->продам нахождение соответствий и выдача полученного списка. Актуальнейшая задача.

«выделение ключевой информации»
означает анализ текстов на предмет упоминания заданной информации в заданном контексте. Грубый пример «взорвать посольство». На практике коммерческие применения интересуют значительно больше, это целевая реклама в первую очередь и семантический поиск в еще более первую. И да, авторефераты, но это потом, потому что до того, компьютер уже научится говорить.
Ответ написан
@gleb_kudr
Очень насущная задача много для чего — это автоматическая классификация. Например, из длинного пространного описания гаечных ключей понять, что они бывают такие и такие, ключ номер 1 такой, а ключ номер три — другой.
Ответ написан
Комментировать
ganqqwerty
@ganqqwerty
вот мы делаем системы для создания технологических форсайтов (это что-то среднее между планами и прогнозами). Люди собирают т.н. сигналы — события, которые могут быть важными для отрасли, и на основе нескольких сигналов у них должны появляться идеи трендов. Сигналов много, поэтому хочется показывать пользователю небольшие группы сигналов, которые связаны между собой или как-либо похожи. Тут бы очень пригодился классификатор.
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы