@ArtDraco

Как сделать выборку (аналитику) текста по часто встречающимся в нем фразам или отсечение через запятую?

Есть текст с составами товаров (круассаны, чипсы, печенье, торты, паштеты, консервы, шампуни, мыло и т.д.) текст по специфике порой достаточно однотипный. В большинстве случаев попадаются целые фразы. Задача состоит в анализе документа (на данный момент Word) и выводе информации по однотипным фразам или фразам с небольшим отличием.

Примеры составов
Картофельные хлопья (содержат глютен), растительное масло, картофельный крахмал, ароматизатор (соль, натуральные вкусоароматические вещества (луковый порошок, чесночный порошок, петрушка, порошок сметаны), порошок молочной сыворотки, сахар, усилитель вкуса и аромата (глутамат натрия 1-замещенный), агент желирующий (хлорид калия), регуляторы кислотности (ацетат натрия, лимонная кислота), ароматические вещества, пшеничная мука), рисовая мука, эмульгаторы (моно- и диглицериды жирных кислот, соевый лецитин). Продукт может содержать незначительное количество ракообразных, порошка рыбы, горчицы.

Картофель, растительное масло, ароматизатор (сухая молочная сыворотка, соль, сахар, усилители вкуса и аромата (глутамат натрия 1-замещенный, 5'-гуанилат натрия 2-замещенный, 5'-инозинат натрия 2-замещенный), вкусоароматические вещества, порошок томата, сухое обезжиренное молоко, специи, термический технологический ароматизатор, красители (экстракт паприки, сахарный колер IІІ)). Продукт может содержать незначительное количество глютена, сои, порошков рыбы, морепродуктов, ракообразных, горчицы.

Обезвоженный картофель, растительные масла (подсолнечное, кукурузное), рисовая мука, пшеничный крахмал, мука кукурузная, приправа со вкусом паприки (сахар, порошок паприки, усилители вкуса и аромата (глутамат натрия 1-замещенный, 5'-инозинат натрия 2-замещенный, 5'-гуанилат натрия 2-замещенный), дрожжевой порошок, декстроза, луковый порошок, гранулированный растительный бульон, чесночный порошок, краситель (экстракт паприки), регулятор кислотности (лимонная кислота), экстракт паприки чили), эмульгатор (E471), мальтодекстрин, соль, краситель (аннато). Продукт содержит пшеницу.

Картофель, масло подсолнечное, соль поваренная пищевая, сухая молочная сыворотка, картофельный крахмал, лактоза, порошок сыра пармезан (молоко пастеризованное, соль поваренная пищевая, сычужно-говяжий молокосвертывающий ферментный препарат), натуральный ароматизатор, мальтодекстрин картофельный, мальтодекстрин кукурузный, дрожжевой экстракт. Продукт содержит молоко. Продукт может содержать следы сельдерея.

Итог должен быть примерно такой:
сухая молочная сыворотка - 10
молочная сыворотка - 15
5'-гуанилат натрия 2-замещенный - 10
усилитель вкуса и аромата - 7
усилители вкуса и аромата - 10

Каким образом можно реализовать?
Если нет такого умного способа для аналитики, то хотя бы с отсечением после комы и игнорированием закрывающих скоб или другого знака.
Пример: лактоза, порошок сыра пармезан (перечень из чего состоит порошок), натуральный ароматизатор
вырезаем в результат: порошок сыра пармезан (перечень из чего состоит порошок).
  • Вопрос задан
  • 31 просмотр
Пригласить эксперта
Ответы на вопрос 1
dimonchik2013
@dimonchik2013
non progredi est regredi
умный способ есть - sphinxsearch, но вы должны понимать, что делаете

ну или в корпусную лингвистику
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы