Какие есть паттерны или алгоритмы для обработки текста?

Question

Котик Антон @27cm

TODO: Написать статус

Какие есть паттерны или алгоритмы для обработки текста?

Собираюсь написать библиотеку, которая будет выполнять большое число различных преобразований с HTML текстом:
1. Преобразовывать кодировку текста в UTF-8, нормализовывать Unicode;
2. Оборачивать все ссылки в HTML теги <a>...</a> (если ссылка ещё не в тегах);
3. Расставлять пропущенные не закрытые HTML теги;
4. Расставлять неразрывные пробелы после предлогов;
5. Заменять дефисы на тире там, где это необходимо;
6. Удалять запрещенные HTML теги;
7. Заменять некоторых комбинаций символов на изображения (для смайликов);
...и сотни других преобразований.

Как видно, некоторое преобразования осуществляются на уровне всего текста, другие на уровне отдельных HTML тегов, третьи — на уровне отдельных символов. Для некоторых правил важен порядок их применения: одни правила должны выполняться раньше других.

На выходе должна получиться некая смесь типографа и известного многим HTML Purifier. Код должно быть легко расширять (добавлять собственные преобразования) сторонними плагинами.

Самое простое решение — каждое преобразование выполнять отдельно в нужном порядке: в каких-то случаях найти нужные символы в тексте и заменить их (пример из типографа Муравьева), в каких-то случаях использовать регулярные выражения (пример). То есть каждое правило берет и тем или иным образом обрабатывает весь текст целиком. С одной стороны такой код легко понять, легко поддерживать, но тяжело расширять и при большом числе преобразований работает всё очень медленно. А самое ужасное, что при таком подходе внесение изменений в одно преобразование может повлиять на другие и приходится разбивать преобразование на разные стадии.

Как можно архитектурно правильно построить такую библиотеку? Может быть, есть какие-то паттерны для этого?

Вопрос задан более трёх лет назад
1645 просмотров

4 комментария

Подписаться 15 Средний 4 комментария

sim3x @sim3x

С 0?

Потому что https://en.wikipedia.org/wiki/Libxml2 уже таким занимается

А санитайзинг - сложная сфера и больше пересекается с безопасностью и атаками на фронтенд

Написано более трёх лет назад
Котик Антон @27cm Автор вопроса

sim3x, Да, с нуля. Хочу все правила реализовать сам, чтобы легко можно было вносить правки на любой стадии и в любое преобразование. И в итоге получить комбайн, который один раз настроил, скормил ему сырой текст и получил конфетку. А с помощью плагинов этот комбайн можно будет использовать в самых разных проектах и для самых разных результатов.

Написано более трёх лет назад
Dima Polos @dimovich85

Честно, не знаю что посоветовать, так как не задавался этим вопросом, но буквально вчера посмотрел запись web standart days в Москве, который был в субботу, там был доклад про парсинг css, и в общих чертах докладчик говорил о том, какие алгоритмы есть, какие он использовал, давал ссылки на репозитории и так далее, думаю Вам будет что-то полезно из его слов узнать, как минимум интересно. Вот ссылка: https://youtu.be/kDmQcueD4Jk
Начало его речи на 1 час 57 минуте.
PS Мне он чем-то внешне на Вас похож, случайно не Ваш доклад?
27cm)

Написано более трёх лет назад
Котик Антон @27cm Автор вопроса

Dima Polos, нет, это был не я. За ссылку спасибо.

Написано более трёх лет назад

Пригласить эксперта

Ответы на вопрос 4

9 комментариев

xmoonlight @xmoonlight

D3lphi,
Лексический анализатор разбивает поток входящих лексем на токены.
А можно пояснить на конкретном примере чистого текста...?

Написано более трёх лет назад
D3lphi @D3lphi

xmoonlight, что вам конкретно не понятно? Книгу дракона прочтите, там подробно разбирается процесс токенизации, как один из этапов построения компилятора. Этот же подход можно использовать и при написании лексического анализатора любого языка с контекстно-свободной грамматики, коим и является html.

Пример:

<span class="example">some text</span>

Как вариант, можно разбить на следующие токены:

TAG_BEGIN
TAG_ATTRS_BEGIN
ATTR_NAME
ATTR_VALUE_STRING
TAG_ATTRS_END
TAG_CONTENT
TEXT
TAG_END_CONTENT
TAG_END

Написано более трёх лет назад
Stalker_RED @Stalker_RED

Пример реализации такого восстановления кривого html можно посмотреть в исходниках движков браузеров. И да, это все довольно сложно.

Написано более трёх лет назад
xmoonlight @xmoonlight

D3lphi, чукча у нас писатель?)))
на конкретном примере чистого текста...
без тегов!

Вот цитата 27cm:
То есть может быть огромный текст совсем без HTML тегов, и к нему нужно применить ещё сотни преобразований.

Написано более трёх лет назад
Котик Антон @27cm Автор вопроса

xmoonlight, я так понял, текст также можно разбить на лексемы до нужного уровня. Например текст "слово example.com." можно превратить в лексемы: WORD, SPACE, URL, DOT. А при необходимости и ссылку разделить на составляющие.

Написано более трёх лет назад
D3lphi @D3lphi

xmoonlight, для работы с чистым (если предполагается нормализовать слова) текстом, предполагаю, без сторонних решений не обойтись. Можно использовать анализаторы, на подобии тех, что использует easticsearch. Для каждого языка свой. В остальном же, смотрите, что написал 27cm.

Написано более трёх лет назад
Котик Антон @27cm Автор вопроса

D3lphi, под преобразованиями над текстом имелась ввиду не нормализация текста, а типографские преобразования:
mdash.ru/rules.html

Написано более трёх лет назад
xmoonlight @xmoonlight

27cm, тогда всё, что у меня в ответе - чётко подходит под требования.
А про
Например текст "слово example.com." можно превратить в лексемы: WORD, SPACE, URL, DOT. А при необходимости и ссылку разделить на составляющие.
Абсолютно с этим согласен, т.к. по-другому - не получится контролировать структуру одной ноды.

Написано более трёх лет назад
xmoonlight @xmoonlight

D3lphi, 27cm, заодно, к сторонним решениям: кто-нить знает решение:
1. Для проверки правописания
2. Для проверки пунктуации
3. Для выделения сущностей из текста
Желательно на PHP и только stand-alone, не сервис!

Написано более трёх лет назад

1 комментарий

4 комментария

Котик Антон @27cm Автор вопроса

Это отлично подходит, если бы задача была только про расстановку тегов, но нужно не только теги расставлять, но и например преобразовывать отдельные символы (например расставить правильные вложенные кавычки в тексте). То есть может быть огромный текст совсем без HTML тегов, и к нему нужно применить ещё сотни преобразований.

Написано более трёх лет назад
xmoonlight @xmoonlight

27cm, обычная замена через preg_replace() при рекурсивном обходе DOM-"дерева". После изменения очередной ноды делаем те же пункты (п.1-п.4), но уже только для текущей ноды, т.е. рекурсивно следим за всеми правилами.

Написано более трёх лет назад
Котик Антон @27cm Автор вопроса

xmoonlight, Я не прошу готовый код. К тому же бывают вложенные кавычки, кавычки 3-его уровня, знак дюйма и ещё масса нетривиальных случаев. Там регуляркой будет крайне тяжело выкрутиться. Но мысль я понял, и какие с таким подходом есть проблемы написал в вопросе.

Написано более трёх лет назад
xmoonlight @xmoonlight

27cm, не вижу тут проблем.
но и например преобразовывать отдельные символы (например расставить правильные вложенные кавычки в тексте). То есть может быть огромный текст совсем без HTML тегов, и к нему нужно применить ещё сотни преобразований.
всегда делаем сначала манипуляции со структурами верхнего уровня, постепенно спускаясь к структурам нижнего уровня: разметка, текст, слово (то, что разделено одним или более пробелами), символ.

Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

JavaScript

+2 ещё

Простой
Вся секция заежает за header?
- 1 подписчик
- 4 часа назад
- 19 просмотров
0

ответов
HTML

+1 ещё

Простой
Как добавить разный фон в ::before для объектов с одинаковым стилем?
- 1 подписчик
- 10 часов назад
- 19 просмотров
0

ответов
JavaScript

+2 ещё

Средний
Возможно ли расположить или чтобы блок div мог заходить в прозрачный фон png фота?
- 1 подписчик
- 11 часов назад
- 25 просмотров
1

ответ
JavaScript

+3 ещё

Простой
Почему приходят пустые данные с формы на почту?
- 1 подписчик
- 17 часов назад
- 55 просмотров
1

ответ
Python

+1 ещё

Простой
Как показать зависимость скорости от O(nlogn)?
- 1 подписчик
- вчера
- 78 просмотров
2

ответа
HTML

Простой
Не получается поставить поисковую строку справа, что сделать чтобы исправить?
- 1 подписчик
- вчера
- 59 просмотров
0

ответов
HTML

Простой
С чем может быть связано не правильный вывод изображений?
- 1 подписчик
- вчера
- 188 просмотров
1

ответ
JavaScript

+1 ещё

Средний
Как задать img источник из svg inline?
- 1 подписчик
- вчера
- 117 просмотров
1

ответ
JavaScript

+2 ещё

Простой
Смена стилей шапки сайта при скролле к определенному блоку? Стили должны применяться при скролле до блока и отменяться за его пределами?
- 1 подписчик
- вчера
- 65 просмотров
1

ответ
JavaScript

+1 ещё

Средний
Как сделать так, чтобы клик по object передавался родителю?
- 1 подписчик
- вчера
- 100 просмотров
2

ответа
Показать ещё Загружается…

Тестировщик-стажёр

ITooLabs • Тула

от 35 000 до 40 000 ₽

Fullstack PHP Developer

Smapse Education

от 40 000 до 65 000 ₽

Trainee - IT Support

move2usajobs.com LLC • Лос-Анджелес

от 2 000 до 4 000 $

Подключить сервер к сети

27 апр. 2024, в 02:39

1500 руб./за проект

Необходимо сверстать приложение согласно макету Figma используя React

26 апр. 2024, в 22:22

1500 руб./за проект

Написать модуль подключения матрицы Sony к ПЛИС (Verilog)

26 апр. 2024, в 21:30

15000 руб./за проект

С 0?

Потому что https://en.wikipedia.org/wiki/Libxml2 уже таким занимается

А санитайзинг - сложная сфера и больше пересекается с безопасностью и атаками на фронтенд
sim3x, Да, с нуля. Хочу все правила реализовать сам, чтобы легко можно было вносить правки на любой стадии и в любое преобразование. И в итоге получить комбайн, который один раз настроил, скормил ему сырой текст и получил конфетку. А с помощью плагинов этот комбайн можно будет использовать в самых разных проектах и для самых разных результатов.
Честно, не знаю что посоветовать, так как не задавался этим вопросом, но буквально вчера посмотрел запись web standart days в Москве, который был в субботу, там был доклад про парсинг css, и в общих чертах докладчик говорил о том, какие алгоритмы есть, какие он использовал, давал ссылки на репозитории и так далее, думаю Вам будет что-то полезно из его слов узнать, как минимум интересно. Вот ссылка: https://youtu.be/kDmQcueD4Jk
Начало его речи на 1 час 57 минуте.
PS Мне он чем-то внешне на Вас похож, случайно не Ваш доклад?
27cm)
Dima Polos, нет, это был не я. За ссылку спасибо.

Answer 1 · 2018-02-05 00:04:50

Предложу вот такой порядок действий:

Лексический анализатор разбивает поток входящих лексем на токены.
Далее, набор токенов подается на вход парсеру, который выполняет построение "сырого" DOM-дерева, в котором могут присутствовать невалидные теги и тд.
Производится обход сырого DOM-дерева и его нормализация. Изменяем имена тегов на максимально приближенные к ним валидные имена, проставляем пропущенные теги, удаляем запрещенные и т.д.
По нормализованному дереву теперь можно делать обход и преобразовывать текст.
Преобразовываем готовое дерево в html-документ.

Answer 2 · 2018-02-05 09:07:47

Судя по тому чему вы хотите научится я бы советовал изучить ANTLR. Это очень качественный генератор лексеров и парсеров, правда он на java, но это не проблема.
Там уже есть готовая грамматика для html . Если она не устраивает, то можно сделать свою.
По этой грамматике он строит дерево и для обхода дерева можно быстро написать visitor или что то попроще. Также там нетрудно написать обработку ошибок(отсутствие закрывающего тега и т.п.) .

Answer 3 · 2019-04-13 06:30:55

RuWeb @RuWeb

Вот уже готовый онлайн сервис TextTools.ru

Ответ написан более трёх лет назад

1 комментарий

Answer 4 · 2018-02-04 23:42:55

1. Вначале нужно "собрать" корректное/валидное DOM-дерево.
2. Затем, добавить все нужные теги
3. Удалить все запрещённые теги
4. Затем, рекурсивно обойти все ветки DOM-"дерева", выполнив текстовые преобразования.

Порядок в общем виде (строго соблюдая последовательность действий!):
Валидация структуры, добавление нужных элементов, удаление запрещённых элементов, модификация "тела" оставшихся элементов.

Какие есть паттерны или алгоритмы для обработки текста?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт