Какие есть паттерны или алгоритмы для обработки текста?

Question

Котик Антон @27cm

TODO: Написать статус

Какие есть паттерны или алгоритмы для обработки текста?

Собираюсь написать библиотеку, которая будет выполнять большое число различных преобразований с HTML текстом:
1. Преобразовывать кодировку текста в UTF-8, нормализовывать Unicode;
2. Оборачивать все ссылки в HTML теги <a>...</a> (если ссылка ещё не в тегах);
3. Расставлять пропущенные не закрытые HTML теги;
4. Расставлять неразрывные пробелы после предлогов;
5. Заменять дефисы на тире там, где это необходимо;
6. Удалять запрещенные HTML теги;
7. Заменять некоторых комбинаций символов на изображения (для смайликов);
...и сотни других преобразований.

Как видно, некоторое преобразования осуществляются на уровне всего текста, другие на уровне отдельных HTML тегов, третьи — на уровне отдельных символов. Для некоторых правил важен порядок их применения: одни правила должны выполняться раньше других.

На выходе должна получиться некая смесь типографа и известного многим HTML Purifier. Код должно быть легко расширять (добавлять собственные преобразования) сторонними плагинами.

Самое простое решение — каждое преобразование выполнять отдельно в нужном порядке: в каких-то случаях найти нужные символы в тексте и заменить их (пример из типографа Муравьева), в каких-то случаях использовать регулярные выражения (пример). То есть каждое правило берет и тем или иным образом обрабатывает весь текст целиком. С одной стороны такой код легко понять, легко поддерживать, но тяжело расширять и при большом числе преобразований работает всё очень медленно. А самое ужасное, что при таком подходе внесение изменений в одно преобразование может повлиять на другие и приходится разбивать преобразование на разные стадии.

Как можно архитектурно правильно построить такую библиотеку? Может быть, есть какие-то паттерны для этого?

Вопрос задан более трёх лет назад
1638 просмотров

4 комментария

Подписаться 15 Средний 4 комментария

sim3x @sim3x

С 0?

Потому что https://en.wikipedia.org/wiki/Libxml2 уже таким занимается

А санитайзинг - сложная сфера и больше пересекается с безопасностью и атаками на фронтенд

Написано более трёх лет назад
Котик Антон @27cm Автор вопроса

sim3x, Да, с нуля. Хочу все правила реализовать сам, чтобы легко можно было вносить правки на любой стадии и в любое преобразование. И в итоге получить комбайн, который один раз настроил, скормил ему сырой текст и получил конфетку. А с помощью плагинов этот комбайн можно будет использовать в самых разных проектах и для самых разных результатов.

Написано более трёх лет назад
Dima Polos @dimovich85

Честно, не знаю что посоветовать, так как не задавался этим вопросом, но буквально вчера посмотрел запись web standart days в Москве, который был в субботу, там был доклад про парсинг css, и в общих чертах докладчик говорил о том, какие алгоритмы есть, какие он использовал, давал ссылки на репозитории и так далее, думаю Вам будет что-то полезно из его слов узнать, как минимум интересно. Вот ссылка: https://youtu.be/kDmQcueD4Jk
Начало его речи на 1 час 57 минуте.
PS Мне он чем-то внешне на Вас похож, случайно не Ваш доклад?
27cm)

Написано более трёх лет назад
Котик Антон @27cm Автор вопроса

Dima Polos, нет, это был не я. За ссылку спасибо.

Написано более трёх лет назад

Пригласить эксперта

Ответы на вопрос 4

9 комментариев

xmoonlight @xmoonlight

D3lphi,
Лексический анализатор разбивает поток входящих лексем на токены.
А можно пояснить на конкретном примере чистого текста...?

Написано более трёх лет назад
D3lphi @D3lphi

xmoonlight, что вам конкретно не понятно? Книгу дракона прочтите, там подробно разбирается процесс токенизации, как один из этапов построения компилятора. Этот же подход можно использовать и при написании лексического анализатора любого языка с контекстно-свободной грамматики, коим и является html.

Пример:

<span class="example">some text</span>

Как вариант, можно разбить на следующие токены:

TAG_BEGIN
TAG_ATTRS_BEGIN
ATTR_NAME
ATTR_VALUE_STRING
TAG_ATTRS_END
TAG_CONTENT
TEXT
TAG_END_CONTENT
TAG_END

Написано более трёх лет назад
Stalker_RED @Stalker_RED

Пример реализации такого восстановления кривого html можно посмотреть в исходниках движков браузеров. И да, это все довольно сложно.

Написано более трёх лет назад
xmoonlight @xmoonlight

D3lphi, чукча у нас писатель?)))
на конкретном примере чистого текста...
без тегов!

Вот цитата 27cm:
То есть может быть огромный текст совсем без HTML тегов, и к нему нужно применить ещё сотни преобразований.

Написано более трёх лет назад
Котик Антон @27cm Автор вопроса

xmoonlight, я так понял, текст также можно разбить на лексемы до нужного уровня. Например текст "слово example.com." можно превратить в лексемы: WORD, SPACE, URL, DOT. А при необходимости и ссылку разделить на составляющие.

Написано более трёх лет назад
D3lphi @D3lphi

xmoonlight, для работы с чистым (если предполагается нормализовать слова) текстом, предполагаю, без сторонних решений не обойтись. Можно использовать анализаторы, на подобии тех, что использует easticsearch. Для каждого языка свой. В остальном же, смотрите, что написал 27cm.

Написано более трёх лет назад
Котик Антон @27cm Автор вопроса

D3lphi, под преобразованиями над текстом имелась ввиду не нормализация текста, а типографские преобразования:
mdash.ru/rules.html

Написано более трёх лет назад
xmoonlight @xmoonlight

27cm, тогда всё, что у меня в ответе - чётко подходит под требования.
А про
Например текст "слово example.com." можно превратить в лексемы: WORD, SPACE, URL, DOT. А при необходимости и ссылку разделить на составляющие.
Абсолютно с этим согласен, т.к. по-другому - не получится контролировать структуру одной ноды.

Написано более трёх лет назад
xmoonlight @xmoonlight

D3lphi, 27cm, заодно, к сторонним решениям: кто-нить знает решение:
1. Для проверки правописания
2. Для проверки пунктуации
3. Для выделения сущностей из текста
Желательно на PHP и только stand-alone, не сервис!

Написано более трёх лет назад

1 комментарий

4 комментария

Котик Антон @27cm Автор вопроса

Это отлично подходит, если бы задача была только про расстановку тегов, но нужно не только теги расставлять, но и например преобразовывать отдельные символы (например расставить правильные вложенные кавычки в тексте). То есть может быть огромный текст совсем без HTML тегов, и к нему нужно применить ещё сотни преобразований.

Написано более трёх лет назад
xmoonlight @xmoonlight

27cm, обычная замена через preg_replace() при рекурсивном обходе DOM-"дерева". После изменения очередной ноды делаем те же пункты (п.1-п.4), но уже только для текущей ноды, т.е. рекурсивно следим за всеми правилами.

Написано более трёх лет назад
Котик Антон @27cm Автор вопроса

xmoonlight, Я не прошу готовый код. К тому же бывают вложенные кавычки, кавычки 3-его уровня, знак дюйма и ещё масса нетривиальных случаев. Там регуляркой будет крайне тяжело выкрутиться. Но мысль я понял, и какие с таким подходом есть проблемы написал в вопросе.

Написано более трёх лет назад
xmoonlight @xmoonlight

27cm, не вижу тут проблем.
но и например преобразовывать отдельные символы (например расставить правильные вложенные кавычки в тексте). То есть может быть огромный текст совсем без HTML тегов, и к нему нужно применить ещё сотни преобразований.
всегда делаем сначала манипуляции со структурами верхнего уровня, постепенно спускаясь к структурам нижнего уровня: разметка, текст, слово (то, что разделено одним или более пробелами), символ.

Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

HTML

Простой
Почему не подключается спрайт SVG?
- 1 подписчик
- 4 часа назад
- 39 просмотров
0

ответов
Алгоритмы

Простой
Как определить сложность алгоритма?
- 1 подписчик
- 14 часов назад
- 80 просмотров
2

ответа
JavaScript

+2 ещё

Простой
Как исправить прыгающий контент у сайта?
- 2 подписчика
- 18 часов назад
- 133 просмотра
1

ответ
HTML

+1 ещё

Средний
Как сделать чтобы было по 2 блока на строке, а не сразу все 4?
- 2 подписчика
- 23 часа назад
- 63 просмотра
1

ответ
PHP

+2 ещё

Простой
Как подружить html с json?
- 1 подписчик
- 14 апр.
- 151 просмотр
1

ответ
JavaScript

+4 ещё

Средний
Как сделать эффект закруглений как на фото?
- 4 подписчика
- 14 апр.
- 2289 просмотров
2

ответа
HTML

+1 ещё

Простой
Как сделать border opacity при background-color?
- 1 подписчик
- 13 апр.
- 61 просмотр
1

ответ
HTML

+1 ещё

Простой
Почему при изменении transform scale моргает цвет другого текста, который к нему даже не относится?
- 1 подписчик
- 13 апр.
- 39 просмотров
0

ответов
HTML

Простой
Почему автоматически добавляется закрывающий тег?
- 1 подписчик
- 12 апр.
- 62 просмотра
2

ответа
HTML

Простой
Как сделать ссылку для перехода на определенное имя в html-таблице?
- 2 подписчика
- 12 апр.
- 107 просмотров
3

ответа
Показать ещё Загружается…

Frontend-разработчик (React)

ДАЛЕЕ

от 130 000 ₽

Тестировщик-стажёр

ITooLabs • Тула

от 35 000 до 40 000 ₽

Fullstack PHP Developer

Smapse Education

от 40 000 до 65 000 ₽

Разработать графическую часть плагина для SonarQube

16 апр. 2024, в 14:51

1500 руб./за проект

Доработка сайта MODX

16 апр. 2024, в 14:23

7000 руб./за проект

Изменить данные в инструкции

16 апр. 2024, в 14:20

500 руб./за проект

С 0?

Потому что https://en.wikipedia.org/wiki/Libxml2 уже таким занимается

А санитайзинг - сложная сфера и больше пересекается с безопасностью и атаками на фронтенд
sim3x, Да, с нуля. Хочу все правила реализовать сам, чтобы легко можно было вносить правки на любой стадии и в любое преобразование. И в итоге получить комбайн, который один раз настроил, скормил ему сырой текст и получил конфетку. А с помощью плагинов этот комбайн можно будет использовать в самых разных проектах и для самых разных результатов.
Честно, не знаю что посоветовать, так как не задавался этим вопросом, но буквально вчера посмотрел запись web standart days в Москве, который был в субботу, там был доклад про парсинг css, и в общих чертах докладчик говорил о том, какие алгоритмы есть, какие он использовал, давал ссылки на репозитории и так далее, думаю Вам будет что-то полезно из его слов узнать, как минимум интересно. Вот ссылка: https://youtu.be/kDmQcueD4Jk
Начало его речи на 1 час 57 минуте.
PS Мне он чем-то внешне на Вас похож, случайно не Ваш доклад?
27cm)
Dima Polos, нет, это был не я. За ссылку спасибо.

Answer 1 · 2018-02-05 00:04:50

Предложу вот такой порядок действий:

Лексический анализатор разбивает поток входящих лексем на токены.
Далее, набор токенов подается на вход парсеру, который выполняет построение "сырого" DOM-дерева, в котором могут присутствовать невалидные теги и тд.
Производится обход сырого DOM-дерева и его нормализация. Изменяем имена тегов на максимально приближенные к ним валидные имена, проставляем пропущенные теги, удаляем запрещенные и т.д.
По нормализованному дереву теперь можно делать обход и преобразовывать текст.
Преобразовываем готовое дерево в html-документ.

Answer 2 · 2018-02-05 09:07:47

Судя по тому чему вы хотите научится я бы советовал изучить ANTLR. Это очень качественный генератор лексеров и парсеров, правда он на java, но это не проблема.
Там уже есть готовая грамматика для html . Если она не устраивает, то можно сделать свою.
По этой грамматике он строит дерево и для обхода дерева можно быстро написать visitor или что то попроще. Также там нетрудно написать обработку ошибок(отсутствие закрывающего тега и т.п.) .

Answer 3 · 2019-04-13 06:30:55

RuWeb @RuWeb

Вот уже готовый онлайн сервис TextTools.ru

Ответ написан более трёх лет назад

1 комментарий

Answer 4 · 2018-02-04 23:42:55

1. Вначале нужно "собрать" корректное/валидное DOM-дерево.
2. Затем, добавить все нужные теги
3. Удалить все запрещённые теги
4. Затем, рекурсивно обойти все ветки DOM-"дерева", выполнив текстовые преобразования.

Порядок в общем виде (строго соблюдая последовательность действий!):
Валидация структуры, добавление нужных элементов, удаление запрещённых элементов, модификация "тела" оставшихся элементов.

Какие есть паттерны или алгоритмы для обработки текста?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт