@best_santa

Как скопировать полезный контент из html?

Уже весь мозг сломал.
Перерыл GitHub, Хабру, Гугл...
Но внятного адекватного решения так и не нашёл.

Суть задачи:
Необходимо вытащить из html страницы полезный контент с форматированием.

Для чего это всё надо?
Всё это нужно для одной простой (казалось бы) задачи, - альтернативное хранение страницы (типо закладки). Очень часто сохраняю что-то в закладках. Очень часто потом эти закладки становятся бесполезными, - то сервер не доступен, то картинки и аттачи умерли на free CDN, то вообще сайта такого больше нет.

Теряю процентов 20-30 закладок с полезной инфой...

Языки программирования:
Очень желательно php.
Так же возможно AS3 (flash), JS...
Плагин для FF был бы очень удобен.
Принципиальных требований к языку нет, если можно портировать на php or js or flash.

Какая инфа найдена:
В основном описывают "решения" тупыми регулярками. Такой подход невозможен, так как он не универсален, был бы мне нужен парсер, даже и не стал задавать бы вопрос.

Так же есть PEAR Text_Diff для php, теоретически он подходит, практически же нужно переписывать и перестраивать под задачу.

Ещё есть теоретические измышления, которые мне не понравились. Во первых теоретические, никаких исходников, во вторых теория провалится, если статья напичкана форматированием.

Примечание 1:
Однажды мне встречался плагин для FF, который очень легко справлялся с задачей, но никак не могу его найти и даже приблизительно не помню названия. Давно встречал. При включенном плагине, любая страница в сети открывалась в едином стиле и на станице был только заголовок и отформатированный текст. Безо всякой ерунды, типо меню, баннеров, шапок, подвалов и прочего барахла.
Найти этот плагин было бы идеальным решением задачи!

Примечание 2:
Еще встречался плагин для FF, который по клику копировал выделенное с форматированием в Вордпресс (судя по описанию). Этот плагин я не ставил, понятия не имею как он работает, но есть предположение, что его можно использовать для моей задачи, если не найду более адекватного и быстрого решения. Тоже не помню как называется и в репозитории FF его точно нет.

Примечание 3:
Поисковики как-то обрабатывают и выделяют полезный текст. Как конкретно знать не могу. Предполагаю что делается это достаточно сложно с кучей формул и натаскиванием нейросети... Если это не так сложно, как мне кажется, буду благодарен за информацию.

Примечание 4:
Ещё один способ: копирование выделенного в браузере, затем вставка из буфера в ОпенОфис и последующее сохранение в HTML. Получается чистый красивый документ с форматированием, остается только вставить свои стили. Но это отнимает много времени. Вот по этому я вспомнил флеш, - он позволяет работать с буфером...

Заранее благодарю всех ответивших.
  • Вопрос задан
  • 2515 просмотров
Решения вопроса 1
Ranwise
@Ranwise
посмотрите evernote, там есть плагин к браузеру
Ответ написан
Пригласить эксперта
Ответы на вопрос 2
blasheevich
@blasheevich
FF плагин ScrahBook, маркер, возможность удаления выделенного.
Ответ написан
@itech523
Использую к старому Firefox аддон Unmht (вручную выделяю то, что сохранить), сохраняется в 1 единственн файл с расширением .mht. Есть Андроид-приложения для чтения файла .mht . Аддон Web Editable Switch для вырезки-вставки контента(вырезки рекламы) в файл .mht. Удобно вставлять нужное с пом этих аддонов при создании пдф на https://www.printfriendly.com/. Старый Firefox, т.к. не перевели аддоны на новый Rust.
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы