PHP Парсер. Как сделать функцию для извлечения текста по заданной ссылке?

Question

Рома Козуб'як @RomaKozubiak

PHP Парсер. Как сделать функцию для извлечения текста по заданной ссылке?

Я делаю парсер на PHP который должен копировать все публикации с сайта и отображать эту информацию на моем сайте (это не кража контента, с владельцем сайта я договорился)!

Я уже написал код который копирует список публикаций на главной странице (заголовок, фото и короткий текст), теперь мне нужно парсить содержимое каждой публикации, для этого я начал парсить ссылки на все публикации (на главной странице сайта). Сейчас мне нужно написать функцию которая будет парсить содержимое каждой публикации по этим ссылками. Покажите пожалуйста на примере как парсить текст который находится внутри каждой ссылки!

Вопрос задан более трёх лет назад
1706 просмотров

1 комментарий

Подписаться 1 Оценить 1 комментарий

Пригласить эксперта

Ответы на вопрос 2

1 комментарий

Рома Козуб'як @RomaKozubiak Автор вопроса

Спасибо за ответ.
Вот мой код, который парсит заголовки и ссылки на публикации.

<?php
header('Content-type: text/html; charset=utf-8');
require 'phpQuery.php';
 
function print_arr($arr){
	echo '<pre>' . print_r($arr, true) . '</pre>';
}
 
$url = 'http://lifemomentt.blogspot.com/';
$file = file_get_contents($url);
 
$doc = phpQuery::newDocument($file);
 
foreach($doc->find('.blog-posts .post-outer .post') as $article){
    $article = pq($article);
    $text = $article->find('.entry-title a')->html(); //парсинг заголовков на все публикации
    print_arr($text);
    
    $texturl = $article->find('.entry-title a')->attr('href'); //парсинг ссылок на все публикации
    echo $texturl;
}
?>

Подскажите мне пожалуйста как мне парсить за ссылками содержание каждой публикации!
У меня мало опыта, никак не могу решить эту проблему!

Написано более трёх лет назад

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

Python

+1 ещё

Простой
Как получить имена параметров, которые будут переданы при нажатии на кнопку «зарегистрироваться»?
- 1 подписчик
- 44 минуты назад
- 16 просмотров
1

ответ
Веб-разработка

+1 ещё

Простой
Какие есть аналоги Figma (для визуальной разработки дизайна)?
- 1 подписчик
- 4 часа назад
- 57 просмотров
1

ответ
PHP

+1 ещё

Простой
Как составить запрос для поиска в бд mysql?
- 1 подписчик
- 5 часов назад
- 40 просмотров
0

ответов
PHP

+3 ещё

Простой
Как исправить file_get_contents(): SSL operation failed на Open Server Panel?
- 1 подписчик
- 6 часов назад
- 33 просмотра
1

ответ
PHP

+2 ещё

Простой
Как правильно прописать query для поиска файла по имени в Google Drive API на PHP?
- 1 подписчик
- 7 часов назад
- 27 просмотров
1

ответ
Веб-разработка

Простой
Адаптация видео и фото под планшеты и телефоны, какой вариант лучше использовать?
- 1 подписчик
- 8 часов назад
- 41 просмотр
1

ответ
Веб-разработка

Простой
Что должен знать full-stack разработчик?
- 1 подписчик
- 8 часов назад
- 80 просмотров
0

ответов
Веб-разработка

Простой
Есть последствия редиректа с https на http и обратно?
- 1 подписчик
- 11 часов назад
- 72 просмотра
3

ответа
PHP

Простой
Как лучше взять данные из большого файла по ключу не перебирая строки?
- 1 подписчик
- 11 часов назад
- 71 просмотр
3

ответа
Парсинг

Средний
Как автоматически скачивать файл с сайта регулярно?
- 1 подписчик
- 12 часов назад
- 43 просмотра
2

ответа
Показать ещё Загружается…

PHP Developer

YCLIENTS • Москва

от 200 000 до 350 000 ₽

PHP разработчик

Ведисофт • Екатеринбург

от 25 000 ₽

Midlle PHP developer (backend)

ИТЦ Аусферр • Магнитогорск

от 100 000 до 160 000 ₽

Необходимо сверстать приложение согласно макету Figma используя React

26 апр. 2024, в 22:22

1500 руб./за проект

Написать модуль подключения матрицы Sony к ПЛИС (Verilog)

26 апр. 2024, в 21:30

15000 руб./за проект

8266 f12 требуется сделать ревью и оптимизировать работу

26 апр. 2024, в 20:42

2000 руб./за проект

Если нужен текст внутри тэга "а" - парсим так же ка и остальные элементы, если же имелся в виду текст на странице куда эта ссылка ведёт - нужно для начала эту страницу загрузить.

Answer 1 · 2017-06-07 16:21:12

Есть хорошая библиотека simple_html_dom почитай документацию много по ней иноформации.
Пример моего кода:

$html = new simple_html_dom();
            $html->load_file($_GET['go']);
            $name = $html->find('h2');
            $description = $html->find('div');    
            $video = $html->find('iframe[width=770]'); 
            $video = $text = preg_replace('/.*\/embed\/(.+)/i', 'https://www.youtube.com/watch?v=$1', $video[0]->src) ;
            $description = replace($description[$_GET['id']]->xmltext) ;
            $description = preg_replace('/<!.*>.*/is', '', $description) ;
            $spoilers = $html->find('div.uSpoilerText') ;
            $spoiler = '' ;
            foreach($spoilers AS $k => $post){
                $text = replace($post->xmltext) ;
                preg_match_all("/<!--usn\(\=(.*)\)-->/i", $text, $title);
                $text = preg_replace('/<!--ust-->/i', '', $text) ;
                $text = preg_replace('/<!--usn\(\=(.*)\)-->/i', '', $text) ;
                $text = preg_replace('/<!--\/ust-->/i', '[/spoiler]', $text) ;
                    //echo $k . ' -> ' . $post->xmltext . '<hr /><br />' ;
                $spoiler .= '[spoiler title="' . $title[1][0] . '"]' . $text . "\n\n" ;
            }
            
            $description = '[b]Название:[/b] [u]' . $name[0]->plaintext . '[/u] скачать торрент' . $description . $spoiler . $video ;
            //$file->meta_description = $title . ' скачать с торрента бесплатно в хорошем качестве' ; 
            //$file->runame = $name[0]->plaintext ;
            $file->description = $description ;
        }
        $groups = groups::load_ini(); // загружаем массив групп

        $form = new form(new url);
        $form->text('name', __('Название файла') . ' *', isset($name[0]->plaintext) ? $name[0]->plaintext : $file->runame);
        $form->text('link_name', __('Доступен по адресу'), $file->name);
        $form->textarea('description', __('Описание'), $file->description);
        $form->textarea('description_small', __('Краткое описание'), $file->description_small);

На $form внимания не обращай.
Пример страницы которую парсю https://manytorrents.pro/load/films/boeviki/chudo_...
Скриптом давно не пользовался поэтому этот конкретный пример может не работать к данной странице

Answer 2 · 2017-06-07 16:22:49

Ну, все супер.
Сначала получаешь список ссылок чего хочешь спарсить.
Загоняешь это дело в массив. И потом в массиве проходишь по каждой ссылке и парсишь что тебе нужно.

PHP Парсер. Как сделать функцию для извлечения текста по заданной ссылке?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт