Почему не работает xpath?

Question

Микола @iSensetivity

бухгалтер, програміст-самоук

Почему не работает xpath?

Хочу спарсить таблицу, код

$fileByUrl = 'http://w1.c1.rada.gov.ua/pls/z7503/a002';
$referer = 'http://rada.gov.ua/';

	$ch=curl_init();
	curl_setopt($ch, CURLOPT_HEADER, 0);
    curl_setopt($ch, CURLOPT_REFERER, $referer);
    curl_setopt($ch, CURLOPT_USERAGENT, "Opera/9.80 (Windows NT 5.1; U; ru) Presto/2.9.168 Version/11.51");
	curl_setopt($ch, CURLOPT_URL, $fileByUrl);
	curl_setopt($ch, CURLOPT_TIMEOUT, 10);
    curl_setopt($ch, CURLOPT_COOKIEJAR, 'cookie.txt');
	curl_setopt($ch, CURLOPT_COOKIEFILE,  'cookie.txt');
    curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
    curl_setopt($ch, CURLOPT_FOLLOWLOCATION, 1);
    curl_setopt($ch, CURLOPT_ENCODING,'gzip');
	$str = curl_exec($ch);
	$info = curl_getinfo($ch);
	curl_close($ch);

$code = $info['http_code'];
	if($code == 200){
		$doc = new DOMDocument;
		$doc->load($str);
		
		$xpath = new DomXPath($doc);
		$res = $xpath->query('//*[@id="content-all"]/div[2]/div/table/tbody/tr[3]');
		foreach($res as $obj) {
			echo $obj->nodeValue;
        }

echo не вьіводит ничего.

Вопрос задан более трёх лет назад
4258 просмотров

Комментировать

Подписаться 4 Оценить Комментировать

Решения вопроса 2

2 комментария

3 комментария

nowm @nowm

@Lafafm а я про cURL ничего и не писал. Переменную $str можно и с помощью file_get_contents() заполнить. Я просто ориентировался на то, что в $str содержится HTML. Вполне можно вообще делать «loadHTMLFile($url)» —никакого cURL и никакого file_get_contents. А кодировку можно во время инициализации DomDocument указывать.

Написано более трёх лет назад
Владислав Радзимовский @Lafafm

@Xu4 Да я и удалил вопрос сразу, так как удосужился перечитать..)
Вот правда до сих пор не могу добраться до использования DOM в php
Все в регулярках..

Написано более трёх лет назад
nowm @nowm

@Lafafm мне кажется, кому как удобнее, тот так и делает. Регулярки — хорошо, XPath — тоже хорошо. Тут нет проблемы. :)

Написано более трёх лет назад

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

Python

+2 ещё

Средний
Как пофиксить ошибку с сертификатом при работе с selenium?
- 1 подписчик
- 2 часа назад
- 11 просмотров
0

ответов
WordPress

+1 ещё

Средний
Парсинг сайта на wordpress?
- 1 подписчик
- 8 часов назад
- 56 просмотров
2

ответа
Парсинг

+1 ещё

Средний
Как правильно написать функцию IMPORTJSON для парсинга цен криптовалют в гугл таблицу?
- 1 подписчик
- 12 часов назад
- 12 просмотров
0

ответов
PHP

+1 ещё

Простой
Почему клиент телеграма отсылает битый запрос?
- 1 подписчик
- вчера
- 100 просмотров
0

ответов
PHP

+2 ещё

Простой
Как в Drupal 10 массово проставить noindex для >1000 страниц?
- 1 подписчик
- вчера
- 42 просмотра
1

ответ
PHP

+1 ещё

Простой
Парсинг XML yandex?
- 1 подписчик
- вчера
- 94 просмотра
0

ответов
PHP

Простой
Заполнить не существующими датами из бд в графике apexcharts?
- 1 подписчик
- вчера
- 57 просмотров
2

ответа
PHP

+1 ещё

Средний
Почему одинаково-написанный curl запрос отдает разные ответы?
- 1 подписчик
- 17 апр.
- 135 просмотров
0

ответов
PHP

Простой
Вывожу куки в корзине, куда записал товар, не выводит, в чем ошибка?
- 1 подписчик
- 17 апр.
- 84 просмотра
0

ответов
PHP

Простой
Функция str_replace() не работает?
- 1 подписчик
- 17 апр.
- 187 просмотров
3

ответа
Показать ещё Загружается…

PHP разработчик

Ведисофт • Екатеринбург

от 25 000 ₽

PHP-разработчик

M-Social Production • Брянск

от 70 000 ₽

PHP Developer

YCLIENTS • Москва

от 200 000 до 350 000 ₽

[python,go] Залить ВИДЕО в тикток

19 апр. 2024, в 23:00

5000 руб./за проект

Разработка VST-плагина

19 апр. 2024, в 20:43

20000 руб./за проект

Нарисовать баннер для интернет-магазина

19 апр. 2024, в 20:35

500 руб./в час

Answer 1 · 2014-06-11 20:01:32

Лично я не знаю как правильно, но почему бы не использовать file_get_contents, и после получения страницы с помощью простого регулярного выражения взять таблицу?

Вот решение:

$html = file_get_contents("http://w1.c1.rada.gov.ua/pls/z7503/a002");
preg_match('#<table  class="striped Centered" WIDTH="100%" cellspacing=0 cellpadding=3>(.+?)</table>#is', $html, $arr);
echo $arr[0];

Answer 2 · 2014-06-11 20:49:46

В первую очередь — из-за этого:

$doc->load($str);

«load» — это для загрузки файлов и в качестве параметра ей нужно давать путь к файлу. Если вы хотите загрузить строку, нужно использовать функцию «loadHTML».

Дальше у вас появится куча предупреждений. Если появится сообщение про то, что непонятки с кодировкой появились, от него можно избавиться, если поправить строку с loadHTML:

$doc->loadHTML(mb_convert_encoding($str, 'HTML-ENTITIES', 'UTF-8'));

Кроме строки про кодировку будет ещё куча предупреждений, вроде:

Warning: DOMDocument::loadHTML(): Opening and ending tag mismatch: li and div in Entity
Warning: DOMDocument::loadHTML(): htmlParseEntityRef: expecting ';' in Entity
Warning: DOMDocument::loadHTML(): Opening and ending tag mismatch: td and b in Entity

Чтобы эти уведомления не засоряли эфир, можно добавить символ «@» при вызове «loadHTML»:

@$doc->loadHTML($str);

Дальше, чтобы удостовериться, что те узлы, которые вы пытаетесь искать, всё-таки существуют, можно вывести список вообще всех узлов, вот так:

$res = $xpath->query('.//*');
foreach($res as $obj) {
	echo $obj->getNodePath() . "\n\r";
}

Из листинга будет видно, что упоминание связки «table/tbody/tr» некорректно. «TBODY» там нет. Такой XPath-запрос сработает нормально в FirePath из Firefox, например. И работает он из-за того, что Firefox самостоятельно достраивает DOM документа до идеального по его мнению состояния — например, добавляет «TBODY», где его нет, закрывает незакрытые теги и так далее.

В ситуации с DomDocument и DomXPath лучше смотреть чистый исходный код страницы и строить запросы именно по исходному коду, а не по сгенерированному браузером DOM.

В вашей ситуации нужно из запроса просто убрать «tbody». Получится такой запрос:

//*[@id="content-all"]/div[2]/div/table/tr[3]

Как я вижу, решение уже появилось, но, вообще, такой подход, который я описал, поможет искать ошибки в подобных ситуациях.

Почему не работает xpath?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт