Не работает simple_html_dom, а именно поиск тегов. В чем проблема?

Question

dani1a @dani1a

Не работает simple_html_dom, а именно поиск тегов. В чем проблема?

Есть тестовый код

require_once ('simple_html_dom.php');
$html=file_get_html('http://ya.ru'); 
$ret = $html->find('.content a');
echo $ret[0]->href;

Но ничего не возвращает да и вообще $ret возвращается пустым массивом. Если в методе find указать $html->find('a'); будет все тоже самое. Если пытаться парсить не страницу, а просто хтмл текст передать в переменную, тогда класс находи только первую ссылку, и все. А с страницами вообще работать не хочет. При этом в $html передается обьект, функция file_get_contents используемая в классе на сервере работает. Подскажите в чем может быть еще проблема?

Вопрос задан более трёх лет назад
5491 просмотр

Комментировать

Подписаться 2 Оценить Комментировать

Решения вопроса 1

2 комментария

Пригласить эксперта

Ответы на вопрос 1

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

JavaScript

+3 ещё

Простой
Как стилизовать пагинацию постов по определённому признаку?
- 1 подписчик
- 4 часа назад
- 36 просмотров
1

ответ
PHP

+1 ещё

Простой
Парсинг XML yandex?
- 1 подписчик
- 11 часов назад
- 75 просмотров
0

ответов
PHP

Простой
Заполнить не существующими датами из бд в графике apexcharts?
- 1 подписчик
- 12 часов назад
- 54 просмотра
2

ответа
PHP

+1 ещё

Средний
Почему одинаково-написанный curl запрос отдает разные ответы?
- 1 подписчик
- 22 часа назад
- 130 просмотров
0

ответов
PHP

Простой
Вывожу куки в корзине, куда записал товар, не выводит, в чем ошибка?
- 1 подписчик
- вчера
- 77 просмотров
0

ответов
PHP

Простой
Функция str_replace() не работает?
- 1 подписчик
- вчера
- 174 просмотра
3

ответа
Python

+1 ещё

Простой
Выбор: парсить на питоне с aiohttp, asyncio, bs4 или requests + bs4?
- 1 подписчик
- вчера
- 132 просмотра
2

ответа
PHP

+1 ещё

Простой
Как получить данные title на TradingView?
- 1 подписчик
- вчера
- 30 просмотров
1

ответ
PHP

+2 ещё

Сложный
Интеграция Telegram с CRM системой. Что посоветуете?
- 1 подписчик
- вчера
- 135 просмотров
1

ответ
JavaScript

+3 ещё

Простой
Как принять данные от JQuery.ajax на сервере php?
- 1 подписчик
- вчера
- 95 просмотров
1

ответ
Показать ещё Загружается…

PHP разработчик

Ведисофт • Екатеринбург

от 25 000 ₽

PHP-разработчик

M-Social Production • Брянск

от 70 000 ₽

PHP Developer

YCLIENTS • Москва

от 200 000 до 350 000 ₽

Спарсить ссылки на все товары конкретного продавца в озон

18 апр. 2024, в 20:13

2000 руб./за проект

Устранить проблемы с парсерами и отображением новостей

18 апр. 2024, в 20:08

7000 руб./за проект

Установить Windows и терминалы RDP на Dedicated Server (без лицензии)

18 апр. 2024, в 20:07

2000 руб./за проект

Answer 1 · 2014-10-13 09:36:02

Ваш вариант почему-то только все что в <head></head> выдает. Какой бы сайт не подставлял

Вопрос решился, simple_html_dom требует mbstring.func_overload 0

Answer 2 · 2014-10-13 08:46:13

Для начала попробуйте вставить проверку в скрипт на доступность страницы добавить функцию

function get_http_response_code($url) {
    $headers = get_headers($url);
    sleep(2);
    return substr($headers[0], 9, 3);
}

file_get_html переделать следующим образом

function file_get_html($url, $use_include_path = false, $context = null, $offset = -1, $maxLen = -1, $lowercase = true, $forceTagsClosed = true, $target_charset = DEFAULT_TARGET_CHARSET, $stripRN = true, $defaultBRText = DEFAULT_BR_TEXT, $defaultSpanText = DEFAULT_SPAN_TEXT) {
    // We DO force the tags to be terminated.
    $dom = new SimpleHtmlDom(null, $lowercase, $forceTagsClosed, $target_charset, $stripRN, $defaultBRText, $defaultSpanText);
    // For sourceforge users: uncomment the next line and comment the retreive_url_contents line 2 lines down if it is not already done.
    $errorsCode = ['404', '301', '302', '502'];
    $responce = get_http_response_code($url);
    if (!in_array($responce, $errorsCode)) {
        $contents = file_get_contents($url, $use_include_path, $context, $offset);
    } else {
        return false;
    }
    
    // Paperg - use our own mechanism for getting the contents as we want to control the timeout.
    //$contents = retrieve_url_contents($url);
    if (empty($contents) || strlen($contents) > MAX_FILE_SIZE) {
        return false;
    }
    // The second parameter can force the selectors to all be lowercase.
    $dom->load($contents, $lowercase, $stripRN);
    return $dom;
}

И для начало просто проверить получает ли скрипт страницу

require_once ('simple_html_dom.php');
$html=file_get_html('http://ya.ru'); 
echo $html

Не работает simple_html_dom, а именно поиск тегов. В чем проблема?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт