Какие существуют способы получения canonical url при парсинге конкретного адреса ресурса?

Некоторому "пауку" скармливается URL некоторого адреса ресурса, допустим, _http_://www.example.com/blog/2019/mega-article
Кроме всего, потенциально возможны разные варианты URL:
_https_://www.example.com/blog/2019/mega-article
_http_://m.example.com/blog/2019/mega-article

Если в заголовке присутствует rel=canonical, то все понятно: просто извлекаем тот URL и все.
А как быть если не указан rel=canonical ?
Существуют ли другие способы получения канонического URL? А если нужно все равно его получить, то как выкрутиться из положения?

Дополнение:
описание задачи

Есть одна задача, в которой API сервис должен получить url в качестве параметра, а ответом должен вернуть
ID representing the canonical URL of the given url

Загвоздка в том как получить канонический URL если rel=canonical отсутствует. Насколько я понимаю, тогда остается принимать исходный url за канонический. Так?
  • Вопрос задан
  • 103 просмотра
Решения вопроса 1
Grinvind
@Grinvind
Помогаю увеличивать трафик с поисковых систем
Не могли бы вы переформулировать вопрос или дописать, с какой целью вам это нужно?
Сейчас вопрос звучит как "как получить канонический url, если его нет в коде?"
Если на странице нет каноникла на другой урл, значит данная страница по-умолчанию каноническая.
Ответ написан
Пригласить эксперта
Ответы на вопрос 1
@Giperoglif
ну а как вы выкрутитесь, если он может быть в общем-то каким угодно, если не указан. и для чего лично вам нужен каноникал стороннего сайта? это сугубо проблемы этого сайта, а не ваши.
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы