Как создать базу всех книг на сайте?

Создаю проект по ведению читаемых и прочитанных книг. (Да, я знаю, таких сайтов десятки. Оставим это вне обсуждения).

Требуется создать базу огромного количества книг, на разных языках, если не всех книг, то хотя бы самых популярных.
Какая информация нужна: название, автор, обложка книги, категория, число страниц и прочая мета-информация.

Ряд вытекающих подвопросов. Рад ответам на любые из них.
1. Откуда парсить? Ozon, Amazon, что-то еще?
2. Какой метод парсинга избрать? Если имеет значение.
3. Как поддерживать единую категоризацию при парсинге с разных ресурсов.
4. Откуда можно заиметь рейтинги и отзывы на книги? Очень бы тоже пригодилось.
5. И самый главный вопрос. Как поддерживать актуальность базы? Еженедельно выходит сотни новых книг. Как это все подгружать?
  • Вопрос задан
  • 1451 просмотр
Решения вопроса 1
Maksclub
@Maksclub
maksfedorov.ru
чтобы и формат и новинки и отзывы —грузите с интернет-магазинов
https://www.labirint.ru/books/
https://book24.ru у них есть партнерка с XML выгрузкой
Ozon отдает по АПИ,
https://eksmo.ru/ (крупнейший издатель и правообладатель)
Яндекс.Маркет (с ним намучиться только придется)

с этих магазинов вычлените общие закономерности в параметрах книг
нужно будет делать под крупных игроков разные парсеры,

для категорий нужно иметь свой словарь, где у каждой категории будут ассоциации
помимо категорий еще возможны проблемы с авторами:
  • А.Пушкин,
  • Александр Пушкин
  • Пушкин, Александр
  • Пушкин, А.С

тут могут помочь сервисы типа https://dadata.ru/api/#clean

для унификации книг есть ISBN
Ответ написан
Пригласить эксперта
Ответы на вопрос 2
@Bytan7213
Отличный конспект лекций профессора МАИ Лукина В.Н
www.studmed.ru/lukin-vn-bazy-dannyh-konspekt-lekci...
Ответ написан
Есть ещё пиратские сайты, как lib.rus.ec и flibusta, где могут находиться книги, которых не будет на перечисленных выше сайтах. На торрент трекерах есть архивы книг с lib.rus.ec и flibusta. Возможно тоже пригодится, если не контентом, то, хотя бы, идеей катологизации.

P.S. Число страниц довольно абстрактное понятие. Оно зависит от размера материала/экрана на котором отображается книга.
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы