@bychok300

Как организовать атоматический парсинг?

У меня есть веб приложение написанное на Java, которое парсит html. Но парсит оно только 1 сайт за заход, как мне сделать так, что бы я просто брал список урлов, теги которые будут парситься джал окончания работ?
Как я понимаю, по большому счету, можно просто сделать коллекцию с урлами и итерироваться по этой коллекции каждый раз открывая урл и выпаршивая что надо
  • Вопрос задан
  • 587 просмотров
Пригласить эксперта
Ответы на вопрос 1
@protven
Не изобретайте велосипедов, используйте стандартные фреймворки для парсинга, так называемые краулеры.
Вот например - https://github.com/yasserg/crawler4j или вот https://github.com/DigitalPebble/storm-crawler

Если уж хочется самому - то имплементируйте классом, который занимается парсингом, интерфейс Runnable, создайте ExcecutorService и парсите параллельно, в столько потоков, сколько нужно.
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы