На чем можно написать простенькую программу для парсинга странички, копирования определенного фрагмента текста с сайта и вставки в файл?

Задача: Имеется страничка tourdom.tv/happy-hour/schastlivyj-chas , каждый день обновляемая. На которой повторяющиеся каждый день пункты: Цена, Дата, кол-во дней, Страна, город и т.д. Надо сделать алгоритм (скорее всего написать программу) который будет парсить указанную страничку и находить определенное значение (например "следующие два слова после слова "турпакет:", или цифру перед словом "дней"), копировать это значение и вставлять в указанное место (текстовый фаил).

Пример: на первой страничке турпакет про Грецию должен в текстовом виде принять такое вид:
Греция, о.Закинф
Заезд 04.05.2014
8 дней
25 500 руб. с чел.
(~ 567 €)
Перелет: а/к Astra Airlines
Отель: Mabely Grand Hotel 5*
Номер: DBL, стандарт
Питание: полупансион (НB)


Далее это я все, пока тоже вручную, экспортирую в photoshop (но это второстепенная пока задача)

На каком языке это можно несложно реализовать? Учитывая что ни один не изучал, но время есть, вроде программа не кажется такой уж сложной. Сейчас это все делается вручную и занимает определённое время. Я человек с техническим складом ума верю что это можно оптимизировать.
Я предполагаю что программа должна парсить html код (возможно, или как вариант просто copy\paste всей странички в любом текстовом редакторе), находить определенные слова и по алгоритму копировать слово\символы\предложение, уметь обрабатывать некоторые исключения и вставлять в заранее подготовленный шаблон, или генерировать заданный шаблон самостоятельно. Спасибо.
  • Вопрос задан
  • 4748 просмотров
Решения вопроса 5
TekVanDo
@TekVanDo
Javascript Developer
Посмотри в сторону php и библиотечки phpQuery
Ответ написан
Комментировать
vvpoloskin
@vvpoloskin
Инженер связи
Да хоть на чем. Python (minidom, xlsd,beautifullsoup), perl (HTML::Parser), javascript даже)
Ответ написан
Комментировать
ScorpLeX
@ScorpLeX
$html = file_get_contents("http://tourdom.tv/happy-hour/schastlivyj-chas/?dehide=2014-01-10");

if(preg_match('/<tr style="border-top: solid 1px;">(.*?)<td colspan="3">/, $html, $res)){
    
    // дополнительный парсинг ...
    file_put_contents('result.txt', $res[1]);
}

Очень примитивный скрипт на php.
В дальнейшем советую почитать про регулярные выражения и использовать curl.
Ответ написан
Комментировать
Есть такая вещь для автоматизации как AutoIt. В ней есть функция записи макроса/действия.
Короче, если нужно быстро получить результат, то AutoIt - это ваш выбор
Ответ написан
Комментировать
Пригласить эксперта
Ответы на вопрос 2
foxmuldercp
@foxmuldercp
Системный администратор, программист, фотограф
под виндой еще можно повершел скриптами.
ну или c# тот же начать осваивать, например.
хотя перл и питон кроссплатформенны, и будут в принципе полезны, да и программисты на них ценятся
Ответ написан
Комментировать
@Nayanamarky Автор вопроса
Спасибо всем за ответы. Начал изучать Phyton по Лутцу(4). Так же AutoIt оказалась очень интересным решением, хоть для моих целей не идеально подходит, но позволяет очень автоматизировать многие процессы.
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы