Вам понадобится xmlpipe data source:
sphinxsearch.com/docs/1.10/xmlpipe2.html
И придётся написать скрипт, который будет делать xml (в том формате, как там написано) из html или plaintext файлов (хотя может быть, уже что-то готовое написали, надо загуглить).
Пример индексации из MemcacheDb:
nutrun.com/weblog/distributed-key-value-store-indexing/
Вот тут pdf индексируют даже:
www.sphinxsearch.com/forum/view.html?id=338