С чего начать написание поисковика?

Всегда было интересно, как работают поисковики с точки зрения алгоритмов. Ради примера хочу создать простенький проект, который будет парсить данные с нескольких сайтов с возможностью текстового поиска. Подскажите, с какой литературы следует начать и в каком направлении дальше двигаться.
Заранее извиняюсь за корявую формулировку, я новичек
  • Вопрос задан
  • 407 просмотров
Пригласить эксперта
Ответы на вопрос 6
saboteur_kiev
@saboteur_kiev
software engineer
Видимо вам стоит начать с литературы по алгоритмам. Графы и другая математика.
Ответ написан
Комментировать
@386DX
есть поисковики с открытым кодом.
yacy.net/en/index.html

есть wget
Ответ написан
targetjump
@targetjump
Разобраться с тем как именно Вы будете индексировать контент и подобрать для этого эффективные инструменты.
Ответ написан
Комментировать
Taraflex
@Taraflex
Ищу работу. Контакты в профиле.
Комментировать
sivabur
@sivabur
Заблокировали просто так!
1.Досконально изучить PageRank.
2.Описания студенческой работы создателей гугла(прототип гугла) wseob.ru/seo/searchengine-anatomy
3. Начинать надо с алгоритмов которые будут учитываться в выдаче(тоесть определить факторы и как именно они будут влиять на построения выдачи)
4.Потом уже техническая реализация тут уже другие алгоритмы вступают в силу.Как быстрей найти?как перебрать?Как хранить страницу?По какому пути должен идти парсер и т.д. т.п.
Ответ написан
Комментировать
@RokkerRuslan
Прочитайте четвёртую главу книги Программируем коллективный разум
Глава 4 «Поиск и ранжирование»
Описываются различные компоненты поисковой машины, в том числе паук, индексатор, механизм обработки запросов. Рассмотрен алгоритм ранжирования страниц на основе ведущих на них ссылок, PageRank, и показано, как создать нейронную сеть, которая обучается тому, какие ключевые слова ассоциированы с различными результатами.

Язык программирование - Python.
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы