Войти

Показать полную графическую версию : Теоретический вопрос о поиске по сайту


johnny_palec
13-03-2006, 19:22
Есть движок с кучей модулей, есть задача сделать поиск по всему сайту, включая форум, блог, опросы и так далее. Есть идея написать индексатор, который будет индексировать сайт на манер поисковых роботов и пихать данные в базу/файл. Сам поиск будет производиться по индексной базе/файлу. Заслуживает ли идея реализации? Есть ли у кого опыт реализации подобного поисковика? Особо волнует проблема производительности бота.

И если вдруг кто в курсе, засчитывают ли провайдеры трафик идущий через file_get_contents на самом сервере? Тоесть, запросил я с сервера страницу, находящуюся на этом же сервере, приплюсуется ли мне входящий трафик? По логике вещей - нет, но кто знает:)

mar
13-03-2006, 20:30
johnny_palec
2) по поводу провайдера. Теоретически нет, но лучше самого провайдера никто не скажет.
1) по поводу поиска - у нас тут было несколько тем. Основные:
поиск по сайту (статические страницы) (http://www.forum.oszone.net/showthread.php?t=43684&highlight=%EF%EE%E8%F1%EA)
Создания поиска по сайту(обсуждаем алгоритмы) (http://www.forum.oszone.net/showthread.php?t=48284&highlight=%EF%EE%E8%F1%EA)
организация поиска по сайту (http://www.forum.oszone.net/showthread.php?t=46885&page=1&pp=10&highlight=%EF%EE%E8%F1%EA)
может, лучше сначала прочитать их и, возможно поднять одну из них? Или что-то принципиально новое?

johnny_palec
13-03-2006, 20:40
Смотрел, это не то. Я хочу написать бота, который будет делась следующее:

-Тащит корневую страницу
-Составляет список ссылок на внутренние страницы сайта
-Удаляет всё ненужное и индексирует текст
-Идёт по первой ссылке из списка
-Действия повторяются

Таким образом бот обходит весь сайт и составляет его индекс с привязкой к урлу. Поис производится непосредственно в индексной таблице.

mar
13-03-2006, 21:32
johnny_palec
по первой ссылке все Ваши действия называются "индексация сайта" или "скрипт, индексирующий сайт". Дана ссылка на пример. Если мало, или непонятно, можно объяснить, но лучше там же, дабы не плодить темы. Читайте внимательней, pls.

johnny_palec
13-03-2006, 21:37
mar, я же не спрашиваю способ реализации, мне интересно обсудить вопрос с человеком, который этот способ успешно/безуспешно реализовал :)

Vlad Drakula
14-03-2006, 11:14
johnny_palec
я писал поисковую машину для http://soft.oszone.net/ и для http://www.oszone.net/
учитывая что я знал как вормируются все урлы из базы данных, я не стал делать индексациолнную машину.
я просто сделал поиск записей по базе данных, потом скрипт обрабатывает результаты поиска и острит по ним ссылки на страницы.
плюсом этого метода является что не нужно переиндексировать сайт, и новые данныз появляются мгновенно после добавления в базу.

пример поиска по каталогу програм и по сайту одновременно:
http://soft.oszone.net/search.php?s=dvd

mar
14-03-2006, 11:25
johnny_palec
в моем случае (как я уже писала по той ссылке), был статический сайт + форум.
Была добавлена индексационная машина для стаитки. (Форум и так в базе).
Использовался полнотекстовый поиск (все написано в том топике вместе со спорами об использовании последнего)

E-mail
14-03-2006, 23:35
кстати говоря ктонибудь реализовывал не полнотекстовый поиск?:)

mar
15-03-2006, 00:09
E-mail
ну, мне всякий приходилось. А Влад, насколько мне помнится, в первой из указанных тем как раз объяснял, почему он реализовывал именно НЕ полнотекстовый поиск. (Еще немного и склею темы =))

Vlad Drakula
15-03-2006, 11:20
E-mail
я делал... и даже релевантность в поиске сам писал...




© OSzone.net 2001-2012