Компьютерный форум OSzone.net  

Компьютерный форум OSzone.net (http://forum.oszone.net/index.php)
-   Вебмастеру (http://forum.oszone.net/forumdisplay.php?f=22)
-   -   Теоретический вопрос о поиске по сайту (http://forum.oszone.net/showthread.php?t=62687)

johnny_palec 13-03-2006 19:22 417358

Теоретический вопрос о поиске по сайту
 
Есть движок с кучей модулей, есть задача сделать поиск по всему сайту, включая форум, блог, опросы и так далее. Есть идея написать индексатор, который будет индексировать сайт на манер поисковых роботов и пихать данные в базу/файл. Сам поиск будет производиться по индексной базе/файлу. Заслуживает ли идея реализации? Есть ли у кого опыт реализации подобного поисковика? Особо волнует проблема производительности бота.

И если вдруг кто в курсе, засчитывают ли провайдеры трафик идущий через file_get_contents на самом сервере? Тоесть, запросил я с сервера страницу, находящуюся на этом же сервере, приплюсуется ли мне входящий трафик? По логике вещей - нет, но кто знает:)

mar 13-03-2006 20:30 417393

johnny_palec
2) по поводу провайдера. Теоретически нет, но лучше самого провайдера никто не скажет.
1) по поводу поиска - у нас тут было несколько тем. Основные:
поиск по сайту (статические страницы)
Создания поиска по сайту(обсуждаем алгоритмы)
организация поиска по сайту
может, лучше сначала прочитать их и, возможно поднять одну из них? Или что-то принципиально новое?

johnny_palec 13-03-2006 20:40 417399

Смотрел, это не то. Я хочу написать бота, который будет делась следующее:

-Тащит корневую страницу
-Составляет список ссылок на внутренние страницы сайта
-Удаляет всё ненужное и индексирует текст
-Идёт по первой ссылке из списка
-Действия повторяются

Таким образом бот обходит весь сайт и составляет его индекс с привязкой к урлу. Поис производится непосредственно в индексной таблице.

mar 13-03-2006 21:32 417421

johnny_palec
по первой ссылке все Ваши действия называются "индексация сайта" или "скрипт, индексирующий сайт". Дана ссылка на пример. Если мало, или непонятно, можно объяснить, но лучше там же, дабы не плодить темы. Читайте внимательней, pls.

johnny_palec 13-03-2006 21:37 417425

mar, я же не спрашиваю способ реализации, мне интересно обсудить вопрос с человеком, который этот способ успешно/безуспешно реализовал :)

Vlad Drakula 14-03-2006 11:14 417606

johnny_palec
я писал поисковую машину для http://soft.oszone.net/ и для http://www.oszone.net/
учитывая что я знал как вормируются все урлы из базы данных, я не стал делать индексациолнную машину.
я просто сделал поиск записей по базе данных, потом скрипт обрабатывает результаты поиска и острит по ним ссылки на страницы.
плюсом этого метода является что не нужно переиндексировать сайт, и новые данныз появляются мгновенно после добавления в базу.

пример поиска по каталогу програм и по сайту одновременно:
http://soft.oszone.net/search.php?s=dvd

mar 14-03-2006 11:25 417610

johnny_palec
в моем случае (как я уже писала по той ссылке), был статический сайт + форум.
Была добавлена индексационная машина для стаитки. (Форум и так в базе).
Использовался полнотекстовый поиск (все написано в том топике вместе со спорами об использовании последнего)

E-mail 14-03-2006 23:35 417876

кстати говоря ктонибудь реализовывал не полнотекстовый поиск?:)

mar 15-03-2006 00:09 417886

E-mail
ну, мне всякий приходилось. А Влад, насколько мне помнится, в первой из указанных тем как раз объяснял, почему он реализовывал именно НЕ полнотекстовый поиск. (Еще немного и склею темы =))

Vlad Drakula 15-03-2006 11:20 418013

E-mail
я делал... и даже релевантность в поиске сам писал...


Время: 15:31.

Время: 15:31.
© OSzone.net 2001-