Анализ Internet-ресурсов по вопросам
Рефераты >> Программирование и компьютеры >> Анализ Internet-ресурсов по вопросам

Поддержка русского языка. Основной недостаток любой зарубежной поисковой системы - отсутствие поддержки русского языка. Для решения этой проблемы специалисты РБК в течение 1,5 лет разработали специальный модуль, благодаря которому поисковая система AltaVista может выполнять поиск с учетом русской морфологии.

Индексирование в этой системе осуществляется при помощи робота. При этом робот имеет следующие приоритеты:

· слова содержащиеся в теге <title> имеют высший приоритет; ключевые фразы в <Meta> тэгах;

· ключевые фразы, находящиеся в начале странички;

· ключевые фразы в ALT - ссылках

· ключевые фразы по количеству вхождений\присутствия слов\фраз;

Если тэгов на странице нет, использует первые 30 слов, которые индексирует и показывает вместо описания (tag description)

Наиболее интересная возможность AltaVista - это расширенный поиск. Здесь стоит сразу оговориться, что, в отличие от многих других систем AltaVista поддерживает одноместный оператор NOT. Кроме этого, имеется еще и оператор NEAR, который реализует возможность контекстного поиска, когда термины должны располагаться рядом в тексте документа. AltaVista разрешает поиск по ключевым фразам, при этом она имеет довольно большой фразеологический словарь. Кроме всего прочего, при поиске в AltaVista можно задать имя поля, где должно встретиться слово: гипертекстовая ссылка, applet, название образа, заголовок и ряд других полей. К сожалению, подробно процедура ранжирования в документации по системе не описана, но видно, что ранжирование применяется как при простом поиске, так и при расширенном запросе. Реально эту систему можно отнести к системе с расширенным булевым поиском.

Alta Vista: маленькие хитрости

В отличие от Yahoo!, Alta Vista позволяет усовершенствовать процедуру поиска, для этого нужно указать страницы, которые вы хотите просмотреть более внимательно. После каждого поиска ваши ключевые слова появляются в поле, расположенном вверху страницы, так что вы можете изменить их и попробовать поискать еще раз. Ниже приведено несколько советов, полезных при изменении ваших ключевых слов:

· Вводите все слова со строчной буквы. Все возможные собственные имена вводите с прописной буквы. Никогда не вводите слов, все буквы которых являются прописными.

· Если два слова должны появляться вместе, заключите их в кавычки.

· Используйте знаки «+» и «-» для того, чтобы показать, какие слова нужны, а какие – нет.

2. Infoseek

http://infoseek.go.com/

Поисковый сервер Infoseek начал свою работу в конце 1994 года. На сегодняшний день он содержит около 54 миллионов страниц. Одно время за

доступ к полной базе данных нужно было платить, однако, сегодня это бесплатный сервис.

Система является одной из наиболее универсальных - создатели самостоятельно поддерживают индексы WWW-страниц, сообщений UseNet, горячих новостей (по тематике), информацию о компаниях и корпоративных новостей. Кроме того, поддерживаются: поиск людей и даже пропавших родственников, поиск географических карт и проч. Эти возможности интегрированы в единый интерфейс, простой и понятный. Кроме того, на Infoseek находится очень неплохой каталог (его разделы называются "каналами"), в котором можно найти лучшие страницы по интересующей пользователя тематике. В хорошо продуманном интерфейсе Infoseek легко разобраться и новичку. Помимо ссылок, связанных с поиском и рекламой, есть довольно любопытный раздел "Достойно нажатия" ("Worth a click"), в котором ежедневно дается несколько ссылок на новые сайты с полезной информацией.

Запросы можно формулировать на естественном языке, правда, только на английском. Возможности поиска довольно ограничены - кроме запросов с логическими операциями над терминами, других возможностей расширенного поиска нет. Так например, "+" - термин обязан быть в документе, и "-" - термин должен отсутствовать в документе. Но если ввести стандартные для других поисковых систем слова-связки AND и OR, то Infoseek выведет миллионы страниц, поскольку эти слова есть почти на каждой странице.

Кроме этого, Infoseek позволяет проводить то, что называется контекстным поиском. Это значит, что используя специальную форму запроса, можно потребовать последовательной совместной встречаемости слов. Также можно указать, что некоторые слова должны совместно встречаться не только в одном документе, а даже в отдельном параграфе или заголовке. Имеется возможность указания ключевых фраз, представляющих собой единое целое, вплоть до порядка слов. Ранжирование при выдаче осуществляется по числу терминов запроса в документе, по числу фраз запроса за вычетом общих слов. Все эти факторы используются как вложенные процедуры. Подводя краткое резюме, можно сказать, что Infoseek относится к традиционным системам с элементом взвешивания терминов при поиске. Если ввести Результаты поиска выводятся в очень удобной форме - результаты с одного сайта сгруппированы (выводится только один и появляется кнопка "другие результаты"), выводится "процент релевантности", отражающий вероятность того, что данный документ содержит необходимую информацию. Кроме того, в окне вывода результатов отражаются не только результаты поиска, но и ссылки, нажатием на которые можно провести поиск по ключевым словам в новостях, просмотреть связанные темы (Related topics), а также настроиться на канал, освещающий данную тему. В форме повторного поиска (Search again) есть полезная опция "искать только в уже найденных результатах", которая позволяет уменьшить количество результатов поиска, указав термины которые должны присутствовать или отсутствовать в новых результатах.

Поиск русских ресурсов на Infoseek работает посредственно. Во-первых, количество русских ресурсов, проиндексированных InfoSeek'ом, довольно невелико. Во-вторых, никак не решается проблема перекодировки из одной русской кодировки в другую. Таким образом, если вы введете по-русски свои ключевые слова в кодировке Win1251, то в результатах поиска не будет ни одного документа в кодировке KOI-8. Поэтому для получения качественного результата нужно будет формулировать запрос как минимум 2 раза (в кодировках Win1251 и KOI-8).

3. Lycos

http://www.lycos.com/

Lycos- это в большей мере автоматизированный указатель, некая разновидность AltaVista. Система біла создана в университете Карнеги-Меллон. В наши дни она стала комерческим проэктом.

В Lycos используется следующий механизм индексации:

· слова в <title> заголовке имеют высший приоритет;

· слова в начале страницы;

· слова в ссылках;

· если в его базе индекса есть сайты, ссылка с которых указывает на индексируемый документ - релевантность этого документа возрастает.


Страница: