Проблемы поиска информации в РУнет

на страницах сайта

www.electrosad.ru

Существует множество поисковых систем в Русском секторе Интернет. Да и заграница не отстает. Что толкает сообщество на создание и использование все новых и новых поисковых систем? Попробую разобраться в этой проблеме.

 

В Интернет работает множество поисковых систем. Простое перечисление их займет почти все выделенное для статьи место. Поэтому назову только наиболее известные:

Из Российских это - Яндекс, Rambler, Апорт, MetaBot.ru, gogo.ru, Nigma.....

Зарубежные - Astalavista, Yahoo!, Google, Goto, MSN, search.....

Некоторые зарубежные системы могут работать и с русскоязычными ресурсами Интернет.

Новые поисковые системы продолжают появляться в Интернет, и некоторые из них завоевывают пользователей у давно работающих и проверенных систем. Совсем недавно появилась поисковая система Cull.com

И не смотря на их множество при пользовании остается неудовлетворенность результатами поиска.

 

Практический опыт

Попробуем провести небольшой анализ выполнения поиска в некоторых (характерных) существующих поисковых системах на достаточно однозначный   поисковый запрос -

технические характеристики процессора

 

Посмотрим как распределяются результаты поиска на первой странице выведенной по результатам поискового запроса.

Запрос делался 29.11.08 и может отличаться в ту или иную сторону в другое время.

Содержание запроса предполагает получение в подборке ссылок на статьи и ресурсы содержащие информацию именно о технических характеристиках процессоров, их параметрах. Предполагалось, что в наборе должны присутствовать ссылки на сайты производителей.  Но на первой странице предложенных поисковой системой ссылок получены совсем иные результаты.

Имеющаяся на странице с результатами поиска реклама конечно отвлекает, но к ней уже привыкли и перестали обращать внимание.

Но для меня это минус поисковику, особенно когда ее слишком много или она не в тему поисковому запросу.

 

Профили Количество сайтов соответствующих профилю в поисковых системах
Google Nigma Рамблер Яндекс Апорт
Найдено ссылок 1250000 6505491 66462 не указано 10701
Наличие рекламных баннеров 1 0 10 4 0
Предложено ссылок на 1 стр. 10 20 15 10 10
Технические статьи 2 6 2 3 3
Ссылки на ресурс производителя 2 3 - - -
Форумы 0 1 2 1 -
Общие (новости) 1 4 - 2 1
Торговля 4 3 4 2 2
Другие отрасли 1 5 5 2 4

Таблица 1.

 

Сравнил я эти данные и имеющаяся неудовлетворенность работой поисковых систем усилилась.

Сразу надо оговориться, я пользуюсь в основном двумя поисковыми системами - Nigma и Google. Они наиболее устраивают меня по результатам поиска.

Бросается в глаза что основные материалы отражающие запрос - технические статьи в результатах запроса занимают от 13 до 30%.

Ссылки на ресурс производителя, которые являются наиболее полными источниками информации по запросу присутствовали только у Nigma и Google.

Ссылки на форумы где происходит обсуждения информации по тематике запроса, которые я бы поставил на третье место, имелись только у Nigma, Рамблер, Яндекс.

Новости о процессорах, которые не могут быть признаны соответствующими запросу, поскольку не несут технических характеристик о процессоре отсутствовали только у Рамблер.

Что касается ссылок на торговые ресурсы (совсем не удовлетворяющие запросу), то они составляли от 15 до 40%.

Что самое главное, уже в результатах поиска, на первой странице, присутствовали ссылки никак не относящиеся в содержанию запроса. Это принтеры Canon, видеокарты, .... Доля таких ссылок у Рамблер доходила до 50%, бросается в глаза, там же и максимальное количество рекламы.

 

 Принципы работы поисковых систем

Google

Пока не нашел описания системы анализа запроса на поиск и вывода результатов.

Что мне известно, так это то что первыми в подборке ссылок они располагаются ссылки с наибольшим числом обращений.

 

Nigma
Цитата с сайта Nigma из раздела "Описание проекта".

Общая задача информационного поиска в Интернет не изменилась -- необходимо найти релевантные запросу документы, т.е. документы, соответствующие информационной потребности пользователя. Однако природа Интернет влечет изменение постановки задачи поиска и обусловливает необходимость разработки новых методов обработки полученных данных с целью сужения области поиска. Одним из методов, позволяющих пользователю найти нужную информацию в Интернете является кластеризация полученных документов.

Алгоритм.

На основе введенного пользовательского запроса сформировать список документов, разделенных на несколько классов с аннотацией каждого класса и самого документа. Нами рассматриваются несколько методов формирования кластеров из документов, как online, когда кластеры формируются динамически на основе полученных документов, так и offline - этот подход предполагает предварительное обучение системы. Для улучшения качества кластеризации документов предполагается использовать различные web сервисы: корпус русского языка - набор обучающих текстов, системы лескико-семантического анализа текста.

Конец цитаты.

То есть, если кратко, применяемая системой Nigma интеллектуальная кластеризация, позволяет разбить полученные запросы на смысловые группы, что позволяет выбирать из найденных ссылок только необходимые. И открыть наиболее подходящую по смыслу группу, в которой они сгруппированы по тематике выбранной Вами.

И хотя

Каталогов России и ближнего зарубежья набралось более 800.

Яндекс.Метрика

<<назад>> <<в начало>> <<на главную>>

Попасть прямо в разделы сайта можно здесь:

При полном или частичном использовании материалов ссылка на "www.electrosad.ru" обязательна.
Ваши замечания, предложения, вопросы можно отправить автору
почтой.

Copyright © Sorokin A.D.

2002 - 2020