Проблемы поиска информации в РУнетна страницах сайта www.electrosad.ru | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Существует множество поисковых систем в Русском секторе Интернет. Да и заграница не отстает. Что толкает сообщество на создание и использование все новых и новых поисковых систем? Попробую разобраться в этой проблеме. В Интернет работает множество поисковых систем. Простое перечисление их займет почти все выделенное для статьи место. Поэтому назову только наиболее известные: Некоторые зарубежные системы могут работать и с русскоязычными ресурсами Интернет. Новые поисковые системы продолжают появляться в Интернет, и некоторые из них завоевывают пользователей у давно работающих и проверенных систем. Совсем недавно появилась поисковая система Cull.com И не смотря на их множество при пользовании остается неудовлетворенность результатами поиска.
Практический опытПопробуем провести небольшой анализ выполнения поиска в некоторых (характерных) существующих поисковых системах на достаточно однозначный поисковый запрос -
Посмотрим как распределяются результаты поиска на первой странице выведенной по результатам поискового запроса. Запрос делался 29.11.08 и может отличаться в ту или иную сторону в другое время. Содержание запроса предполагает получение в подборке ссылок на статьи и ресурсы содержащие информацию именно о технических характеристиках процессоров, их параметрах. Предполагалось, что в наборе должны присутствовать ссылки на сайты производителей. Но на первой странице предложенных поисковой системой ссылок получены совсем иные результаты. Имеющаяся на странице с результатами поиска реклама конечно отвлекает, но к ней уже привыкли и перестали обращать внимание. Но для меня это минус поисковику, особенно когда ее слишком много или она не в тему поисковому запросу.
Таблица 1.
Сравнил я эти данные и имеющаяся неудовлетворенность работой поисковых систем усилилась. Сразу надо оговориться, я пользуюсь в основном двумя поисковыми системами - Nigma и Google. Они наиболее устраивают меня по результатам поиска. Бросается в глаза что основные материалы отражающие запрос - технические статьи в результатах запроса занимают от 13 до 30%. Ссылки на ресурс производителя, которые являются наиболее полными источниками информации по запросу присутствовали только у Nigma и Google. Ссылки на форумы где происходит обсуждения информации по тематике запроса, которые я бы поставил на третье место, имелись только у Nigma, Рамблер, Яндекс. Новости о процессорах, которые не могут быть признаны соответствующими запросу, поскольку не несут технических характеристик о процессоре отсутствовали только у Рамблер. Что касается ссылок на торговые ресурсы (совсем не удовлетворяющие запросу), то они составляли от 15 до 40%. Что самое главное, уже в результатах поиска, на первой странице, присутствовали ссылки никак не относящиеся в содержанию запроса. Это принтеры Canon, видеокарты, .... Доля таких ссылок у Рамблер доходила до 50%, бросается в глаза, там же и максимальное количество рекламы.
Принципы работы поисковых системПока не нашел описания системы анализа запроса на поиск и вывода результатов. Что мне известно, так это то что первыми в подборке ссылок они располагаются ссылки с наибольшим числом обращений.
Nigma
Цитата с сайта Nigma из раздела "Описание
проекта".
Общая задача информационного поиска в Интернет не изменилась -- необходимо найти релевантные запросу документы, т.е. документы, соответствующие информационной потребности пользователя. Однако природа Интернет влечет изменение постановки задачи поиска и обусловливает необходимость разработки новых методов обработки полученных данных с целью сужения области поиска. Одним из методов, позволяющих пользователю найти нужную информацию в Интернете является кластеризация полученных документов. Алгоритм. На основе введенного пользовательского запроса сформировать список документов, разделенных на несколько классов с аннотацией каждого класса и самого документа. Нами рассматриваются несколько методов формирования кластеров из документов, как online, когда кластеры формируются динамически на основе полученных документов, так и offline - этот подход предполагает предварительное обучение системы. Для улучшения качества кластеризации документов предполагается использовать различные web сервисы: корпус русского языка - набор обучающих текстов, системы лескико-семантического анализа текста. Конец цитаты. То есть, если кратко, применяемая системой Nigma интеллектуальная кластеризация, позволяет разбить полученные запросы на смысловые группы, что позволяет выбирать из найденных ссылок только необходимые. И открыть наиболее подходящую по смыслу группу, в которой они сгруппированы по тематике выбранной Вами. И хотя Каталогов России и ближнего зарубежья набралось более 800. | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Попасть прямо в разделы сайта можно здесь:
При полном или частичном использовании материалов ссылка на "www.electrosad.ru" обязательна. | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Copyright © Sorokin A.D. |
2002 - 2020 |