Поисковые системы Рунет глазами моего сайта

Навеянное АПОРТ'ом

на страницах сайта 

www.electrosad.ru

В конце 90х годов прошлого века, когда Российский Интернет стал обрастать всеми положенными атрибутами появились и наши известные сейчас всем поисковые системы. Почти одновременно появились Апорт (февраль 1996), Рамлер (8 октября 1996), Яндекс (23 сентября 1997). Апорт являлся одной из первых в России поисковой системой.

 

Поисковая система Апорт глазами Wiki

Впервые была продемонстрирована в феврале 1996 года на пресс-конференции «Агамы» по поводу «Русского клуба». На тот момент поисковая машина искала только по сайту russia.agama.com. В дальнейшем был поиск по четырём серверам, потом по шести. В итоге день рождения Апорта и фактический старт системы сильно «размазались» по времени. Официальная презентация Апорта состоялась только 11 ноября 1997 года, тогда машина уже индексировала весь рунет (в поисковой системе Апорт был проиндексирован первый миллион документов, расположенных на 10 тысячах серверов).

На текущий момент Апорт является частью портала РОЛ. Принадлежит Golden Telecom. При поиске учитываются особенности русского языка.

До начала 2000-х годов являлась неоспоримым лидером поиска в Рунете, а с покупкой Агамы РОЛом почти вся разработка была прекращена и поисковая система стала резко сдавать позиции, заметно уступая по популярности Рамблеру и Яндексу.

Опыт и наработки поисковой системы «Апорт» были использованы при создании новой поисковой системы gogo.ru (владелец Mail.Ru).

 

Особенности Апорт

К важным свойствам первой версии поисковой системы Апорт можно отнести перевод запроса и ответа на английский язык и обратно. Второе свойство – реконструкция проиндексированных страниц из собственной базы. Это дает возможность просмотра уже несуществующих страниц.

Поисковая система Aport 2000 была построена на основе выдачи результатов по отдельно взятым сайтам. Для разделения ресурсов на сайты Апорт использует информацию, которую предоставляет каталог AtRus, или владельцы ресурсов.

 

www.aport.ru – первым из поисковых систем Рунета реализовал базовые технологии Google. «Page rank» - характеристика популярности ресурса по формуле «обратных ссылок»: ссылки с других сайтов на данный ресурс. Причем учитывается не только количество, но и важность ссылок. Вес ссылки с популярного сайта больше, а ссылки включающие слова запроса ценятся выше, чем ссылки со словом «здесь». К тому же, при обработке запроса поисковая система Aport 2000 ориентируется на HTML – код страницы, и наличие слов запроса в URL.

 

Еще одна особенность приоритет сайтам, вошедшим в высшую и элитную лиги Апорт – Каталог. В поисковой системе Aport впервые была реализована возможность поиска по новостным лентам.

 

Масштабируемость в архитектуре Aport 2000 построена таким образом, что его поисковую базу можно дробить на несколько отдельных фрагментов, каждый из которых будет работать на своем компьютере. После поиска по фрагментам для пользователя рассчитывается общий ответ.

 

Вернемся в текущее время

Сейчас Апорт не видно и не слышно.

Когда я перевел свой сайт на платный хостинг в январе — феврале 2008 года, сразу же предложил его для регистрации в поисковой системе и каталоге АПОРТ. Так с тех пор эта история и тянется

Если, более чем через год, «паук» АПОРТа все-таки начал заходить на мой сайт, то в каталоге его так до сих пор и нет.

 

Все это время при попытке зарегистрировать сайт я вижу:

Ваш сайт, расположенный по адресу: http://electrosad.ru/ добавлен в список Апорта для индексирования. После очередного обновления индекса (в течение двух недель) вы сможете найти ваши страницы при помощи Апорта.
ВНИМАНИЕ! Вы можете установить поисковую форму или кнопку Апорта на своем сайте.
Подробности смотрите на: http://www.aport.ru/forms/forms.htm
Каталог-Апорт:
Ресурс http://electrosad.ru/ уже зарегистрирован в Апорт-Каталоге и находится на стадии проверки.
Воспользуйтесь платными услугами Апорт-каталога по адресу http://adv.goldentelecom.ru/price.php?site_id=2

Так сайт и проверяется, уже скоро как два года. Может это попытка направить сайт на платную регистрацию? Так нигде на Апорте не говорится о платной регистрации в каталоге. Говорится только о дополнительных платных услугах.

 

А вчера полазил по сайтам нескольких поисковиков и обратил внимание на интересную тенденцию. Нигде не нашел даже упоминаний о каталогах.

 

Это и понятно, поисковый сервис работает не с каталогами, а формирует свою базу данных по сайтам с помощью специальных программных модулей - роботов (пауков) индексируя содержимое сайта по своим типовым выборкам. И успешные поисковые сервисы считают своим успехом проиндексировать максимум сайтов - это дает возможность привлечь больше пользователей на их поисковый сервис. Эти индексы опираются не на заявленное содержимое сайта, как это происходит с каталогами, а на его реальное содержание. В этом случае полностью отпадает необходимость в каталогах. Поэтому пишу здесь о каталоге АПОРТ только как о показателе работы фирмы.

 

Сейчас, интерес поисковой системы не в копейках полученных от регистрации в каталоге, а в тысячах $ полученных от потока посетителе и просмотра рекламы. И чем больше пользователей сервисом поисковой системы, тем больше этих тысяч текущих на счета. А количество пользователей поисковой системой на прямую зависит от удовлетворения пользователей качеством поиска. Один из факторов этого качества как раз и есть полное и быстрое индексирование Интернет.

 

*(Наряду конечно с качеством анализа запроса и выдачи именно того контента который необходим давшему запрос.)

Наглядный пример Goo...oogl (для которого я бы исключил из его достоинств*). и его сегодняшние финансовые возможности.

 

Но вернусь к АПОРТу и попробую сравнить его с работу с другими поисковиками на основе статистики моего сайта.

 

В течении месяца мой сайт посещают более 30 (30 - 40) роботов (пауков) разных поисковых систем.

 

Состояние за январь 2010 года и на 5 февраля 2010 года, по данным статистики моего сайта, приведены ниже:

Роботы/Пауки посетители Хиты Последний визит Хиты Последний визит
За январь 2010 На 05.02.10
33 различные роботы 19 различные роботы
Yahoo Slurp 2633+127

31.01.10

265+15 05.02.10
Yandex bot 1984+166 31.01.10 318+25 05.02.10
Googlebot 800+219 31.01.10 69+32 05.02.10
MSNBot 435+384 31.01.10 73+52 05.02.10
StackRambler 622+5 31.01.10 114+1 04.02.10
robot identified by 'crawl' 433+59 31.01.10 18+4 03.02.10
robot identified by 'robot' 396+43 31.01.10 17+6 05.02.10
Java (Often spam bot) 354 17.01.10    
The World Wide Web Worm 263+9 29.01.10 2+2 05.02.10
robot identified by 'bot/' or 'bot-' 46+35 28.01.10 8+7 04.02.10
Speedy Spider 28+27 31.01.10 1+1 03.02.10
Ask 25+20 31.01.10    
Alexa (IA Archiver) 23+18 29.01.10 1+1 01.02.10
robot identified by hit on 'robots.txt' 0+37 30.01.10 0+12 05.02.10
Google AdSense 11+18 31.01.10 2+3 03.02.10
HTTrack off-line browser 27 28.01.10    
BaiDuSpider 1+18 29.01.10 1+2 04.02.10
arks 7+12 22.01.10    
Aport 16 26.01.10 6 04.02.10
Heritrix 10+1 01.01.10    
VSE 11 09.01.10    
MSIECrawler 8

16.01.10

   
Powermarks 7 29.01.10    
robot identified by 'spider' 3+3 29.01.10    
SurveyBot 3+3 25.01.10    
larbin 3+3 25.01.10    
The web archive (IA Archiver) 0+5 31.01.10 0+3 04.02.10
NG 1.x (Exalead) 3 25.01.10    
Python-urllib 3 20.01.10    
psbot 1+1 25.01.10    
Yahoo! Slurp China 1+1 12.01.10    
MJ12bot 1+1 31.01.10    
CFNetwork 1 27.01.10 1 03.02.10
Ask     8+5 05.02.10
W3C Validator     2 04.02.10

Таблица 1.

В таблицу 1, для наглядности, я включены все роботы (пауки) пришедшие на мой сайт за рассматриваемый период. На мой взгляд порядковые номера в данном списке почти соответствуют месту поисковика в Рунет. Дата последнего захода оставлена поскольку она, в некоторой степени, характеризует активность поисковика. Общее число зашедших на сайт роботов за рассматриваемый период 35.

Ссылки из поисковых систем Страницы Процент Страницы Процент
За январь 2010 На 05.01.10
Yandex 9643 62 % 954 50.2 %
Google 5651 36.3 % 903 47.5 %
Rambler 119 0.7 % 28 1.4 %
Unknown search engines 90 0.5 % 8 0.4 %
Google (Images) 23 0.1 % 3 0.1 %
Aport 6 0 % 1 0%
Yahoo! 4 0 % 3 0.1 %
MetaBot 1 0 %    

Таблица 2.

По крайней мере Yandex держит первенство и тут и выше.

Но последняя таблица, в некоторой степени, характеризует популярность поисковика.

Из таблицы 2 понятна низкая популярность АПОРТа (менее 0,004%). Она определяется не только наличием ресурса в каталоге, но и низкой активностью системы. Например из таблицы 1 видим что активность роботов АПОРТа составляет менее 0,2%.

В ряде публикаций это объясняется недостатком финансирования. Хотя объемы финансирования других поисковиков напрямую зависят от их популярности. Объемы финансирования, в конечном счете, определяется объемом зарабатываемых денег, на что в первую очередь влияет их популярность.

На мой взгляд это просто плохой менеджмент.

 

Обращает на себя внимание положение компании Яндекс, которая имеет около 30 различных сервисов, но активность ее поисковой системы в Рунет заслуживает самых высоких похвал (таб. 1 дает 24% от общего числа проиндексированных хитов). Как видим из таблицы 1, число переходов на мой сайт из поисковой системы Яндекс составило (в январе 2010 года) 62%, что превысило число переходов Google (36%) почти в два раза. Это в сумме более 98% или основная масса переходов.

 

Мы видим в таблице 2 поисковик Рамблер на третьем месте с 0,7% от общего числа переходов, а в таблице 1 на пятом с 7,5% проиндексированных роботом хитов. Это может объясняться широтой охвата компанией сервисов Интернет, где поисковик только малая доля, пропорционально ему и внимание компании к поисковому сервису. Возможно его тоже ждет судьба АПОРТа?

 

Имеет место низкий уровень переходов с поисковой системы Yahoo. При активности индексации хитов роботом Yahoo Slurp (32%) число переходов составило только 4 не процентов а в абсолютном значении. Я это объясняю тем что мой сайт является сайтом с русскоязычным содержимым. Но не смотря на это интересен тот факт, что число посетителей из US в январе 2010 года составило 296 хитов или 117 страниц, что составило около 1%.

 
Хочу отметить новое явление в Интернет.

Появились множество систем позиционирующихся как поисковая система, но таковыми в полном смысле они не являются. Часто это каталоги, а иногда поисковики использующие чужие базы данных для своего поиска. Конечно есть вероятность что их роботы просто не идентифицируются и входят в число «robot identified by …..», а переход определяется как «Unknown search engines».

 

На моем сайте некоторая часть ссылок с поисковиков позиционируются как сайты с которых осуществляются переходы:

 

Выборка изСсылки из внешней страницы (остальные web сайты исключая поисковые системы)”:

Url из 257 азличных Страницы Процент
Yandex сервисы проходящие как ссылки со страниц сайтов
http://yandex.ua/ 671 25.8 %
http://yandex.kz/ 111 4.2 %
http://yandex.03compu.ru 1 0%
http://ya.03compu.ru 4 0.1 %
http://mail.yandex.ua/ 3 0.1 %
http://images.yandex.ua/ 3 0.1 %
http://images.yandex.ua/ 53 2%
http://images.yandex.kz/ 6 0.2 %
http://hghltd.yandex.net/ 2 0%
Nigma проходит как ссылки со страниц сайтов
http://www.nigma.ru/ 104 4%
http://nigma.ru/ 70 2.7 %
Google сервисы проходящие как ссылки со страниц сайтов
http://www.googl.com.ua/ 1 0%
http://googl.com.ua/ 1 0%
http://gogle.com.ua/ 3 0.1 %
http://74.125.77.132/search 2 0%
http://209.85.135.132/search 9 0.3 %
http://209.85.129.132/search 3 0.1 %
Существуют и другие IPадреса    
Mail.ru поисковые сервисы проходящие как ссылки со страниц сайтов
http://gogo.ru/ 3 0.1 %
http://go.mail.ru/ 458 17.6 %
Другие поисковики проходящие как ссылки со страниц сайтов
http://www.bing.com/ 79 2.9 %
http://poisk.ru/ 5 0.1 %

 

Что это ошибка AwStat применяемой для обработки логов и вывода статистики или ошибки поисковых систем надо выяснять. Но последнее явно имеет место поскольку имеется некоторое количество роботов (см. таб. 1 — более 10%) которые не имеют идентификаторов поисковых систем или не могут быть идентифицированы.

Заключение

По данным статистики моего сайта безусловным лидером РУНЕТ является Яндекс. Я знаком с Яндексом с 2002 года, когда создал на нем на нем "народную" версию своего сайта. За это время периодически пользуюсь возможностями его поиска, примерно в равной мере с Nigma и Google.

 

Думаю, современные поисковые системы должны предоставлять интеллектуальный поиск подобный Nigma (российская интеллектуальная метапоисковая система, кластеризующая поисковая система), но для меня удобнее было бы применение тематической кластеризации. Поскольку применяемая система валит в одну кучу предложения продажи и документацию.

А Сорокин,

февраль 2010 г.

Яндекс.Метрика

<<назад>> <<в начало>> <<на главную>>

Попасть прямо в разделы сайта можно здесь:

/Неизвестный процессор/Охлаждение ПК/Электроника для ПК/Linux/Проекты, идеи/Полезные советы/Разное/
/
Карта сайта/Скачать/Ссылки/Обои/Форум/Каталог/

При полном или частичном использовании материалов ссылка на "www.electrosad.ru" обязательна.
Ваши замечания, предложения, вопросы можно отправить автору через
гостевую книгу или почтой.

Copyright © Sorokin A.D.

2002 - 2012