В конце 90х годов прошлого века, когда
Российский Интернет стал обрастать всеми положенными
атрибутами появились и наши известные сейчас всем
поисковые системы. Почти одновременно появились Апорт
(февраль 1996), Рамлер (8 октября 1996), Яндекс (23
сентября 1997). Апорт являлся одной из первых в России
поисковой системой.
Поисковая система Апорт глазами
Wiki
Впервые была продемонстрирована в
феврале 1996 года на пресс-конференции «Агамы» по поводу
«Русского клуба». На тот момент поисковая машина искала
только по сайту russia.agama.com. В дальнейшем был
поиск по четырём серверам, потом по шести. В итоге день
рождения Апорта и фактический старт системы сильно
«размазались» по времени. Официальная презентация Апорта
состоялась только 11 ноября 1997 года, тогда машина уже
индексировала весь рунет (в поисковой системе Апорт был
проиндексирован первый миллион документов, расположенных на
10 тысячах серверов).
На текущий момент Апорт является частью
портала РОЛ. Принадлежит Golden Telecom. При поиске
учитываются особенности русского языка.
До начала 2000-х годов являлась неоспоримым
лидером поиска в Рунете, а с покупкой Агамы РОЛом почти вся
разработка была прекращена и поисковая система стала резко
сдавать позиции, заметно уступая по популярности Рамблеру и
Яндексу.
Опыт и наработки поисковой системы «Апорт»
были использованы при создании новой поисковой системы
gogo.ru (владелец Mail.Ru).
Особенности Апорт
К важным свойствам
первой версии поисковой системы Апорт можно отнести
перевод запроса и ответа на английский язык и обратно.
Второе свойство – реконструкция проиндексированных
страниц из собственной базы. Это дает возможность
просмотра уже несуществующих страниц.
Поисковая система
Aport 2000 была построена на основе выдачи результатов
по отдельно взятым сайтам. Для разделения ресурсов на
сайты Апорт использует информацию, которую предоставляет
каталог AtRus, или владельцы ресурсов.
www.aport.ru –
первым из поисковых систем Рунета реализовал базовые
технологии Google. «Page rank» - характеристика
популярности ресурса по формуле «обратных ссылок»:
ссылки с других сайтов на данный ресурс. Причем
учитывается не только количество, но и важность ссылок.
Вес ссылки с популярного сайта больше, а ссылки
включающие слова запроса ценятся выше, чем ссылки со
словом «здесь». К тому же, при обработке запроса
поисковая система Aport 2000 ориентируется на HTML – код
страницы, и наличие слов запроса в URL.
Еще одна
особенность приоритет сайтам, вошедшим в высшую и
элитную лиги Апорт – Каталог. В поисковой системе Aport
впервые была реализована возможность поиска по новостным
лентам.
Масштабируемость в
архитектуре Aport 2000 построена таким образом, что его
поисковую базу можно дробить на несколько отдельных
фрагментов, каждый из которых будет работать на своем
компьютере. После поиска по фрагментам для пользователя
рассчитывается общий ответ.
Вернемся в текущее время
Сейчас Апорт не
видно и не слышно.
Когда я перевел
свой сайт на платный хостинг в январе — феврале 2008
года, сразу же предложил его для регистрации в поисковой
системе и каталоге АПОРТ. Так с тех пор эта история и
тянется
Если, более чем
через год, «паук» АПОРТа все-таки начал заходить на мой
сайт, то в каталоге его так до сих пор и нет.
Все это время при
попытке зарегистрировать сайт я вижу:
Ваш сайт, расположенный по адресу:
http://electrosad.ru/ добавлен в список Апорта для
индексирования. После очередного обновления индекса
(в течение двух недель) вы сможете найти ваши
страницы при помощи Апорта.
ВНИМАНИЕ! Вы можете установить поисковую форму или
кнопку Апорта на своем сайте.
Подробности смотрите на:
http://www.aport.ru/forms/forms.htm
Каталог-Апорт:
Ресурс http://electrosad.ru/ уже зарегистрирован в
Апорт-Каталоге и находится на стадии проверки.
Воспользуйтесь платными услугами Апорт-каталога по
адресу
http://adv.goldentelecom.ru/price.php?site_id=2
|
Так сайт и
проверяется, уже скоро как два года. Может это попытка
направить сайт на платную регистрацию? Так нигде на
Апорте не говорится о платной регистрации в каталоге.
Говорится только о дополнительных платных услугах.
-
А вчера полазил по
сайтам нескольких поисковиков и обратил внимание на
интересную тенденцию. Нигде не нашел даже упоминаний о
каталогах.
-
Это и понятно, поисковый сервис работает не с каталогами, а
формирует свою базу данных по сайтам с помощью
специальных программных модулей - роботов (пауков)
индексируя содержимое сайта по своим типовым выборкам.
И успешные поисковые
сервисы считают своим успехом проиндексировать максимум
сайтов - это дает возможность привлечь больше
пользователей на их поисковый сервис. Эти индексы опираются не на заявленное содержимое сайта,
как это происходит с каталогами, а на его реальное
содержание. В этом случае полностью отпадает
необходимость в каталогах. Поэтому пишу здесь о каталоге
АПОРТ только как о показателе работы фирмы.
-
Сейчас, интерес
поисковой системы не в копейках полученных от
регистрации в каталоге, а в тысячах $
полученных от потока посетителе и просмотра рекламы. И
чем больше пользователей сервисом поисковой системы, тем
больше этих тысяч текущих на счета. А количество
пользователей поисковой системой на прямую зависит от
удовлетворения пользователей качеством поиска. Один из
факторов этого качества как раз и есть полное и быстрое
индексирование Интернет.
*(Наряду конечно с
качеством анализа запроса и выдачи именно того контента
который необходим давшему запрос.)
Наглядный пример
Goo...oogl (для которого я бы
исключил из его достоинств*).
и его сегодняшние финансовые возможности.
-
Но вернусь к
АПОРТу и попробую сравнить его с работу с другими
поисковиками на основе статистики моего сайта.
-
В течении месяца
мой сайт посещают более 30 (30 - 40) роботов (пауков)
разных поисковых систем.
-
Состояние за
январь 2010 года и на 5 февраля 2010 года, по данным
статистики моего сайта, приведены ниже:
Роботы/Пауки посетители |
Хиты |
Последний визит |
Хиты |
Последний визит |
За
январь 2010 |
На
05.02.10 |
33
различные роботы |
19
различные роботы |
Yahoo Slurp |
2633+127 |
31.01.10
|
265+15 |
05.02.10 |
Yandex bot |
1984+166 |
31.01.10 |
318+25 |
05.02.10 |
Googlebot |
800+219 |
31.01.10 |
69+32 |
05.02.10 |
MSNBot |
435+384 |
31.01.10 |
73+52 |
05.02.10 |
StackRambler |
622+5 |
31.01.10 |
114+1 |
04.02.10 |
robot
identified by 'crawl' |
433+59 |
31.01.10 |
18+4 |
03.02.10 |
robot
identified by 'robot' |
396+43 |
31.01.10 |
17+6 |
05.02.10 |
Java (Often spam bot) |
354 |
17.01.10 |
|
|
The
World Wide Web Worm |
263+9 |
29.01.10 |
2+2 |
05.02.10 |
robot
identified by 'bot/' or 'bot-' |
46+35 |
28.01.10 |
8+7 |
04.02.10 |
Speedy Spider |
28+27 |
31.01.10 |
1+1 |
03.02.10 |
Ask |
25+20 |
31.01.10 |
|
|
Alexa (IA Archiver) |
23+18 |
29.01.10 |
1+1 |
01.02.10 |
robot
identified by hit on 'robots.txt' |
0+37 |
30.01.10 |
0+12 |
05.02.10 |
Google AdSense |
11+18 |
31.01.10 |
2+3 |
03.02.10 |
HTTrack off-line
browser |
27 |
28.01.10 |
|
|
BaiDuSpider |
1+18 |
29.01.10 |
1+2 |
04.02.10 |
arks |
7+12 |
22.01.10 |
|
|
Aport |
16 |
26.01.10 |
6 |
04.02.10 |
Heritrix |
10+1 |
01.01.10 |
|
|
VSE |
11 |
09.01.10 |
|
|
MSIECrawler |
8 |
16.01.10 |
|
|
Powermarks |
7 |
29.01.10 |
|
|
robot
identified by 'spider' |
3+3 |
29.01.10 |
|
|
SurveyBot |
3+3 |
25.01.10 |
|
|
larbin |
3+3 |
25.01.10 |
|
|
The web
archive (IA Archiver) |
0+5 |
31.01.10 |
0+3 |
04.02.10 |
NG 1.x (Exalead) |
3 |
25.01.10 |
|
|
Python-urllib |
3 |
20.01.10 |
|
|
psbot |
1+1 |
25.01.10 |
|
|
Yahoo! Slurp China |
1+1 |
12.01.10 |
|
|
MJ12bot |
1+1 |
31.01.10 |
|
|
CFNetwork |
1 |
27.01.10 |
1 |
03.02.10 |
Ask |
|
|
8+5 |
05.02.10 |
W3C Validator |
|
|
2 |
04.02.10 |
Таблица 1.
В таблицу 1, для наглядности, я включены
все роботы (пауки) пришедшие на мой сайт за
рассматриваемый период. На мой взгляд порядковые номера
в данном списке почти соответствуют месту поисковика в
Рунет. Дата последнего захода оставлена поскольку она, в
некоторой степени, характеризует активность поисковика.
Общее число зашедших на сайт роботов за рассматриваемый
период 35.
Ссылки из поисковых
систем |
Страницы |
Процент |
Страницы |
Процент |
За
январь 2010 |
На
05.01.10 |
Yandex |
9643 |
62 % |
954 |
50.2 % |
Google |
5651 |
36.3 % |
903 |
47.5 % |
Rambler |
119 |
0.7 % |
28 |
1.4 % |
Unknown search
engines |
90 |
0.5 % |
8 |
0.4 % |
Google (Images) |
23 |
0.1 % |
3 |
0.1 % |
Aport |
6 |
0 % |
1 |
0% |
Yahoo! |
4 |
0 % |
3 |
0.1 % |
MetaBot |
1 |
0 % |
|
|
Таблица 2.
По крайней мере Yandex
держит первенство и тут и выше.
Но последняя таблица, в
некоторой степени, характеризует популярность
поисковика.
Из таблицы 2 понятна
низкая популярность АПОРТа (менее 0,004%). Она
определяется не только наличием ресурса в каталоге, но и
низкой активностью системы. Например из таблицы 1 видим
что активность роботов АПОРТа составляет менее 0,2%.
В ряде публикаций это
объясняется недостатком финансирования. Хотя объемы
финансирования других поисковиков напрямую зависят от их
популярности. Объемы финансирования, в конечном счете,
определяется объемом зарабатываемых денег, на что в
первую очередь влияет их популярность.
На мой взгляд это просто
плохой менеджмент.
-
Обращает на себя внимание
положение компании Яндекс, которая имеет около 30
различных сервисов, но активность ее поисковой системы в
Рунет заслуживает самых высоких похвал (таб. 1 дает 24%
от общего числа проиндексированных хитов). Как видим из
таблицы 1, число переходов на мой сайт из поисковой
системы Яндекс составило (в январе 2010 года) 62%, что
превысило число переходов Google
(36%) почти в два раза. Это в сумме более 98% или
основная масса переходов.
-
Мы видим в таблице 2
поисковик Рамблер на третьем месте с 0,7% от общего
числа переходов, а в таблице 1 на пятом с 7,5%
проиндексированных роботом хитов. Это может объясняться
широтой охвата компанией сервисов Интернет, где
поисковик только малая доля, пропорционально ему и
внимание компании к поисковому сервису. Возможно его
тоже ждет судьба АПОРТа?
-
Имеет место низкий
уровень переходов с поисковой системы Yahoo. При
активности индексации хитов роботом Yahoo Slurp (32%)
число переходов составило только 4 не процентов а в
абсолютном значении. Я это объясняю тем что мой сайт
является сайтом с русскоязычным содержимым. Но не смотря
на это интересен тот факт, что число посетителей из
US в январе 2010 года
составило 296 хитов или 117 страниц, что составило около
1%.
-
Хочу отметить новое
явление в Интернет.
Появились множество
систем позиционирующихся как поисковая система, но
таковыми в полном смысле они не являются. Часто это
каталоги, а иногда поисковики использующие чужие базы
данных для своего поиска. Конечно есть вероятность что
их роботы просто не идентифицируются и входят в число «robot
identified by …..», а переход определяется как
«Unknown search engines».
-
На моем сайте некоторая
часть ссылок с поисковиков позиционируются как сайты с
которых осуществляются переходы:
-
Выборка из
“Ссылки из внешней страницы (остальные web сайты
исключая поисковые системы)”:
-
Url из 257
азличных |
Страницы |
Процент |
Yandex
сервисы проходящие как ссылки со страниц
сайтов |
http://yandex.ua/ |
671 |
25.8 % |
http://yandex.kz/ |
111 |
4.2 % |
http://yandex.03compu.ru |
1 |
0% |
http://ya.03compu.ru |
4 |
0.1 % |
http://mail.yandex.ua/ |
3 |
0.1 % |
http://images.yandex.ua/ |
3 |
0.1 % |
http://images.yandex.ua/ |
53 |
2% |
http://images.yandex.kz/ |
6 |
0.2 % |
http://hghltd.yandex.net/ |
2 |
0% |
Nigma
проходит как ссылки со
страниц сайтов |
http://www.nigma.ru/ |
104 |
4% |
http://nigma.ru/ |
70 |
2.7 % |
Google
сервисы проходящие как ссылки со страниц
сайтов |
http://www.googl.com.ua/ |
1 |
0% |
http://googl.com.ua/ |
1 |
0% |
http://gogle.com.ua/ |
3 |
0.1 % |
http://74.125.77.132/search |
2 |
0% |
http://209.85.135.132/search |
9 |
0.3 % |
http://209.85.129.132/search |
3 |
0.1 % |
Существуют и
другие IPадреса |
|
|
Mail.ru
поисковые сервисы
проходящие как ссылки со страниц сайтов |
http://gogo.ru/ |
3 |
0.1 % |
http://go.mail.ru/ |
458 |
17.6 % |
Другие поисковики проходящие
как ссылки со страниц сайтов |
http://www.bing.com/ |
79 |
2.9 % |
http://poisk.ru/ |
5 |
0.1 % |
Что это ошибка
AwStat применяемой для
обработки логов и вывода статистики или ошибки поисковых
систем надо выяснять. Но последнее явно имеет место
поскольку имеется некоторое количество роботов (см. таб.
1 — более 10%) которые не имеют идентификаторов
поисковых систем или не могут быть идентифицированы.
Заключение
По данным статистики
моего сайта безусловным лидером РУНЕТ является Яндекс. Я
знаком с Яндексом с 2002 года, когда создал на нем на
нем "народную" версию своего сайта. За это время
периодически пользуюсь возможностями его поиска,
примерно в равной мере с Nigma
и Google.
-
Думаю, современные
поисковые системы должны предоставлять интеллектуальный
поиск подобный Nigma (российская интеллектуальная
метапоисковая система, кластеризующая поисковая
система), но для меня удобнее было бы применение
тематической кластеризации. Поскольку применяемая
система валит в одну кучу предложения продажи и
документацию.
А Сорокин,
февраль 2010 г. |