Реклама в Интернет       Все Кулички
Новости науки и техники
1999
год
Новости
науки и техники







 
  

8 июля 1999

Искалки ищут хуже

Если вы читаете эту заметку, значит, вы имеете выход в Интернет. Если вы имеете выход в Интернет, значит, время от времени пользуетесь WWW. Если вы пользуетесь WWW, значит, иногда работаете с поисковыми системами, в просторечии - искалками. Автор этих строк еще помнит те дни, когда главными искалками Веба были WebCrawler и World Wide Web Worm. Потом появился Ликос, потом Альтависта с ее, казалось бы, неисчерпаемыми ресурсами. Сегодня на Вебе, кажется, можно найти все - надо только знать, как искать.

Это приятное заблуждение развеивают Стив Лоуренс и Ли Джайлс из фирмы "NEC Research" в Принстоне (США, штат Нью-Джерси) в статье, увидевшей свет в последнем номере журнала "Nature". Ни одна из изученных ими 11 искалок, включая пресловутую Альтависту, не индексировала больше 16% документов, находящихся в данный момент на Вебе. Комбинированная мощь всех поисковых серверов составила 335 миллионов документов - всего 40% от общего числа веб-страниц. По сравнению с 1997 годом, когда Лоуренс и Джайлс проводили предыдущее испытание искалок, показатели значительно ухудшились. Это и понятно - Сеть растет явно быстрее, чем возможности поисковых серверов.

Ученые выдвигают и другие претензии к искалкам. Здесь и преимущественное индексирование американских сайтов (и сайтов со ссылками на американские) по сравнению с европейскими, и предпочтение коммерческих сайтов образовательным. К добру это не приведет, предупреждают авторы. Например, из двух фирм, торгующих через Веб, та, которая проиндексирована лучше, будет иметь не всегда честное преимущество перед конкурентом (даже если проиндексированы обе - представьте себе, что Альтависта выдает ссылку на одну из них в первой пятерке, а на вторую - в конце седьмой сотни). Научные работы вообще индексируются очень слабо, что может вести к ненужной дупликации исследований. Наконец, предпочтения поисковиков при индексировании Веба могут влиять на социальные и политические решения людей, которые ими пользуются.

По оценке Лоуренса и Джайлса, в настоящий момент в WWW находится где-то 800 миллионов документов, занимающих 15 терабайт (если не считать HTML-разметку, комментарии и ненужные пробелы, объем падает до 6 терабайт - вот так люди пишут страницы), и около 180 миллионов графических файлов общим весом 3 терабайта. Из всего этого богатства 83% приходится на коммерческие страницы и только 6% - на образовательные. Вопреки распространенному мнению о Сети как о рассаднике аморальности, порнография составляет только 1.5% ее содержания.

Перекрытие между базами данных главных поисковых машин оказалось довольно низким. Поэтому авторы статьи рекомендуют пользоваться метаискалками, которые одновременно отправляют запрос на несколько поисковых серверов. Если же вы твердо решили отдать клавиатуру и сердце какой-нибудь одной искалке, то учтите - самая обширная база данных оказалась у Northern light. Альтависта скромно отдыхает.

Ссылки:

  1. http://news.bbc.co.uk/hi/english/sci/tech/newsid_388000/388394.stm
  2. Nature, v.400, pp.107-110

Обратно к списку заметок