Профессиональный поиск в Интернете

Кутовенко Алексей

Глава 1

Универсальные интернет-поисковики

 

 

Универсальные интернет-поисковики – это основное и наиболее известное средство интернет-поиска. Такие поисковики обеспечивают максимальный охват различных ресурсов. Именно к универсальному типу относятся крупнейшие и наиболее популярные поисковые машины. Это действительно мощные решения с большим количеством возможностей и инструментов, о которых зачастую не знают многие пользователи. Понимание особенностей и возможностей универсального поиска позволяет узнать сильные и слабые стороны таких систем и осознанно выбирать максимально эффективные инструменты поиска.

Рынок универсальных поисковиков достаточно велик. В этой главе мы рассмотрим только наиболее мощные машины, способные достойно работать с запросами на русском языке. Открывают главу рассказы о лидерах русского поиска – системах Google.ru и Яндекс. О каждом из этих поисковиков написаны книги и масса статей. Мы сосредоточимся на основных характеристиках, имеющих значение для конечного пользователя, а также попытаемся определить их сильные стороны.

Компанию им составляет новая поисковая разработка корпорации Microsoft – система Bing, которая пока заметно обделена вниманием, а также полезный и достаточно мощный поисковик Exalead, преимуществом которого является хорошая поддержка поиска в европейских интернет-ресурсах. Данная система – пока редкий гость в поисковом арсенале наших пользователей, поэтому она рассматривается подробнее остальных.

В этой главе при обзоре систем Google и Яндекс мы сосредоточимся только на возможностях веб-поиска, а поиск в специализированных базах этих проектов рассматривается в следующих главах, посвященных поиску изображений и видео. Для других универсальных поисковиков сведения о мультимедиа-поиске приводятся сразу же при знакомстве с ними.

Поскольку три из четырех героев этой главы имеют зарубежное происхождение, сразу отметим, что мы анализируем возможности только их русских версий. Дело в том, что некоторые функции зарубежных систем, особенно экспериментальные, зачастую доступны только в оригинальных, как правило, англоязычных версиях сервисов.

 

Google

Поисковик Google заслуженно считается мировым лидером современного интернет-поиска. Основанная в 1998 году компания Google по сей день остается среди ведущих законодателей мод в сфере интернет-поиска и веб-сервисов.

Разработчики Google всегда отличались повышенным вниманием к совершенствованию алгоритмов своего поисковика, а также разумным консерватизмом в области пользовательского интерфейса. Возможности составления запроса на Google можно назвать классическими, да и способы отображения результатов поиска также стали своеобразным стандартом. В последнее время разработчики Google предприняли серьезные изменения в этих областях – слишком уж старомодно стал смотреться крупнейший поисковик на фоне молодых конкурентов.

Google обладает одной из крупнейших в мире индексных баз, что обеспечивает широкий охват источников информации. Индексная информация Google сведена в несколько вертикальных баз. Кроме наиболее известной базы «Веб», это несколько мультимедиа-баз («Картинки», «Видео»), работающих с источниками актуальной информации и сообщениями на RSS-лентах база «Новости», а также индексирующая сетевые дневники база «Блоги». Кроме того, Google предлагает широкий выбор дополнительных ресурсов, среди которых стоит отметить картографический сервис, каталог сайтов, службу вопросов и ответов. Эти ресурсы также можно рассматривать как инструменты поиска.

В базе «Веб» для составления запроса Google предлагает режимы простого и расширенного поиска. В режиме простого поиска из дополнительных инструментов доступна только виртуальная клавиатура. Расширенный поиск предлагает больше возможностей. Поскольку форма расширенного поиска доступна практически во всех поисковых продуктах Google, остановимся на ней подробнее (рис. 1.1).

Рис. 1.1. Форма расширенного поиска Google

Данная форма разделена на четыре зоны. Первая выделенная цветом зона содержит инструменты составления запроса с использованием логических операторов. Поддерживается поиск по точной фразе. Между словами, внесенными в поле. Со всеми словами, будет автоматически поставлено логическое «И». Поле С любым из слов добавляет между словами запроса логическое «ИЛИ», а Без слов – оператор «НЕ». В этой же зоне находится выпадающее меню, позволяющее выбрать количество результатов на странице выдачи в диапазоне от десяти до ста ссылок.

Следующая зона формы расширенного поиска содержит перечень основных фильтров. С их помощью можно ограничить поиск ресурсами на определенном языке или ресурсами, относящимися к какой-либо одной доменной зоне. Полезным часто становится фильтр. Дата, с помощью которого можно отбирать веб-страницы, проиндексированные в определенный промежуток времени. Поддерживается и поиск по конкретному, указанному пользователем сайту. Фильтр Расположение слов дает возможность указать, в каком элементе веб-страницы должны находиться указанные ключевые слова. Фильтр Права использования предназначен для отбора контента, распространяемого под определенными условиями. Данный фильтр особенно актуален при поиске файлов. Предлагается и семейный фильтр под названием. Безопасный поиск; он предназначен для автоматического исключения из результатов поиска потенциально оскорбительного или неприличного контента. Данный фильтр имеет три уровня действия. Строгий уровень отбрасывает все сомнительные сайты, умеренный действует только при поиске изображений, не сказываясь на результатах веб-поиска. Кроме того, фильтрацию можно полностью отключить. Как известно, Google индексирует не только веб-страницы, но и файлы различных типов: документы в форматах Microsoft Office, Google Earth, PDF, PostScript, RTF и SWF. Включить поиск по какому-либо из этих типов файлов можно, используя фильтр. Формат файлов.

Зона поиска по странице позволяет искать сайты, ссылающиеся на указанную веб-страницу (поле Ссылки), а также сайты, содержащие ключевые слова, тематически близкие указанной в поле Похожие веб-странице.

Расположенная в нижней части формы расширенного поиска зона Поиск по темам в настоящее время предлагает доступ только к поиску по исходному коду программ, распространяющихся с открытыми исходными кодами (Open Source).

При обработке запроса на русском языке Google достаточно осторожно использует изменение морфологических форм слова. Это сознательная позиция разработчиков. Взамен предлагаются поисковые уточнения, демонстрируемые над списком выдачи, в который и предлагаются другие словоформы наравне с предложениями по исправлению орфографии, опечаток, а также слов, ошибочно набранных при неправильной раскладке.

Страница выдачи Google по умолчанию предлагает список из десяти наиболее релевантных результатов поиска. Особенность Google заключается в том, что на своей странице выдачи этот поисковик демонстрирует концепцию так называемого «универсального поиска» (Universal Search). Выполнен он по рецепту Джеймса Бонда: «смешать, но не взбалтывать». Его суть заключается в том, что набранный в Google запрос по умолчанию отправляется на все основные специализированные ресурсы поисковика, а результаты такого поиска показываются единым списком. Конечно, показывать результаты поиска картинок или видео на одной странице с результатами веб-поиска умеют большинство современных поисковиков, располагающих такими базами, однако результаты из различных баз Google показываются не отдельными блоками на странице, а выводятся единым списком, при этом позиции разнородных результатов на странице выдачи распределяются по степени общей релевантности.

Соответствующие алгоритмы пытаются определить, что важней для темы поиска: обычная веб-страница, видеоролик, новость или сообщение в блоге, что и определяет порядок следования результатов в форме выдачи.

Для каждого результата приводится заголовок найденной страницы, текстовая выдержка, адрес веб-страницы, а также ссылки на сохраненную при индексировании в кэше поисковика копию веб-страницы и тематически подобные странички. Необходимо отметить, что поиск подобных веб-страниц пока не является сильной стороной Google и здесь, как правило, можно наблюдать небольшое количество результатов, а также информационный шум.

Для изображений, включенных в «универсальный» список выдачи, приводятся только их графические миниатюры. Видеоролики сопровождаются информацией об их длительности, а также дате добавления в базу.

В нижней части страницы находится поле для поиска в найденном. Его роль – возможность уточнения запроса пользователем за счет добавления новых ключевых слов (рис. 1.2).

Рис. 1.2. Инструменты уточнения запроса Google собраны на боковой панели списка выдачи

Дополнительные инструменты уточнения запроса вынесены на боковую панель, которая содержит несколько блоков фильтров. Первый сверху блок позволяет быстро перейти к поиску в основных вертикальных базах Google. Второй блок во многом повторяет перечни фильтров формы расширенного поиска. С помощью его инструментов можно отобрать результаты, представленные на языке, установленном в браузере пользователя по умолчанию, отфильтровать ссылки по дате добавления в индекс. Если пользователь является обладателем аккаунта Google, система может разделить в списке выдачи просмотренные и еще не просмотренные им результаты.

Отдельно отметим возможность настройки внешнего вида страницы выдачи Режим Колесо обозрения делит область просмотра результатов на две части. Первая предлагает визуальную карту результатов поиска: в центре демонстрируется поступивший запрос, а вокруг располагаются дополнительные, автоматически найденные ключевые слова, способные содержательно уточнить запрос. Режим Хронология упорядочивает результаты по хронологическому признаку, при этом учитывается не дата добавления страницы в индекс, а даты событий, о которых идет речь в тексте найденных веб-страниц. Данный режим позволяет наглядно увидеть историю развития той или иной темы. Для этого служит выводимая над результатами поиска «линия времени», разделенная на отрезки по 5 лет. Щелкнув на определенном делении, можно открыть результаты, текст которых относится только к этому отрезку времени.

Дополнительные варианты настройки есть и у стандартного режима просмотра. В режиме. Сайты с картинками под заголовком каждого результата поиска демонстрируются изображения, найденные на этом же сайте. В режиме. Предпросмотр страниц рядом с каждой позицией поиска выводится миниатюрный скриншот веб-страницы, что позволяет вспомнить нужный сайт по его внешнему виду.

Последней на сегодняшний день новинкой Google в области пользовательских интерфейсов стал режим «Живой поиск». Он включается автоматически при достаточной скорости интернет-соединения. В этом режиме список результатов поиска загружается немедленно после ввода или изменения поискового запроса пользователем. Кроме того, рядом со ссылками появились кнопки с изображением лупы. Они открывают всплывающие панели со скриншотами выбранных страниц.

Более подробного рассказа заслуживает режим. Поиск с переводом, который работает с помощью сервиса Google Переводчик. При его активации на странице поиска появляется меню выбора языковых пар. Результаты поиска выводятся в двух колонках: на оригинальном языке и переведенные на указанный пользователем язык. Данная функция очень полезна при поиске по национальным сегментам интернета. После перехода по переведенным ссылкам переводятся и целевые веб-страницы. Система перевода Google отличается хорошей скоростью работы, поэтому серфинг в таком режиме проблем не вызывает.

Главный плюс переводческой службы Google – большое количество поддерживаемых языков. Качество перевода с основных европейских языков вполне сносное, правда, это относится только к текстам так называемой «общей» лексики. Как только происходит переход на тематические ресурсы, качество перевода заметно падает. Как бы то ни было, в большинстве случаев понять смысл текста можно (рис. 1.3).

Рис. 1.3. Режим поиска с переводом полезен при работе с национальными сегментами интернета

Система поиска новостей в Google работает с новостными сайтами и другими ресурсами, предлагающими соответствующий контент. В отличие от веб-поиска допускается сортировка результатов не только по релевантности, но и по дате публикации.

Для поиска в блогах Google не предлагает каких-либо необычных инструментов или возможностей, просто ограничивая поиск ресурсами популярных блог-платформ. А вот база «Микроблоги» интересна тем, что индексирует сообщения популярного сервиса Twitter. Сортировка результатов поиска идет по дате их публикации. Для удобства работы со списком выдачи предлагается визуальная «линия времени», демонстрирующая количество «твитов» за последний день и позволяющая быстро находить сообщения за определенный промежуток времени.

Локальный поиск Google тесно связан с картографическими сервисами, поэтому его эффективность напрямую связана с качеством покрытия картами Google той или иной территории. Наилучшее качество обеспечивается для Северной Америки. При локальном поиске в русских ресурсах достойный охват обеспечивается только для крупных городов. Нельзя не отметить, что данное направление развивается, и результаты постепенно становятся лучше. Для запуска поиска по картам достаточно добавить слово «карта» к своему поисковому запросу.

Обладатели аккаунтов Google при настройке поиска могут включить режим записи своих поисковых запросов. Полученные сведения о переходах по ссылкам используются для улучшения списка выдачи Google. При желании историю своего поиска можно очистить в любой момент.

Google может похвастаться хорошим выбором вспомогательных справочных инструментов. Набор в строке поиска математического выражения позволит быстро вычислить его значения. Поддерживаются основные арифметические операции. В строке поиска также работает механизм перевода значений между различными единицами измерения и конвертации валют.

Некоторое время тому назад системой Google предлагался также достаточно широкий выбор поисковых операторов, которые можно было указывать в строке поиска для уточнения запроса. Сейчас большинство таких операторов доступно в форме расширенного поиска в виде фильтров. Активными и официально поддерживаемыми остались только оператор обязательного включения слова (+) и оператор автоматической подстановки слов в запрос. В последнем случае поисковик анализирует подобные по смыслу запросы, поступавшие в систему, и постарается дополнить поступивший запрос. Оператор define: позволит найти определения заданного в строке поиска слова в крупных справочных ресурсах. В то же время многие доступные ранее операторы продолжают работать. Их перечень, характеристика и примеры использования приведены в приложении А.

Активным пользователям Google стоит обратить внимание на проект Google Experimental Search, являющийся одним из разделов Google Labs (). Этот проект предлагает протестировать новейшие разработки Google в области поиска. Одновременно можно принять участие только в одном из предлагаемых экспериментов. В настоящее время там представлены два проекта, касающиеся работы с Google с помощью клавиатурных комбинаций.

Среди дополнительных программ для работы с Google отметим поисковые плагины для браузеров, а также официальную панель инструментов Google. Она предлагает быстрый доступ к поиску в вертикальных базах Google и возможность работы с историей поиска своего аккаунта Google. Кроме того, предлагается быстрый доступ к другим веб-сервисам Google.

 

Яндекс

Официально представленный широкой публике в 1997 году поисковик Яндекс успешно развивался и через десять лет впервые попал в число десяти крупнейших поисковых машин мира. В русском сегменте интернета он добился лидирующих позиций, которые пока не собирается уступать, несмотря на возрастающую конкуренцию. Отличительными чертами Яндекса с начала его существования стали собственные оригинальные алгоритмы определения релевантности результатов поиска, гибкие инструменты работы с текстом запросов и учет особенностей морфологии русского языка при их обработке.

Яндекс опирается на собственные индексные базы. Кроме поиска по веб-документам система предлагает неплохой выбор специализированных ресурсов и дополнительных сервисов. Яндекс в настоящее время работает с изображениями, видео, новостями, блогами и словарями. Мощные поисковые возможности заложены также в собственном картографическом сервисе и в системе поиска товаров. Кроме того, Яндекс ведет собственный каталог веб-сайтов. Сильной стороной Яндекса является развитая программа локального поиска, что особенно актуально для наших пользователей. Яндекс предоставляет возможность доступа к своим базам сторонним разработчикам. Как следствие, немало русских проектов альтернативного интернет-поиска так или иначе используют ресурсы Яндекса. Кроме обычной системы поиска предлагается и сокращенный вариант Яндекса, доступный по адресу ya.ru. Интерфейс этой версии состоит только из поля ввода запроса и кнопки начала поиска.

Поиск в веб-документах предлагает режимы простого и расширенного поиска. Простой поиск не предоставляет каких-либо фильтров, что компенсируется возможностью автоматического разбора запросов на естественном языке, уверенной обработкой относительно длинных запросов, а также системой автоматического дополнения запроса. Максимальная длина запроса – сорок слов.

Форма расширенного поиска для составления запроса предлагает только одно поле. Логические операторы, связывающие слова запроса, предлагается вводить вручную, благо. Яндекс располагает достаточно подробным языком запросов. Остальные инструменты формы расширенного поиска – это различные фильтры (1.4).

Рис. 1.4. Форма расширенного поиска системы Яндекс

Поле На сайте позволяет ограничить поиск определенным сайтом. Поле В регионе является фильтром, с помощью которого можно перейти к локальному поиску в ресурсах, связанных с определенной географической областью.

Фильтр Слова позволяет гибко управлять областью поиска указанных ключевых слов. Поиск может вестись как во всем тексте веб-страниц, так и ограничиваться только их заголовками. Здесь же находится группа переключателей, отвечающая за работу механизма учета морфологии в ходе поиска. Переключатель В любой форме дает поисковику команду искать не только указанную в запросе форму слова, но и другие его варианты. Переключатель Точно так, как в запросе отключает эту функцию Яндекса для всех слов запроса. Фильтр Язык ограничивает область поиска только документами на определенном языке. Поддерживается восемь языков, в том числе украинский, белорусский, татарский и казахский – достаточно редкие гости на других поисковых системах.

Фильтр Дата обновления позволяет указать временной промежуток создания или обновления нужных веб-страниц. Помимо перечня интервалов, данный фильтр позволяет указать произвольный диапазон дат. Фильтр Формат отвечает за выбор форматов нужных документов. Кроме веб-страниц в формате HTML, Яндекс индексирует файлы Microsoft Office (DOC, XLS, PPT), RTF, PDF и Flash-ролики. Интересно, что при ранжировании результатов поиска файлов различных типов используются стандартные алгоритмы Яндекса для работы с текстом и особенностями оформления. Для проиндексированных файлов названных типов в кэше поисковика сохраняется их текстовая версия.

Под формой составления запроса выводится блок, в котором составленный с помощью перечисленных инструментов запрос формулируется в виде текста на естественном языке. Это позволяет лучше представить условия запроса и избежать логических несоответствий.

Страница выдачи результатов поиска содержит список найденных ссылок. По умолчанию он сортируется по релевантности. Поддерживается также сортировка результатов по дате публикации или обновления. Переключатель режимов сортировки находится в нижней части страницы.

Для каждого результата приводится заголовок страницы, текстовая выдержка, ссылки на сохраненную копию страницы и другие результаты этого запроса к данному сайту. Для крупных интернет-ресурсов демонстрируются также ссылки на их основные разделы Наблюдать работу этого механизма можно, например, в результатах, полученных на крупных справочных ресурсах.

Непосредственно возле поля запроса находятся переключатели режимов поиска в найденном и локального поиска. Регион для локального поиска определяется автоматически, на основе IP-адреса пользователя. Изменить его можно вручную при общей настройке механизма поиска Яндекса.

Боковая панель страницы выдачи предлагает ссылки на результаты поиска по введенному пользователем запросу в вертикальных базах изображений и видео. Каких-либо дополнительных инструментов быстрого уточнения запроса на странице выдачи Яндекса нет (рис. 1.5).

Рис. 1.5. Страница выдачи поисковой системы Яндекс

После регистрации бесплатного аккаунта открывается доступ к службе «Мои находки». Она предназначена для сохранения истории поиска с помощью Яндекса. Любопытно, что сохраненные запросы впоследствии демонстрируются в списке автоподсказок при наборе нового запроса в поле поиска.

Новостной поиск Яндекса основан на индексировании ресурсов, участвующих в партнерской программе поисковика. Для попадания в индекс ресурс должен удовлетворять ряду требований как технического плана, так и организационного. В частности, сайт должен предлагать оригинальный контент, регулярно обновляться, а также иметь определенный стаж работы в интернете.

При поиске новостей на первый план выходит оперативность обновления индексных баз. Для решения этой задачи используется особый робот-индексатор, способный обрабатывать ресурсы в течение короткого промежутка времени. В результатах поиска можно увидеть ресурсы, обновленные десяток минут назад. Правда, такая оперативность достигается не для всех ресурсов, и в среднем Яндекс индексирует новости немного медленней, чем Google.

Форма расширенного поиска в новостях значительно отличается от аналогичной формы обычного веб-поиска. С ее помощью можно выбрать одну или несколько новостных рубрик для поиска и определиться с регионом, к которому должны относиться новостные сообщения. Фильтр Источники содержит перечень новостных ресурсов, с которыми работает Яндекс. При необходимости в этом списке можно отобрать только нужные источники и ограничить ими поиск.

Страница результатов поиска в новостях также имеет свои отличия. Фильтр Результаты поиска не только выводит статистику проведенного поиска, но и позволяет одним щелчком отобрать видеосообщения, статьи или интервью. Здесь же выводятся ссылки на так называемые пресс-портреты героев новостей, найденных по запросу пользователя. Пресс-портрет содержит краткую характеристику персонажа, его основной деятельности, список доступных интервью, перечень последних новостей, а также список пресс-портретов людей, часто упоминающихся в новостях вместе с данной личностью. Необходимо отметить, что пресс-портрет – это не заранее составленная справочная статья, а результат автоматической обработки информации новостных ресурсов.

Фильтр времени публикации позволяет отбирать новости по запросу за определенный промежуток времени – от текущего дня до месяца. А вот расположенная непосредственно под полем запроса панель с перечнем основных новостных рубрик поисковым фильтром не является – это просто ссылки на тематические страницы с последними новостями.

Результаты поиска по умолчанию группируются по сюжетам – подборкам новостей, посвященных одному событию, что позволяет составить мнение о том или ином событии по материалам нескольких источников. Для каждого результата приводятся заголовок, источник и время публикации.

Сервис Яндекс. Словари является справочным ресурсом. Он предлагает поиск по крупным онлайновым словарям и энциклопедиям, а также перевод на иностранные языки. Для уточнения запроса служит фильтр типа справочного ресурса. Поиск может быть ограничен только энциклопедиями или только результатами перевода. На странице выдачи результаты группируются по видам словарей, в которых было найдено определение ключевого слова из запроса. Сначала выводятся результаты универсальных источников, затем – тематических словарей и справочников. Результаты перевода на другие языки демонстрируются на отдельной панели.

Сервис Яндекс. Блоги работает с крупными блог-площадками, а также форумами, экспортирующими информацию о своих сообщениях в формате RSS. Доступны простой и расширенный режимы поиска. Простой поиск не предлагает каких-либо дополнительных инструментов, кроме самой строки поиска. Режим расширенного поиска здесь обладает своей спецификой, отражающей особенности контента. Фильтр Область поиска позволяет выбирать для поиска конкретный вид социального ресурса: блог, микроблог или форум. Поддерживается поиск в конкретном ресурсе и в диапазоне указанных пользователем дат. Особенно интересен блок фильтров. Автор. Он позволяет искать сообщения конкретного автора или сообщества. Кроме того, предлагается фильтр персональных характеристик автора: возраст, местоположение, пол и даже музыка, прослушиваемая автором в момент публикации записи, если, конечно же, в блоге есть такая информация. При поиске в блогах поддерживаются все стандартные поисковые операторы Яндекса, а также некоторое количество специальных операторов, которые в большинстве своем воспроизводят функции фильтров расширенного поиска.

Яндекс отличается гибким и достаточно подробным языком поисковых операторов, который можно использовать при составлении запроса. Подробный перечень доступных операторов, а также примеры их использования приведены в приложении А.

Из дополнительных поисковых инструментов отметим панель для браузеров Яндекс.Бар. Она предлагает быстрый поиск на всех сервисах Яндекса, умеет подсвечивать найденные слова на веб-страницах, а также переводить выделенные пользователем слова на иностранные языки.

 

Bing

Историю интернет-поиска от Microsoft простой не назовешь. На последовательно предлагаемых публике сервисах неоднократно менялись алгоритмы, используемые базы данных и, конечно же, названия. До начала 2000-х поисковик не располагал собственными базами и работал с внешними индексами от AltaVista, Inktomi и Looksmart. Первоначальное имя MSN Search использовалось до 2006 года, а затем на несколько лет изменение названий поисковика стало для Microsoft традицией.

Вместе с окончательным переходом на поиск в собственных индексныхMSN Search была переименована сначала в Windows LiveLive Search. Наконец, в начале лета 2009 на смену Live Search пришел новый поисковый проект Bing.

«Bing позволит иначе взглянуть на поиск информации в интернете и поможет пользователям в принятии важных решений», – именно таким заявлением начинался пресс-релиз Microsoft, посвященный запуску Bing. Стремления разработчиков были понятны: поисковики от Microsoft, несмотря на все старания, на Западе стабильно уступали по популярности лидерам – Google и Yahoo!. Если же говорить о русскоязычных версиях предыдущих поисковых проектов Microsoft, то по количеству и качеству находимых ссылок они намного уступали крупным российским поисковикам. В попытке догнать конкурентов разработчики Bing сделали ставку на улучшение качества поиска и внедрение новых технологий, многие из которых были приобретены вместе с создавшими их фирмами.

Необходимо заметить, что русскоязычная версия Bing, как и большинство других локализованных версий, лишена ряда дополнительных функций, например поиска по магазинам. Поскольку они, по сути, работают только в Северной. Америке, подробно останавливаться на них смысла нет.

В настоящее время Bing работает по собственным индексным базам и предлагает поиск веб-страниц, изображений и видеороликов. Все эти базы представлены в виде вкладок над главным полем поиска.

При поиске веб-документов доступны режимы простого и расширенного поиска. Интерфейс такого привычного элемента, как форма расширенного поиска, в Bing выполнен достаточно интересно. Форма открывается не в новом окне, а прямо на странице выдачи, что достаточно удобно, поскольку результаты изменения запроса на странице выдачи отражаются сразу, и уточнение запроса происходит весьма быстро.

К сожалению, система Bing лишена некоторых полезных и привычных на других крупных поисковиках функций. Например, она не обрабатывает слова, по ошибке набранные в другой раскладке, что уже давно умеют делать многие конкуренты. Не справляется она и с опечатками в ключевых словах – как на русском, так и на английском языках.

Форма расширенного поиска Bing состоит из четырех вкладок. Вкладка Условия поиска предлагает работу с логическими операторами, которые выбираются в предлагаемом выпадающем меню. Новые ключевые слова с автоматически добавленными операторами присоединяются к исходному поисковому запросу. Вкладка Веб-сайт или домен позволяет вести поиск только на конкретном сайте или домене, а также исключать соответствующие ресурсы из результатов поиска. Вкладки Страна или регион и Язык в полном соответствии со своими названиями дают возможность ограничить поиск определенным национальным сегментом интернета или же веб-страницами на указанном языке. Отметим, что в отличие от Google и Яндекс, в Bing поиск можно вести одновременно по нескольким выбранным языкам. Для этого достаточно добавить несколько соответствующих условий в форме расширенного поиска.

Страница поисковой выдачи Bing состоит из области просмотра результатов и боковой панели, содержащей вспомогательные инструменты. При веб-поиске на этой панели демонстрируются предложения по уточнению запроса. Надо сказать, что данная технология действительно работает неплохо и помогает быстро уточнять запросы. Для найденных ссылок показываются заголовок и адрес веб-страницы, краткая текстовая выдержка, а также ссылка на кэшированную версию страницы (рис. 1.6).

Рис. 1.6. Форма расширенного поиска Bing открывается прямо на странице результатов поиска

Мультимедиа-поиск Bing представлен базами изображений и видео. Для поиска изображений предлагается только режим простого поиска. Инструменты уточнения запроса вынесены на боковую панель страницы выдачи Доступны несколько фильтров. К традиционным для современных универсальных поисковиков отнесем фильтры размера картинки и ее цветности. В меню фильтра размера изображения присутствует пункт. Фоновые рисунки, который позволяет отбирать картинки в стандартных разрешениях для использования в качестве «обоев» рабочего стола персонального компьютера. Фильтр Макет позволяет отобрать изображения различных форматов: квадратные, широкоэкранные, а также высокие, то есть ориентированные по вертикали.

Гораздо интересней эффект применения фильтров, анализирующих визуальные характеристики самого изображения. Фильтр Стиль достаточно успешно отличает фотоснимки от рисунков и коллажей. Любопытен поиск по наличию на изображении людей, который предлагает несколько возможностей: можно искать только лица, портреты или же изображения людей в полный рост. Работает этот фильтр весьма качественно. Отметим, что система неплохо справляется даже с рисованными изображениями.

Дополнений у поисковика Microsoft Bing немного. Предложения ограничиваются поисковыми плагинами для браузеров.

 

Exalead

Одной из особенностей Европы, в том числе и в сфере интернет-поиска, является большое количество национальных языков. Поисковик, претендующий на место ведущего в Европе, просто обязан хорошо индексировать национальные сегменты интернета и качественно обрабатывать запросы на многочисленных европейских языках – как крупнейших, так и менее распространенных. Именно в данной области европейская разработка может получить серьезное конкурентное преимущество по сравнению с мощными заокеанскими конкурентами. На роль такого европейского поисковика в настоящее время всерьез претендует система Exalead. Данный проект был разработан в рамках исследовательской программы Quaere, финансируемой Евросоюзом.

Exalead располагает собственными индексными базами. Основные поисковые ресурсы системы – это базы веб-документов, изображений, видео и новостей. Стартовая страница Exalead предлагает возможность персональной настройки. На этой странице можно разместить ссылки на свои любимые сайты – они будут отображаться в виде графических миниатюр-скриншотов. Правда, для этого придется бесплатно зарегистрировать аккаунт, а также разрешить браузеру хранить куки-файлы Exalead.

Веб-поиск Exalead предлагает режимы простого и расширенного поиска. Форма расширенного поиска, как и в Bing, открывается прямо на странице выдачи Отметим, что Exalead предлагает не просто привычную форму с набором дополнительных полей, а сложное выпадающее меню, которое играет роль мастера по уточнению запроса (рис. 1.7). При выборе того или иного пункта в меню мастера в строку запроса добавляются новые элементы, а при необходимости операторы и спецсимволы.

Рис. 1.7. Мастер расширенного поиска Exalead

В меню мастера выделено три тематических блока. Первый блок дает возможность определиться с вариантами уточнения запроса. Предлагаются поиск по фразе, обязательное включение и исключение заданных пользователем слов, а также поиск с помощью масок. Поддерживается использование в запросе стандартных логических операторов. Кроме этих базовых опций, предлагаются и более интересные варианты. В режиме Approximate Spelling Search ищутся слова, подобные по написанию заданным. Режим Phonetic Search позволяет найти слова, похожие по своему звучанию на указанные пользователем. Если предложения по исправлению опечаток уже давно можно найти на других поисковиках, то поиск по звуковой транскрипции слова можно назвать новинкой.

Оставшиеся два блока расширенного поиска предлагают отфильтровать результаты по дате их появления в индексе поисковика, а также ограничить поиск определенным сайтом, заголовком страницы или другим формальным признаком.

Каждую позицию в перечне найденных ссылок на странице выдачи сопровождают миниатюры-скриншоты страниц и краткая текстовая аннотация (рис. 1.8). Страница выдачи Exalead также отличается широким выбором вспомогательных инструментов, собранных на боковой панели. Первый блок фильтров позволяет ограничить выдачу результатами, найденными на сайтах и в блогах. Следующие два блока позволяют отобрать контент определенного формата. Распознается большое количество «офисных» форматов файлов, а также видео– и аудиофайлы. Фильтр даты публикации позволяет быстро просмотреть результаты, проиндексированные в определенный промежуток времени. По умолчанию шаг такого фильтра – один год. Фильтр Related Terms предлагает ознакомиться с автоматически подобранными дополнительными ключевыми словами, которые способны помочь в уточнении запроса.

Рис. 1.8. Страница результатов поиска системы Exalead

Два последних блока фильтров выполнены в виде интерактивных круговых диаграмм. Они демонстрируют процентное распределение результатов поиска по языковому признаку и по принадлежности к национальным сегментам интернета. Щелкая на секторах диаграмм или же на соответствующих позициях сопровождающих списков, можно быстро отфильтровать результаты поиска по выбранному критерию. Любой найденный сайт можно добавить в свою персональную базу закладок.

Отдельным видом поиска в Exalead является поиск в Википедии. В этом режиме на странице выдачи все найденные ссылки сопровождаются не только стандартным скриншотом и текстовой выдержкой, но и перечнем тематических категорий, персон, организаций и местоположений, упомянутых в найденной статье энциклопедии. Страница выдачи содержит боковую панель с облаком тегов, в котором также выделены названные перечни дополнительных признаков. Кроме того, поддерживается быстрая сортировка результатов по языку с помощью выпадающего меню.

Exalead предлагает хорошие возможности для поиска мультимедиаконтента – изображений и видео. Инструменты расширенного поиска изображений вынесены на специальную панель фильтров, которая располагается над списком выдачи Кроме стандартных фильтров по размеру картинки и типу файла, предлагаются возможности отбора изображений по ориентации снимка (книжная или альбомная). Есть у Exalead и визуальные фильтры. С их помощью можно отбирать картинки по цветовой гамме – соответствующая палитра доступна на панели фильтров, а также разделить фотоснимки и рисованную графику, правда, эта опция не всегда работает уверенно.

При просмотре результатов поиска изображений доступен режим вывода найденных картинок в виде бесконечной ленты. Это значит, что результаты поиска не разбиваются на отдельные страницы, а новые миниатюры просто автоматически подгружаются по мере прокрутки страницы результатов. Включить эту возможность можно при настройке поисковика, установив флажок Allow infinite scroll in image search.

Видеопоиск Exalead работает в базах крупных видеохостингов. Полного списка поддерживаемых ресурсов разработчики не сообщают, однако в результатах тестовых запросов удалось отследить примерно два десятка ресурсов. Среди них – YouTube, Metacafe, Dailymotion, Reuters, Comedy Central и ряд других. Отметим, что в результатах попадались и ролики Rutube. На боковой панели страницы выдачи предлагаются опции для отбора результатов поиска по продолжительности ролика, источнику, а также тематической категории. В последнем случае используются теги, которыми ролики помечены на хостинге-источнике. Результаты можно отсортировать не только по релевантности, но и по дате добавления, а также рейтингам роликов на видеохостингах.

Для поиска новостных сюжетов можно воспользоваться вертикальным сервисом Voxalead News. Источниками роликов служат базы трех десятков телеканалов. Представлены проекты на английском, французском, китайском и арабском языках. Диапазон достаточно широк: от CNN до Al Jazeera, есть в списке и Russia Today. Результаты можно ограничить только выбранными пользователем каналами. Такая настройка доступна в меню Select Sources. Любопытно, что кроме поиска новостного видео Exalead предлагает поиск записей новостей десятка радиостанций. Щелчок на любой позиции в списке результатов, будь то видео или аудио, открывает страницу со встроенным плеером, а также полным текстом новости. Для каждого ролика предлагается панель тегов, состоящая из трех вкладок: People, Organization и Location. На них группируются автоматически выделенные из текста новости ключевые слова, относящиеся к персонам, организациям или географическим пунктам. Щелчки на них подсвечивают соответствующие фрагменты в тексте новости, а также включают переход в ролике к данному фрагменту.

Как и положено серьезным проектам интернет-поиска, Exalead обзавелся собственной «лабораторией», в которой представлен ряд экспериментальных разработок, пока не внедренных в основной поиск.

Экспериментальный интерфейс Exalead Constellations предназначен для визуализации результатов поиска. Найденные по запросу ссылки демонстрируются в виде своеобразной «звездной карты». При ее построении учитывается количество ссылок на тот или иной сайт – они демонстрируются в виде цветных лучей. Чем их больше, тем ближе к центру «галактики» будет расположена «звезда» сайта. Над полем поиска выводятся уточнения, с помощью которых можно быстро отсортировать ресурсы, посвященные персоналиям. Кроме того, в Constellations доступны практически все инструменты фильтрации стандартного варианта Exalead. Вызвать соответствующую панель фильтров можно с помощью ссылки Refines.

Любопытен экспериментальный сервис Exalead Wikifier. С его помощью можно «викифицировать» любую веб-страницу в ходе серфинга. Смысл этой операции заключается в том, что сервис ищет на открытой веб-странице ключевые слова, значения которых есть в Википедии, после чего подсвечивает их цветным выделением. Наведя на него указатель мыши, пользователь получает всплывающее окошко с информацией из сетевой энциклопедии, а также ссылки на страницу. Википедии и результаты поиска Exalead выделенного слова. Викифицировать можно не только указанную веб-страницу, но и текст, введенный в поле на стартовой странице Wikifier. В результате получается своеобразный встроенный справочник, прозрачно работающий во время серфинга.

Проект Chromatik Search предлагает поиск изображений по визуальным признакам. Поиск можно начинать с ключевого слова, а можно сразу же воспользоваться панелью визуальных инструментов. С помощью палитры выбираются цвета, которые должны присутствовать в нужном вам изображении. Их процентное соотношение устанавливается простым перетаскиванием ползунка Adjust Proportions. В результате можно достаточно точно описать характеристики искомой картинки. Благодаря этому простому в работе средству разработчикам Chromatik удалось, с одной стороны, добиться высокой точности запроса, а с другой стороны, сделать этот процесс максимально простым для пользователя. Во всяком случае, решающий аналогичные задачи алгоритм IBM QBIC заметно сложнее в освоении. Дополнительная настройка запроса позволяет управлять цветностью искомой картинки, а также искать более светлые или более темные изображения. Интересно, что характеристики запроса, составленные с помощью графических инструментов, дублируются текстом, который выводится над областью выдачи результатов. В результате Exalead предлагает один из наиболее удобных на сегодняшний день интерфейсов для визуального поиска изображений (рис. 1.9).

Рис. 1.9. Экспериментальный проект Exalead Chromatic Search

Есть у Exalead и своя экспериментальная поисковая машина для Twitter, которая называется Tweepz. В настоящее время она индексирует более пятнадцати миллионов аккаунтов. Интересно выполнена заявка на включение в индекс. Если пользователь желает, чтобы его сообщения попадали в базу Tweepz, достаточно зафолловить канал @tweepz. Система поддерживает собственный язык запросов. Он позволяет работать с масками, вести поиск по именам и географическому местоположению пользователей. Страница результатов поиска содержит боковую панель с хорошим выбором фильтров. Результаты можно сортировать по релевантности, количеству фолловеров и языкам. Кроме того, в Tweepz работает система автоматического поиска дополнительных ключевых слов, с помощью которых можно уточнить запрос.

Если рассмотренные нами ранее проекты отличаются своей технической сложностью, то Exalead Light демонстрирует прямо противоположный подход к поиску. Это «легкая», максимально упрощенная версия поиска Exalead, предлагающая только текстовые инструменты уточнения запросов Exalead Light отличается также более высокой скоростью работы. В то же время здесь не поступились качеством поиска – доступны все вертикальные базы проекта.

Exalead обладает хорошей подборкой дополнительных программ. Букмарклет Exalead позволяет создавать закладки на веб-страницы в ходе серфинга и сохранять их в своем онлайновом профиле. Поисковый плагин Exalead предлагает стандартные опции и работает в браузерах Internet Explorer и Firefox. Для веб-мастеров предлагается поиск по сайту на основе технологии Exalead. Впечатление от него двоякое. С одной стороны, там работают многие фирменные «фишки» Exalead, например визуальные фильтры-диаграммы. С другой стороны, глубина индексирования сайтов сильно зависит от страны их происхождения. Для русскоязычных сайтов такой поиск пока практически бесполезен.

 

Выводы и рекомендации

Для большинства пользователей универсальные поисковики являются основным, а зачастую и единственным средством интернет-поиска. Они предлагают хороший охват источников, а также набор инструментов, достаточный для решения основных поисковых задач.

Удобными особенностями интерфейса Google являются вынесенные на боковую панель страницы выдачи инструменты уточнения запроса, а также активное использование «универсального поиска» с равноправным ранжированием по релевантности результатов, полученных из его различных специализированных баз. Заслуживает внимания и удобный режим просмотра «Живой поиск».

В безусловном активе системы Яндекс – гибкий учет морфологии русского языка в ходе веб-поиска. Кроме того, данный поисковик предлагает достаточно удачную форму расширенного поиска, а также большой выбор поисковых операторов.

От знакомства с поисковиком Microsoft Bing в его современном состоянии остаются двойственные впечатления. С одной стороны, заметного изменения качества интернет-поиска не произошло и трудно давать прогнозы о возможных изменениях в данном направлении. К минусам отнесем также отсутствие в локализованных версиях Bing ряда дополнительных сервисов, теоретически способных привлечь пользователей. С другой стороны, с интерфейсом нового поисковика поработали серьезно и достаточно успешно. Кроме того, весьма неплох в Bing мультимедиа-поиск.

Поисковик Exalead демонстрирует хорошие результаты поиска ресурсов на европейских языках. Несложно самостоятельно убедиться, что, допустим, при поиске по одинаковому запросу на итальянском языке Exalead заметно выигрывает у Google как по широте охвата веб-ресурсов, так и по степени глубины их индексации. Тестовый поиск французских и немецких ресурсов не позволяет выявить однозначного лидера: в зависимости от запроса вперед может выйти и Exalead, и Google. В англоязычном поиске сильнее оказывался Google.

При выборе универсального поисковика важную роль играет качество находимых с его помощью ресурсов. Определить предпочтительный для конкретных задач поисковик можно «методом маркера». Суть его состоит в том, что вначале составляется некий тематический поисковый запрос, после чего опрашивается группа людей-экспертов в данной области на предмет выявления лучших, по их мнению, интернет-ресурсов по избранной теме. На основе данных опроса формируется список сайтов-маркеров, гарантированно релевантных запросу и содержащих качественную информацию. Затем запрос отправляется на тестируемые поисковики. Логика оценки проста: чем выше в результатах поиска будут расположены сайты-маркеры, тем лучше конкретный ресурс подходит для поиска информации по тестовой теме.

Эту схему вполне может применить и частный пользователь. Поскольку далеко не у всех под рукой имеется группа экспертов, основная проблема заключается в определении сайтов-маркеров. Для ее решения можно проанализировать разделы полезных ссылок, часто встречающиеся на тематических сайтах. Найдя действительно серьезный тематический ресурс по интересной вам теме, загляните в такой раздел – там вы найдете ссылки, отобранные энтузиастами своего дела, что позволит выявить сайты-маркеры, а приводимые в таких разделах описания ресурсов являются хорошими заготовками для конструирования тестового запроса.