Профессиональный поиск в Интернете

Кутовенко Алексей

Глава 3

Метапоиск

 

 

Сам факт наличия множества индексных баз данных сетевых документов, причем собранных с использованием разных методов и алгоритмов, порождает экологическую нишу для целого класса метапоисковых систем. Такие системы не занимаются самостоятельным сбором информации, а отсылают запрос пользователя на несколько других поисковых серверов, объединяют результаты поиска, производят их дополнительную обработку и выдают обобщенный ответ. Это увеличивает широту охвата поиска за счет обработки данных различных индексных баз. Кроме того, метапоиск экономит время пользователя, которое иначе пришлось бы потратить на личное обращение ко всем нужным серверам. Такова схема работы полноценной метапоисковой системы. В то же время существует ряд сервисов, пренебрегающих собственным анализом полученных результатов. В предельном случае вы можете просто получить пару-тройку отдельных страниц с результатами разных поисковиков. Данный подход, в общем-то, тоже имеет право на существование, однако далее мы остановимся только на нескольких по-настоящему инновационных системах. Дело в том, что проблема обработки результатов метапоиска стоит даже более остро, чем в случае отдельного поисковика. Не удивительно, что на метапоисковиках можно увидеть немало интересных экспериментальных решений.

У всех ведущих современных интернет-поисковиков есть одна общая черта – они выдают результаты единым списком, отсортированным по релевантности ссылок. При всех своих достоинствах данная схема порождает для пользователей проблемы при большом количестве ссылок в списке выдачи Не секрет, что мало кто просматривает на поисковике больше одного-двух экранов результатов, на которых может так и не найтись требуемой информации. В то же время нужные данные в итоге могут оказаться на сайте, занимающем какую-нибудь 108-ю позицию в общем списке. Получается парадоксальная ситуация: информация в Сети есть, она найдена, однако останется навсегда скрытой для пользователя, если он не сможет грамотно уточнить запрос или составить сложное поисковое выражение.

Одним из ответов на данный вызов стала технология кластеризации результатов интернет-поиска. Ее преимущества по сравнению с аналогами – возможность сравнительно простой автоматизации процесса. Кластерные технологии не требуют какой-либо специфической разметки веб-страниц, как это принято в комплексе технологий «семантического веба». Они также не нуждаются в сравнительно трудоемкой предварительной подготовке массива веб-страниц, используемой в веб-каталогах. Цена этого преимущества – некоторый процент информационного шума, неизбежного при автоматической обработке результатов поиска в Сети.

Получив запрос, кластерный поисковик, как и обычная поисковая система, сначала находит в своей базе соответствующие запросу веб-страницы. Различия начинаются на этапе сортировки результатов. Система проводит анализ найденных страниц и находит на них дополнительные ключевые слова, встречающиеся вместе с терминами из поступившего от пользователя запроса. Получившиеся в результате такого анализа подмножества страниц называются кластерами и с большой вероятностью относятся к разным аспектам темы запроса. Далее в недрах поисковика происходит следующее важное событие – определение релевантности ссылок и их позиции в результатах. Кластерная машина проделывает эту операцию отдельно для каждого кластера. При этом ссылки со страниц одного кластера, то есть сайтов аналогичной или схожей тематики, ценятся выше, чем ссылки с посторонних, пусть даже очень популярных ресурсов. В результате позиция сайта в списке выдачи по кластеру является своеобразным отражением ее оценки коллегами по тематическому цеху, что работает на качество поиска. Кроме того, ранжирование ссылок по отдельным кластерам позволяет вывести на первые позиции в кластерах полезные, но не «раскрученные» ресурсы, которым в обычных поисковиках с выдачей результатов единым списком и бесконечными войнами оптимизаторов мало что светит.

 

Nigma

Российские разработчики поисковых систем не остаются в стороне от современных тенденций – разработка кластерной машины Nigma ведется исследовательской группой из МГУ им. М. В. Ломоносова в сотрудничестве со Стэнфордским университетом. Предварительная версия сервиса была запущена в начале 2005 года. Nigma опрашивает все крупные базы, содержащие документы на русском языке, в числе которых Google, Yahoo! AltaVista, MSN, Яндекс и Рамблер, что обеспечивает широкий охват источников. Кроме того, постепенно генерируется собственная индексная база Nigma.

Система Nigma позволяет увидеть сильные стороны метапоисков. Помогает в этом практическом эксперименте правильная настройка механизма поиска Nigma. Прямо под строкой ввода запроса находится несколько выпадающих меню, среди которых есть меню. Поисковики. Именно оно дает пользователям возможность управлять подбором поисковиков, на которые отправляются запросы. Если выбрать только какой-нибудь один поисковик, то, по сути, с ним можно поработать в интерфейсе, построенном на кластерах. Попробуйте убрать из этого списка свой любимый универсальный поисковик – в результате полученный по запросу список выдачи наглядно продемонстрирует, сколько веб-страниц вы теряете, работая только с одной индексной базой.

Приятно отметить тот факт, что разработчики Nigma не пошли по соблазнительному для многих пути создания «кальки» уже существующего ресурса, а сделали ставку на инновации. Сильной стороной Nigma является тщательный учет специфики русскоязычных запросов.

Это проявляется в собственном алгоритме кластеризации результатов, а также в поиске по различным морфологическим формам, синонимам слов из запроса пользователя и обобщенным понятиям. Интересная особенность системы заключается в том, что поисковикам отправляются запросы не только по точно заданному пользователем слову, но и по его автоматически сгенерированным словоформам. Это существенно увеличивает количество найденных страниц. Такой режим поиска запускается, если по исходной словоформе обнаруживается слишком мало документов. Работа этого механизма видна в служебной информации о найденной ссылке на странице выдачи Если документ был найден без морфологического преобразования запроса, то рядом с ним будут просто указаны использованный поисковик и рейтинг страницы. Если же была найдена сгенерированная словоформа, то после названия поисковика появится буква «М».

Особого упоминания заслуживает мощная система исправления орфографических ошибок и опечаток в запросах Nigma умеет исправлять прямо-таки клинические случаи: до четырех ошибок в слове, набранном в неправильной раскладке, причем предлагаемые варианты сортируются на основе близости к звучанию исправляемого слова. Кроме того, в систему встроен собственный словарь компьютерных терминов – полагаем, не надо рассказывать, сколько может быть вариантов написания у многих заимствованных слов из данной предметной области и какие проблемы из-за этого возникают при поиске в Сети на русском языке.

В Nigma работает система автоматического дополнения вводимого запроса. Помимо предложений по написанию запроса, здесь появляются дополнительные результаты: перевод вводимых слов на английский язык, короткие ответы на прямые вопросы к системе, а также справка из Википедии по теме запроса. Кроме того, по выпадающему меню автозаполнения можно перемещаться с помощью клавиатуры, что улучшает эргономику. В результате данное меню превратилось в самостоятельный и довольно мощный инструмент поиска.

При работе с англоязычными запросами можно воспользоваться инструментом. Англоподсказка, который подсказывает правильные грамматические конструкции для запросов на английском языке, подставляет в запрос синонимы, имеющие аналогичный русский перевод. Однако пока это экспериментальная функция и ее возможности ограничены.

Поисковик Nigma обладает мощной системой поиска ответов на конкретные вопросы, а также может решать математические примеры и работать с химическими реакциями – уникальное пока предложение среди универсальных поисковиков. Для некоторых типов задач (линейные, биквадратные, бикубические уравнения и другие) выводятся не только ответ, но и ход решения задачи. Кроме того, быстрые ответы на такие вопросы демонстрируются в меню автозаполнения.

Подводя итог, можно сказать, что за счет охвата всех крупных русскоязычных индексных баз Nigma – отличное решение для широкого поиска. А применение кластеризации позволяет быстро уточнять свой запрос даже при первоначальном поиске в условиях малознакомых тем, благо дополнительные ключевые слова предлагаются автоматически. В результате данную систему вполне можно рекомендовать для повседневного универсального применения (рис. 3.1).

Рис. 3.1. Российский кластерный метапоисковик Nigma

Для обработки массива найденных ссылок Nigma, как уже было сказано, использует кластеризацию по собственному алгоритму, оптимизированному с учетом особенностей русского языка. Интерфейс страницы выдачи Nigma состоит из основного списка результатов и боковой панели, в которой выводятся иерархический список выделенных системой кластеров, а также краткие справочные сведения о предмете поиска. При щелчке на кластере открывается не только страница соответствующих результатов, но и список вложенных кластеров, позволяющих уточнить запрос. Кроме того, в Nigma действует система фильтрации результатов – установив флажки возле нерелевантных кластеров, их можно быстро исключить из общей выборки.

Интересной экспериментальной функцией Nigma является инфопоиск. Посмотреть на результаты инфопоиска можно на общей странице выдачи Действует он следующим образом. При индексации веб-страницы разбиваются на отдельные блоки данных. Блоки, относящиеся к вашему запросу, добавляются к результатам поиска с высоким рейтингом. В результате на высоких позициях в списке выдачи пользователь видит не только ссылки на максимально релевантные веб-страницы, но и отдельные блоки данных для менее релевантных страниц. Это действительно удобно: мы не теряем полезную информацию из «длинного хвоста» результатов и экономим время, которое иначе пришлось бы потратить на просмотр дополнительных веб-страниц.

Новинками Nigma являются режимы табличного и музыкального поиска. Если ответы на запрос пользователя можно представить в структурированном виде, Nigma формирует на основе найденных данных таблицу и выводит ее на странице выдачи над общим списком результатов. Это удобный режим представления данных, ценность которого повышает возможность сохранения таблицы в формате CSV. К сожалению, эта экспериментальная функция пока работает только с очень небольшим количеством запросов, кроме того, она замедляет работу поисковика. Если для вашего запроса доступен режим таблицы, то на странице выдачи появится специальный значок.

Поиск музыки с помощью Nigma интересен тем, что при индексировании аудиофайлов информация извлекается из MP3-тегов, что позволяет реализовать режим структурированной демонстрации результата поиска. Сведения о найденном файле представляются в виде таблицы. Информация группируется по именам исполнителей, названиям альбомов и композиций, а также жанрам. Кроме того, на соответствующей панели выводится текст песни, если таковой был найден. В принципе, подобный режим поиска привычен при работе со всевозможными плеерами, поддерживающими создание библиотек мультимедиа, однако в сфере интернет-поиска, тем более универсального, это новинка, причем весьма удобная. Найденные записи можно прослушать прямо на странице результатов поиска – для этого в Nigma предусмотрен встроенный плеер. Заметим, что Nigma выдает прямые ссылки на файлы, а не отправляет пользователя на исходную веб-страницу. Пользователи Nigma могут загрузить на сервер собственные файлы в формате MP3, которые будут исправно проиндексированы и станут доступны для всех посетителей Nigma. Свои файлы при желании впоследствии можно будет удалить.

Nigma предлагает также метапоиск в базах изображений поисковиков, задействованных при обычном поиске документов. Здесь кластеризация не используется – доступна только группировка результатов по размерам картинок.

 

Yippy

Кластерный метапоисковик Yippy имеет уже достаточно богатую историю. Используемый в нем алгоритм был разработан компанией Vivisimo. Под этим же именем система поиска работала до 2004 года, когда на основе алгоритмов Vivisimo был создан метапоисковик Clusty. Помимо более простого интерфейса, эта система в отличие от «демонстратора технологий» Vivisimo была рассчитана на самую широкую публику. Наконец, в 2009 году вместе с очередным изменением интерфейса и появлением дополнительных возможностей метапоисковик получил и новое имя – Yippy, под которым он сейчас и работает.

Yippy получает данные из дюжины источников. Для веб-поиска используют результаты систем Bing, Ask, Yahoo! и Open Directory. Кроме веб-поиска возможен поиск в новостях и блогах. В случае новостей задействуются базы CNN, Yahoo! ТТН Times и Reuters. Для поиска в блогах используются базы Blogpulse, Blogdigger, Feedster и Technorati.

Если рассматривать список этих индексных баз с практической точки зрения, то можно сделать вывод, что поиск с помощью Yippy станет хорошим дополнением к поиску с помощью Google. У вас будет возможность просмотреть объединенные результаты практически всех основных поисковиков на одной странице, обеспечив тем самым значительное расширение базы поиска и экономию собственного времени. Доступные варианты поиска выводятся в виде вкладок над полем ввода запроса. Интересно, что набор этих вкладок, а также список используемых в них поисковых ресурсов можно настраивать. Кроме того, можно создать собственную вкладку и подобрать состав входящих в нее ресурсов. Для перехода к такой настройке служит ссылка Preferences, находящаяся справа от поля поиска. Другие элементы управления на странице настройки позволяют задать количество результатов на одной странице выдачи, а также состав вспомогательной информации, выводимой рядом со ссылками на странице выдачи (рис. 3.2).

Рис. 3.2. Yippy является одним из самых мощных кластерных метапоисковиков

Процесс составления запроса здесь не отличается от «обычных» поисковиков. Все дополнительные инструменты уточнения запроса собраны на странице выдачи Кластеры, которые здесь называются «облаками» (Clouds), представлены на боковой панели в виде наглядного иерархического дерева. По умолчанию показывается не все дерево, а только корневые разделы, которые можно раскрывать щелчками мыши. В нижней части боковой панели находится поле быстрого поиска в найденных кластерах (Find in clouds). После отработки уточненного запроса все кластеры, в которых встречается дополнительный термин, получают цветную подсветку. Кроме вкладки Clouds, на боковой панели расположены вкладки Sources и Sites. Они носят вспомогательный характер и позволяют сортировать результаты веб-поиска по другим признакам, например поисковым машинам, с которых были получены ссылки, или же по доменам найденных сайтов. Названия и содержание закладок Yippy изменяются в зависимости от типа поиска. Например, при поиске изображений кластеры выделяются по размерам изображений, имени и домену источника, а также типу файла.

Форма расширенного поиска, вызываемая ссылкой Advanced, содержит фильтры языка и типа файлов и позволяет ограничить поиск конкретным сайтом или доменом.

В аннотациях к найденным ссылкам на странице выдачи Yippy показывается традиционная для метапоисковиков строка, сообщающая, в каких именно базах был найден данный документ и его рейтинг в этих системах. Удобная особенность Yippy – возможность предварительного просмотра найденных страниц в небольшом фрейме прямо на странице результатов поиска рядом со ссылками.

Весьма интересным получился раздел кластерного поиска в Википедии, который становится удобным средством поиска в случае, когда требуется не просто найти одну статью по конкретной теме, а охватить целиком некую предметную область. Выделяемые системой кластеры здорово экономят время, которое при обычном режиме поиска было бы затрачено на открытие и просмотр связанных статей из Википедии.

Отметим наличие в Yippy интерфейса, оптимизированного для мобильных устройств (m.yippy.com). Здесь кластеры группируются в виде горизонтальной линейки в верхней части страницы выдачи, а вместо строки фильтра появляется раздел Refine Query, предлагающий варианты уточнения запроса.

 

Системы «классического» метапоиска

Для полноты картины упомянем несколько метапоисковиков, не использующих в своей работе кластеризацию. Среди зарубежных «классических» метапоисковиков стоит назвать такие ресурсы, как Dogpile () и Metacrawler (). Они основаны на одном алгоритме и работают с Google, Yahoo! Ask, LookSmart, About, FindWhat и некоторыми другими машинами. Полученные списки обрабатываются и сортируются по релевантности. «Классический» русскоязычный метапоиск наилучшим образом реализован в системе Metabear/Metabot. Получаемые данные дополнительно обрабатываются по собственному алгоритму. Работает поисковик сразу по двум адресам: на metabear.com расположена английская версия, а на metabot.ru – русская. Среди поддерживаемых поисковых машин и каталогов – Яндекс, Рамблер и Апорт.

При поиске через Metabot можно применять логические операторы и задать режим точного совпадения фразы. Излишне увлекаться данной возможностью не следует, поскольку используемые поисковики могут по-разному толковать одни и те же операторы, что может привести к неправильной трактовке запроса и ухудшению результатов поиска.

Что касается интерфейса, то здесь все выдержано в строгом стиле: ссылка, краткая текстовая выдержка из документа, перечень нашедших его поисковиков. Ключевые слова подсвечиваются цветом.

Кроме работы с веб-документами, система Metabot способна искать специфичные ресурсы: видеоклипы, музыкальные файлы и FTP-архивы.

 

Ixquick

Согласно некоторым статистическим подсчетам, обычный житель. Лондона за день попадает в объективы примерно трех сотен телекамер наблюдения. В. Нью-Йорке свободы побольше: там среднего жителя за день фиксирует всего двести камер. К этому очередному цивилизационному стандарту постепенно стремятся и другие страны. Сбежать от тотального наблюдения в виртуальное пространство становится все труднее, пресловутая сетевая анонимность, позволю себе скаламбурить, становится все более виртуальной.

Возможности отслеживания сетевой активности сейчас самые богатые. Даже если говорить только об интернет-поиске, можно отметить, что некоторые крупные поисковики сохраняют информацию о проводимых пользователями поисках. К счастью, на многих системах эта опция явно описывается в справке, поэтому у пользователя есть возможность при желании отключить режим записи своих сеансов поиска. Однако отдельные машины, в том числе занимающие лидирующие места на рынке, собирают эту информацию, не спрашивая согласия у пользователей. Это обычно обосновывается необходимостью сбора статистики для улучшения механизма поиска и предоставления дополнительных сервисов. Вот только нет никаких гарантий того, что эти данные никогда не будут переданы третьей стороне или же банально украдены. Ничего не имея против прогресса, все равно спокойней себя чувствуешь, когда в пределах досягаемости находится какая-нибудь волшебная кнопочка под названием «Выключить все». Именно на эту роль и претендует сервис Ixquick.

Система метапоиска Ixquick работает с десятью внешними базами. Это поисковики Bing, Yahoo! Ask, All the Web, Cuil, Entire Web, Gigablast, каталоги Qkport и Open Directory, а также Wikipedia. В списке баз отсутствует Google, однако охват альтернативных систем стоит признать достаточно широким, что делает данный метапоисковик весьма ценным ресурсом. Поддерживается поиск на восемнадцати языках, в том числе русском.

Ixquick предлагает три режима поиска: Ixquick Search, Power Search и Expert Search. В отличие от большинства других поисковиков, быстро сменить режим в ходе поиска не удастся. Для этого придется обратиться к странице настройки системы. Первый из названных режимов, по сути, является режимом простого поиска. С его помощью можно составить запрос, содержащий только какое-либо одно условие. Дополнительных фильтров и инструментов уточнения запроса здесь нет Power Search и Expert Search – это, фактически, два варианта расширенного поиска, отличающиеся количеством доступных возможностей поиска Power Search предлагает стандартные средства работы с логическими операторами: поиск с обязательным включением или исключением указанных ключевых слов, поиск любых слов, поиск точной фразы Expert Search, кроме этого, поддерживает поиск в заголовках страниц и тексте URL-адресов, ограничение поиска определенным доменом, а также позволяет находить сайты, ссылающиеся на указанную пользователем веб-страницу.

Рядом со строкой ввода запроса находится перечень задействованных в ответе на запрос поисковиков и каталогов. При необходимости можно исключить из списка выдачи результаты определенных машин щелчками на их значках.

Полученные от внешних источников результаты обрабатываются, и пользователю предлагается объединенный список уникальных результатов, найденных на различных поисковиках. Для определения релевантности результатов и, соответственно, их позиции в списке выдачи используются собственные алгоритмы Ixquick. Кроме того, на странице результатов поиска рядом со ссылками, которые были высоко оценены целевыми поисковиками, выводится их рейтинг в виде линейки «звездочек». Каждая звездочка означает, что какой-либо из поисковиков поместил эту ссылку на первые позиции в своем списке выдачи При наведении на них указателя мыши появляется всплывающая подсказка со сведениями о нашедших данную ссылку поисковиках и ее позиции в их списках выдачи В остальном страница результатов весьма проста: из дополнительных инструментов уточнения запроса присутствует только строка поиска в найденном, расположенная в нижней части страницы выдачи (рис. 3.3).

Рис. 3.3. Страница выдачи метапоисковика Ixquick

Ixquick может похвастаться некоторыми полезными функциями, демонстрирующими внимательное отношение разработчиков к вопросу приватности пользователей Ixquick предлагает сразу несколько инструментов повышения скрытности поиска и серфинга. Начнем с его способности выступать в качестве прокси-сервера. Рядом с каждой найденной ссылкой в списке результатов поиска находится ссылка Proxy. Щелчок на ней открывает целевой сайт в защищенном режиме, в котором Ixquick выступает в качестве посредника, скачивая запрошенную веб-страницу и выводя ее в собственном интерфейсе для просмотра. При этом внешний сайт не может узнать IP-адрес пользователя, сохранить его куки-файл или как-то иначе нарушить приватность просмотра. При переходе по ссылкам на найденной веб-странице все новые адреса также открываются с помощью прокси-сервера Ixquick. У защищенного режима Ixquick, конечно же, есть некоторые ограничения. В частности, отключаются присутствующие на веб-страницах скрипты, теряют работоспособность многие формы ввода данных. В то же время для обычного серфинга возможностей Ixquick вполне достаточно.

Что же касается самой системы Ixquick, то она не записывает никаких данных пользователя и не хранит историю поиска. Более того, даже при сохранении вариантов настройки механизма поиска у пользователя есть выбор: записать их в куки-файл браузера или же сгенерировать персональный URL-адрес для доступа к странице поиска Ixquick, к который и будут относится сделанные настройки.

Кроме веб-поиска, данная система предлагает поиск изображений, видео и номеров телефонов. Поиск изображений решен достаточно просто и не предлагает ни режима расширенного поиска, ни дополнительных фильтров, кроме «семейного». Видеопоиск в Ixquick опирается на базы системы Blinkx. На странице выдачи предлагаются небольшие Flash-превью найденных роликов. Уточнить запрос можно с помощью тематических фильтров, которые выводятся рядом со строкой запроса вместо предлагаемого при веб-поиске перечня задействованных поисковиков. Поиск номеров телефонов ведется с помощью специальной формы запроса, которая позволяет искать как частные номера, так и номера организаций. Поиск может вестись в нескольких десятках стран. Поддерживается и реверсивный поиск абонента по его номеру. Результаты такого поиска нельзя назвать исчерпывающими, и зачастую Ixquick уступает специальным справочным сервисам.

Из программных дополнений Ixquick оснащен поисковым плагином для браузеров, а также полнофункциональной панелью инструментов для Internet Explorer и Firefox.

 

Выводы и рекомендации

Ценность метапоиска состоит в широком охвате ресурсов. Именно они позволяют наглядно убедиться, что обращаясь к одному, пусть даже самому лучшему «обычному» поисковику, вы рискуете пройти мимо ресурсов в альтернативных базах данных. Особый интерес представляют метапоисковики, поддерживающие кластерные технологии обработки результатов.

Как нетрудно заметить, прелесть кластерных технологий в полной мере ощущается при поиске по широким запросам. Благодаря возможности уточнять свой запрос по подсказке системы вы найдете искомый результат гораздо быстрее, чем при работе с традиционными поисковиками. На выходе получается не просто список ссылок, а набор тематических разделов, позволяющий быстро составить мнение о предмете поиска. Появляется шанс познакомиться с ресурсами, которые в другом случае вы бы, скорее всего, никогда не увидели. Есть у кластеризации и несколько побочных эффектов. Например, это возможность отследить ассоциативные связи между различными темами, а также в определенной степени обработать синонимы естественного языка – кластерный поисковик не спутает естествоиспытателя. Дарвина с одноименным австралийским портом.

Безусловным лидером в сфере метапоиска русских ресурсов является система Nigma. Хороший охват, достаточно качественная кластеризация, большое количество вспомогательных функций – вот сильные стороны этого метапоисковика.

При поиске зарубежных ресурсов такого однозначного лидера среди современных метапоисковиков нет. Весьма удобна в работе система Yippy. Она оснащена качественными алгоритмами кластеризации и хорошим набором инструментов уточнения запроса. Метапоисковик Ixquick позволят вести поиск в хорошей подборке альтернативных поисковых баз, а также предлагает любопытные инструменты повышения приватности серфинга. Таким образом, выбирать метапоисковик в данном случае следует исходя из особенностей конкретного запроса.