Профессиональный поиск в Интернете

Кутовенко Алексей

Глава 4

Семантические и визуальные интернет-поисковики

 

 

Фрэнсис. Бэкон в свое время заметил, что правильная постановка вопроса свидетельствует о некотором знакомстве с делом. Этот афоризм четырехвековой давности можно применить и к процессу составления поисковых запросов. Для перевода сложного, комплексного вопроса в подходящий набор ключевых слов иногда приходится здорово поломать голову. Вот если бы поисковик мог прямо отвечать на задаваемые вопросы!. Хорошая новость: такие поисковые машины уже существуют и называются «семантическими», или же «поисковиками с обработкой запросов на естественном языке». В этой главе мы познакомимся с лучшими представителями этого класса интернет-поисковиков, реализующими семантические технологии разбора запросов на русском языке.

Прежде чем начинать рассказ о конкретных машинах, разберемся в некоторых характеристиках, отличающих семантические поисковики, и самых общих принципах их работы с точки зрения пользователя. Это позволит в дальнейшем избежать ненужных повторов.

Техническая реализация поиска по прямым вопросам с последующей выдачей на них осмысленных ответов в общем случае такова: поисковая машина принимает заданную пользователем поисковую фразу, после чего пытается автоматически выделить в ее составе ключевые слова и определить их взаимоотношения. Одновременно отбрасывается информационный шум, то есть слова, не несущие смысловой нагрузки. Другими словами, на данном этапе происходит автоматическая формализация поискового запроса и генерирование на его основе четкого поискового образа. Затем он передается более или менее стандартному алгоритму поиска в базе проиндексированных документов.

Следующая важная особенность семантических поисковиков – результаты поиска. Если обычные поисковики в основном предоставляют пользователю ссылки на веб-сайты, где предположительно находится необходимая информация, то семантические поисковики пытаются давать прямые ответы, самостоятельно выделяя в проиндексированных документах нужные фрагменты. В результате страница выдачи подобного поисковика выглядит несколько необычно. Вместо списка релевантных запросу ссылок пользователю предлагается список прямых ответов на заданный пользователем вопрос. Другими словами, главным режимом работы семантического поисковика является режим фактографического поиска.

Практически все современные семантические поисковики в настоящее время находятся в стадии бета-тестирования. В их работе еще встречается немало ограничений. Для эффективного использования таких машин в повседневной работе необходимо не только обладать сведениями об их возможностях, но и представлять себе сферу их применения, то есть ту область, в которой они обладают преимуществами по сравнению с обычными поисковиками.

 

Dialogus

Система Dialogus реализует только режим простого поиска, не предусматривая каких-либо дополнительных фильтров или инструментов составления запроса. Пользовательские запросы принимаются только в виде прямых вопросов. После отправки запроса Dialogus демонстрирует интересную особенность своего интерфейса: поисковая машина с помощью флэш-ролика иллюстрирует процесс обработки запроса в режиме реального времени. Пусть эта опция и не несет практической нагрузки, однако любопытно видеть, как запрос проходит фазы разбора и формализации, нормализации терминов, синтаксического и морфологического анализа, предварительного поиска в собственной базе Dialogus и Сети в целом, поиска стоп-слов и собственно выдачи текстового ответа. Страница выдачи Dialogus разделена на две главные зоны: рабочую область, содержащую основной список результатов, и боковую вспомогательную панель (рис. 4.1). В ней выводится список запросов, поступивших в систему от других пользователей и тематически похожих на заданный вами, а также, что особенно интересно, проводится поиск изображений, подходящих, по мнению поисковика, под тематику вашего запроса. Правда, эффективность поиска изображений пока невысока, равно как и релевантность предлагаемых картинок.

Рис. 4.1. Семантическая поисковая система Dialogus

Ответы Dialogus представляют собой краткие текстовые выдержки, в которых, по мнению системы, находится ответ на заданный вопрос. Каждый фрагмент сопровождается несколькими вспомогательными кнопками. С их помощью можно просмотреть более крупный фрагмент текста ответа или перейти на содержащую его веб-страницу. Для повышения точности работы системы применена обратная связь. Пользователям предлагается оценить ответ по пятибалльной шкале. Кроме того, предусмотрена кнопка, позволяющая пометить ответ как спам.

Заметим, что семантическая подсистема данного проекта действительно работает. Если при разборе вопросов могут происходить сбои в ходе формализации запроса, то выдаваемые прямые ответы, как правило, действительно полезны и сокращают время поиска конкретной информации.

 

AskNet

Система AskNet Global Search предлагает режим простого поиска по заданному пользователем вопросу. Отличие данной системы от конкурентов проявляется в возможности вести поиск в нескольких вертикальных базах, доступ к которым можно получить с помощью вкладок над полем запроса. Предлагается шесть таких баз, а также режим поиска во всех доступных источниках. При переходе к поиску в вертикальной базе под полем поиска предлагается выбрать источники, на которые будет отправлен запрос. Для поиска новостей предлагаются ресурсы Lenta.ru, Газета. ру, CNews и РБК. Выбор из трех-четырех источников возможен и в других вертикальных базах: «Энциклопедии», «Словари», «Магазины», «Медицина» и «Адреса».

AskNet лучше всего понимает только определенные типы вопросов. Перечень поддерживаемых в настоящее время конструкций на русском и английском языках подробно разобран в справочной системе проекта. Корректная работа алгоритма разбора запроса в форме свободно сформулированного вопросительного предложения гарантируется, если в нем содержится не более двух сказуемых или трех других однородных членов. Вопрос также должен быть грамматически верным и синтаксически согласованным. В принципе, AskNet может обработать и предложение с ошибками, однако ждать в таком случае достойного результата сложно. Если система не сможет обработать ваш запрос с учетом семантики, поиск будет проведен в обычном режиме, то есть только по ключевым словам.

При поступлении запроса система самостоятельно определяет наиболее вероятный объект поиска. При поиске учитываются синонимы, обрабатываются аббревиатуры и словесная запись цифр и дат. Семантические технологии в AskNet также работают на этапе выдачи результатов – связи между словами в поисковой фразе учитываются при сортировке результатов. Скорость работы данной системы не отличается быстротой, от принятия запроса до выдачи ответа может пройти около десяти секунд.

Страница выдачи AskNet Global Search предлагает традиционный список ссылок, сопровождаемый краткими выдержками из текста найденных веб-страниц, в которых красным цветом выделяются ключевые слова, содержавшиеся в вашем поисковом запросе, а зеленым – сформулированные системой на основе семантической обработки запроса. Оригинальный документ можно просмотреть, не покидая страницы поиска, для чего предусмотрена ссылка. Подробно, расположенная возле каждой позиции выдачи Она открывает на странице результатов фрейм, в который и загружается исходная страница. Если системе удалось найти прямые и точные ответы на заданный вопрос, например, дату, имя, численное значение какого-либо параметра, то эти данные приводятся отдельным коротким списком над основным списком выдачи.

Кроме стандартной версии семантического интернет-поиска, предлагается сервис AskNet Global Search Mobile. В настоящее время это единственное на рынке предложение русского семантического поиска, оптимизированное для мобильных устройств. В отличие от обычного режима, здесь нельзя выбирать вертикальные базы для поиска. К сожалению, данный сервис часто страдает от сбоев доступа.

 

Экспериментальные интерфейсы интернет-поисковиков

 

Одним из направлений улучшения качества работы пользователей с системами интернет-поиска стали эксперименты в области пользовательского интерфейса – визитной карточки любого поисковика. Отметим, что интерфейс не просто выполняет сугубо эстетическую функцию, но является средством построения удобной рабочей среды, необходимой для эффективного поиска. Кроме того, именно от его устройства во многом зависит перечень предлагаемых пользователю инструментов составления запроса и уточнения результатов поиска. В последние годы появилось достаточное количество поисковых проектов с нестандартными, экспериментальными интерфейсами. Попробуем разобраться, что они предлагают пользователям и готовы ли они отправить на свалку истории старый добрый интерфейс с выдачей результатов в виде текстового списка из десяти ссылок на страницу.

Прежде чем начинать рассказ об экспериментальных интерфейсах, попробуем вкратце разобраться с недостатками традиционного интерфейса. Привычная страница выдачи интернет-поисковика, как правило, представляет собой список из десяти текстовых ссылок, сопровождаемых краткой характеристикой. Как показывает практика, редкий пользователь просматривает больше двух-трех таких страниц, на которых обычно располагаются наиболее популярные ресурсы. Это порождает серьезную проблему «длинного хвоста» результатов, которые без дополнительного уточнения запроса пользователем, как правило, не просматриваются. Одним из способов решения данной проблемы является уже описанная нами ранее технология кластеризации, однако решать ее можно и с помощью экспериментальных интерфейсов.

Характерной чертой современных интернет-поисковиков является возможность поиска в вертикальных базах данных. Как правило, каждому виду поиска выделяют отдельную страницу, иногда со своими специфическими инструментами составления запроса и демонстрации результатов. Такая раздельная организация интерфейса удобна для глубокого поиска в конкретной базе данных, однако порождает ряд проблем в случаях, когда требуется собрать разнородный материал по определенной теме или же сравнить результаты выдачи по тематическому запросу на нескольких интернет-поисковиках. Проведя поиск в веб-документах, а затем переходя к поиску изображений, мы теряем результаты первого поиска и не можем одновременно просматривать оба списка выдачи Это не всегда удобно. Приходится одновременно открывать и просматривать несколько страниц, а затем думать о том, как бы удобнее сохранить результаты поиска. Данные операции требуют затрат времени и лишних усилий. Решение проблемы также может лежать в области разработки нестандартных пользовательских интерфейсов. Не случайно некоторые крупные универсальные поисковики стали «подмешивать» в результаты веб-поиска позиции, найденные в вертикальных базах.

Поисковики с традиционным интерфейсом для уточнения запроса предлагают весьма ограниченный набор инструментов. Как правило, это подсказки при вводе запроса и разные варианты запроса, которые помогают поправить орфографию или просмотреть близкие по написанию варианты слов из запроса. Некоторые экспериментальные поисковики предлагают интерфейсы с большим количеством оригинальных инструментов уточнения запроса.

Экспериментальные пользовательские интерфейсы поиска, опирающиеся на различные визуальные приемы повышения эффективности поиска, в отношении применяемых средств и решаемых задач можно условно разделить на группы.

К первой отнесем поисковики, интерфейсы которых построены с применением вкладок или же настраиваемого перечня колонок. Такой подход призван помочь пользователю при одновременном просмотре результатов поиска из нескольких источников: вертикальных баз одного поисковика или нескольких поисковиков в случае системы интернет-метапоиска.

Интерфейсы второй группы экспериментальных поисковиков можно назвать «облаками», или «картами». В них применяются различные способы визуализации результатов поиска, позволяющие, с одной стороны, увеличить количество отображаемых на одной странице результатов, с другой – предоставляющие пользователям дополнительные инструменты уточнения запроса и просмотра его результатов.

 

Zuula

Наиболее простым и показательным примером поискового интерфейса, построенного на вкладках, может служить проект Zuula. Его разработчики сделали ставку на демонстрацию списков выдачи нескольких поисковиков на одной странице результатов в виде вкладок, подобно тому, как это давно реализовано в популярных браузерах.

Zuula предлагает несколько вариантов поиска, представленных кнопками над полем ввода запроса. Это поиск веб-документов, изображений, новостей и блогов. При настройке поисковика для каждого из этих видов контента можно составить собственные списки ресурсов, результаты которых будут демонстрироваться в колонках на странице Zuula. Поскольку Zuula не производит дополнительную обработку полученных из внешних источников результатов поиска, этот поисковик может быть полезен, главным образом, для быстрого сравнения результатов работы различных поисковиков, а также как инструмент быстрого обращения с одним запросом к заранее созданной подборке поисковых ресурсов. Такая простота не является серьезным недостатком, поскольку с исходной задачей оптимизации поиска в нескольких источниках Zuula справляется.

Режим расширенного поиска в Zuula представляет собой подборку стандартных инструментов составления запроса, доступных на всех используемых системой поисковиках. Это позволяет составлять сложные запросы, не задумываясь о разнице в их синтаксисе на различных поисковиках.

Zuula располагает некоторыми полезными дополнениями, к которым относятся панели инструментов для браузеров Internet Explorer и Firefox, а также собственная форма поиска, размещаемая на сайте пользователя в качестве виджета.

 

Quintura

Одной из лучших на сегодняшний день реализаций визуального «облачного» интерфейса обладает поисковый проект Quintura. Кроме того, данная система объединяет возможности визуальных интерфейсов с кластерной технологией уточнения запроса. Сами разработчики называют ее «интерактивной поисковой системой».

Поиск можно вести в шести базах. Кроме привычных по большинству других поисковых проектов ссылок. Веб и Картинки, здесь присутствует ссылка. Шоппинг, а также ссылка. Поиск для детей, открывающая доступ к специализированному поисковику.

При веб-поиске Quintura задействует индексные базы поисковика Яндекс. Другими словами, перед нами – чистый эксперимент с пользовательским интерфейсом, а не поисковик как таковой. Запрос вводится только в режиме простого поиска, все уточнения предлагается производить с помощью кластерного визуального интерфейса (рис. 4.2).

Рис. 4.2. Современный интерфейс выдачи поисковика Quintura

Страница выдачи Quintura в настоящее время предлагается в двух версиях: старой и новой, отличающихся внешним видом и способами работы с кластерами. Соответствующий переключатель находится рядом с полем ввода запроса.

«Старая» страница выдачи разделена на две основные зоны: визуальную карту кластеров в левой части экрана и список ссылок активного кластера в правой. Внешне карта больше всего напоминает облако тегов – в центре находится введенное в поле поиска ключевое слово, вокруг которого располагаются тематически связанные с ним кластеры. Щелкая на кластерах, можно уточнить запрос с помощью дополнительных ключевых слов или же отфильтровать список выдачи, удалив из него ненужные кластеры. Такой прием призван максимально облегчить пользователям уточнение запроса. При проведении любой операции карта автоматически перестраивается с учетом внесенных пользователем изменений. Новые данные в списке ссылок на правой панели подгружаются в режиме реального времени, поэтому система Quintura чувствительна к скорости работы интернет-канала.

«Новая» версия страницы выдачи построена иначе. Облако кластеров вынесено в верхнюю часть страницы выдачи Кроме того, оно потеряло свою интерактивность. Теперь кластеры нельзя удалять из запроса щелчком на единственной кнопке – осталась только возможность быстрого добавления соответствующих ключевых слов к запросу. Взамен предлагается возможность быстрого просмотра первых результатов любого кластера при наведении на него указателя мыши. Надо заметить, что работает новый интерфейс быстрее своего предшественника.

Сам список результатов поиска представляет собой два десятка ссылок на страницу. Каждая ссылка сопровождается минимумом необходимых данных: адресом найденной веб-страницы и краткой текстовой выдержкой.

Детская версия Quintura поддерживает поиск только на заранее отобранных сайтах, содержащих «семейный» и познавательный контент. Основные инструменты поиска здесь повторяют основной сервис Quintura: облако кластеров, перестраивающееся при переходе между ними, автоматическое добавление ключевых слов к запросу при щелчке на кластере.

Раздел Шоппинг отличается тем, что поиск ведется только на сайтах онлайновых магазинов. Ассортимент раздела достаточно ограничен, а вот описания найденных товаров обязательно дополняются их фотографиями.

Результаты поиска изображений в Quintura аналогичны результатам системы Яндекс. Отличия состоят только в присутствии фирменного облака над списком результатов и отсутствием присущей. Яндексу группировки результатов.

Визуальный интерфейс Quintura удобен в работе и действительно ускоряет уточнение запроса. Работает Quintura достаточно быстро, производит впечатление завершенного продукта и вполне может претендовать на роль основного поисковика «на каждый день».

Облака ключевых слов – это достаточно удобный и симпатичный инструмент, однако у него есть свои ограничения. Во-первых, все кластеры в облаке располагаются на одном уровне и проследить иерархические и логические связи между ними достаточно трудно. Во-вторых, их количество на одной странице ограничено – если их окажется слишком много, в «облаке» можно и заплутать. В-третьих, практически единственным средством характеристики тега и соответствующего ему кластера ссылок является выделение тега цветом и шрифтом. Предполагается, что это позволяет быстро выбирать наиболее существенные кластеры. Это действительно так, однако обратной стороной становится некоторая предопределенность пути поиска. Подсказки как будто ведут пользователя по виртуальным рельсам, и сделать шаг в сторону от проторенной и наиболее популярной дорожки со временем становится все труднее.

 

AllPlus

Визуальный метапоисковик AllPlus – это достаточно свежая разработка, взаимодействующая с базами крупнейших современных поисковиков: Google, Yahoo! Bing и Ask.

Система предлагает различные варианты вертикального поиска: веб-документов, изображений, видео, а также способна искать в блогах и базе Twitter. Составлять запрос можно только в режиме простого поиска. Для дальнейшего уточнения используются кластеризация и визуализация.

Страница выдачи AllPlus разделена на три колонки. Центральная занята списком найденных ссылок, снабженных только заголовком, адресом сайта и текстовой выдержкой. Правая колонка содержит панели с перечнем лучших результатов заданного запроса, полученных из вертикальных баз новостей, картинок, видео и блогов.

Левая колонка предлагает доступ к инструментам уточнения запроса. Она разделена на две вкладки: Topics и Topics Graph. Первая демонстрирует список выделенных в ходе анализа кластеров. Кластеры показываются в виде иерархического списка. Вкладка Topics Graph включает визуальный режим просмотра перечня кластеров. Результаты открываются в новом окне или прямо в панели кластеров в зависимости от установленного переключателя Dock/Undock. В этом режиме просмотра список кластеров выводится в виде схемы. Центральным элементом схемы является кластер заданного при поиске ключевого слова. Значки других кластеров располагаются вокруг центрального (рис. 4.3). Их можно свободно перетаскивать, перестраивая тем самым карту. Щелчок на кластере закрывает карту и открывает соответствующую стандартную страницу выдачи AllPlus. Заметим, что данная система весьма чувствительна к установленной версии Java-машины, так что если у вас что-то не заработает, первым делом проверьте на своем компьютере версию установленной Java-машины и при необходимости обновите ее.

Рис. 4.3. Страница системы AllPlus в режиме визуального просмотра кластеров Topics Graf

Система AllPlus весьма удобна в работе, а ее визуальный интерфейс хоть и не отличается функциональностью, может реально поспособствовать скорейшему нахождению нужной информации. Заметим, что система способна нормально работать с русскоязычными запросами, однако качество кластеризации уступает ведущим российским проектам.

 

TouchGraph Google Browser

Крупные современные интернет-поисковики не торопятся внедрять на своих страницах визуальные технологии. Причин этому много – от здорового консерватизма до возможных проблем с совместимостью: практически все современные проекты визуализации построены на технологии Java или Flash. Однако это не значит, что эксперименты с интерфейсом поиска – это удел стартапов и малоизвестных поисковых машин. Сейчас можно найти ряд проектов сторонних разработчиков, предлагающих собственные интерфейсы для популярных поисковиков и онлайновых справочников. Примерами таких продуктов могут служить сервисы компании TouchGraph.

Упомянутые приложения состоят из трех инструментов, визуализирующих результаты поиска на Google, Amazon и Facebook. Возможности этих инструментов, равно как и их интерфейсы, очень похожи – по большому счету, отличаются только источники данных для анализа. Построены эти приложения на технологии Java и соответственно требуют наличия на компьютере Java-машины.

Поскольку возможности предлагаемых приложений близки, мы остановимся только на одном из них – TouchGraph Google Browser. Рабочее пространство этого апплета разделено на несколько зон и содержит любопытный набор инструментов. Большая часть окна приложения отведена зоне просмотра результатов поиска. Боковая панель содержит фильтры и окно информации о найденных сайтах.

Отправив поисковый запрос, пользователь может просмотреть его результаты в виде цветной графической схемы (рис. 4.4). С помощью панели инструментов TouchGraph пользователь может редактировать и перестраивать карту, выводя на нее значки или URL-адреса сайтов, выбирая количество отображаемых кластеров, задавая их цвета и расстояние между узлами. Перестраивать карту можно и вручную, перетаскивая мышью нужные узлы. Дополнительные инструменты сортировки доступны в контекстном меню, которое можно вызвать для любого элемента карты. С их помощью можно развернуть кластер для просмотра вложенных элементов, оставить на карте только выделенный кластер или же просто открыть связанный с выделенным узлом карты веб-сайт. При выборе конкретного сайта на соответствующей панели выводится краткая информация о нем.

Рис. 4.4. Поисковая визуальная система TouchGraph Google Browser

Боковая панель фильтров содержит полный список всех найденных сайтов – как отображенных на карте, так и скрытых, например, из-за выбранного пользователем масштабе изображения. Этот список можно сортировать по различным признакам: названию сайта, адресу. Кроме того, ссылки можно сгруппировать по кластерам. Такой фильтр запускается с помощью кнопок в крайней левой колонке списка – щелкая на них можно вывести отмеченную ссылку ближе к центру карты или же, наоборот, удалить ее из результатов поиска.

 

WikiMindMap

Проект WikiMindMap предназначен для визуального поиска в рамках сервиса Wikipedia. Изюминка проекта состоит в том, что при визуализации используются технологии так называемых «карт разума». Логичное решение, если учесть, что карты разума как раз и были в свое время придуманы для облегчения восприятия человеком больших объемов текстовой информации.

Интерфейс данного сервиса построен на технологии Flash. Поиск ведется в простом режиме и начинается указанием ключевого слова в поле поиска. Из дополнительных возможностей доступна только возможность выбора одного из одиннадцати поддерживаемых WikiMindMap локализованных версий Wikipedia. Русскоязычной версии (Википедии) в этом списке, к сожалению, пока нет. После нахождения подходящих энциклопедических статей в дело вступает алгоритм сортировки найденного. Найденные записи представляются в виде карты разума со всеми присущими этим картам особенностями, в том числе центральной темой (указанного в поисковом запросе ключевого слова) и иерархической структурой связанных терминов, которые выделяются пусть и не всегда безгрешно, но вполне достойно (рис. 4.5).

Рис. 4.5. Система визуализации WikiMindMap

На первом уровне иерархии WikiMindMap обычно находятся не отдельные термины, а их тематические группы, которые можно раскрывать, щелкая на значке +. Кнопки с зелеными стрелками перестраивают карту, помещая в ее центр соответствующее ключевое слово. Щелчок на конкретном термине открывает соответствующую страницу Wikipedia. Кроме страниц Wikipedia, на карте могут присутствовать и ссылки на внешние ресурсы. Они также берутся со страниц энциклопедии и помечаются особым значком. В результате привычная энциклопедия приобретает новые черты, информация автоматически структурируется, что действительно совершенствует процесс поиска справочной информации. Заметим, что работает система весьма и весьма быстро.

Полученную онлайновую карту можно сохранить на своем компьютере как файл в формате популярного свободного редактора карт разума FreeMind. Можно скачать и саму программу WikiMindMap. На сайте проекта представлено несколько различных скомпилированных версий, а также выложен архив с исходным кодом WikiMindMap.

 

Universe

Сервис Universe – это проект, находящийся на грани собственно интернет-поиска и изобразительного искусства. Для поиска применяются стандартные инструменты новостного сервиса Daylife, на серверах которого и работает Universe. Визуальный интерфейс проекта выполнен с помощью другой готовой технологии – инструментов проекта Processing.

Возможности составления запроса в Universe скромные – предусмотрен только режим простого поиска. После запуска поискового механизма система сама генерирует визуальную «вселенную», которая выглядит именно как карта звездного неба. Просмотр предлагается начать со щелчка на карте, после чего в ее центр выводится основной термин поиска. Дополнительные результаты демонстрируются в виде своеобразного кольца вокруг центральной темы (рис. 4.6).