Профессиональный поиск в Интернете

Кутовенко Алексей

Глава 5

Рекомендательные машины

 

 

Эпоха «социального Web 2.0» открыла новую ипостась интернет-поиска. Появились поисковые сервисы, по-английски метко названные «Discovery Engines», то есть «машины открытий». Наиболее распространенный вариант перевода этого названия на русский язык – рекомендательные сервисы. Обычные поисковики способны работать только по прямому запросу пользователя и обладают ограниченными возможностями его уточнения. Запросы на рекомендательных машинах работают по принципу анализа ассоциативных связей. Проанализировав тем или иным способом предоставленную пользователем информацию о его вкусах или потребностях, такие машины автоматически подбирают подходящие предложения из своих баз. Метод поиска, основанный на сборе подобной статистики и применении статистических методов анализа, принято называть «коллаборативной фильтрацией». Рекомендательные машины без преувеличения являются одним из самых полезных классов поисковых приложений Web 2.0.

Рекомендательная функция современных интернет-сервисов становится все более выраженной. Инструменты автоматической рекомендации доступны на значительном количестве мультимедиа-хостингов, а также являются частыми гостями интернет-магазинов. Однако используемые в таких проектах алгоритмы достаточно просты и редко могут похвастаться точными попаданиями. В то же время существует ряд сервисов, для которых рекомендации – это основная специализация. Именно такие решения рассмотрены в данной главе.

Рекомендательные машины можно разделить на два типа: универсальные и тематические. На универсальных ресурсах можно искать и получать рекомендации не только по выбору книг или фильмов, но и музыки, подарков, телепередач, сайтов и других объектов. Тематические рекомендательные машины, как правило, сосредотачиваются на каком-либо одном виде контента. Здесь рассмотрены лучшие представители этих направлений. Примером универсального ресурса выступает крупнейший российский проект рекомендательного плана Imhonet. Тематические проекты представлены сервисами, работающими с музыкой, видео и веб-сайтами.

 

Imhonet

Информацию, необходимую для расчета рекомендаций, система получает социальными методами. Каждому новому пользователю Imhonet предлагается выставлять оценки предлагаемым объектам. Как только накапливается некий необходимый минимум оценок, пользователь начинает получать рассчитанные именно для него рекомендации и прогнозы.

Чтобы пользоваться рекомендациями можно было как можно скорее, уже в ходе регистрации аккаунта Imhonet предлагается оценить два десятка книг, фильмов и подарков. За счет продуманного интерфейса (на странице выводится сразу шесть объектов, а новые подгружаются по мере оценивания), этот процесс проходит на редкость быстро.

Наиболее качественно на Imhonet реализована работа с фильмами и книгами. Для определения оценок по десятибалльной шкале предлагается весьма функциональная панель. На ее вкладке. Детализированная оценка можно оценить до десятка отдельных характеристик фильма или книги, а также указать, насколько давно состоялось знакомство с оцениваемым произведением. Кроме того, оценку можно пометить как знаковую, которая будет иметь при расчете будущих рекомендаций максимальный вес, а также как неактуальную. При наведении указателя мыши на любой пункт оценки всплывают подсказки со словесной характеристикой, что в определенной степени способствует унификации оценок различных пользователей (рис. 5.1).

Рис. 5.1. Универсальный рекомендательный сервис Imhonet

Список рекомендаций каждого тематического раздела имеет собственные варианты настройки. Так, например, для фильмов можно указать временной промежуток их выхода, жанр, минимальный средний балл рекомендуемых произведений и минимальное количество рекомендующих их пользователей. Любопытно, что предлагается также фильтр, с помощью которого можно отсеять фильмы с очень большим количеством оценок. Это призвано избавить пользователя от банальных и общеизвестных результатов.

Страница выдачи, кроме собственно списка предлагаемых произведений, содержит достаточно подробные сведения о них. Рядом с каждой позицией выводится средняя оценка, а также оценка-прогноз, рассчитанная на основе предыдущих ваших оценок. Доступна и форма расширенной статистики, которая сообщает не только простое количество пользователей, оценивших тот же объект, но и процентное соотношение совпадений ваших оценок с оценками других пользователей, а также соотношение поставленных вами рейтингов с рейтингами других пользователей Imhonet при оценке одного объекта.

Щелкнув на ссылке, можно просмотреть подробные сведения о рекомендуемом произведении. Такой своеобразный «паспорт» состоит из отдельных вкладок, касающихся основных сведений, полученных наград, отзывов пользователей. Для фильмов предлагаются дополнительные вкладки с подборками кадров и перечнем задействованных актеров.

В музыкальном разделе Imhonet нет стартовой формы оценки, подобной фильмам и книгам. Взамен нам предлагают заглянуть в разделы композиций с самыми высокими оценками, а также посмотреть самые неоднозначные произведения, обладающие наибольшим расхождением в пользовательских оценках. На страницах с информацией об альбомах есть возможность онлайнового прослушивания композиций. Если сравнивать качество музыкальных рекомендаций Imhonet и оценки наиболее известного специализированного музыкального сервиса рекомендаций Last.fm, то преимущество, пожалуй, отдадим специальному ресурсу.

Раздел Сайты интегрирован со встроенным онлайновым менеджером закладок. В его функциях нет ничего выдающегося, крупным специализированным менеджерам он сам по себе не конкурент. Дело в том, что в рекомендательные списки Imhonet исправно попадают и так хорошо известные сайты, свежих тематических проектов там не так много. В результате рекомендательный сервис не в полной мере справляется с ролью «машины открытий» и на сегодняшний день по-настоящему может быть полезен разве что начинающим пользователям.

Дальнейшим развитием идеи раздела Сайты можно считать раздел. Блоги. Веб 3.0. Наполняется этот раздел, как и любой другой блог. Для каждого поста предлагается стандартная для Imhonet панель оценок, где можно указать свой рейтинг материала. После того как собрана начальная статистика персональных предпочтений, появляется возможность включить рекомендательный режим.

Раздел Игры на фоне уже рассмотренных нами разделов смотрится довольно бледно. Из рекомендательных инструментов здесь присутствуют разве что пункты. Прогноз и блок. Похоже оценивают. Прогноз хоть и рассчитывается, но оказывается, по субъективной оценке, гораздо менее точным, чем при рекомендации фильмов или книг.

Главная отличительная особенность сервиса Imhonet – стремление применить рекомендательный алгоритм к максимально широкому спектру объектов. Поскольку характеристик у таких разноплановых объектов может быть просто огромное количество, и далеко не все из них можно формализовать и представить в виде ограниченной сетки оценок нескольких параметров, степень полезности рекомендаций будет серьезно различаться для разных пользователей.

 

Spurl

Название сервиса Spurl расшифровывается как «особые URL-адреса» (SPecial URL). Данный проект предлагает сервис онлайнового хранения закладок со значительной социальной составляющей и системой автоматической рекомендации сайтов.

Начинать работу со Spurl можно импортом закладок из своего браузера. Необходимо отметить хорошую поддержку различных платформ. Кроме привычных браузеров Internet Explorer и Firefox, данный сервис работает с Opera и Safari. В отличие от большинства подобных сервисов, Spurl позволяет импортировать как весь файл закладок браузера целиком, так и выбирать отдельные разделы и конкретные закладки, которые затем загружаются на сервер. На этом же этапе можно определить, какие закладки станут публичными, а какие останутся приватными.

Добавление новой ссылки в штатном режиме происходит через всплывающее окно браузера, при этом к описанию страницы автоматически добавляется ее скриншот. Возможности сортировки закладок в Spurl весьма гибкие: можно как раскладывать их по папкам, так и применять теги. Spurl умеет работать в тесной интеграции с аккаунтом одного из крупнейших современных менеджеров закладок Del.icio. us. Если установить соответствующий флажок, все ссылки, которые пользователь сохраняет с помощью Spurl, будут автоматически добавляться к его архиву на сервисе Del.icio.us. Таким образом, можно пользоваться сразу двумя ресурсами через единый интерфейс.

Система анализирует сохраняемые ссылки и применяемые пользователем теги. Через некоторое время Spurl начинает автоматически предлагать новые ссылки по аналогичным темам. Посмотреть их можно на специальной вкладке Discover. На основе рекомендаций система Spurl способна создавать пользовательские RSS-каналы. Экспортируются такие данные в форматах XML, Atom или же через JavaScript.

 

LiveLib

Тематическая рекомендательная система LiveLib работает с литературными произведениями. Добавить новую книгу в свой пользовательский профиль можно, указав в специальной форме имя автора, заглавие книги или ее ISBN. Если в базе проекта уже есть такая книга, можно просто импортировать эти данные. В блоке персональной информации предлагается указать тематические теги для книги, примерную дату ее прочтения или же выбрать для нее статус Планирую прочитать или Не читал. Отдельно предлагается указать формат книги: бумажная, электронная или аудиокнига. В этом же блоке предлагается форма для написания рецензии на произведение.

LiveLib работает не только как рекомендательный сервис, но и как своеобразная записная книжка, в которой можно сохранять сведения о прочитанных книгах, а также строить планы на будущее чтение. Рекомендательная система строится на тегах и определяемом пользователями рейтинге. Шкала оценок предусматривает три ступени: «понравилось», «не понравилось» и «нейтрально». Для каждой книги демонстрируется ее усредненный рейтинг, количество читателей и рецензий, список тегов, а также ссылка на подборку избранных цитат из произведения, если они, конечно, были для него указаны.

Проект LiveLib интегрирован с поисковиком электронных книг eBdb. Это означает, что всего одним щелчком на соответствующей ссылке на странице книги можно провести поиск ее электронных вариантов в онлайновых полнотекстовых библиотеках. Это очень удобная функция для тех, кто предпочитает книги в электронных форматах. Для тех же, кто читает обычные бумажные издания, предлагается ссылка на книжный магазин Ozon (рис. 5.2).

Рис. 5.2. «Подборки» на сайте рекомендательной системы LiveLib

Оригинальная находка проекта – система «подборок», представляющих собой созданные пользователями списки книг, объединенные определенной тематикой. Подчеркнем, что они не генерируются автоматически, а составляются самими пользователями, поэтому не лишены доли субъективности. Признаки, по которым составляются подборки, могут быть самыми разными. Среди существующих подборок есть списки книг, получивших различные литературные премии, «Художественная литература про еду», научно-популярные книги и множество других тематических списков.

Данный сервис подойдет людям, которым удобнее ориентироваться не на абстрактные цифры рейтингов, а на «живые» рекомендации. Рецензии на книги вынесены в особый раздел сайта – их можно читать и комментировать отдельно, а не только в привязке к странице определенного произведения. На повышение уровня «социальности» ресурса работают блог и форум проекта, где можно обсудить представленные на сайте произведения, не ограничивая себя рамками формализованных рецензий и оценок. Отметим возможность создания виджета для своего сайта или блога, основанного на информации о книгах из вашего профиля.

 

Last.fm

Одним из наиболее известных и популярных рекомендательных сервисов в современной. Сети является проект Last.fm. Его вполне можно считать эталоном современной рекомендательной машины. Мы остановимся только на основных особенностях реализации его поисковых возможностей.

Специализация Last.fm – музыка. Данный сервис вырабатывает рекомендации на основе статистики прослушиваемых пользователем музыкальных произведений. Эту задачу решает локальный клиент Last.fm, который устанавливается на компьютере пользователя и отслеживает списки прослушивания мультимедиа-плееров. На самом сервисе Last.fm данный процесс называется «скробблингом» (рис. 5.3). Информация о частоте прослушивания композиций загружается на сервер Last.fm, где и рассчитываются персональные рекомендации. Дополнительный способ характеризовать музыку – использовать теги. Благодаря такой автоматизации сбора данных в онлайновом профиле достаточно быстро собирается хорошая статистика, отражающая музыкальные вкусы и пристрастия пользователя.

Рис. 5.3. Локальный клиент Last.fm в процессе скробблинга

Система рекомендаций Last.fm, таким образом, опирается на статистику о сотнях миллионов прослушиваний, о понравившихся произведениях и о присвоенных пользователями тегов. Наличие такой широкой базы самым благотворным образом сказывается на качестве рекомендаций. Получить их можно, даже не регистрируя свой аккаунт, достаточно выбрать в каталоге Last.fm любого исполнителя и воспользоваться кнопкой. Похожие исполнители. Страница каждого исполнителя содержит его краткую биографию, список доступных для онлайнового просмотра видеоклипов, а также панель связанных с ним новостей, в том числе сведения о турне и концертах. Кроме того, выводится хит-парад его композиций среди пользователей Last.fm. Заметим, что степень стилистической схожести рекомендуемых исполнителей оценивается на Last.fm гибко – в процентах. Качество рекомендаций вполне высокое. После регистрации аккаунта и сбора некоторой персональной статистики Last.fm начинает автоматически предлагать похожих исполнителей.

Last.fm предлагает только режим простого поиска. В то же время здесь работает весьма совершенная система автодополнения запроса. В выпадающем меню, которое открывается при начале ввода ключевых слов, предлагаемые варианты сгруппированы в разделы Исполнители, Альбомы и Композиции. В результате данное меню можно рассматривать как своеобразный фильтр, позволяющий быстро найти нужный вариант (рис. 5.4).

Рис. 5.4. Поиск похожих исполнителей в Last.fm

Замечательная возможность Lasf.fm – создание на основе предлагаемых рекомендаций собственной онлайновой радиостанции и прослушивание в потоковом режиме музыки, подбираемой исходя из ваших личных вкусов.

 

Jinni

Jinni – это специализированный рекомендательный сервис, сфера деятельности которого – кино Jinni состоит из двух основных частей: рекомендательной системы и поисковика.

Работа с системой начинается заполнением пользовательского профиля, в котором предлагается указать свои кинематографические вкусы, для чего служат два списка характеристик. Первый список содержит перечень основных жанров. Пользователь может отметить те из них, которые ему нравятся или, наоборот, вызывают неприязнь. В принципе, такие перечни предлагаются на большей части других рекомендательных сервисов. Второй список гораздо оригинальней – здесь собрано около двух десятков наиболее расхожих сюжетов современного кинематографа. Среди них – дружба, расследования, отцы и дети, легенды и мифы, столкновения культур. Здесь также предлагаются все те же опции «нравится – не нравится».

Следующий шаг в заполнении профиля рекомендаций не менее оригинален – это выбор зрительского амплуа. Предлагается дюжина вариантов, среди которых можно встретить «героя» и «индивидуалиста», «стратега» и «бунтаря» и даже загадочного «любителя альтернативной реальности». Выбрав свое амплуа, пользователь получает список фильмов, которые предлагается оценить по десятибалльной шкале. Приятно, что в стартовом пуле фильмов присутствуют как недавние блокбастеры, так и классика. После заполнения первоначального профиля, или, как его еще называют разработчики Jinni, «генома», можно воспользоваться рекомендациями (рис. 5.5).

Рис. 5.5. Страница генерации профиля-генома на сервисе Jinni

На основе анализа персонального профиля-генома генерируется оригинальный инструмент Jinni – персональный скетч фильмов (Movie Personality Sketch). Выглядит он как блок, содержащий облако тегов и графических миниатюр фильмов. Это своеобразная модель вкусов пользователя, составленная с помощью алгоритмов Jinni. Разработчики проекта уверяют, что эта модель максимально индивидуальна и двух одинаковых скетчей у пользователей проекта быть не может. Щелчки на тегах и миниатюрах инициируют поиск подобных картин. Таким образом, свой скетч можно не только демонстрировать другим, но и применять в качестве инструмента поиска новых для вас произведений.

Рекомендации для каждого пользователя рассчитываются ежедневно. Результаты можно увидеть, просто зайдя на сайт под своим именем: рекомендации будут выведены в виде коллажа на стартовой странице Jinni.

Не чужды Jinni и популярные в современной. Сети социальные инструменты. Заполнив свой профиль, можно попытаться найти людей со схожими вкусами. Для этого предназначен инструмент Match-o-mat. Зайдя в публичный профиль любого пользователя и вызвав этот инструмент, можно получить детальный анализ схожести ваших вкусов. Причем степень этой схожести выражается не только в абстрактных баллах или процентах, но и в виде краткого текста, который сообщит, в чем именно вкусы совпадают и в чем различаются. Все это сопровождается панелью с перечнем фильмов, которые, вероятно, понравятся обоим пользователям.

В роли поисковика система Jinni способна работать в двух режимах: просмотра каталога и собственно свободного поиска по запросу. «Каталожная» часть реализована в виде боковой панели, на которой находятся ссылки на отдельные разделы архива Jinni. Всего выделены семь признаков, среди которых поиск по жанру, сценарию, отраженному в фильме историческому периоду, настроению, предполагаемой аудитории и даже попавшим в кадр достопримечательностям. Однако боковая панель, скорее всего, способна быть лишь вспомогательным средством навигации.

По центру окна браузера располагается коллаж из отдельных кадров фильмов каждого раздела, щелкая на которых можно переходить в соответствующие тематические разделы Каждая миниатюра сопровождается текстовым комментарием, рассказывающим о фильмах выбранного раздела Данный коллаж является центральным элементом пользовательского интерфейса Jinni и заменяет на данном сервисе традиционный текстовый список результатов.

При наведении указателя мыши на миниатюру всплывает окошко, которое содержит рейтинговую шкалу, краткую аннотацию к фильму, кнопки добавления картины в персональные списки пользователя и ссылки на страницу онлайнового просмотра фильма, если он доступен на сайтах партнеров Jinni (Netflix, Amazon, iTunes) или же магазина, торгующего дисками. Организация миниатюр в коллаже выполнена по образу облака тегов. Размер каждой миниатюры заменяет нумерацию позиций в обычном списке результатов. По умолчанию размеры миниатюр определяются релевантностью конкретного фильма поисковому запросу (рис. 5.6). При необходимости можно изменить способ сортировки. Доступные варианты – даты выхода фильмов, средний пользовательский рейтинг и продолжительность фильма.

Рис. 5.6. Визуальные результаты поиска в системе Jinni

На странице результатов поиска, кроме центрального коллажа, присутствуют и дополнительные средства фильтрации результатов, собранные на панели Story Tuners. Включив их, мы получаем в свое распоряжение четыре ползунка, с помощью которых можно оценить степень реализма фильма, его настроение (легкое или серьезное), динамичность сюжета, а также степень известности картины. Последняя возможность хороша для знакомства с пропущенными по каким-либо причинам фильмами интересующего вас направления.

Поиск по прямому запросу в Jinni действует только в простом режиме: рядом со строкой запроса есть только одна пара переключателей, которая четко ограничивает сферу поиска названиями фильмов или же их описаниями. Поскольку в Jinni индексируется довольно много характеристик фильмов, искать можно не только по таким формальным признакам, но и по настроению фильма или особенностям сюжета. По мере набора текста система выводит подсказки, причем они содержат ссылки сразу двух категорий: по названиям фильмов, именам актеров и режиссеров, а также ключевым словам. Рядом с поисковыми предложениями в скобках уточняется, к какой категории проиндексированной информации они относятся.

Преимущество Jinni – качественная и глубокая индексация фильмов по множеству характеристик. Обратная сторона такого подхода – повышенные трудозатраты на индексирование. Дело в том, что данный процесс полностью взяла на себя команда Jinni. Пользователи проекта могут только предлагать включить в базу тот или иной фильм, участия в его описании они не принимают. Это сознательная позиция разработчиков Jinni, призванная гарантировать качество индексирования. В то же время нетрудно предсказать и недостатки такой системы. Подавляющее большинство фильмов в базе – американские. Европа представлена с большим отставанием, а фильмы из остальных регионов земного шара – это, скорее, отдельные вкрапления в общей мозаике. Таким образом, если вы являетесь любителем западного кино и англоязычный интерфейс вас не смущает, Jinni станет для вас прекрасным инструментом тематического поиска. В других же случаях целесообразней воспользоваться иными сервисами.

 

Выводы и рекомендации

Рекомендательные ресурсы – специфический продукт, который не без оснований относят к поколению Web 2.0. Если рассматривать их как средство поиска, необходимо помнить о нескольких ключевых особенностях.

Первая особенность рекомендательных сервисов – это особые возможности поиска. В отличие от других поисковиков здесь ведущим поисковым признаком являются ассоциативные связи различных объектов. Любой запрос на рекомендательной машине можно свести к команде найти объекты, подобные предъявленному пользователем.

Вторая особенность рассмотренных ресурсов – ориентация на применение для индексирования контента тегов, свободно присваиваемых пользователями. Данный способ описания ресурсов очень прост в освоении и становится базой для работы дополнительных инструментов и услуг. Важное преимущество тегов – гибкость. Ресурсу может быть присвоено ровно столько тематических «ярлычков», сколько сочтет необходимым пользователь. Однако у данного способа тоже есть свои нюансы. Поскольку при таком подходе теги расставляют самые обычные люди без какой-либо специальной подготовки, качество индексирования может быть, мягко говоря, разным. Не стоит также забывать о существовании синонимов – разные пользователи могут поставить разные теги для одного понятия. Свою лепту вносит и риск банальных орфографических ошибок. Эти нюансы потом существенно осложняют поиск нужных ссылок. Разработчики ресурсов по мере возможности стараются сгладить эти негативные особенности технологии, построенной на тегах. Достигается это за счет предложения различных инструментов автодополнения вносимых тегов или подсказки похожих ключевых слов. Это, во-первых, ускоряет индексирование, а во-вторых, позволяет хоть как-то сохранить единообразие в применении тегов.

Для того чтобы помочь системе при расстановке ключевых слов-тегов, достаточно придерживаться некоторых простых правил индексирования, принадлежащих еще к «доинтернетовской» эпохе. По мере возможностей, старайтесь присваивать ссылкам по одной теме одинаковые теги. Для максимально полного описания ставьте теги не только по теме конкретной страницы, но и указывающие на «вышестоящие» понятия (для «браузеров» это, например, «компьютерные программы» и «интернет»), используйте синонимы и ассоциации («сеть», «веб-серфинг», «стандарты» и т. д.). Эти нехитрые правила позволяют значительно повысить качество индексирования.