Профессиональный поиск в Интернете

Кутовенко Алексей

Глава 2

Вертикальный поиск

 

 

Важным направлением развития современного интернет-поиска стало появление большого количества специализированных поисковиков, предназначенных для углубленного поиска определенного тематического контента. Такие интернет-машины часто называют «вертикальными». Среди таких проектов можно найти немало полезных ресурсов.

Вертикальные поисковики удачно дополняют универсальный интернет-поиск. Если вы интересуетесь какой-либо определенной тематикой и нашли соответствующий специализированный поисковик – можете принимать поздравления: эффективность поиска заметно возрастет. Улучшение качества поиска достигается за счет обращения в первую очередь к заранее отобранным тематическим ресурсам. Это позволяет значительно уменьшить количество информационного шума в списке выдачи Кроме того, сортировка результатов поиска зачастую производится с учетом особенностей тематического контента. Исключительно заметной разница универсального и вертикального вариантов поиска становится в ситуациях, когда у ключевых слов запроса есть синонимы в других областях. Простейший пример такого запроса – слово «библиотека», которое может иметь различное значение в зависимости от контекста. Это может быть и реальное учреждение, и сетевое собрание электронной литературы, и компонент компьютерного приложения. Многие вертикальные машины обладают дополнительными алгоритмами обработки запросов, учитывающими наличие сленга, аббревиатур и других тонкостей, так или иначе присущих конкретным тематическим областям.

Необходимо заметить, что вертикальные поисковики являются хорошей альтернативой тематическим порталам, снабженным собственными системами поиска. В популярных тематических нишах таких порталов немало, и для того чтобы составить полную информационную картину той или иной темы, пользователю приходится немало поработать. Рано или поздно возникает естественное желание получить некий общий поисковик, который позволил бы собрать в едином интерфейсе информацию с нескольких ценных ресурсов. Другими словами, мы опять приходим к идее вертикального поисковика.

В этой главе рассматриваются три группы вертикальных поисковиков. Это специализированные учебные и научные поисковики, особенно актуальные для читателей, получающих образование или повышающих квалификацию. Этим же читателям, надеемся, будут полезны сведения о системах поиска в сетевых электронных библиотеках. Дополняет картину рассказ о специализированных поисковиках компьютерных программ. Эта задача универсальна и время от времени возникает у большинства пользователей.

 

Научный интернет-поиск

 

Современные универсальные системы интернет-поиска не самым лучшим образом приспособлены для поиска научной информации. В результате поиск научных публикаций с их помощью становится достаточно сложной задачей. Решить ее с максимальной эффективностью помогут специализированные научные поисковики, которые являются разновидностью вертикальных машин интернет-поиска. Сейчас можно найти немало таких машин, в основном отраслевого характера. Кроме того, на современном информационном рынке встречается значительное количество коммерческих предложений баз данных научной информации, подписка на доступ к которым может быть весьма дорогостоящей. Мы же остановимся на многоотраслевых интернет-поисковиках, специализирующихся на свободно доступном научном и учебном контенте. В ходе научного интернет-поиска кроме специализированных проектов можно использовать и вертикальные сервисы универсальных поисковиков. Пожалуй, наиболее известным ресурсом такого плана является проект Академия Google.

 

Академия Google

Когда же может потребоваться обращение к такому специализированному научному поиску? Типичные ситуации – подготовка рефератов, курсовых и других учебных работ. Представим себе студента, которому нужно подготовить такую письменную работу. Скачивать готовую курсовую – низкий класс, тем более что по узким темам готовых рефератов немного, соответственно, они хорошо известны всем, в том числе и преподавателям. Да и пользы от таких рефератов для самого студента – ноль, разве что время экономится. Итак, наш герой принимает правильное и максимально полезное для качества своего образования решение: работать самостоятельно. Первый этап подготовки любой учебной работы – поиск источников по теме. Вполне логично использовать для этих целей не только традиционные, но и интернет-источники. Однако при обращении к сетевым источникам возникает несколько проблем, главная из которых – проблема оценки качества найденных публикаций. Если искать обычными универсальными поисковиками, то отличить первоисточник от «перепева» или банального плагиата очень сложно. Кроме того, никто не дает гарантии, что приводимая информация не была искажена. Специализированный поисковик ограничит поиск только заранее отобранными ресурсами, содержащими качественную информацию. Проведем практический эксперимент и отправим одинаковые запросы в универсальном поисковике Google и в Академии Google. Тестовым ключевым словом выступит «абиогенез» – одна из концепций современной биологии, описывающая происхождение живой материи из неживой. Первые две страницы выдачи «обычного» поисковика Google будут заняты ссылками на краткие статьи словарей и энциклопедий с редкими вкраплениями предложений скачать рефераты по близким темам. Список выдачи Академии Google с первых же страниц полностью состоит из ссылок на научные и научно-популярные статьи, материалы конференций и разделы книг по теме запроса. Поскольку рядом с каждым материалом приводятся сведения о его цитируемости в других работах, это позволяет достаточно быстро найти основные работы, с которыми, по всей видимости, стоит ознакомиться в первую очередь.

Давайте подробнее познакомимся с возможностями и инструментами Академии Google. Бета-версия данного сервиса под оригинальным названием Google Scholar стартовала в октябре 2004 года. Академия Google индексирует ресурсы открытого доступа, интернет-сайты, а также издательские сервисы, предоставляющие доступ к публикациям на коммерческих условиях. Кроме того, научный поисковик Google развивает программу интеграции с электронными каталогами классических (офлайновых) научных библиотек. Данная программа предназначена для библиотек, располагающих онлайновыми электронными каталогами, поддерживающими формат OpenURL. Подключение библиотек к научному проекту Google свободное и бесплатное. В зависимости от настройки сервера библиотеки просмотр каталога может предоставляться как всем желающим, так и только зарегистрированным пользователям библиотеки. Русскоязычная версия Академии Google по умолчанию поддерживает поиск по электронному каталогу Государственной публичной научно-технический библиотеки (ГПНТБ). При настройке механизма поиска пользователь может добавить до трех собственных ссылок на онлайновые каталоги библиотек, поддерживающих названные технологии.

Интерфейс поисковика выдержан в строгом стиле и предлагает не так много дополнительных инструментов. К средствам быстрой фильтрации результатов отнесем, разве что, хронологическое меню, позволяющее переходить к просмотру публикаций определенного года выхода. Если публикация была найдена на нескольких ресурсах, то в результатах поиска появится ссылка для просмотра полного списка копий такого материала. При оценке релевантности той или иной ссылки, влияющей на ее позицию в списке выдачи поисковика, учитывается индекс цитирования публикации и ее автора, а также известность интернет-источника или издания, опубликовавшего статью (рис. 2.1).

Рис. 2.1. Страница результатов поиска сервиса Академия Google

Режим расширенного поиска. Академии Google, кроме стандартного набора инструментов формирования запроса (поиск по фразе, на включение и исключение указанных слов), предлагает поиск по именам авторов и по публикациям определенных журналов, а также позволяет указать диапазон дат публикации нужных материалов.

Каждая ссылка на странице выдачи снабжается кратким библиографическим описанием источника, счетчиком индекса цитирования данной публикации, а также ссылкой для поиска похожих материалов. При настройке системы доступен инструмент. Библиографический менеджер, позволяющий получить корректное библиографическое описание источника, которое можно использовать в списке литературы к своим работам. К сожалению, предусмотрены только зарубежные стандарты описания ресурсов, форматы наших библиографических. ГОСТов здесь не поддерживаются, что определенно смазывает впечатление от этой полезной функции.

К достоинствам. Академии Google отнесем простоту освоения, высокую скорость работы, а также функцию поиска в каталогах крупных «офлайновых» научных библиотек. Недостатками проекта является небольшой выбор дополнительных инструментов управления поиском, а также информационный шум в результатах для пользователя, ориентирующегося на источники свободного доступа. В списке выдачи этого поисковика много ссылок на коммерческие ресурсы, что означает прямую доступность только аннотаций или кратких выдержек из текста публикаций.

 

Scholar.ru

Система Scholar.ru специализируется на русскоязычном учебном и научном контенте. Поисковик индексирует различные виды документов: статьи, монографии, а также авторефераты диссертаций, представленные в широко распространенных форматах электронных книг: HTML, PDF и DjVu (рис. 2.2).

Рис. 2.2. Страница результатов поиска сервиса Scholar.ru

Пополнение индекса ведется в комбинированном режиме. Основным источником данных служат результаты автоматической индексации нескольких крупных онлайновых проектов, в том числе сети SciPeople, собирающих электронные версии научных публикаций и предлагающих их в общем доступе. Кроме того, материал может быть добавлен в поиск самим автором. Соответствующая форма предлагается на страницах проекта. Следствием такого подхода стало, с одной стороны, практически полное отсутствие информационного шума в результатах, а с другой – сравнительно небольшой объем базы проекта. На данный момент в ней порядка 80 тысяч публикаций.

Работать с сервисом Scholar.ru можно в режимах простого и расширенного поиска. Последний дает возможность использовать в запросе ряд фильтров. С их помощью можно точно указать тематический раздел базы Scholar ru для поиска, дату публикации, название журнала или адрес сайта, на котором был опубликован материал. Кроме того, можно искать работы конкретного автора или же работы, выполненные в определенном учреждении.

Страница выдачи результатов поиска содержит простой текстовый список ссылок на найденные публикации. Каждый пункт этого списка включает полный заголовок статьи, имя автора, сведения об издании, в котором была опубликована статья, а также первые фразы ее аннотации. Приведенные данные сопровождаются значками доступных для скачивания версий статьи в различных форматах и списком тематических тегов. Некоторые результаты снабжаются также примером библиографического описания найденного материала, который можно использовать в списках литературы. Кроме ссылки на саму статью предлагается и ссылка на страницу ее обсуждения на проекте SciPeople.

Данный сервис представляет собой гибрид поисковика и веб-каталога. Получить доступ к каталогу можно на вкладке-разделе Каталог научных публикаций. Предлагаемый каталог состоит из двадцати пяти основных разделов, отражающих широкий спектр наук как естественного, так и гуманитарного профиля. К сожалению, количество пустых разделов здесь достаточно велико, что не способствует эффективной работе. Разработчики предупреждают, что в каталог попадают не все статьи проекта, поэтому если важен максимальный охват доступного материала, лучше использовать не каталог, а систему поиска.

Вкладка Авторефераты и диссертации предлагает доступ к каталогу соответствующих видов документов, проиндексированных Scholar ru. Каких-либо специфических инструментов поиска или сортировки в нем не предусмотрено.

Раздел Научные области предлагает облако тегов, с помощью которого можно найти нужный материал. Любопытно, что страница выдачи при поиске в этом разделе сопровождается вспомогательной боковой панелью с перечнем тематически близких научных тематик.

Раздел Аспирантура носит справочный характер, напрямую к поиску не относится и содержит паспорта научных специальностей.

 

Поиск на научных сайтах с использованием платформы Flexum «Поиск по научным сайтам»

Тема научного поиска не прошла мимо разработчиков персональных поисковиков. Подробному рассказу о возможностях таких поисковых систем посвящена отдельная глава нашей книги (см. главу 6). Сейчас же мы остановимся на одном из примеров таких ресурсов – тематической системе научного поиска, созданной с помощью платформы Flexum. В индексе проекта на сегодняшний день несколько тысяч сайтов. Данный проект по этому показателю, кстати, является крупнейшей системой на платформе Flexum. В индексе проекта представлены тематические научные интернет-ресурсы, сайты учебных заведений, научных организаций и научных журналов.

Интерфейс поиска на научных сайтах предлагает стандартные для поисковиков на базе Flexum возможности. Стартовая страница содержит не только инструменты составления запроса, но и каталог включенных в систему сайтов. Он автоматически выстраивается на основе тегов, присвоенных сайтам автором поисковика. Всего на данном поисковике выделено несколько десятков категорий. Среди них как тематические разделы, посвященные отдельным научным дисциплинам, так и разделы, выделенные по типам интернет-ресурсов. К таким разделам относятся Форумы и блоги, а также Электронные библиотеки.

В системе научного поиска на базе Flexum доступен только режим простого поиска. Найденные веб-страницы могут выводиться единым списком с сортировкой по релевантности или группироваться по сайтам, на которых они были найдены. Рядом с каждой ссылкой в списке выдачи находится кнопка вызова формы поиска с помощью Flexum на найденном сайте. Расположенная рядом со списком выдачи панель тегов-закладок позволяет быстро переходить к поиску только на сайтах, помеченных соответствующими тегами, что повышает точность поиска.

Главное достоинство данного ресурса – хороший охват научных интернет-ресурсов на русском языке. К недостаткам отнесем отсутствие дополнительных возможностей составления сложных запросов, а также наличие информационного шума в результатах поиска. Справедливости ради отметим, что эти недостатки свойственны многим персональным поисковикам.

 

Scirus

Любой серьезный специалист не может развиваться в профессиональном плане, не получая качественной информации о сфере своей деятельности. О студенте, который пишет курсовую, мы уже говорили. Давайте теперь вспомним про его научного руководителя. Современная наука многонациональна, оставаться на гребне волны, не интересуясь зарубежными публикациями, сейчас, пожалуй, просто невозможно. Однако здесь начинаются проблемы. В мире выходит огромное количество книжных и периодических изданий научной тематики. Получить доступ к таким «бумажным» версиям зачастую сложно, иногда не помогают и библиотеки: относительно малое количество людей, интересующихся специфическими узкими темами, помноженное на традиционно высокую стоимость научной литературы не способствует полноте комплектования таких библиотек. В этой ситуации на помощь опять же приходит интернет. Даже исторически глобальная компьютерная сеть связана с академической наукой – это было, пожалуй, первое применение интернета в «мирной» жизни за пределами сферы интересов военных. Сохраняется это значение интернета и в наши дни. В. Сети находится значительное количество архивов и баз данных научной тематики. Правда, при попытке ими воспользоваться возникают новые проблемы. Во-первых, никуда не пропадает проблема оценки качества и достоверности информации. Более того, критерии качества источников в научной и профессиональной деятельности значительно повышаются. Во-вторых, сетевые базы могут быть как открытыми, бесплатными, так и коммерческими, цены на доступ к которым не отличаются демократичностью. Разделить их в списке выдачи универсальных интернет-поисковиков сложно. Справиться с новыми вызовами помогают специализированные интернет-поисковики.

Система Scirus предназначена для поиска научной информации в сферах естественных наук, компьютерных технологий, экологии, экономики, менеджмента и лингвистики. Индексная база Scirus рассчитана на специалистов и исследователей В настоящее время в нее входит порядка трехсот семидесяти миллионов документов. Это именно научные публикации, взятые из солидных источников. Если говорить о доступных видах документов, то это не только журнальные статьи и монографии, но и научные рефераты, препринты, материалы конференций, патенты. Кроме того, ведется поиск на официальных сайтах научных организаций и учреждений. К сожалению, среди источников Scirus нет русскоязычных ресурсов, поэтому для эффективной работы с найденным контентом требуется знание иностранных языков.

Замечательное качество данного поисковика состоит в том, что любая найденная ссылка обязательно ведет к полному тексту найденной публикации. Это значит, что пользуясь Scirus, вы, в отличие от многих других подобных поисковиков, не попадете в результате на страницу платной базы, где вам покажут один-два абзаца текста и ненавязчиво попросят за просмотр остального несколько десятков евро. В то же время Scirus может работать и с коммерческими источниками. Для этого предусмотрена устанавливаемая при настройке поисковика опция показа результатов, полученных, в том числе, и из коммерческих баз.

Возможности составления запросов предусматривают режимы простого и расширенного поиска. В режиме расширенного поиска можно пользоваться стандартными логическими операторами, фильтровать список выдачи по видам документов и форматам файлов. Доступен поиск введенных ключевых слов в определенных полях описания документов (автор, заглавие, ISSN и другие). Кроме того, в форме расширенного поиска присутствует несколько специфических для научной сферы фильтров. Например, можно ограничить выдачу только электронными материалами «печатных» журналов или же результатами, полученными со страниц веб-проектов, причем допускается детальный выбор используемых при поиске источников. Интересен фильтр Subject Areas. Как известно, значительный процент современных исследований проводится на стыках нескольких дисциплин. С помощью данного фильтра можно четко обозначить сферу науки, к которой должны относиться ожидаемые результаты поиска. Это позволяет гибко выделять в результатах поиска как узкие исследования, так и публикации междисциплинарного характера (рис. 2.3).

Рис. 2.3. Система Scirus предлагает поиск среди 370 млн научных публикаций

Интерфейс страницы поисковой выдачи Scirus разделен на несколько панелей. Основная часть экрана отдана списку выдачи, который можно сортировать по релевантности и по дате публикаций. Возле всех ссылок находятся флажки, с помощью которых можно отобрать нужное подмножество записей и одним щелчком мыши отправить их по электронной почте, сохранить для дальнейшей работы (не более 25 ссылок, причем для этого понадобится включить в браузере режим сохранения куки-файлов) или же экспортировать в виде списка. Раздел Refine your Search демонстрирует список дополнительных ключевых слов, автоматически найденных в результатах поиска и позволяющих быстро уточнить свой запрос. Доступны инструменты фильтрации найденного контента по признаку источника.

Возможности дополнительной настройки поисковика Scirus достаточно скромны. Можно задать количество ссылок на странице выдачи, включить режим вывода ссылок на документы из фондов библиотек-партнеров Scirus, а также управлять группировкой ссылок на странице выдачи.

Scirus предлагает несколько вспомогательных дополнений для браузеров Это стандартный простой поисковый плагин и довольно удобная панель инструментов Scirus Toolbar. У веб-мастеров есть возможность установить на своем сайте поисковую форму Scirus. Соответствующий код доступен на странице Downloads – останется только разместить его в коде своего проекта, как любой другой JavaScript-виджет.

 

ScienceResearch

Проект ScienceResearch является бесплатным и общедоступным поисковиком научных ресурсов, который обладает рядом интересных особенностей. Данный проект работает с базами данных, электронными библиотеками и другими источниками онлайновых научных публикаций. Такие источники называются на данном проекте «коллекциями». В общей сложности проект поддерживает поиск более чем на трех сотнях таких коллекций. Основные особенности ScienceResearch – это поддержка технологии Federated Search и использование кластеризации при выводе результатов поиска.

Технология «объединенного поиска» (Federated Search) разработана компанией Deep Web Technologies и реализована в поисковом алгоритме Explorit Research Accelerator, который предлагается заинтересованным разработчикам. Данная технология отличается тем, что построенные на ее основе поисковики не собирают какую-либо собственную индексную базу, а способны работать в режиме реального времени с большим количеством внешних подключаемых баз данных.

После поступления запроса от пользователя ScienceResearch отправляет его всем поддерживаемым коллекциям. Затем в полученных ответах отбрасываются дублирующиеся записи и определяются наиболее релевантные результаты. Заметим, что степень релевантности определяется с помощью алгоритмов самой системы ScienceResearch и не зависит от качества ранжирующих алгоритмов отдельных источников информации. В результате формируется страница выдачи, которая и демонстрируется пользователю.

Поскольку все эти операции выполняются в режиме реального времени, ScienceResearch предлагает несколько уникальных возможностей. Например, если за время просмотра пользователем страницы результатов поиска в какой-либо из внешних баз появляются новые записи, подходящие под условия введенного запроса, система выводит соответствующее сообщение и предлагает дополнить список выдачи новыми результатами. При составлении запросов допускается использование логических операторов и поиск по точной фразе. Режим расширенного поиска позволяет вести поиск по конкретным признакам (заглавию, автору публикации), ограничить выдачу определенным хронологическим промежутком, а также конкретной научной дисциплиной. Список основных дисциплин выводится на боковой панели поисковика. Кроме того, можно выбрать одну или несколько коллекций, на которые будет отправлен ваш запрос. К сожалению, в бесплатной версии ScienceResearch предлагается выбирать не из всех доступных коллекций, а только из нескольких основных.

Для уточнения запросов в системе ScienceResearch применяются кластерные технологии. Результаты работы алгоритма демонстрируются на боковой панели страницы выдачи Кроме тематических кластеров предлагаются разделы, группирующие статьи по авторам, источникам публикаций и другим подобным признакам. С помощью соответствующих меню можно сортировать список выдачи по различным признакам, а также переключаться в режим просмотра результатов, полученных из какой-либо одной коллекции.

 

BASE

Научный интернет-поисковик Bielefeld Academic Search Engine (BASE) имеет европейские корни. Сам сервис BASE принадлежит немецкому университету, а в основе его поисковых алгоритмов лежат разработки норвежской компании Fast Search & Transfer. Ценность данного ресурса состоит в том, что BASE является поисковой машиной международного проекта Open Archives Initiative, кроме того, этот поисковик сотрудничает с европейским научно-информационным проектом DRIVER, что способствует повышению качества включенных в индексные базы поисковика материалов.

Первый из названных проектов позволяет владельцам электронных библиотек обмениваться данными о своих собраниях и является частью движения открытого доступа (Open Access), направленного на повышение доступности научной информации. В рамках этого движения, которое приобрело популярность в начале 2000-х годов, авторы получают платформу для распространения своих идей в международной академической среде с минимальными затратами и без необходимости длительного ожидания публикаций в традиционных научных журналах. Целью проекта DRIVER является создание сводного ресурса, объединяющего европейские электронные библиотеки, специализирующиеся на научной и учебной информации. Таким образом, проект BASE является удобной точкой доступа к свободно распространяемой научной информации. Кроме названных источников, в BASE используется и собственная индексная база тематических веб-сайтов и баз данных, поэтому в результатах поиска могут попадаться ссылки на коммерческие базы данных.

Для составления запросов BASE предлагает режимы простого и расширенного поиска. В простом режиме предлагается вести полнотекстовый поиск по всем возможным полям записей проиндексированных ресурсов, а для уточнения запроса доступно только переключение сферы поиска между ресурсами BASE и поиском в базе. Академии Google через интерфейс BASE.

В режиме расширенного поиска можно вести поиск конкретных полей описания ресурсов (автор, заглавие, тема), определять географический регион и год издания публикаций. Здесь же можно определиться с типом искомого контента. Поддерживается поиск статей, книг, текстов лекций, тезисов докладов, а также карт, видео– и аудиофайлов. В систему BASE интегрирован тезаурус Eurovoc, так что при обработке запроса пользователь может получить релевантные результаты сразу на двух десятках европейских языков, а также списки синонимов и близких терминов, что позволяет при необходимости качественно уточнить запрос.

 

Поиск книг

 

Книга как форма представления информации продолжает жить и здравствовать даже в нашу эпоху глобальных сетей и гипертекста. Действительно, концентрированное и компактное освещение какой-либо темы в книге выгодно отличается от самостоятельных поисков информации среди россыпей веб-страниц.

Электронные книги – не редкость в современной Сети. Они доступны в различных форматах и на значительном количестве сайтов онлайновых библиотек. Сетевых библиотек сегодня достаточно много, среди них есть как универсальные, так и специализирующиеся на определенных видах литературы. Эффективность интернет-поиска электронных книг во многом зависит от правильного выбора библиотеки, коллекция которой должна максимально соответствовать тематике запроса. Запоминать все библиотеки и их особенности – не самый лучший путь, проще возложить эту миссию на поисковые системы. Вот только универсальные интернет-поисковики в данном случае не очень удобны, поскольку не позволяют быстро находить страницы, предлагающие ссылки на полный текст нужного произведения. Такие ресурсы иногда приходится буквально выкапывать из массы сопутствующих ссылок.

Принцип работы специализированных книжных интернет-поисковиков прост: вместо общего поиска по. Сети они ограничиваются просмотром заранее составленного списка сетевых библиотек. Это обеспечивает повышение точности поиска: за каждой ссылкой на странице выдачи будет находиться именно электронная книга, которую можно просмотреть в режиме подключения или скачать, чтобы просмотреть позже.

Сейчас можно найти достаточное количество подобных поисковых машин. Мы сосредоточимся на лучших представителях семейства, работающих с русскоязычными сетевыми библиотеками. Отобранные нами поисковики соответствуют нескольким важным требованиям. Во-первых, они работают только с теми ресурсами, которые предлагают полнотекстовые версии электронных книг в свободном доступе. Во-вторых, они умеют обрабатывать запросы с различными поисковыми признаками, в том числе специфическими именно для книг. В-третьих, они обеспечивают хороший охват сетевых источников, ведь именно в этом состоит главное преимущество специализированного интернет-поиска по сравнению с поиском в какой-либо одной сетевой библиотеке.

 

Сервис Google Книги

Сервис Google Книги позволяет не только искать книги, но и читать их в режиме подключения. Основу базы составляют отсканированные книги и электронные версии книг, предоставленные правообладателями. Важным источником пополнения базы стало сотрудничество с крупными традиционными библиотеками. Вопросы корректного использования оцифрованных Google в рамках этого проекта книг во время его становления возникали неоднократно. Обострялись они тем, что, в отличие от многих других подобных проектов оцифровки книг, компания Google работала и с современными изданиями, на которые распространялись авторские права. В итоге компромисс был достигнут и многие особенности книжного поисковика Google обусловлены именно стремлением найти баланс между поисковыми возможностями и требованиями защиты авторских прав.

Возможности составления запроса на сервисе Google Книги по внешнему виду и возможностям в основном соответствуют стандартному веб-поисковику Google. Здесь также предлагаются простой и расширенный режимы поиска. Отличия можно найти только в форме расширенного поиска книг. В ней стандартный блок составления запроса дополнен такими специфическими поисковыми признаками, как Заголовок, Автор и Издатель. Возможен поиск и по специальным индексам, относящимся к издательской продукции. Это международный стандартный номер книги (ISBN) и международный стандартный номер периодических изданий (ISSN). Такие индексы являются уникальными и позволяют однозначно идентифицировать нужное издание.

Собственно поиск ведется среди полных текстов оцифрованных книг. Страница выдачи содержит список результатов, содержащий миниатюру обложки, а также краткое библиографическое описание издания: заглавие книги, сведения об ответственности (имя автора и название издательства), количество страниц. Обязательно приводятся условия просмотра книги. Возможны три варианта, определяемые условиями, на которых издания были предоставлены Google правообладателями. Первый вариант – запрет просмотра текста книги. В этом случае рядом с таким результатом выводится сообщение «Без предварительного просмотра». Второй, наиболее распространенный, вариант предполагает возможность просмотра фрагментов отсканированных книг. Размер фрагментов может отличаться. Как правило, демонстрируются только одна-две страницы, на которых были обнаружены слова из поискового запроса. Кроме того, к показу правообладателем могут быть разрешены только определенные страницы издания. Обойти эти ограничения иногда удается подбором дополнительных ключевых слов или работой с оглавлением. Также можно найти приложения, позволяющие автоматизировать этот процесс и загружать на свой компьютер как фрагменты книг из баз Google, так и издания целиком. Третий вариант применяется к изданиям, срок действия авторских прав на которые истек или которые предлагаются правообладателями в свободном доступе. Такие книги в результатах поиска имеют пометку «Полный просмотр». Для полного просмотра предлагаются также все периодические издания, размещенные в базе Google.

Страница просмотра книги предлагает два режима отображения: простой текст, полученный в результате распознавания оцифрованных страниц, и непосредственный вывод графических файлов отсканированных страниц. Если издание разрешено для полного просмотра, в интерфейсе страницы располагается ссылка, позволяющая загрузить электронную книгу в формате PDF.

Обладатели аккаунтов Google получают также возможность добавлять нужные книги со страницы выдачи в собственную онлайновую библиотеку. Сделать это можно с помощью меню. Добавить в мою библиотеку, которое сопровождает каждый результат на странице выдачи В меню можно выбрать папку персональной библиотеки, в которой будет сохранена книга. На сохраненные книги можно составлять собственные рецензии, которые будут видны другим пользователям проекта. Предлагается также поиск среди текстов книг персональной библиотеки.

 

eBdb

Проект eBdb ведет свою историю с 2003 года, когда у его создателей появилась идея специализированного поисковика для интернет-библиотек. Первая версия проекта называлась eBoogle, однако через некоторое время имя проекта пришлось сменить из-за претензий со стороны представителей Google – слишком уж похожими были названия и дизайн. В результате проект обрел свое современное название, которое является сокращением от фразы «Electronic Books Database» – «база данных электронных книг». В настоящее время eBdb предлагает достаточно удобный поиск практически во всех крупнейших российских сетевых библиотеках. В индексе проекта сейчас насчитывается полтора миллиона электронных книг.

Рассмотрим основные возможности eBdb. Доступен только режим простого поиска, однако он дополнен рядом полезных инструментов. Некоторые из них реализованы в виде поисковых операторов. У пользователя есть возможность поиска книг внутри конкретной библиотеки. Для этого используется оператор site:, сопровождаемый адресом конкретной библиотеки. Заметим, что в таком запросе может фигурировать и группа библиотек, адреса которых в этом случае разделяются запятыми. Если же данный оператор использовать без какого-либо ключевого слова, а только с адресом веб-сайта, то страница выдачи будет содержать полный список книг из этой библиотеки, проиндексированных поисковиком. Поддерживается также стандартный поиск точной фразы. Для его запуска понадобится заключить свой запрос в кавычки.

Страница выдачи поисковика eBdb выдержана в классическом стиле. Результаты поиска выводятся в виде обычного текстового списка. Каждая позиция в списке содержит название найденной книги, краткую аннотацию, если она, конечно же, доступна на сайте библиотеки, и сведения о самой библиотеке, в которой была найдена книга, в том числе адрес сетевой библиотеки, общее количество проиндексированных в ней книг и сведения о необходимости регистрации, если для скачивания книги требуется заводить персональный аккаунт. Если книга была найдена в нескольких сетевых библиотеках, соответствующее сообщение будет показано рядом с результатом. Щелкнув на нем, можно просмотреть перечень библиотек и выбрать из них наиболее удобную для вас. Данная функция продублирована поисковым оператором group: По умолчанию ссылки в результатах выдачи группируются по одинаковым названиям книг. Такой подход позволяет избежать засорения списка выдачи дублирующимися результатами.

Кроме проекта eBdb.ru действует и аналогичный проект eBdb in English (). Заметим, что он работает с зарубежными сетевыми библиотеками, соответственно результаты поиска русской и английской версий поисковика различаются. При «иностранном» поиске книг в списке выдачи нередко можно обнаружить ссылки на файлы, которые хранятся на различных файловых хостингах. С одной стороны, это удобно, поскольку позволяет расширить сферу поиска. С другой стороны, никакой проверки работоспособности ссылок на файлы eBdb не проводит. Это значит, что вероятность наткнуться в таком режиме на «мертвую» ссылку или удаленный файл достаточно велика, что несколько портит впечатление от данного режима поиска.

Кроме собственно поисковика проект eBdb предлагает собственный каталог электронных книг. Он разделен на пять основных разделов. Наиболее крупным из них является раздел. Художественная литература, который содержит подразделы русской и зарубежной литературы, а также множество жанровых подразделов: от комиксов и манги до мемуаров. Раздел Нехудожественная литература содержит тематическую литературу по различным отраслям знаний и отдельным темам. Особенно интересны подразделы, посвященные изучению иностранных языков. Весьма богат раздел. Детям и родителям, в котором собрано одиннадцать тысяч детских книг и популярных педагогических изданий. Раздел Бизнес-книги, в полном соответствии со своим названием, предлагает литературу по экономике, финансам, организации бизнеса и другим сопутствующим темам. Раздел Foreign Books предлагает списки книг, отсортированных по языковому принципу.

Настройка механизма поиска вынесена на отдельную страницу. В процессе настройки можно определить способ открытия результатов – в новом окне или в исходном; способ группировки книг – по названию книги или без группировки, а также задать количество ссылок на странице выдачи Доступный диапазон – от десяти до ста ссылок на странице (рис. 2.4).

Рис. 2.4. Страница настройки поисковика eBdb

Проект eBdb обладает рядом приятных дополнительных возможностей и инструментов. В первую очередь отметим возможность RSS-подписки на поступившие в индекс поисковика новые книги из определенной библиотеки. Другой вариант – RSS-подписка на новые поступления eBdb, подходящие под составленный пользователем поисковый запрос. Последний вариант очень удобен, если вы постоянно отслеживаете книжные новинки определенной тематики.

Система eBdb предлагает собственный поисковый плагин, который можно установить в браузерах Internet Explorer и Mozilla Firefox. Веб-мастера имеют возможность установить форму поиска eBdb на своем сайте.

 

Nigma

Собственной системой поиска электронных книг обладает и российский кластерный метапоисковик Nigma. Система поиска Nigma, ориентированная на поиск в электронных библиотеках, еще находится в стадии разработки, и «фирменный» механизм кластеризации здесь пока работает не очень хорошо, однако его доработка применительно к особенностям поиска литературы, скорее всего, – просто вопрос времени. Что касается полноты поиска, то впечатление от данного ресурса двойственное. Как правило, Nigma находит меньше позиций, чем рассмотренный ранее проект eBdb. Однако у Nigma есть свои козыри.

Данная система включает в результаты поиска не только сами книги, но и рецензии на них, а также статьи критического плана. Такие ссылки помечаются в списке результатов рисунком с пером. Это обстоятельство весьма полезно для студентов и школьников. Из других дополнительных функций стоит отметить инструмент. Найти слова, доступный в виде ссылки, расположенной возле всех позиций в результатах поиска. Данная функция позволяет провести поиск ключевых слов из запроса в тексте найденной книги. Работает эта функция только для электронных книг, представленных в формате HTML или TXT. Возможность поиска в тексте книги весьма удобна, если первоначально поиск проводился по широкому тематическому запросу и перед скачиванием книги необходимо убедиться, что издание посвящено именно предмету вашего поиска, а не его синонимам из других областей.

 

Biblio

Сразу несколько проектов, посвященных поиску электронных книг, эксплуатируют технологии персонального поиска. Проект Biblio построен на платформе Google Custom Search.

Данный поисковик выдает не только прямые ссылки на книги или статьи, но и ссылки на страницы со списками книг, среди которых уже можно встретить прямую ссылку для скачивания нужного текста. При тематическом поиске это может быть полезно, поскольку появляется возможность найти новые книги по теме. Если же разыскивается конкретная книга, то такие ссылки только способствуют увеличению информационного шума.

Отметим, что поиск здесь полнотекстовый, а это значит, что слова из запроса ищутся во всем тексте выложенной в интернете электронной книги. Это плюс, однако не стоит забывать, что таким образом индексируются только те произведения, которые представлены в сетевых библиотеках в виде HTML– или TXT-файлов. Если же книга выложена для скачивания в виде архива, полнотекстовый поиск не работает. На популярные запросы к данным системам можно подписаться с помощью RSS.

У Biblio есть проект-близнец, который называется eBiblio (ebibLio.net). Рассматривать его отдельно особого смысла нет – результаты одинаковых запросов у данных ресурсов полностью совпадают вплоть до десятой страницы выдачи.

Особенностью данных проектов является возможность уточнения запроса с помощью перечня рубрик, расположенного над основным списком выдачи Он позволяет быстро отфильтровать в результатах поиска, например, только рефераты или справочные издания, оставив в стороне фантастику и другую художественную литературу. К сожалению, отметить сразу несколько рубрик нельзя. Кроме того, данный фильтр на Bibblio и eBiblio не всегда работает корректно, особенно в случае с аудиокнигами.

 

Поиск программ

 

Каталогов, отслеживающих новинки программного обеспечения или же собирающих соответствующие архивы, в современном интернете великое множество. Среди них есть как крупные проекты, стремящиеся к максимально полному охвату программ всевозможного назначения, так и специализированные тематические ресурсы. Такая ситуация порождает проблему: в ходе поиска или выбора какой-нибудь нестандартной программы приходится просматривать как минимум несколько каталогов программного обеспечения. Решение данной проблемы логично возложить на специализированные поисковики, которые примут запрос, отправят его на тематические ресурсы, обработают полученные результаты и представят их единым удобным списком. Подобные поисковики особенно хороши при поиске не конкретной программы, название которой вы уже знаете, а при подборе программ для решения какой-либо задачи, поскольку позволяют составить достаточно полное впечатление о состоянии рынка в выбранной области. Сразу предупредим, что речь пойдет о машинах, работающих только с легальным программным обеспечением – не важно, бесплатным или коммерческим. Так что потребителям «вареза» с комплектом «таблеток» лучше обратиться к другим источникам.

 

SoftSearch

Для поиска русскоязычного программного обеспечения имеет смысл использовать систему SoftSearch. Все-таки зарубежные машины плохо справляются с поиском наших программ, да и понятие «русификатор» им, как правило, не ведомо. Этот поисковик работает с двумя десятками каталогов программного обеспечения, в том числе Downloads.ru, Freesoft, Listsoft и многими другими крупными ресурсами, что в итоге создает достаточно широкую базу поиска.

В SoftSearch доступен только режим простого поиска. С помощью переключателей можно только выбрать тип контента: помимо компьютерных программ SoftSearch позволяет искать книги, новости и статьи. Дополнительные фильтры появляются уже на странице выдачи результатов поиска. Состав их не отличается оригинальностью, но предлагает все основные возможности, включая отбор программ с русским или английским интерфейсом, фильтрацию программ с различным типом лицензии (свободное распространение или условно-бесплатные). Отдельный фильтр посвящен выбору платформы. Поддерживается выбор различных версий Windows, Mac OS, Unix и мобильных операционных систем. Также можно задать количество ссылок на странице выдачи Диапазон допустимых значений – от классической десятки до сотни. К сожалению, одновременно указать в одном запросе несколько условий не получится, что не очень удобно.

Проект SoftSearch поддерживает дополнительную обработку полученных результатов. Выражается это в наличии собственной системы рейтинга, которая используется также при ранжировании результатов в списке выдачи Она основана на популярности той или иной программы на портале SoftSearch, что придает рейтингу определенную самостоятельность: и раскрученные пакеты, и новинки рынка оказываются в одинаковых стартовых условиях.

Для каждой ссылки на странице выдачи предлагается неплохая подборка полезной информации. Кроме названия программы, это адрес сайта, в каталоге которого она была найдена. Приводится очень краткий – буквально одна строчка – фрагмент с описанием приложения. Есть и другие полезные данные, о которых забывают многие конкуренты: дата обновления, номер последней версии, размер установочного файла найденной программы.

Данная система обладает возможностями как поисковика, так и простого каталога программного обеспечения (рис. 2.5). Каталог можно просматривать по названиям программ в алфавитном порядке, кроме того, можно воспользоваться тематическими разделами.

Рис. 2.5. Система SoftSearch обладает возможностями как поисковика, так и каталога

У SoftSearch есть собственная рекомендательная система, предлагающая подборку похожих программ. Заметим, что работает она весьма достойно, поэтому если вы ищете программу для решения какой-либо задачи, не проходите мимо, вполне возможно, что вас заинтересуют и другие предложения. Кроме того, для импортных приложений данный инструмент предлагает ссылки на пакеты русификации.

 

Exefind

Поисковик Exefind поддерживает только простой режим поиска. Скорость работы данной машины весьма высока. Для каждой найденной записи приводятся название программы, краткое описание функций, ссылка на каталог, в котором она была найдена, размер, а также прямые ссылки на скриншот программы и на программу установки. Если же щелкнуть на заголовке записи, откроется не страница внешнего каталога, как это можно было бы ожидать, а новая страница самого поисковика Exefind с несколько более подробным описанием найденной программы.

Результаты сортируются по релевантности, каких-либо дополнительных режимов сортировки или фильтрации не предусмотрено. В то же время система выделяет цветом бесплатные и коммерческие программы. Если программное обеспечение распространяется свободно, рядом с ним в результатах имеется зеленая полоска. Если же это условно-бесплатный или коммерческий продукт, то полоска розовая.

Четкого списка каталогов программ, которые Exefind задействует в поиске, на сайте проекта нет, однако в результатах можно найти ссылки на большое количество малоизвестных специализированных каталогов, что представляется весьма интересным в плане увеличения широты охвата при поиске. Здесь можно искать программы для самых различных платформ, как «настольных», так и мобильных. С русскоязычными ресурсами и вообще с кириллическими запросами данная машина не работает.

 

Qweas

Система Qweas умеет работать в двух режимах поиска: в собственной базе и в Сети. В первом случае скорость, естественно, гораздо выше, но охват меньше. Страница результатов на первые позиции выводит «рекомендованные» редакцией поисковика ресурсы. В основном это коммерческие продукты, что наводит на мысли о скрытой рекламе. В то же время качество поиска, как такового, хорошее, и на первых позициях, как правило, оказываются весьма и весьма достойные программы.

Доступен как простой, так и расширенный поиск. В первом случае кроме собственно строки запроса выводится только меню с фильтром платформ. В расширенном режиме поиска предлагается форма, состоящая из восьми полей, в которых можно точно указать платформу для требуемой программы. Заметим, что здесь помимо названия можно ввести конкретную версию операционной системы.

Любопытно, что данный ресурс работает не только с привычным набором Windows/MacOS/Linux/Unix, но и с программами для куда более экзотичных систем, в числе которых AS/400, RIM, OpenVMS, старушки DOS и OS/2, а также современные мобильные платформы. В то же время полнота поиска иногда вызывает вопросы, система не находит некоторые весьма распространенные пакеты.

На странице выдачи для каждой программы демонстрируются ее название, краткая выдержка из ее описания, прямая ссылка на файл программы с информацией о его размере. На боковой панели страницы выдачи выводятся предложения по уточнению запроса. Благодаря такому механизму в Qweas удобно подбирать программное обеспечение по нечетким запросам.

Кроме системы поиска, проект Qweas располагает довольно крупным и детализированным каталогом программного обеспечения.

 

Выводы и рекомендации

Создание качественного и популярного тематического поисковика – непростая задача. Не стоит забывать, что интернет-поиск – зона тяжелой конкурентной борьбы, и чтобы достичь успеха, специализированный вертикальный поисковик должен предложить нечто такое, что пользователь не сможет получить с помощью того же Google или другого популярного универсального поисковика. А это весьма и весьма сложно. Однако рассмотренные в данной главе проекты вполне успешно справляются с этой задачей.

Если говорить о научном поиске, то в настоящее время, к сожалению, возможности поиска публикаций на русском и иностранных языках нельзя назвать равнозначными. Проект Scholar, ru, а также проект на платформе Flexum «Поиск по научным сайтам» предлагают только базовые инструменты составления запроса и значительно уступают зарубежным аналогам по объемам баз. В то же время это единственные специализированные источники для научного интернет-поиска на русском языке и полученные с их помощью результаты весьма полезны. Если же стоит задача поиска зарубежных научных публикаций, то замечательные результаты можно получить с помощью системы Scirus. Большой объем базы и хороший выбор инструментов составления запроса дают хорошие шансы на успешное завершение поиска. Ресурсы ScienceResearch и BASE также предлагают неплохую подборку источников и оригинальные инструменты составления запроса.

Поиск полнотекстовых электронных книг в настоящее время является достаточно хорошо разработанной областью вертикального поиска. Среди соответствующих разделов универсальных поисковиков безусловно лучшими являются проекты Google и Nigma. Система Google Книги хороша в первую очередь для фактографического поиска в текстах книг, поскольку в большинстве случаев демонстрирует только фрагменты книг. Поиск книг в проекте Nigma ориентирован на полнотекстовые книги, интересен он также параллельным поиском критических публикаций. Однако лучшим инструментом для поиска полных текстов электронных книг следует признать проект eBdb. Он хорошо работает с русскоязычными сетевыми библиотеками. Найденные книги доступны для скачивания без каких-либо ограничений. Максимум, что потребуется от пользователя для получения файла – регистрация в соответствующей сетевой библиотеке. Данный поисковик умеет работать как с прямыми запросами по названию конкретной книги, так и с более широкими запросами, позволяющими отследить публикации определенного автора или же собрать тематическую подборку литературы. Кроме этих базовых функций он обладает удобным набором дополнительных сервисов. Таким образом, данная машина может быть рекомендована всем пользователям, интересующимся электронными книгами.

При поиске программ первую остановку имеет смысл сделать на проекте SoftSearch. Хорошая работа с каталогами и собственная рейтинговая система способствуют повышению качества поиска. Неплохие результаты при поиске зарубежных программ можно получить с помощью системы Exefind. Поисковик Quweas во многом уступает конкурентам, однако отличается уникальной возможностью поиска программ для редких компьютерных платформ.