Профессиональный поиск в Интернете

Кутовенко Алексей

Глава 11

Программы-помощники

 

 

Интернет-поиск – это одно из средств получения информации, необходимой для выполнения той или иной деятельности. Именно это является его главной целью. Поэтому в данный процесс входит не только обращение к поисковым интернет-машинам. Найдя с помощью таких поисковиков нужные ресурсы, приходится заниматься их анализом, сохранением и управлением созданным архивом. Эти задачи глобальны, и при активной работе с интернетом решать их приходится практически ежедневно. Поэтому вполне логичным стало появление специализированных приложений, облегчающих эту работу. Даная глава посвящена именно таким программам.

Среди всего многообразия программ-помощников в деле поиска и последующей обработки найденной информации можно выделить две основные группы: инструменты, помогающие непосредственно в поиске информации в Сети, и группа приложений, предназначенных для сохранения и обработки найденных данных.

Идея задействовать «настольное» приложение в качестве посредника между пользователем и интернет-поисковиками далеко не нова. Преимущества такого решения по сравнению со стандартным веб-поиском сводятся к двум аспектам. Первый – это возможность одновременного обращения к большому количеству интернет-поисковиков из единой формы запроса локальной программы. Второй – наличие дополнительных инструментов обработки и анализа найденных ссылок, а также сохранения результатов поиска в удобном формате.

При серьезном целенаправленном сборе информации в Сети часто возникает необходимость сохранения полезных ссылок или веб-страниц для дальнейшей работы. Результатом, кроме собственно полезного эффекта, становится стремительно растущий размер архивов на жестком диске. И если емкости современных дисков позволяют несколько свысока смотреть на проблему нехватки пространства, сортировка такого беспорядочного архива и поиск в нем стандартными средствами становятся настоящей головной болью.

Решать данную проблему можно различными способами. Все современные браузеры предлагают встроенные средства для работы с закладками, однако их функциональности хватает только для обслуживания относительно небольших архивов. Задачу поиска среди сохраненных веб-страниц можно возложить на всевозможные «настольные» индексаторы в духе Google Desktop Search и тому подобных. Со своей основной задачей – поиском – они справятся хорошо, однако упорядочить крупный архив с их помощью не получится, равно как, например, составить на основе использованных страниц библиографию к своей письменной работе или выполнить иное полезное, но не относящееся к собственно поиску действие. Наиболее эффективным средством обработки найденных данных являются специализированные менеджеры закладок и сохраненных веб-страниц.

 

Программы для метапоиска в интернете

 

Несмотря на кажущееся разнообразие выбора, пик популярности подобных приложений, похоже, позади. Большинство представленных в Сети локальных программ для интернет-поиска было создано в начале двухтысячных годов, многие не обновлялись с 2003–2005 года. Учитывая постоянные изменения поискового «ландшафта», польза от применения таких «старичков» представляется весьма сомнительной. Далее мы уделим внимание только последним решениям, которых не так много.

Современные программы для поиска в интернете значительно различаются по функциональности. Среди них есть как относительно простые приложения, оснащенные разумным минимумом функций, так и достаточно сложные решения, которые, по большому счету, являются локальными аналогами вертикальных тематических интернет-поисковиков. Такие приложения предлагают метапоиск среди большого количества специализированных поисковиков и интернет-ресурсов. Их ценность состоит именно в наличии больших каталогов ресурсов и возможности точного тематического поиска по узким запросам.

 

FirstStop WebSearch

Программа FirstStop WebSearch размещает свое поле для быстрого поиска прямо на рабочем столе Windows. Бесплатная версия программы предлагает только два тематических раздела поиска: в Сети в целом и в сервисах социальных закладок. Количество встроенных поисковиков невелико. Это компенсируется тем, что FirstStop WebSearch позволяет добавлять в базу собственные поисковики, причем определять переменные и форматировать строку запроса предлагается вручную – на сайте программы есть даже небольшая шпаргалка о том, как это делать. Предусмотрено автоматическое обновление базы поисковиков в соответствии с заданными пользователем параметрами. Кроме того, списки поисковиков можно импортировать и экспортировать вручную.

Оригинальная особенность данного приложения – кластеризация результатов. Панель Discovery Tree демонстрирует все автоматически выделенные программой ключевые слова, что позволяет быстро перемещаться по результаты поиска. К сожалению, быстрое исключение кластеров из результатов поиска не предусмотрено, что не дает эффективно фильтровать результаты. Для этой задачи служит отдельный инструмент, позволяющий отбирать страницы по заголовку, нашедшему ссылки поисковику и другим признакам (рис. 11.1).

Рис. 11.1. Поисковик FirstStop WebSearch

Результаты поиска можно сохранить и выгрузить в файл. Для дополнительной обработки результатов предлагается использовать сторонние программы – предусмотрена интеграция с пакетами Web Finalist и Monarch Search. Из полезных дополнений в данной программе можно отметить разве что встроенный каталогизатор ссылок на веб-сайты.

 

Copernic Agent

Copernic Agent остается, пожалуй, самым известным приложением для метапоиска в интернете. Существуют три версии приложения: Basic, Personal и Professional. «Базовая» версия бесплатна, однако обладает урезанной функциональностью. Мы рассмотрим наиболее мощную «профессиональную» версию. Это приложение обладает достаточно серьезными возможностями поиска и дополнительной обработки результатов.

Оценка одной из основных характеристик любого решения для мета-поиска – охват интернет-поисковиков – в Copernic неоднозначна, хотя заявлена поддержка нескольких сотен поисковиков и онлайновых справочников, разбитых на тематические и национальные группы. Каждая категория содержит до нескольких десятков поисковых ресурсов. Категории можно устанавливать и удалять, что напоминает работу с электронными словарями. При установке категории в списке поисковиков можно отобрать только нужные машины (рис. 11.2).

Рис. 11.2. Настройка поисковых категорий в программе Copernic Agent

Хотелось бы остановиться на национальных поисковых категориях Copernic. Предлагается десяток подборок для конкретных стран – от. Австралии до Индии. К сожалению, России здесь нет, наиболее близкое географически местоположение – Польша. Кроме того, предлагаются подборки поисковиков для работы с материалами на испанском, итальянском и французском языках. В этих блоках подобраны полезные поисковики, что делает Copernic хорошим инструментом для работы с некоторыми национальными сегментами Сети. Нельзя не отметить тематический поиск в новостях, блогах и таких полезных для специалистов источниках, как базы патентов. Перед таким массивом источников можно было бы только уважительно снять шляпу, если бы не пара неприятных нюансов, относящихся к наиболее универсальной и востребованной категории – простому веб-поиску.

Дело в том, что среди всех сотен источников и тринадцати поисковиков, включенных в универсальную категорию Web, не нашлось места для Google. Вероятно, для этого у разработчиков были свои причины, однако исключение одной из крупнейших индексных баз из результатов поиска заметно сказывается на качестве поиска и вызывает искреннее недоумение. Из включенных в данную категорию поисковиков более-менее приличные результаты по запросам на русском языке способны выдать только Bing и в меньшей степени Yahoo!. В принципе, если бы в Copernic были предусмотрены инструменты самостоятельного добавления описаний поисковиков, эта проблема не была бы серьезной. Однако программа позволяет только создавать собственные категории, которые можно комплектовать источниками из общей библиотеки Copernic.

Интерфейс Copernic Agent Professional состоит из области просмотра и двух вспомогательных панелей: боковой и верхней. Верхняя панель предназначена для работы с архивом проведенных поисков. Боковая панель содержит три вкладки. Вкладка Quick Search отвечает за работу в режиме простого поиска, а также позволяет выбирать категории для поиска. Вкладка Common Tasks содержит инструменты анализа найденного. Возможна фильтрация найденных материалов по различным признакам, автоматическое удаление дублей и «мертвых» ссылок. Кроме того, Copernic Agent умеет автоматически составлять небольшие рефераты. Правда, нормально работает данная функция только с англоязычным текстом, да и здесь чудес нет: нам предлагают выдержки из текстов найденных веб-страниц, содержащих автоматически найденные ключевые слова.

Copernic Agent поддерживает режимы простого и расширенного поиска. Для простого поиска доступна только одна дополнительная опция – поиск по фразе. В режиме расширенного поиска дополнительных опций составления запроса нет. Взамен предлагается настроить систему автоматического отслеживания появления новых страниц по вашему запросу, а также страниц, изменившихся с момента последнего поиска. Если интересные вам страницы не предлагают RSS-каналов и вы не желаете разбираться с существующими сервисами для самостоятельного создания RSS-каналов, – это действительно хорошее дополнение к основной программе. Copernic также может выступить в качестве менеджера загрузок и скачать все найденные веб-страницы, сохранив их на локальном компьютере.

Результаты поиска отображаются в виде текстового списка. Каждая найденная ссылка сопровождается информацией о нашедших ее поисковиках. Степень релевантности результата демонстрируется в виде цветной полоски и численной оценки в процентах, находящихся рядом с каждой найденной ссылкой.

 

aSearch.INFO

Приложение aSearch INFO обладает очень простым и понятным интерфейсом, который, к сожалению, не имеет русскоязычной версии. Интересно, что кроме обычной персональной лицензии предлагается лицензия, позволяющая разместить на своем сайте для скачивания полную версию программы без каких-либо ограничений на количество загрузок. Обойдется это удовольствие в три тысячи долларов.

aSearch.INFO предлагает инструмент самостоятельного добавления поисковиков. Называется он Constructor и представляет собой очень гибкий и удобный мастер на пять шагов. Отметим, что параметры строки URL-адреса при поиске программа пытается определить автоматически, для чего на одном из этапов предлагает провести на новом поисковике тестовый поиск. Это серьезно ускоряет работу по анализу параметров нового поисковика. Предусмотрена обработка параметров расширенного поиска и автоматическая перекодировка получаемого текста. При желании вы можете отправить описание нового поисковика в онлайновый каталог aSearch.INFO.

Инструменты составления запроса и управления поиском собраны на боковой панели. Она содержит несколько вкладок, в которых можно выбрать одну из предустановленных тематических категорий. Их состав достаточно привычный: веб, софт, развлечения, покупки, поиск работы. Последние два раздела оптимизированы для работы с зарубежными ресурсами. Здесь же располагается панель фильтров, аналог «поиска в найденном» онлайновых сервисов. С ее помощью можно составлять довольно интересные запросы с использованием логических операторов.

Сами результаты отображаются в виде единой ленты, причем каждой ссылке выделена удобная «карточка». Приводятся прямая ссылка на веб-страницу и название поисковика, с помощью которого она была получена. Какой-либо информации о позиции конкретной ссылки в результатах того или иного поисковика нет. Ссылки, по всей видимости, сортируются по релевантности. Как она определяется, разработчики не сообщают. Альтернативных методов сортировки ссылок не предусмотрено. Списки результатов поиска сохраняются в базе данных программы. Опций сортировки или другой обработки для них нет.

Варианты настройки у данной программы довольно скромные. Можно включать и отключать режим очистки списка от дублирующихся ссылок, выбирать браузер, в котором будут открываться найденные ссылки, управлять звуками. Полностью настраивается оформление программы – соответствующие параметры можно исправить вручную, отредактировав прямо в окне настройки стандартную таблицу стилей.

 

iMetaSearch

Программа-поисковик iMetaSearch предназначена для глубокой обработки и сортировка найденных ссылок с помощью оригинальных алгоритмов. К стилю работы с этим поисковиком понадобится привыкнуть, однако он действительно повышает качество поиска.

Интерфейс iMetaSearch разделен на четыре панели: список найденных ссылок, панель просмотра информации о выделенной ссылке и две боковые панели, с помощью которых можно проводить дополнительный анализ результатов. Первая из них – Search Topics – предлагает список предположительных тем, в которые можно объединить найденные ссылки. Второй раздел – Search Words – наоборот, позволяет максимально детализировать поиск за счет работы не с крупными темами, а со списком всех автоматически выделенных программой ключевых слов. Каждый раздел снабжен ползунком, с помощью которого можно быстро определить демонстрируемое программой количество групп и ключевых слов iMetaSearch позволяет добавлять в список используемых поисковиков свои машины. Для этого служит мастер настройки Build Engine.

Автоматический поиск ключевых слов предполагает наличие достаточно серьезных технологий обработки результатов. Для выделения групп и ключевых слов в iMetaSearch используется технология латентного семантического анализа (Latent Semantic Analysis, LSA). В двух словах ее смысл заключается в следующем. Как правило, пользователи составляют короткие запросы, содержащие одно-два ключевых слова, что ведет к размыванию результатов поиска и появлению информационного шума. LSA-система пытается в автоматизированном режиме расширить полученный запрос на основе обратной связи с пользователем. Проще говоря, отработав оригинальный, полученный от пользователя запрос, LSA-система предлагает пользователю указать лучший с его точки зрения результат, проводит его анализ и перестраивает список выдачи с учетом автоматически выделенных дополнительных условий.

Задача сортировки результатов поиска решена в полном соответствии с идеями технологии LSA. Выделив наиболее полезный результат в списке, пользователь тем самым присваивает ему значение релевантности равное ста процентам. Список выдачи немедленно перестраивается с учетом новых данных, полученных в результате такой обратной связи. Программа выводит на первые позиции за выделенной нами ссылкой наиболее похожие на нее по содержанию веб-страницы, указывая степень смыслового подобия как в цифрах, в процентном значении степени совпадения, так и визуально – цветной полоской. Кроме этого семантического стиля доступны и более привычные режимы сортировки – по заголовкам веб-страниц, задействованным поисковикам, и по рейтингу веб-страниц на использованных поисковиках. Результаты поиска можно выгрузить в HTML– или CSV-файл.

Главный недостаток iMetaSearch – очень плохая работа с поисковыми запросами, набранными кириллицей. Это значительно снижает количество пользователей в наших краях, которым данная программа могла бы приносить практическую пользу.

 

Менеджеры архивов веб-страниц

 

Среди приложений для сохранения и обработки найденного в Сети контента есть решения на любой вкус: онлайновые сервисы, самостоятельные локальные приложения и плагины для браузеров Далее мы рассмотрим лучшие инструменты каждой из названных групп. Среди них есть как коммерческие, так и распространяемые бесплатно приложения, в том числе с предоставлением исходного кода.

Основное преимущество онлайновых решений – доступность. Работать со своим архивом можно в любой точке, с любого устройства: был бы браузер и доступ в интернет. Второе их преимущество – социальные инструменты, позволяющие легко обмениваться данными или вести совместную работу над одним проектом.

Локальные программы также обладают рядом весьма привлекательных свойств. Они не требуют постоянного подключения к. Сети и позволяют вдумчиво работать с крупными архивами сохраненных файлов и веб-страниц. Такие программы не зависят от скорости интернет-соединения или неполадок на линиях связи. Для некоторых пользователей немаловажен тот факт, что все архивы хранятся только на локальном компьютере и их приватность не пострадает в случае сбоя на удаленном сервере. Кроме того, локальные приложения могут похвастаться широким выбором различных дополнительных инструментов, который пока могут себе позволить далеко не все онлайновые сервисы.

Встроенные в браузеры инструменты сохранения веб-страниц являются удобным средством, поскольку не требуют приобретения и запуска каких-либо сторонних приложений.

Больше всего повезло пользователям Firefox, поскольку лучшие на сегодняшний день решения такого плана разработаны именно для этого браузера. Менеджеры ScrapBook и Zotero, речь о которых идет далее, распространяются бесплатно, обладают хорошей функциональностью, просты в освоении. Они вполне подходят на роль ежедневно используемых инструментов.

 

ScrapBook

Распространяется ScrapBook свободно. Устанавливается приложение стандартным для дополнений Firefox образом. Важное для нас обстоятельство – наличие русскоязычной версии программы.

Менеджер ScrapBook весьма прост в освоении и работе. Он интегрируется в интерфейс Firefox в виде боковой панели, которую можно вызвать либо из меню браузера, где появляется новый одноименный пункт, либо, что гораздо удобней, комбинацией клавиш Alt+K. Работа со ScrapBook, как и с другими подобными решениями, четко делится на два этапа: сохранение контента во время серфинга и последующее управление собранным архивом.

Боковая панель ScrapBook содержит список сохраненных страниц и ссылок, которые можно сортировать по различным признакам. В ее верхней части находятся кнопки создания каталогов, поле поиска по архиву и меню с дополнительными опциями. За этой внешней простотой и лаконичностью скрыты достойные возможности.

Доступны два режима просмотра архива. Первый – общим списком сохраненных страниц и каталогов, отсортированных в хронологическом порядке. Во втором режиме панель разделяется на две части, при этом в верхней показываются только каталоги, а в нижней – список страниц активного каталога. В большом архиве такой «разделенный» режим гораздо удобней в использовании. По умолчанию список сортируется по датам сохранения страниц, однако при настройке ScrapBook можно задать режим сортировки по заглавиям страниц или рекурсивной сортировки вложенных каталогов.

ScrapBook умеет сохранять веб-страницы целиком, отдельные фрагменты веб-страниц и отдельные фреймы. Захват отдельных мультимедиаобъектов не поддерживается. Добавление страниц в архив производится либо через стандартное контекстное меню браузера, либо же комбинацией «горячих клавиш» Ctrl+Shift+L. Контекстное меню содержит команды. Захватить веб-страницу, Захватить веб-страницу как и Добавить в закладки. Первый вариант наиболее простой и быстрый – достаточно выбрать необходимый каталог в списке недавно использованных или же создать новый – и страница уже в архиве. Второй вариант предлагает набор дополнительных вариантов настройки: выбор сохраняемых элементов (изображения, JavaScript-код, CSS-стили), а также позволяет автоматически сохранять файлы и страницы, на которые ведут ссылки, найденные на сохраняемой веб-странице. Можно также выделить на странице фрагмент текста и скачать в архив ScrapBook только попавшие в него ссылки. Среди доступных опций настройки – глубина захвата и выбор типа загружаемых файлов, причем, если вы хотите сохранить файлы с какими-либо экзотическими расширениями, достаточно просто перечислить эти расширения через запятую в специальном поле. Если на открытой странице присутствуют фреймы, ScrapBook предлагает возможность сохранения не только целой веб-страницы, но и отдельных фреймов. Соответствующие команды появятся во все том же контекстном меню.

Для импорта в архив ScrapBook уже хранящихся на жестком диске веб-страниц можно воспользоваться инструментом. Сохранение нескольких URL. Одноименное диалоговое окно содержит список выбора каталога архива, куда будут импортированы новые страницы. Возможен экспорт документов из архива ScrapBook в формат HTML, при этом каждая страница и все относящиеся к ней файлы попадают в отдельный каталог. Такую подборку затем можно импортировать в ScrapBook на другом компьютере.

ScrapBook обладает вполне конкурентоспособным набором дополнительных инструментов. Среди них – средства проверки и аварийного восстановления архива, а также встроенный редактор веб-страниц. Кроме того, ScrapBook предлагает полезную функцию объединения нескольких сохраненных веб-страниц в один файл. Она весьма удобна при сохранении обсуждений с форумов или «склейке» крупных статей, разбитых на несколько частей. Соответствующая команда называется. Объединение веб-страниц и вызывается из меню. Инструменты панели ScrapBook. Она выполняется в два этапа: сначала отбираются нужные страницы, затем путем предварительного просмотра происходит знакомство с новым единым файлом и его генерация. При этом доступна команда автоматического удаления исходных страниц из архива.

Система поиска может работать как со всем текстом сохраненных страниц, так и с их отдельными характеристиками, например именем и датой сохранения. Радует, что при поиске поддерживаются стандартные регулярные выражения.

Дальнейшая работа с архивом в основном ведется с помощью боковой панели ScrapBook. Просмотр сохраненных страниц осуществляется в самом браузере и не требует запуска каких-либо дополнительных приложений. О том, что работа идет с локальной копией, свидетельствует только дополнительная панель инструментов в нижней части экрана. Она содержит поле добавления комментария и набор цветных маркеров для выделения особо интересных фрагментов.

Окно настройки ScrapBook состоит из нескольких вкладок, отвечающих за различные аспекты поведения приложения. Важные опции содержит вкладка. Организация. В первую очередь это указание места хранения архива ScrapBook. Здесь также можно включить режим работы с несколькими архивами. Дело в том, что все файлы и веб-страницы ScrapBook по умолчанию сохраняются в каталоге профиля браузера Firefox. Гораздо удобнее и надежнее разделить профиль браузера и архивы ScrapBook. Для этого достаточно включить соответствующий режим и указать путь к новому каталогу архива. Для одновременного использования нескольких архивов ScrapBook с возможностью переключения между ними необходимо установить флажок Multi-ScrapBook, который также находится на вкладке. Организация панели настройки ScrapBook.

Средства обслуживания ScrapBook представлены инструментами проверки целостности и аварийного восстановления архива.

Возможности ScrapBook можно расширять с помощью подключаемых модулей. Подборка таких плагинов представлена на сайте проекта. Стоит обратить внимание на плагин ScrapBook AutoSave, который реализует режим постоянного фонового сохранения просматриваемых страниц, CHM Exporter, добавляющий возможность экспорта в формат CHM, а также CopyPage Info, генерирующий библиографическое описание открытой веб-страницы. Радует то, что формат такой записи можно настраивать, так что привести его в соответствие с собственными правилами оформления не составит большого труда.

 

Zotero

Zotero – это дополнение для браузера Firefox, основной задачей которого является организация персональной информационной базы пользователя, а также удобное сохранение в ней веб-страниц, ссылок и другого контента. Заметим, что Zotero располагает рядом любопытных инструментов.

В ходе установки Zotero распознает локализацию браузера и устанавливает соответствующую версию своего интерфейса. Вызвать дополнение можно щелчком на соответствующей кнопке в нижней части окна браузера. После запуска Zotero открывает достаточно большую панель, разделенную на три колонки.

В центральной колонке выводится список включенных в коллекцию записей и присоединенных к ним объектов. Левая колонка содержит перечень подразделов архива («библиотек»), представленных в виде дерева. Дополняет его панель поиска использованных тегов. Правая колонка отведена описанию объекта. Она, в свою очередь, разделена на несколько вкладок, на которых можно просмотреть и ввести описание объекта, список тегов, заметки и присоединенные к описанию файлы. Там же находятся кнопки, открывающие сохраненные файлы в сопоставленном приложении, а также открывающие каталог, в котором находятся эти файлы.

Разработчики Zotero подчеркивают, что изначально проект создавался как менеджер библиографической информации, необходимой для последующего корректного цитирования с грамотно выполненными ссылками на источники. Впоследствии функции дополнения были значительно расширены, однако такой подход остается фирменной чертой Zotero и поныне. Основной «единицей хранения» в менеджере остается описание ресурса, к которому могут быть присоединены различные файлы. Предлагается три варианта создания новой записи. Первый – автоматическая генерация записи при захвате файла или веб-страницы. Второй вариант создания записи в базе данных – добавление нового объекта по его идентификатору. В этом качестве может выступить один из поддерживаемых типов кодов: ISBN (международный код книжного издания), DOI (идентификатор цифрового объекта) или PubMed ID (идентификатор, применяемый для статей медицинской и биологической тематики). При использовании любого из этих идентификаторов Zotero обращается к соответствующим онлайновым каталогам и загружает полное библиографическое описание необходимого пользователю объекта. К сожалению, книги на русском языке в таком режиме находятся нечасто, что серьезно снижает ценность этого, безусловно, полезного инструмента.

Наконец, запись можно составить и в полностью ручном режиме, не прибегая к помощи автоматики. Для упрощения этого процесса предлагается подборка встроенных шаблонов описания для различного типа контента (книга, статья, патент, карта и другие).

К такой записи в базе может быть присоединен широкий спектр типов файлов: электронные книги и отдельные документы, веб-страницы, мультимедиа-файлы, изображения и многое другое.

Zotero умеет сохранять как ссылки на веб-страницы, так и страницы целиком. Для сохранения веб-страницы на панели Zotero предназначена кнопка. Создать новый документ с текущей страницы. При щелчке на ней в базе создается новая запись и к ней присоединяется так называемый «снимок» страницы, другими словами – ее локальная копия Zotero также пытается автоматически определить и заполнить как можно больше элементов этой записи: заглавие, автора, время создания и ряд других. При этом используются метаданные сохраняемого файла.

Многие менеджеры сохранения веб-страниц умеют захватывать не только страницы целиком, но и отдельные блоки контента. Обычно пользователю предлагается просто выделить на странице нужный фрагмент, который и сохраняется в базе. Разработчики Zotero пошли другим путем. Дело в том, что Zotero умеет автоматически находить и «подхватывать» как отдельные элементы, так и размещенные на веб-страницах данные в форматах RDF, COinS, а также в специализированных форматах библиографических описаний Dublin Core XML и MARC. Это особенно актуально для онлайновых каталогов, поскольку в данном случае интерес представляют именно отдельные записи, а не содержащие их страницы.

Узнать о возможности захвата таких данных можно по появлению в адресной строке браузера значка Zotero. Если же этот значок приобретает вид папки, это означает, что менеджер способен захватить сразу несколько отдельных объектов на открытой в данный момент веб-странице. Щелчок на значке в данном случае открывает диалоговое окно, в котором можно выбрать сохраняемый контент.

Для автоматического извлечения информации со страниц используются модули, называемые трансляторами (translators). Существует две группы трансляторов: универсальные и специализированные под конкретный сайт. Поскольку менеджер Zotero ориентирован на библиографическую информацию, в списке поддерживаемых сайтов преобладают онлайновые каталоги различных научных библиотек. Кроме того, работу с данным приложением поддерживают некоторые готовые системы. В частности, заявлена поддержка популярного движка WordPress. Для веб-разработчиков предлагаются рекомендации по обеспечению совместимости сайтов с Zotero.

Менеджер Zotero обладает возможностью полнотекстового индексирования сохраненных с его помощью PDF-файлов. Для этого служат внешние приложения, которые связываются с Zotero. Рекомендуется использование «опенсорсовых» пакетов pdfinfo и pdftotext. При настройке Zotero доступен параметр, отвечающий за скачивание и автоматическую установку этих пакетов, если они не были найдены на компьютере пользователя.

При импорте PDF-файлов Zotero предлагает провести поиск информации о сохраняемом файле в базе Google Scholar. Если такой поиск завершится успешно, все необходимые поля описания будут заполнены автоматически.

Следующая важная функция Zotero – автоматическое формирование библиографических описаний и списков использованных источников. По умолчанию приложение содержит полтора десятка стилей библиографического описания. Практически все они ориентированы на североамериканские правила и, соответственно, не слишком полезны подавляющему большинству наших пользователей. Однако это только стартовый пакет – Zotero поддерживает установку дополнительных стилей описания. На странице Zotero Styles Repository () можно найти несколько сотен стилей описания, составленных с учетом требований к оформлению многочисленных научных периодических изданий множества стран мира. Есть в этом списке и стиль «Russian GOST R 7.0.5-2008 (Российский. ГОСТ. Р 7.0.5-2008)». После его установки вы закроете большинство требований к оформлению списков литературы в студенческих и школьных работах. К тому же на форуме поддержки Zotero имется специализированный раздел, где можно оставить запрос на создание нового стиля описания.

Инструменты Zotero можно интегрировать в текстовые редакторы Microsoft Word и OpenOffice Writer. После их установки на панелях редакторов появляется кнопка Zotero, с помощью которой можно вызвать базу данных Zotero и быстро вставить ссылку на соответствующий пункт списка литературы. Поддерживаются различные варианты таких ссылок: подстраничные сноски и ссылки на список в конце документа. Возможна генерация списка использованной литературы на основе проставленных в тексте ссылок. При желании список источников можно сделать вручную, вставив описания из окна Zotero перетаскиванием или же копированием через буфер обмена. Удобно, что стиль описания и цитирования использованных источников можно менять «на лету» сразу во всем документе. Если учесть, что возможности Zotero по сбору и упорядочиванию источников заметно превосходят встроенные инструменты текстовых редакторов, эти дополнения становятся весьма полезным инструментом.

Для организации архива используются тематические подкаталоги – «коллекции». Поскольку коллекции являются виртуальными объектами, одни и те же объекты можно добавлять в несколько коллекций в виде ссылок. Это не приведет к дублированию самих файлов. Кроме коллекций для сортировки контента можно использовать теги. Присваивать их удобнее с помощью панели в правой колонке интерфейса. Аналогичный инструмент доступен и в списке заполненных полей на левой панели.

В Zotero можно переключаться между несколькими библиотеками. Для этого в окне настройки приложения на вкладке. Расширенные достаточно указать путь к нужному каталогу с библиотекой. По умолчанию библиотеки Zotero сохраняются в пользовательском каталоге профиля браузера Firefox.

Любопытный способ просмотра коллекции Zotero – режим Шкала времени. Его назначение – визуализация истории процесса пополнения вашей библиотеки. На экране отображаются три шкалы: одна для грубой настройки и две для тонкого выбора нужного периода, кроме того, есть небольшая панель настройки, где можно выбрать шаг делений этих шкал, а также типы контента, который должен на них отображаться.

Система простого поиска Zotero в соответствии со своим названием позволяет искать простые совпадения с введенной ключевой фразой во всех полях описания, а также в содержимом проиндексированных текстовых документов и веб-страниц. Поиск ведется по мере набора текста, что ускоряет процесс, однако может заметно затормозить работу программы в случае действительно объемной базы с тысячами записей. Чтобы временно отключить эту функцию, достаточно начинать свой запрос открывающими кавычками, как при поиске по фразе.

Поддерживается сортировка списка найденного практически по любому указанному в записях признаку. Для этого достаточно просто щелкнуть на заголовке соответствующей колонки списка. Настроить перечень демонстрируемых колонок можно с помощью кнопки в правой части линейки заголовков.

Расширенный поиск может содержать несколько условий. Поддерживаются различные условия (включение, исключение, совпадение), возможно также наложение дополнительных фильтров. Например, поиск можно ограничить только родительскими описаниями или расширить на все файлы, включенные в базу Zotero. К сожалению, логические операторы нельзя индивидуально расставить между нужными условиями, можно только выбрать общие для всех связки «И», «ИЛИ», что снижает гибкость поиска. Поисковое выражение может содержать маски, создаваемые с помощью символа %. Условия расширенного поиска можно сохранять. Это удобно, если определенные запросы вы повторяете регулярно.

Zotero поддерживает онлайновую синхронизацию баз и совместную работу группы пользователей над их наполнением. Синхронизация позволяет поддерживать в актуальном состоянии базы Zotero на нескольких компьютерах. Для синхронизации библиографических сведений используется собственный сервер Zotero. Для хранения включенных в базу файлов также можно воспользоваться сервисами Zotero. 100-мегабайтное хранилище предоставляется бесплатно. Возможно применение собственного сервиса WebDAV, параметры доступа к которому задаются при настройке Zotero.

Для организации совместной работы с сохраненной на сервере базой участникам группы понадобится зарегистрировать аккаунты на сайте Zotero. После этого участники группы могут дополнять базу с помощью как онлайновых форм, так и локальных клиентов Zotero, установленных в браузерах. После синхронизации все собранные данные становятся доступны участникам группы.

Расширить возможности Zotero можно с помощью плагинов. Они устанавливаются как дополнения Firefox, однако работают в тесной интеграции с Zotero: даже их элементы управления выводятся как новые вкладки на основной панели настройки Zotero. В настоящее время доступно около двух десятков таких дополнений. Просмотреть их список можно на странице Zotero Plugins ().

 

MetaProducts Inquiry

Пакет MetaProducts Inquiry состоит из программы-менеджера архива и дополнений для популярных браузеров, предназначенных для быстрого сохранения страниц в ходе серфинга. Серьезным достоинством Inquiry является наличие русскоязычной версии этой программы, а также справки на русском языке. Предлагается две версии Inquiry: стандартная и профессиональная. Для русскоязычных пользователей предусмотрена специальная цена при покупке стандартной версии приложения.

Штатный режим пополнения архива – работа с помощью встраиваемых в браузер инструментов Inquiry. Поддерживаются браузеры Internet Explorer, Firefox, Opera и Maxton. Лучше всего поддержка реализована в браузере Internet Explorer, который получает полноценную боковую панель с инструментами Inquiry. В случае же Firefox и Opera поддержка Inquiry ограничивается добавлением новых пунктов в контекстное меню. При работе с Inquiry в связке с браузером Firefox выявился неприятный момент. По всей видимости, архивы пополняются не из кэша браузера, как при работе с Internet Explorer, а закачиваются заново, что вдвое увеличивает трафик и заметно замедляет работу.

Сохранить веб-страницу можно, щелкнув на нужной кнопке панели браузера или же простым перетаскиванием ссылок на панель Inquiry. При этом их можно сразу помещать в нужную тематическую папку архива. Аналогичные команды доступны и в контекстном меню браузера. Полезная функция Inquiry – сохранение всех страниц и файлов, на которые ведут ссылки из фрагмента текста, выделенного указателем мыши на открытой веб-странице. Поддерживается отдельное сохранение картинок и флэш-роликов с открытых в браузере веб-страниц.

Еще один интересный режим работы Inquiry – автоматическое фоновое сохранение абсолютно всех открываемых в браузере веб-страниц. Они помещаются в папки, отсортированные по дате посещения. Включить режим можно в меню. Сервис, выбрав команду. Режим автосохранения. Для данного режима доступны дополнительные варианты настройки, в частности можно создать с помощью масок список страниц, которые не должны сохраняться, а также проверять сохраняемые страницы на наличие копий. Эти и другие параметры Inquiry можно задать в окне. Параметры, открываемом через меню. Сервис (рис. 11.3).

Рис. 11.3. Панель настройки менеджера Inquiry

Inquiry поддерживает импорт в свою базу уже сохраненных на локальном компьютере веб-страниц. Выполнен этот инструмент достаточно удобно. Допускается как импорт отдельных конкретных страниц, так и массовый импорт всех страниц из указанных пользователем каталогов. Если такие каталоги содержат вложенные папки, то Inquiry полностью сохранит эту структуру каталогов в своем архиве, что радикально сокращает время их дальнейшей сортировки.

Экспорт данных из базы Inquiry возможен в форматах HTML, CHM, MXT и XBEL. Кроме того, экспортируемые веб-страницы могут быть запакованы в EXE-файл, содержащий средство их просмотра.

Интерфейс основной программы-менеджера архива состоит из основной области просмотра, боковой панели со списком каталогов и нижней панели комментариев.

Предлагается три варианта просмотра базы сохраненных страниц: в виде графических миниатюр страниц, в виде текстового списка и комбинированный режим, предлагающий и миниатюры, и подписи к ним. Для просмотра страниц используется движок Internet Explorer. При желании можно переключиться в полноэкранный режим «киоска», включать и отключать отображение определенных элементов сохраненных веб-страниц, например Flash-роликов или скриптов.

Боковая панель предназначена для навигации по архиву и содержит список папок архива. Корневые папки генерируются автоматически. Это общая папка для сохраняемых веб-страниц, в которой пользователь может создавать собственные тематические каталоги, папка режима автосохранения, а также папка результатов поиска, в которой можно просматривать веб-страницы после завершения поиска в архиве.

Под областью просмотра находится панель комментариев. Она содержит несколько вкладок, на которых находятся инструменты просмотра и редактирования сведений о веб-странице, а также текстовых комментариев к ней. Особенно интересна вкладка. Библиография, с помощью которой можно генерировать и просматривать библиографическое описание сохраненной страницы. Это достаточно полезная функция, поскольку при подготовке многих учебных или рабочих текстов грамотное оформление списка источников играет важную роль. По умолчанию Inquiry предлагает несколько наиболее распространенных зарубежных форматов библиографической записи, не имеющих практически ничего общего с нашими. ГОСТами. Здесь на помощь приходит редактор форматов, доступный в окне. Параметры. Он позволяет самостоятельно составить шаблон библиографической записи. В результате, потратив некоторое время на его настройку, можно получить вполне приличное описание, которое не стыдно будет поставить даже в официальный документ. К сожалению, данный инструмент доступен только в профессиональной версии Inquiry.

Встроенные средства поиска Inquiry позволяет искать как среди отдельных элементов сохраненных документов, так и в их полном тексте. Кроме того, поиск можно ограничить определенной папкой архива. Результаты поиска выводятся в виде миниатюр страниц с некоторой вспомогательной текстовой информацией.

Inquiry содержит встроенный редактор сохраненных страниц, с помощью которого можно работать с их текстом, использовать инструменты цветного выделения и выполнять другие несложные операции с текстом и другими объектами документов архива.

 

Macropool WebResearch

Пакет WebResearch способен сохранять как обычные веб-страницы, так и любые документы, не относящиеся к HTML, – лишь бы они могли отображаться браузером. Актуальная на сегодняшний день версия приложения имеет третий номер. Она поддерживает работу с операционной системой Windows 7, а также последними версиями популярных браузеров. Более ранние версии WebResearch не способны работать с Firefox 3.

Предлагаются версии Personal и Professional пакета WebResearch. Последняя отличается некоторыми дополнительными функциями, например возможностью захвата снимков целого экрана, его выделенной области или активного окна. В нее также включен собственный HTML-редактор, с помощью которого можно создавать и редактировать не слишком сложные страницы, а также создавать и сохранять небольшие заметки к сохраненным в архиве файлам. К сожалению, в настоящее время русскоязычной локализации у данного приложения нет.

Основные режимы работы WebResearch – захват контента во время просмотра веб-страниц и последующая работа с архивом. Для сохранения информации штатным режимом является работа WebResearch в связке с браузером Internet Explorer. Также возможна совместная работа с Opera и Firefox – для последнего предлагается соответствующий плагин.

Наиболее функциональна панель инструментов для Internet Explorer. Она состоит из двух частей: Web Research Toolbar и Web Editing Toolbar. Первая повторяет панель для Firefox, а вторая позволяет переключиться в режим редактирования сохраняемой веб-страницы. В данном режиме можно изменять шрифты, помечать важные места цветным маркером, менять форматирование текста, удалять со страницы ненужные элементы. Такой редактор удобен, если вы планируете использовать контент сохраненных страниц в своих документах, и серьезно экономит время при написании текстов на основе сетевых источников. Панель для Firefox предлагает только опции сохранения страницы. В этой части она функционально аналогична панели для Internet Explorer.

Для сохранения веб-страницы предлагается несколько возможностей. Доступно быстрое сохранение страницы одним щелчком на кнопке Save. В этом случае программа не задает никаких вопросов и сохраняет страницу в корневом каталоге своего архива. Если же раскрыть выпадающее меню Save, то доступным станет достаточно подробный перечень команд сохранения. Можно указать конкретный каталог для сохранения документа, присвоить ему одну или несколько тематических категорий, сохранить страницу в ее исходном и нетронутом виде или с выборочным удалением картинок, рекламы, флэш-роликов или скриптов. Полезной опцией является фоновая закачка и сохранение веб-страниц, ссылки на которые содержатся на открытой странице. При необходимости в соответствующем диалоговом окне можно отметить для сохранения только нужные ссылки.

Возможно также сохранение отдельных элементов веб-страниц. Эти операции доступны в контекстных меню браузера при выборе изображений или других объектов и фрагментов текста на открытой веб-странице.

Следующий этап работы с WebResearch – управление архивом собранных материалов. Основная программа-менеджер архива позволяет просматривать сохраненные объекты и управлять коллекцией. При просмотре архива окно WebResearch делится на три части: иерархический список каталогов архива, перечень объектов в активной папке и область просмотра собственно сохраненной веб-страницы. Возможно переключение в полноэкранный режим чтения веб-страницы.

Для сортировки архива используются каталоги, стартовый набор которых по умолчанию создается самой программой. Он включает отдельные папки для вкладок и веб-страниц. Пользователю предлагается дополнять этот список собственными тематическими каталогами. Дополнительный инструмент сортировки – категории-теги, которые предлагается присваивать веб-страницам. Интересно, что в комплект WebResearch уже входит хороший набор категорий, представленный в виде иерархического дерева. Это полезно для начала, однако если учесть отсутствие перевода на русский язык, не так полезно для нас.

Просматривать архив можно как списком, так и мозаикой графических миниатюр, которые генерируются на основе внешнего вида сохраненных страниц WebResearch обладает встроенным планировщиком, который напомнит о необходимости прочтения указанных пользователем документов.

WebResearch обладает хорошим выбором инструментов для работы с сохраненным материалом. Есть система присвоения рейтинга сохраненным документам, возможности добавлять комментарии и править текст веб-страниц.

Система поиска в архиве работает в нескольких режимах: простом, расширенном и «быстром». Наибольший интерес представляет расширенный поиск, который ведется по именам категорий, дате сохранения, типу файла, а также полным текстам документов. При освоении программы полезным будет встроенный мастер составления запросов. Режим «быстрого» поиска предлагает набор готовых шаблонов часто используемых запросов. Кроме того, такие запросы можно сконструировать самостоятельно и сохранить их для последующего использования. Поиск можно вести как во всем архиве, так и в конкретном каталоге. Поддерживается сохранение результатов поиска отдельным самостоятельным списком, пригодным для дальнейшей работы.

WebResearch может импортировать в свой архив уже сохраненные на диске файлы и веб-страницы. Для этого можно воспользоваться диалоговым окном Import. Параметры импорта можно детально настраивать: указывать конкретные файлы для сохранения или же импортировать целые папки своего компьютера. Поддерживается импорт ссылок с указанной веб-страницы или RSS-канала. Импортируемые документы можно сохранять в указанных тематических каталогах WebResearch может также провести автоматическое переименование импортируемых страниц по указанному пользователем шаблону.

Если говорить о возможностях экспорта архива, здесь тоже все на высоте. Документ можно сохранить в виде обычного HTML-фaйла, в форматах MHT и CHM, а также в собственном формате системы, который позволяет обмениваться информацией с другими пользователями WebResearch. В CHM-файл можно экспортировать даже целую подборку веб-страниц, что весьма удобно при экспорте целых сайтов или тематических подборок. Поддерживается экспорт данных в пакет Microsoft Word. Интересна функция создания презентаций, состоящих из слайдов, созданных на основе сохраненных веб-страниц.

Разработчики WebResearch предлагают для своей программы некоторые дополнительные модули, например, предназначенные для совместной работы с Outlook или реализующие совместную сетевую работу нескольких пользователей над одним архивом, а также позволяющие сканировать документы и сохранять их в архиве WebResearch.

 

Выводы и рекомендации

Расцвет локальных метапоисковых программ пришелся на начало текущего десятилетия. Практически все лучшие приложения в этой области были созданы именно в это время. Последние же годы не внесли в эту сферу новых заметных имен. С точки зрения технологий и, что самое важное, результата поиска русскоязычных ресурсов онлайновые сервисы в настоящее время уверенно превосходят специализированные локальные поисковые программы. Разработчики последних, к сожалению, совсем не спешат развивать сильные стороны своих решений, у которых есть свои козыри и свое пространство для развития. Так что локальный интернет-метапоиск все еще ждет своих героев.

В то же время локальные программы могут быть весьма полезны при решении специфических задач. Проект FirstStop WebSearch интересен кластеризацией и возможностью добавления собственных поисковиков, iMetaSearch – возможностями семантического анализа результатов.

Наиболее функциональным решением для локального метапоиска является пакет Copernic Agent. Несмотря на свои недостатки, он может служить мощным инструментом метапоиска для национальных сегментов интернета и тематических ресурсов. В то же время он плохо подходит для поиска русскоязычных ресурсов, не работает с Google и не дает возможности самостоятельно добавлять новые поисковики. Находящийся в одной «весовой категории» с Copernic Agent пакет aSearch INFO позволяет самостоятельно добавлять поисковики, однако проигрывает Copernic Agent в качестве инструментов анализа и обработки данных.

Сохранение веб-страниц – это одно из обычных действий, совершаемых в ходе веб-поиска, поэтому при серьезной работе с сетевыми источниками предназначенная для этого программа является совершенно обязательным инструментом.

Если у вас нет необходимости обмениваться ссылками и документами по сети, а также если вы работаете преимущественно на одном компьютере, то локальные менеджеры архивов веб-страниц выглядят явно предпочтительней аналогичных онлайновых решений. Из коммерческих программ наиболее привлекательным (особенно благодаря русской локализации) на сегодняшний день решением можно признать пакет Inquiry. Пакет WebResearch предлагает хороший набор инструментов, однако не может похвастаться русскоязычным интерфейсом.

Наиболее доступные средства для решения данной задачи – дополнения для браузеров Лучшие дополнения для Firefox по богатству функциональных возможностей практически не уступают коммерческим пакетам. Для повседневной деятельности лучше подходит менеджер ScrapBook, который располагает всеми основными инструментами для работы с архивом, прост в освоении и поддерживает установку дополнений. Ключевые преимущества Zotero – это возможность подробного описания ресурсов, функция автоматического поиска метаданных для сохраняемых объектов, а также опция генерации библиографических списков. Что касается загрузки метаданных, то для русскоязычных источников данная возможность практически не поддерживается. А вот возможность составления списков литературы будет востребована многими пользователями.