Профессиональный поиск в Интернете

Кутовенко Алексей

Глава 9

Поиск «скрытого» контента

 

 

Контент глобальных сетей никогда не ограничивался общедоступными сайтами и ресурсами. Значительное количество ресурсов были и остаются в большей или меньшей степени закрытыми. Причины такого ограничения доступа могут быть самыми разными. Современные универсальные поисковики не отличаются выдающимися способностями в плане индексирования и поиска такой информации, поэтому ресурсы, скрытые от интернет-поисковиков, автоматически становятся невидимы пользователям. Для поиска скрытого контента требуются специализированные инструменты, речь о которых и идет в данной главе. Ее начало посвящено поиску FTP-ресурсов, которые изначально являлись скрытыми от поисковиков ресурсами в Сети и которые продолжают сохранять свое значение в наше время. Поиск необходимых файлов через FTP-поисковики в общем случае реализуется проще поиска веб-документов в Сети, однако имеет свои особенности, о которых и идет речь. При этом основное внимание уделено общим для всех таких ресурсов инструментам и приемам работы.

Крупным источником скрытого для обычных поисковиков контента являются различные торрент-ресурсы. О лучших представителях метапоисковиков, работающих одновременно со многими торрент-трекерами, также рассказывается в этой главе. Еще один источник скрытого контента – многочисленные сервисы хранения файлов. Как правило, непосредственный поиск в их архивах запрещен, однако существует ряд поисковых инструментов, позволяющих обойти это ограничение.

Кроме подобных ресурсов к скрытому контенту можно отнести данные, представленные в ряде современных форматов, с которыми популярные универсальные поисковики напрямую не работают или работают в ограниченном объеме. Сюда, в частности, можно отнести данные, представленные в форматах «семантического веба», приложения которого часто относят к поколению Web 3.0. Не забыты и специализированные инструменты поиска информации в более привычном современному пользователю формате RSS.

 

Поиск FTP-ресурсов

 

Протокол FTP (File Transfer Protocol) предназначен для передачи файлов между компьютерами. По компьютерным меркам эта технология имеет весьма почтенный возраст. Сильные стороны этого протокола – простота и надежность. С точки зрения пользователя, FTP-сервер – это архив файлов самого различного плана. Важной характеристикой FTP-сервера является возможность доступа к нему. Значительная часть FTP-серверов предлагают пользователям лишь ограниченный доступ. В то же время существует большое количество публичных FTP-серверов, доступ к которым открыт для всех желающих. Именно такие ресурсы представляют интерес в плане интернет-поиска.

Специализированные FTP-поисковики индексируют большое количество FTP-серверов, поэтому обращение к ним позволит провести одновременный поиск файла в нескольких источниках, в данном случае – в FTP-архивах, что значительно сокращает затраты времени.

Получением списка ссылок на серверы, которые располагают подходящими файлами, FTP-поиск не заканчивается. Такие системы обычно предлагают ряд дополнительных услуг. Они позволяют сравнивать размеры найденных файлов с одинаковыми именами, проверяют доступность и скорость работы серверов, а также оценивают работоспособность ссылок на конкретные файлы. «Мертвые» ссылки в базе поисковика появляются, когда владельцы FTP-сервера их удаляют или закрывают к ним доступ, кроме того, сам сервер может быть временно недоступен. В идеале, проведя такой поиск, пользователь должен получить рабочую ссылку на нужный файл, находящийся на максимально быстром сервере, с которого этот файл можно свободно и без лишнего беспокойства скачать.

Хранящиеся на FTP-серверах файлы обладают гораздо меньшим количеством поисковых признаков, чем веб-страницы, с которыми работают универсальные интернет-поисковики. По большому счету, доступные признаки сводятся к имени файла или каталога. Это обуславливает специфику FTP-поиска. В его ходе основной акцент делается на использование в запросе спецсимволов и масок. С одной стороны, это упрощает составление запроса, с другой – повышает требования к его корректности.

Составляя запрос на FTP-поисковике, не стоит слишком увлекаться. Обычно чем он проще, тем надежнее результаты поиска. Длинные и сложные запросы лучше приберечь для особых случаев, когда ничего другое не помогает, либо когда вы очень хорошо представляете, что хотите найти.

Современные FTP-поисковики обладают весьма схожими интерфейсами составления запросов. Это означает, что освоив работу с одним таким ресурсом, пользователь впоследствии сможет разобраться в большинстве других систем, даже если их интерфейсы выполнены на незнакомом языке. К таким типовым элементам относятся. Тип поиска (Search Type), Сортировка (Sort by) и количество показываемых результатов на одной странице. Обычной также является опция показа либо скрытия файлов для *nix-систем. Это средство позволяет убрать из результатов поиска архивы дистрибутивов, в которых могут быть многие тысячи файлов, не очень-то полезных, если вы ищете что-нибудь для Windows.

 

FileSearch.ru

Одним из крупнейших FTP-поисковиков в русском сегменте интернета является проект FileSearch.ru. Он индексирует большинство российских FTP-серверов и несколько тысяч зарубежных проектов. В базу включаются только серверы с анонимным доступом и DNS-именем. Индексная база FileSearch.ru насчитывает около восьми миллионов файлов. Обновление индекса для каждого FTP-сервера, как правило, производится каждые пять дней. Если какой-либо включенный в базу FTP-сервер перестает откликаться на запросы робота-индексатора, то через три недели молчания он исключается из базы данных, что сокращает количество «мертвых» ссылок в результатах поиска.

Данный поисковик обладает всеми необходимыми для успешного поиска инструментами FileSearch предлагает режимы простого и расширенного поиска файлов. При простом поиске предлагаются два фильтра, выполненных в виде выпадающих меню рядом с полем ввода запроса. Первый фильтр позволяет указать тип контента: файл, каталог, музыку, видео, изображения, а также сервер. Последний вариант дает возможность поиска имен FTP-серверов. Второй фильтр предназначен для ограничения поиска определенным доменом, список которых представлен в меню фильтра.

Расширенный поиск, кроме фильтра доменов, предлагает усложненный фильтр типа контента (рис. 9.1). Кроме доступных при простом поиске вариантов, здесь добавлены режимы поиска по регулярным выражениям и по точной фразе. Дополнительными признаками файла в ходе расширенного поиска может выступать его размер, который разрешается указать в виде диапазона, выраженного в байтах. Сферу поиска можно ограничить не только доменом, но и конкретным каталогом FTP-сервера. В режиме расширенного поиска FileSEarch.ru также доступны фильтры, позволяющие исключить из списка выдачи файлы, предназначенные для операционных систем семейства *nix.

Рис. 9.1. Инструменты расширенного поиска Filesearch.ru

Доступны здесь и некоторые опции настройки просмотра результатов поиска. Можно выбрать способ сортировки найденных файлов: по имени, дате добавления или размеру. Кроме того, можно включить режим вывода в результатах поиска размера файла в байтах, а также даты его добавления в индекс.

Отдельно выделен режим поиска драйверов. После выбора конкретного устройства в каталоге оборудования различных производителей начинается стандартный поиск FileSearch по имени файла. К сожалению, объем этого каталога совсем невелик и в нем немало ошибок.

FileSearch.ru поддерживает несколько типов запросов. Первый и самый простой – поиск на включение. При таком запросе ведется поиск ссылок, содержащих указанную последовательность символов, которая может быть частью имени нужного файла или каталога.

Второй тип запросов – поиск по маске. Он во многом напоминает поиск файлов на дисках локального компьютера. Подстановочные спецсимволы? и * в запросе соответственно означают, что вместо них в искомом слове может быть любой символ или несколько любых символов.

Третий тип запросов – поиск с использованием регулярных выражений. Такие запросы позволяют максимально подробно указать свои требования к имени файла или каталога. Среди языка запросов FTP-поисковиков не наблюдается такого разнообразия, как в языках универсальных интернет-поисковиков, что несколько облегчает жизнь пользователя. В приложении А вы найдете описание синтаксиса регулярных выражений FileSearch.ru, которыми можно с успехом пользоваться и при работе с другими поисковиками.

Страница поисковой выдачи FileSEarch.ru достаточно проста и предоставляет только необходимый минимум информации о найденных файлах. Каждому файлу выделена ровно одна строка. Тип найденного ресурса обозначается графическим значком. Демонстрируется размер файла в килобайтах, а также полный адрес файла. Если по запросу ничего не было найдено, система предлагает повторить поиск на внешних поисковых системах.

Веб-мастера могут установить на своем сайте форму поиска FileSearch, код которой можно найти на странице Вопросы/ответы.

 

Поиск на файловом хостинге Rapidshare

 

На множестве интернет-ресурсов для хранения файлов используются внешние сервисы. Как результат, файлообменники содержат большое количество полезного контента. Однако встроенные системы поиска в архивах таких ресурсов – скорее редкое исключение из правил. Непосредственный поиск файлов требует применения специализированных инструментов.

На универсальных машинах исторически первым средством извлечения ссылок на файлы из архивов файлообменников были сложные поисковые выражения. В Google с помощью операторов intitle и inurl можно было найти немало таких файлов. Правда, для этого надо было озаботиться изучением операторов и располагать временем на эксперименты. Инструменты автоматизации такого поиска не заставили себя долго ждать.

Некоторые поисковики для Rapidshare продолжают использовать такой подход, реализованный на новом уровне: добавление дополнительных операторов и фильтров происходит автоматически и прозрачно для пользователя. Недостатки подобных поисковиков достаточно очевидны. Во-первых, поиск идет в основном в тексте ссылок. Это значит, что формируя поисковый запрос, приходится в первую очередь угадывать имя нужного файла, в результате страдает полнота поиска. Кроме того, полезные результаты сопровождаются значительным информационным шумом.

Второе дыхание поисковиков для файлообменников открылось с распространением технологий персонального поиска. Действительно: куда перспективней сосредоточиться на поиске по страницам ресурсов, точно содержащих ссылки на «рапидовские» файлы, чем изощряться в составлении сложных запросов, работающих «по площадям». Поскольку такие веб-страницы, как правило, содержат описания выложенных файлов, их можно использовать как дополнительный источник поисковых признаков. Достоинство такого подхода – он действительно работает и не слишком сложен в реализации. От создателя поисковика, по большому счету, требуется только собрать достойный список ресурсов, публикующих файлы на Rapidshare или на других файлообменниках.

Поскольку подборки ресурсов на разных поисковых машинах различаются, пробуйте искать на нескольких поисковиках – вполне возможно, что нужная ссылка найдется на одном из сайтов из уникального списка определенного поисковика.

Среди множества таких ресурсов упоминания заслуживает несколько проектов. Проект Torosso (torosso.com) предлагает поиск среди ссылок на файлы, хранящиеся на файлообменниках Rapidshare и Depositfiles. Поддерживается и поиск на нескольких крупных торрент-трекерах. Доступен фильтр типов файлов. Достаточно интересные результаты выдает поисковик RapidExplorer (). Он поддерживает поиск ссылок на серверах Rapidshare и Megaupload. Доступны тематические переключатели Web, Software, Music и Video. Результаты поиска неплохие, задания обрабатываются на среднем уровне, без провалов и особых успехов: чуть хуже по книгам, чуть лучше по мультимедиа-файлам и программам. Вот только не стоит при таком поиске включать опцию Software, предусмотренную в интерфейсе RapidExplorer – вы не получите ничего кроме ссылок на весьма подозрительные сайты. Работа с ними – занятие на любителя.

Немало современных поисковиков, работающих с торрентами, построено на базе «персональной» платформы Google Custom Search Engine. Назовем несколько примеров таких поисковых машин.

Ресурс CompleTorrent, по заявлению разработчиков, обрабатывает добрых четыре сотни трекеров, среди которых есть как общеизвестные универсальные ресурсы, так и небольшие тематические проекты. Ахиллесова пята подобного подхода – зависимость от качества работы «пауков» Google. Если в силу каких-либо причин робот Google не сможет проиндексировать сайт, CompleTorrent просто потеряет такой ресурс. Кроме того, CompleTorrent предлагает только самые простые средства составления запроса и не обладает какими-либо полезными дополнениями.

Практически теми же плюсами и минусами обладает поисковик Toorgle. Он представляет собой типичную CSE-машину Google, простую в создании и способную обрабатывать большое количество ресурсов. Данный проект работает с двумя сотнями сайтов.

Необходимо отметить, что стандартные инструменты Google CSE не самым лучшим образом подходят для поиска торрентов. Например, ни на Toorgle, ни на CompleTorrent не приводится сведений о состоянии того или иного торрента, не выявляются «мертвые» релизы, что ведет к большому количеству бесполезных ссылок в результатах поиска.

Среди поисковиков для файлообменников особого внимания заслуживает Rapidoogle (rapidoogLe.com). Он является, пожалуй, лучшим решением в своем классе, построенном на базе технологии Google Custom Search Engine. В его активе – весьма обширная подборка индексируемых ресурсов. Среди них есть как самостоятельные сайты, так и форумы, а также блоги. В списке выдачи присутствуют как ссылки с достаточно известных ресурсов, так и с большого количества мелких сайтов. Нельзя не отметить неплохой охват азиатских ресурсов, которые обычно выпадают из поля зрения не только пользователей, но и многих специализированных поисковиков, а ведь там можно отыскать достаточно редкие вещи, в том числе повторно размещаемые файлы, ссылки на которые по тем или иным причинам удалены из «наших» сегментов интернета. Это положительно сказывается на качестве результатов поиска. Кроме того, данная система рассылает запросы на некоторые другие поисковые системы, индексирующие файлообменники. Таким образом, Rapidoogle можно рассматривать в качестве своеобразного метапоисковика.

 

Rapid Search Engine

Поскольку создание собственной базы – процесс достаточно длительный и ресурсоемкий, несколько «рапидовских» поисковиков решили задействовать для этой цели социальные методы. Они предлагают пользователям, которые размещают файлы на обменных ресурсах, сообщать об этом поисковику. Дополнительное преимущество данного решения состоит в том, что при добавлении файла в индексную базу владелец файла составляет его детальное описание, что значительно облегчает его поиск в будущем. Если говорить о минусах такого подхода, то они достаточно очевидны: меньшее по сравнению с автоматически собираемыми базами количество доступных ссылок в индексе проекта, а также более медленное пополнение индексной базы.

Лучшая на сегодняшний день реализация социального поиска в файлообменниках – это проект Rapid Search Engine. Данный поисковик работает только с файлами, размещенными на файлообменнике Rapidshare. Для поиска используются две базы: индекс сайтов, размещающих файлы на Rapidshare, и индексная база прямых ссылок на файлы, генерируемая с помощью пользователей проекта. Разработчики этого поисковика сообщают о почти пятнадцати миллионах проиндексированных файлов. Темпы пополнения индексной базы достаточно стабильны.

На данном ресурсе действуют простой и расширенный режимы поиска. Панель расширенного поиска вызывается щелчком на кнопке Advanced, расположенной под полем ввода запроса. Запрос можно уточнить с помощью фильтра типа файла (аудио, видео, архивный, образ CD/DVD и др.). Здесь же можно ограничить поиск одной из баз Rapid Search Engine с помощью переключателя Web search/Database search (рис. 9.2). В режиме Database Search в списке выдачи будут присутствовать прямые ссылки на файлы, а в режиме Web Search – веб-страницы, содержащие ссылки на файлы. Опция Use ajax включает режим использования интерфейса страницы выдачи, построенного на технологии AJAX.

Рис. 9.2. Rapid Search Engine является в настоящее время лучшим социальным поисковиком для Rapidshare

Страница выдачи в режиме веб-поиска предлагает минимум информации о найденных ресурсах: заголовок найденной веб-страницы, ее адрес, а также текстовую выдержку, обычно содержащую текст, находящийся рядом со ссылкой на файл, размещенный на Rapidshare. Предлагается и несколько вспомогательных инструментов для просмотра кэшированной версии веб-страницы и для автоматического извлечения ссылок на файлы из текста веб-страницы. Обратиться к этой функции можно с помощью ссылки Get RS Links, находящейся справа от каждого найденного результата.

При поиске в базе прямых ссылок на файлы страница выдачи выглядит иначе. Для каждого результата приводятся имя файла, в котором выделены найденные ключевые слова из поискового запроса пользователя, его размер, а также прямая ссылка на страницу скачивания этого файла на сервисе Rapidshare.

Кроме инструментов поиска Rapidshare Search Engine предлагает несколько дополнительных инструментов, полезных для работы с результатами поиска. Это уже упомянутый инструмент автоматического извлечения ссылок на Rapidshare с указанных веб-страниц, а также инструмент Check rapidshare links, который проверяет указанные пользователем или же полученные в ходе поиска на данном ресурсе ссылки на файлы. Если какие-либо из найденных файлов были удалены, появится соответствующее предупреждение. В результате достигается заметная экономия времени поиска нужной рабочей ссылки.

Любой поисковый запрос можно сохранить и создать на его основе оповещение. Как только в базе Rapidshare Search Engine появятся новые ссылки, подходящие под условия запроса, на указанный при создании оповещения электронный адрес будет отправлено сообщение.

Пополнить базу ресурса своими ссылками можно с помощью формы Add rapidshare links. Для описания своих ресурсов используются привычные ключевые слова – полезно, если имя файла не характеризует его содержание. Необходимо обратить внимание на то, что ссылки на защищенные паролями файлы принимаются только в случае, если автор сообщает ссылку на веб-страницу, содержащую пароль.

Rapidshare Search Engine располагает собственным поисковым плагином, выполненном в формате OpenSearch и работающим на всех поддерживающих этот стандарт браузерах. Кроме того, для браузера Firefox предлагается дополнение RSE Tools. С его помощью можно вести поиск на Rapidshare Search Engine, быстро находить в тексте открытой веб-страницы ссылки на файлы Rapidshare, а также проверять их работоспособность.

 

Метапоиск торрент-ресурсов

 

Технологии Peer to Peer (P2P) прочно вошли в практику современной Сети. Торрент-сети содержат значительные объемы контента и пользуются заслуженной популярностью. Одним из центральных звеньев торрент-сетей являются трекеры – сайты, на которых собирается информация о доступных релизах и где можно найти ссылки на сами торренты. Однако ни один трекер, даже самый крупный, не может похвастаться абсолютно полным охватом ресурсов. В такой ситуации вполне естественным стало появление поисковых систем, которые объединяют результаты поиска на нескольких торрент-трекерах. Другими словами – специализированных поисковиков.

С точки зрения организации процесса поиска современные торрент-поисковики можно разделить на две условные группы: машины, интерфейс которых построен на фреймах, и поисковики, проводящие дополнительную обработку получаемых с разных трекеров результатов поиска.

Фреймовые торрент-поисковики являются простейшим средством организации такого поиска. В подобных проектах результаты с нескольких трекеров выводятся во фреймах или на вкладках страницы поиска. С одной стороны, это нельзя назвать полноценным метапоиском, поскольку запрос приходится повторять для каждого трекера, результаты не объединяются, а их дополнительная обработка не проводится. С другой стороны, при таком поиске список выдачи сразу нескольких трекеров доступен для просмотра на одной странице, что удобно не только при поиске, но и простом просмотре каталогов.

«Настоящие», если можно так сказать, торрент-поисковики близки по особенностям своей работы к метапоисковикам, применяемым при обычном веб-поиске. Такие машины не ограничиваются простым перенаправлением пользователей на страницу внешнего ресурса. Здесь полученные с нескольких трекеров результаты поиска объединяются в общий список, который затем подвергается дополнительной обработке. Некоторые поисковики предлагают прямые ссылки на файлы торрентов, другие направляют пользователей за ссылками на оригинальные страницы задействованных в поиске трекеров.

 

TorrentScan

Один из наиболее показательных примеров фреймового торрент-поиска – ресурс TorrentScan. Данный проект по умолчанию работает с полутора десятками крупных трекеров, в числе которых такие известные проекты, как isoHunt и Demonoid. Список поддерживаемых ресурсов можно менять и дополнять при настройке поиска. Интерфейс проекта переведен на дюжину языков, среди которых есть и русский.

Собственно, к метапоиску здесь относятся только две панели инструментов: боковая со списком доступных трекеров и верхняя, на которой перечислены тематические разделы активного в данный момент трекера. Все остальное пространство страницы TorrentScan занимает фрейм, в который загружается страница просматриваемого трекера с результатами поиска по запросу пользователя. При смене трекера состав инструментов на панели поиска меняется – там отображаются только средства настройки активного в данный момент ресурса.

Меню Настройки содержит три раздела Раздел Глобальные настройки отвечает за внешний вид поисковика. Здесь можно выбрать цветовую схему оформления и расположение списка трекеров (вертикальное или горизонтальное). В разделе Настройки списка сайтов можно упорядочить состав списка трекеров панели поиска. Допускается изменение их порядка, удаление и добавление ресурсов. В последнем случае можно добавлять трекеры из предлагаемого в этом же разделе списка. Доступно более пятидесяти вариантов. Для работы с частными трекерами, естественно, понадобится располагать собственными аккаунтами на таких проектах. По умолчанию все параметры TorrentScan сохраняются в куки-файлах браузера. Если вас не устраивает подобный подход, можно воспользоваться разделом. Настройки закладок. Здесь можно сгенерировать ссылку, которая будет содержать все заданные параметры, и передать ее поисковику в виде параметров URL-адреса.

TorrentScan также предлагает вспомогательные разделы Облако поиска, Статистика и Trends. Первый из них демонстрирует пользователю облако с перечнем наиболее популярных в данный момент торрентов. Раздел Статистика предлагает ознакомиться со статистикой работы некоторых крупных трекеров. Этот раздел использует инструмент Google Analytics для построения единой диаграммы подсчета посещаемости крупнейших торрент-трекеров. Раздел Trends предлагает информацию о тридцати наиболее популярных запросах недели.

TorrentScan располагает полным набором поисковых плагинов. В отличие от большинства поисковиков, этот список не ограничивается поисковыми плагинами для браузеров Firefox и Internet Explorer. Здесь есть решения и для Google Chrome, а также плагины для клиентов BitTorrent и uTorrent. Кроме того, предлагаются поисковые гаджеты для Google Desktop, Google Toolbar и боковой панели Windows.

 

PlentyOfTorrents

Похожие возможности предлагает фреймовый поисковик PlentyOfTorrents. Как и TorrentScan, проект выводит построенную на фреймах страницу и меню быстрого выбора целевого трекера.

Никакого объединения результатов поиска, полученных из различных источников, в данном случае, конечно же, не происходит. После отправки запроса открывается страница целевого торрента, а в верхней части окна сохраняется панель инструментов PlentyOfTorrents. Она содержит несколько тематических списков торрентов. Каждая категория выполнена в виде выпадающего меню. При выборе какого-либо трекера его страница с результатами поиска автоматически загружается в основной фрейм. Каждый раз набирать свой запрос заново при этом не нужно, что экономит время пользователя. Проект PlentyOfTorrents интересен также собственным каталогом трекеров.

 

Torrent Finder

Апофеоз развития фреймовой технологии, пожалуй, можно наблюдать на сервисе Torrent Finder. Пользователю предлагается самостоятельно скомпоновать поисковую страницу, выбрав нужные ресурсы из полутора сотен предлагаемых трекеров. Список доступных трекеров выполнен в виде каталога, снабженного набором фильтров для быстрого отбора ресурсов. Трекеры отображаются в виде значков. Отмечая трекеры флажками, можно добавлять их в список поиска. Среди предлагаемых фильтров – все трекеры, приватные трекеры, аниме. В отдельную категорию вынесены так называемые неанглийские трекеры (Non-English Trackers). Среди них можно найти довольно экзотичные ресурсы, например арабские.

На вкладке Private Torrents предлагается указать логины и пароли для приватных трекеров, что позволит работать с ними через интерфейс TorrentFinder. Правда, прежде чем оставлять на каком бы то ни было ресурсе добытые с трудом пароли на доступ к частным ресурсам, стоит хорошенько подумать.

При желании можно помочь разработчикам в наполнении списка трекеров. Для этого предусмотрен раздел Add Torrent Site. Понадобится сообщить адрес сайта и формат его строки поиска, сведения о котором нужны для подключения сайта к системе Для закрытых трекеров нужно также оставить логин и пароль.

Настроив параметры поиска и отправив запрос, пользователь получит в итоге страницу выдачи, состоящую из нескольких вкладок – по числу отобранных для поиска трекеров. Именно на этих вкладках и будут открываться страницы результатов поиска на задействованных в поиске торрент-ресурсах. Среди полезных дополнений Torrent Finder назовем поисковые плагины для Firefox и Internet Explorer, панель для браузера Firefox и виджет для пакета Yahoo! Widget Engine. Эти программы позволяют составлять запросы и выбирать в списке трекеров нужные ресурсы для поиска.

 

YouTorrent

В отличие от рассмотренных ресурсов, YouTorrent стремится самостоятельно строить свою индексную базу. Это благоприятно сказывается на скорости поиска. Для пополнения базы используются каталоги десятка крупных торрент-трекеров. К сожалению, индексная база YouTorent не очень велика по сравнению с другими торрент-поисковиками. Она содержит информацию немногим более чем о ста тысячах торрентов. Ее особенностью является большое количество легального и свободно распространяемого контента.

На данном ресурсе доступен только режим простого поиска. При вводе запроса латиницей действует автоматическое дополнение. Рядом с полем ввода запроса находятся фильтры, с помощью которых можно ограничить поиск тематическими разделами Music, Movies, TV и Games.

Система YouTorrent способна работать в качестве каталога. При переходе к поиску в тематических базах над общим списком выдачи доступны перечни тегов, которые дают возможность отбора контента по специфическим признакам. Так, для игрового раздела это список компьютерных платформ, в музыкальном разделе аналогичную роль исполняет перечень музыкальных жанров.

Список выдачи YouTorrent можно сортировать по различным признакам: релевантности результатов, размеру файлов, популярности, количеству сидов и пиров. Страница выдачи содержит перечень найденных торрентов, для которых приводятся их название, дата добавления в базу, количество загрузок и краткая аннотация. В разделах Movies и Games также часто можно найти изображения обложек соответствующих изданий или скриншоты программ. Обязательно приводятся прямые ссылки на торренты, поэтому переходить на оригинальный трекер для начала скачивания совершенно не обязательно, что здорово экономит время.

В качестве дополнительного бонуса предлагается поисковый плагин для браузера Mozilla Firefox.

 

ScrapeTorrent

Метапоисковик ScrapeTorrent объединяет результаты поиска, полученные с десяти крупных универсальных трекеров. Среди поддерживаемых трекеров такие известные ресурсы, как Mininova, isoHunt, SumoTorrent, BTJunkie и Demonoid.

Предлагаются два режима поиска: простой (Basic)и специализированный поиск телевизионного контента. В режиме простого поиска с помощью выпадающего меню можно выбрать тематический раздел для поиска. Доступно восемь вариантов, в том числе поиск игр, аниме, фильмов и музыки. Можно также задать параметры сортировки результатов поиска. Весьма полезны фильтры отсеивания дублирующихся торрентов и торрентов, у которых в данный момент нет сидов.

В режиме «телевизионного поиска» система ведет поиск видеозаписей телесериалов. В форме поиска предлагается указать название сериала, а также выбрать в расположенных рядом меню номера сезона и эпизода.

Страница выдачи поисковика содержит ссылки на страницы трекеров, где можно скачать сам торрент-файл. Есть и небольшое количество служебной информации: тип и размер файла, количество сидеров и личеров.

Кроме поисковой системы, ScrapeTorrent предлагает собственный инструмент Tracker Checker, предназначенный для проверки работоспособности популярных торрент-трекеров. Список трекеров, сопровождаемый информацией об их доступности и загрузке, по умолчанию рассортирован по тематике трекеров. При необходимости список можно фильтровать и сортировать по различным признакам: тематике, статусу ресурса, языку. Для этого предназначена панель инструментов, расположенная над списком трекеров.

Инструменты для общей настройки поиска собраны на вкладке Prefs. Здесь мы можем определиться со способом сортировки, выбрать демонстрируемые вместе с формой поиска фильтры.

 

Torrentz

Интерфейс ресурса Torrentz сделан очень просто и работает весьма быстро. Что касается фронта поиска, то здесь ситуация достаточно стандартная: Torrentz работает с крупнейшими открытыми универсальными трекерами.

Поиск разделен на отдельные тематические разделы для музыки, игр, видео и телесериалов. На стартовой странице поисковика доступно облако тегов с наиболее популярными в данный момент файлами. В ходе дополнительной обработки полученных результатов система удаляет «мертвые» торренты и дублирующиеся на разных трекерах файлы. Для поиска только таких проверенных ресурсов выделена отдельная вкладка Verified.

Страница выдачи содержит до нескольких десятков результатов. Для каждого результата приводятся названия торрента и трекера, на котором был найден ресурс, тематический тег, а также дата последней проверки работоспособности ссылки. Для каждого найденного торрента предлагается достаточно подробная информационная страница.

Особо отметим, что на странице результатов поиска есть опции, отсутствующие у конкурентов. К ним, в частности, относится раздел User Feedback, в котором пользователи проекта могут оставлять оценки и сообщения о конкретном торренте. Кроме того, здесь содержится полный перечень трекеров, на которых был найден торрент, а также список ссылок на варианты найденного файла, различающиеся качеством или полнотой. Действует система обратной связи, с помощью которой пользователи Torrentz могут предупредить сообщество о fake-ссылках или других неприятностях или же наоборот, отметить качественный и проверенный торрент.

Удобно, что свой поисковый запрос можно сохранить в виде RSS-ленты. Это позволяет оперативно отслеживать новинки по своей любимой теме на торрент-трекерах, даже не заходя на поисковик.

 

NowTorrents

Поисковик NowTorrents работает с двумя десятками крупных торрент-трекеров, среди которых есть как общеизвестные сервисы, так и менее «раскрученные» проекты в духе IdealTorrents или TorrentHound. NowTorrents позволяет вручную отбирать трекеры, на которые будут уходить ваши запросы. Соответствующие параметры доступны на странице настройки поиска. Среди других доступных параметров – количество результатов, демонстрируемых на одной странице, а также параметры их сортировки.

Для создания запроса доступен только режим простого поиска. Весьма интересен и оригинален инструмент Real Time Filter. Внося в него дополнительные ключевые слова, можно быстро уточнить свой запрос, причем страница с результатами нового поиска загружается буквально «на лету» (рис. 9.3).

Рис. 9.3. Система NowTorrents способна обновлять список выдачи в режиме реального времени

Похвально, что создатели NowTorrents уделили внимание качеству поиска. В частности, машина автоматически опознает и удаляет из результатов поиска «мертвые» торренты. Качество торрента визуально интерпретируется диаграммой рядом с каждой позицией в результатах поиска. Зеленая полоска указывает на потенциально качественный релиз, а вот с ресурсами, удостоившимися красной полоски, лучше не связываться.

 

RSS-поиск

Пополнять список своего RSS-агрегатора можно различными способами. Первый и наиболее распространенный – простой поиск сайтов по интересующим темам, а затем подписка на их RSS-ленты, если, конечно таковые имеются. Способ несложный, однако на редкость медленный и трудоемкий. Другой распространенный вариант – воспользоваться различными рекомендательными сервисами и каталогами. Правда, логика деления таких каталогов может быть просто фееричной, да и обновляются каталоги не так часто, как хотелось бы. В последнее время появилась любопытная альтернатива – интернет-машины, предназначенные для поиска RSS-каналов. Одним из наиболее интересных проектов такого типа является система RSSMicro.

В настоящее время RSSMicro индексирует более чем двенадцать тысяч RSS-каналов. Если же говорить об индексации отдельных сообщений, то счет идет на миллионы. Анализируются новостные сайты, форумы, блоги и другие источники, предлагающие данные в формате RSS. Обновление индекса происходит с периодичностью в несколько часов. Для пополнения индекса используются различные источники, в том числе сервис DMOZ, а также собственные роботы, ведущие поиск веб-сайтов с RSS-каналами. Система поддерживает режим автоматического поиска RSS-источников на сайтах.

Основа поисковика – технология FeedRank. Это собственная разработка владельцев поисковика. Основным параметром оценки канала служит так называемый алгоритм Feed Delta, который выбирает в анализируемом RSS-канале уникальную информацию и определяет ее процент по отношению к общему количеству сообщений ленты. Далее учитывается наличие в сообщениях ленты полных текстов новых материалов и разнообразного дополнительного контента, например изображений. Задействуются и другие параметры. Например, учитывается «жизнеспособность» ленты: количество опубликованных за определенный промежуток времени постов. Анализируется и популярность ленты. В результате формируется численная оценка «дельты» той или иной RSS-ленты.

Кроме оценки качества источника, необходимого для объективного определения позиции той или иной ленты в списке выдачи поисковика, данный показатель используется для отсеивания информационного шума. Дело в том, что по утверждению разработчиков FeedRank автоматически генерируемые источники, не содержащие оригинального контента, а также спам-ленты имеют очень мало шансов получить хорошее значение «дельты». В результате на первых позициях должны оказаться RSS-каналы, содержащие оригинальный контент, который, к тому же, максимально раскрывается в сообщениях ленты. Работа над совершенствованием алгоритма продолжается, и разработчики призывают пользователей быть активными, не стесняясь сообщать свои оценки и предложения.

FeedRank измеряется в диапазоне значений от нуля до десяти. Нулевой рейтинг получают давно не обновляющиеся ленты, ленты без текста в постах, большинство лент, автоматически полученных с других ресурсов и не прошедших дополнительную обработку, а также ленты с ошибками, которые роботу банально не удалось открыть. Таковых среди поступающих в систему порядка 6 %. Подавляющее большинство лент – почти 70 % – получают рейтинг, равный единице. Это значит, что звезд с неба они не хватают, имеют ошибки в форматировании либо неполный контент в постах, однако предлагают интересную информацию. Рейтинги 2 и 3 отражают повышающееся качество и оригинальность контента, а вот для получения рейтинга от 4 до 6 от канала потребуется еще и регулярное обновление. Действительно высокие рейтинги получают ленты популярных веб-ресурсов с большим количеством подписчиков и новостные агентства, располагающие собственным оригинальным контентом. Интересно, что лент с рейтингом 8-10 в индексе RSSMicro всего около 1,3 %, так что подход к оценкам у системы достаточно жесткий. Заметим, что RSSMicro отслеживает и индексирует только ленты с положительным рейтингом. Любопытный факт: с особенным вниманием рассматриваются каналы с рейтингами 4–5, поскольку именно в этой зоне, по мнению разработчиков FeedRank, должно находиться большинство качественных ресурсов, которые пока просто не имеют достаточной известности и финансовых возможностей для конкуренции с раскрученными и активно продвигаемыми проектами.

Возможно и самостоятельное добавление RSS-ленты своего веб-сайта в базу RSSMicro. Для этого даже не потребуется регистрировать аккаунт и сообщать какие-либо персональные сведения. Достаточно указать в специально отведенном для этой задачи разделе сайта RSSMicro URL-адрес предлагаемого канала, отнести его к одной из имеющихся тематических категорий и пройти капча-тест. Как только все нужные сведения будут указаны, система сразу же проанализирует предложенный канал и рассчитает его рейтинг. Кроме формы предложения новой RSS-ленты, этот раздел поисковика содержит достаточно толковые комментарии с примерами правильно отформатированного кода и советами по подготовке RSS-лент.

На главной странице RSSMicro предлагается четыре варианта поиска в вертикальных базах. Кроме поиска каналов (Feeds), это поиск отдельных сообщений (Posts), а также поиск изображений и видео. Выбирать режим можно с помощью вкладок рядом с полем ввода запроса (рис. 9.4).

Рис. 9.4. Система поиска RSSMicro

При настройке поиска можно определить предпочитаемый язык RSS-каналов и сообщений, включить режим поиска во всем контенте сообщений. Кроме того, здесь есть флажок ALL Time Search, который определяет, будет ли поиск производиться во всей индексной базе RSSMicro или же только в свежих обновлениях RSS-лент.

Результаты поиска в RSSMicro вполне адекватные и достаточно полезные. При вводе запроса работает механизм автодополнения, предлагающий похожие запросы. К сожалению, RSSMicro не лучшим образом подходит для поиска небольших, узкотематических каналов. Дело в том, что по объективным причинам по таким тематикам обеспечить постоянный поток новостей бывает достаточно затруднительно. В результате подобные ленты получают рейтинг не выше «тройки» и индексируются по остаточному принципу, если вообще попадают в базу.

Элементы списка на странице выдачи содержат название канала, значение рейтинга, аннотацию канала, а также ссылки, открывающие предварительный просмотр ленты и список ее последних сообщений. Кроме того, имеется прямая ссылка на канал, которую можно использовать для подписки. Если тема достаточно популярна, на странице выдачи появится также панель с перечнем автоматически найденных кластеров, с помощью которой можно быстро уточнить свой запрос.

Раздел RSS Feed Directory основан на анализе базы DMOZ, в которой выбирались сайты, располагающие RSS-каналами. Всего в каталоге порядка ста пятидесяти тысяч источников, разбитых на пятнадцать основных категорий. Есть в нем и около трех тысяч лент на русском языке. Картину дополняют списки рекомендуемых RSS-каналов и свежих поступлений в базу проекта.

RSSMicro предлагает также ряд собственных RSS-каналов, основанных на результатах работы алгоритма FeedRank. На странице RSSMicro News имеются разделы с перечнем наиболее популярных и «трендовых» тем в анализируемых RSS-каналах. Отдельно предлагаются наиболее популярные изображения и видеофайлы, проходившие в RSS-лентах. Пожалуй, здесь наиболее любопытен раздел Authentic & Original News, посвященный исходным текстам активно перепечатываемых статей, а также сообщениям из малоизвестных, но ценных тематических RSS-лент. Для всех названных разделов созданы собственные RSS-каналы, поэтому система RSSMicro вполне может рассматриваться и в качестве «рекомендательной машины».

Раздел Tools содержит различные вспомогательные инструменты. Среди них – форма самостоятельного добавления RSS-ленты в индекс и средство расчета ее рейтинга в режиме реального времени. Кроме того, предлагается инструмент для создания поискового виджета RSSMicro. У него достаточно гибкие возможности настройки, относящиеся как к контенту, так и к внешнему оформлению. Во-первых, предлагается задать перечень ключевых слов, по которым будет вестись поиск, предпочитаемый язык сообщений, область поиска (вся база или только обновления RSSMicro), способ сортировки и количество выводимых в виджете сообщений. Также можно выбирать демонстрируемые элементы RSS-сообщения. Можно также настроить параметры, касающиеся внешнего вида виджета, такие как шрифт заголовка новости и ее текста, размер и цвет блока самого виджета. Рядом с редактором виджета генерируется превью будущего виджета, которое наглядно демонстрирует будущий результат ваших усилий. Далее остается только получить код и поместить его на своем ресурсе. Надо сказать, это хорошая заготовка для автоматического новостного блока. Создание аналогичного виджета с помощью мэшап-редакторов займет гораздо больше времени, даже если вывести за скобки собственно весьма трудоемкий процесс поиска сайтов с тематическими RSS-лентами.

 

Выводы и рекомендации

Скрытые ресурсы – серьезный источник информации самого различного плана и назначения. В основном объектом поиска выступают файлы, что обуславливает специфические требования к поисковикам и приемам работы с запросами.

При поиске FTP-ресурсов основное внимание приходится уделять языку запросов, благо поисковые операторы на различных ресурсах в основном повторяются.

Поиск ресурсов на файлообменных сервисах, как правило, ведется по косвенным признакам: поисковики индексируют различные веб-ресурсы, размещающие ссылки на таких сайтах. В то же время, есть и сервисы, пытающиеся работать с файлами напрямую. Рассмотренные поисковые машины не всемогущи, но действительно существенно упрощают поиск файлов, размещенных на Rapidshare. Максимальной эффективности поиска можно добиться, используя несколько машин, желательно работающих на разных принципах.

Не секрет, что Rapidshare и другие подобные файлообменные ресурсы зачастую используются для распространения контента в условиях брутального надругательства над авторскими правами. Обзор поисковиков, облегчающих работу с ними, может быть истолкован двояко. Поэтому в заключение хотелось бы расставить точки над «i». Это просто инструменты поиска, которые каждый применяет в соответствии с велениями собственной совести. Не будем также забывать, что рассмотренные поисковики – оружие обоюдоострое и вполне могут служить для поиска и удаления нелегально размещенных в Сети материалов, благо возможности подачи жалоб на содержимое сохраненных файлов есть на всех крупных современных файлообменниках.

Весьма полезным дополнением к арсеналу средств поиска файлов стали ресурсы, индексирующие торрент-трекеры. Фреймовые торрент-поисковики, строго говоря, нельзя отнести к «полноценным» метапоисковикам, поскольку они просто организуют более-менее удобный доступ к внешним ресурсам. Пользователь экономит рабочее пространство на экране и избавляется от необходимости открывать в браузере лишние окна или вкладки. По мере развития более сложных торрент-поисковиков роль подобных ресурсов будет неуклонно снижаться.

Если же говорить о «настоящих» метапоисковиках торрентов, опирающихся на собственные базы, то ситуация здесь неоднозначная. С одной стороны, существующие решения, позволяющие охватить сразу несколько крупных трекеров, действительно способны повысить эффективность поиска торрентов и заслуживают самого серьезного внимания. С другой – невооруженным глазом заметно, что простор для дальнейшего роста у них еще весьма и весьма солидный. При этом речь не идет о каких-то сверхсложных экспериментах, достаточно присмотреться к эволюции «обычных» метапоисковиков, предназначенных для работы с веб-документами. Многие функции, ставшие для них стандартными, в торрент-машинах еще не реализованы.

Типичный современный торрент-поисковик, как правило, работает с пятью-десятью крупнейшими универсальными трекерами. Поскольку их список на большинстве метапоисковиков совпадает, на первый план выходят возможности составления сложных запросов и фильтрации результатов по различным признакам. По данному критерию, пожалуй, наиболее интересно выглядят метапоисковики Torrentz и ScrapeTorrent. Система NowTorrents полезна своей функцией обновления результатов в режиме реального времени.

Еще один важный аспект применения метапоисковой технологии – это работа с многочисленными относительно небольшими тематическими трекерами, счет которым в Сети идет на тысячи. Ручной перебор таких ресурсов при поиске редких файлов занимает массу времени и просто-таки требует автоматизации. Метапоисковики как раз и способны ввести такие редкие трекеры в поисковый оборот. Лидерами по количественному охвату торрент-ресурсов сейчас являются поисковики, использующие базу Google, однако стандартные интерфейсы и инструменты уточнения запросов Google CSE мало подходят для реального поиска торрентов, что неблагоприятно сказывается на качестве результатов.