Как быстро отсканировать книгу в формат PDF (используя ClearScan)

Кузнецов Иван Иванович

Введение

В этом кратком пособии я бы хотел поделиться своим мыслями о быстром сканировании книг в формат PDF и впечатлениями о технологии ClearScan, доступной в Adobe Acrobat начиная с версии 9.0. На мой взгляд, это замечательная технология, делающая (наконец-то!) формат PDF подходящим для отсканированного текста.

Фактически, при деструктивном сканировании (книга разрывается на листы и используется листовой сканер), процесс сканирования — чистки — перевода в PDF — OCR можно выполнить за тройку часов для книги среднего размера. (Надо сказать что у меня нет опыта в фотографировании книг, очевидно фотографирование тоже можно осуществить быстро, при надлежащем оборудовании, и таким образом избежать уничтожения бумажной книги.) Если же вы «стекольщик», то есть у вас достаточно терпения сканировать книгу на стекле сканера, сканирование, очевидно, займёт дольше.

Как сканирует начинающий

Если есть сканер, то хочется что-нибудь отсканировать! И слава Богу. Посмотрите на обилие электронных библиотек. Спасибо всем кто отсканировал и выложил это для других.

Сканеры сегодня продаются с пакетом программ, среди которых есть и программа по преобразованию в PDF. В теории (и в рекламных проспектах) это выглядит так: заложи в сканер листы, получи их на выходе в электронном виде, в формате PDF!

И это иногда правда. Есть большое количество разных бумаг (количеством 1, 2… 10 листов) с которыми я так и поступаю. А чего с ними чикаться? Видно — будет. А большее и не нужно. Но вот книга… да ещё для тех, кто любит книги… разве можно назвать получившуюся косую дрянь с полосами, пятнами, чёрными точками, с разорванным шрифтом книгой? Где же зарыта собака? Какую опцию надо выставить, какой рычажок покрутить, чтобы всё это стало похоже на оригинал?

В том-то и дело что нет такого одного рычажка. Есть четырёхступенчатый процесс, каждая ступень которого требует некоторых оптимальных решений от оператора. Пакет программ для сканера, работающий по типу «одним махом всех побивахом», скрывает этот четырёхступенчатый процесс, делая из него одну операцию: бумажный лист — электронный эквивалент. Но о том что на самом деле происходит что-то сложное, всё же можно догадаться. Например, сканер уже закончил сканировать, а компьютер ещё не готов продолжать; на нём открываются и закрываются какие-то программы; мигает лампочка доступа к жёсткому диску…

Чтобы отсканировать книгу качественно, надо самому пройтись по ступеням этого процесса: сканирование, чистка, перевод в нужный формат и распознавание текста (OCR).