Была у меня одна PDF-книжка очень мне нужная по работе. Какой-то "умелец" переснял её фотоаппаратом и сохранил, спасибо ему, конечно, за труд, если бы не одно "но".
    Проблема была в том, что текст и рисунки на всех 305-ти страницах были совершенно разных размеров - от 5-го шрифта до 70-го. Как это так получилось у человека, я не знаю, но так уж получилось.  Я выписал себе в тетрадку самое нужное и так пользовался этим при надобности.
    
    Пытался привести всё это дело к одному, читаемому виду, да не получалось ничего. Лопатить постранично можно очень долго и упорно, но я люблю пути полегче. Было интересно, как это вообще делается, как решить сразу две задачи, привести всё к одному формату и при этом корректно отобразить нестандартные символы? Что можно, я не сомневался, но вот как?


    Пробовал разными "ридерами-распознавателями", но результат был ужасен. То, что они делают из текста, - это просто какой-то трудночитаемый набор символов. Три разных программы я испытал, в том числе и онлайн-сервисы, результата никакого. Спрашивал даже здесь на сайте, но никто толком ничего не подсказал, советы типа : "набирай ручками" мне, понятное дело, не подходили.
Ладно бы, одну страницу, а тут 305 страниц разнокалиберного текста, да ещё с сотнями рисунков.
    Помогла мне программа ABBYY FineReader 10. В ней я сначала перевёл все страницы в формат Jepg, получив уже 305 файлов всё также разного разрешения. Затем программой PhotoZoom Pro   пакетно привел все файлы к одному разрешению. Полученный результат снова засунул в ABBYY FineReader 10, подкорректировал распознание сложных участков и отправил на конечную правку в Word. Форматировать в нём всё-таки привычней.
Результат получился неплохой, и самое главное, что сложные для распознавания участки текста в ABBYY FineReader 10 можно легко изобразить в виде картинки.
Вот что получилось:


Великолепная программа, очень простая, быстрая, удобная и понятная. Как немецкая овчарка - понимает всё, и всё выполняет. Очень маленький процент ошибок. Лучше её, думаю, ничего нет. Я скачал в сети последнюю, 10-ю версию в переносном варианте.

Комментарии (6)

TolstyiKot 2. декабря, 2010.г.  
 0 0
Paradizmo Сегодня в 17:38
Америки не открыл

Да я и не собирался. Конечно это не сложно всё найти. Если просто фото с текстом, то это раз плюнуть. Но не все тут спецы в этом. Я, например, раньше не знал и один раз набирал текст руками страниц 10.
Хотя имел оригинал отпечатанный. Если я такой пост прочитал, то не потерял бы столько времени.
А тут у меня задача стояла более трудная.
Во-первых - текст+символы нестандартные, которые ни один ридер вообще не прочитает. Значит, с этими кусками текста надо работать как с картинками отдельно.
Во-вторых - страницы разного размеры. По одной их подгонять под один размер - дело долгое и однообразно-нудное.
Третье - картинки прямо в тексте.
Раньше я даже и в мыслях не допускал, что такая задача мне окажется п плечу. А сейчас могу справиться на раз.
Wolfsangel 2. декабря, 2010.г.  
 0 0
Да, тоже её пользую.
Paradizmo 2. декабря, 2010.г.  
 0 0
Америки не открыл,но спасибо за напоминание.Есть ещё,кстати,несколько удачных вариантов  http://expscan.narod.ru/
Barglamot (39) 2. декабря, 2010.г.  
 0 0
Опаньки! В какой конторе работаешь, конкурент? =)
TolstyiKot 2. декабря, 2010.г.  
 0 0
Часто надо сделать один-два листа, тогда задача совсем простая и быстро решаемая.  Я-то долго корячился из-за большого количества страниц.
На эту книгу мне пришлось потратить целый день.
Полтора часа - работа программ и часов 6-7 собственно правка и форматирование.
Да Нет Наверное (26) 2. декабря, 2010.г.  
 0 0
Полезно! Спасибо.  
Похожие записи

TolstyiKot