Описание тега restaurant-mimicry
Сайте StackOverflow есть вопросы по файлы PDF-анализа , охватывающих такие вещи, как PDFBox и сервера Apache TIKA, который в PDFBox использует. Приведенный ниже код Руби извлекает записи из PDF. Вы должны иметь достаточно хорошее разрешение для этого типа коды энергично работать. Так что получить достаточно хороший сканер с большим разрешением, а затем увидеть, если некоторые программные работы.
Примеры
Так нити
https://stackoverflow.com/questions/5217783/pdf-parse-to-text-in-java
https://stackoverflow.com/questions/320621/ruby-pdf-parsing-gem-library
https://stackoverflow.com/questions/15186740/haskell-parsing-reading-content-of-pdf-files
[Править]
Я не уверен, что я теперь понял вашу проблему. Вы действительно хотите добавить слой OCR для разных видов материала, таких как случайные фотографии, скриншоты, PDF без слоя OCR и так далее? Я не знаю решения, но я уверен, что кто-то знает, поэтому задал конкретный вопрос, как это сделать с помощью Automator и программное обеспечение для распознавания:
Автоматизатор-скрипт с ОРЗ-программа для автоматического добавления фото материал?