Автоматизация, обработка документов, распознавание документов

Но нас интересуют не столько предлагаемые функции (они практически одинаковые), сколько отличия для пользователя в работе данных программ. Для этого мы проведем исследование по пунктам, которые являются основными для пользователя.

Скорость и качество

Эти характеристики являются одними из самых критичных в применении данных программ, т. к. распознавание должно экономить время, затраченное на страницу текста, а складывается оно в итоге из скорости и качества. Скорость - это время, необходимое самой программе на распознавание, а от качества зависит, придется ли вам исправлять полученный текст и насколько время исправления меньше времени набора того же самого текста. Как показывает опыт, качество напрямую зависит от исходного материала, а также от уровня интеллекта программы распознавания.

Для начала мы посмотрим, как программы будут распознавать страницу, не содержащую ничего, кроме обычного текста. Затем рассмотрим несколько вариантов различной сложности.

Для этого мы берем лист формата А4 с текстом, распечатанным на лазерном принтере, сканируем его в черно-белом режиме с разрешением 300 точек на дюйм и сохраняем в формате TIFF (с этими параметрами будут отсканированы и остальные образцы, взятые для тестов).

Рис. 3. Вот так выглядит взятый для проверки текст. Здесь нет каких-либо трудностей для распознавания, однако…

Теперь мы открываем это изображение в Fine Reader 5.0, выделяем область для распознавания и нажимаем кнопку "Распознать". На этот процесс у программы уходит около 4 с. Производим подобную операцию в Cuneiform 2000 и спустя 8 с получаем распознанный текст.

Таким образом, Fine Reader 5.0 работает быстрее, чем Cuneiform 2000. Теперь о качестве: первая программа совершила только одну ошибку (рис. 4), ну а вторая ошиблась только поставив ненужный пробел (рис. 5).


Рис. 4. Распознанная страница в программе Fine Reader 5.0. Теперь, нажав на кнопку «Проверить», вы можете вручную исправить имеющиеся ошибки или просто просмотреть места, которые распознались «неуверенно».	Рис. 5. Распознанная страница в программе Cuneiform 2000. Прежде чем переходить к следующему изображению, необходимо сохранить или передать в другую программу полученный текст.

Теперь давайте посмотрим, какая картина будет, если мы возьмем для распознавания разворот учебника с формулами.

Рис. 6. Пример для распознавания учебника. Прежде чем распознавать, эту картинку пришлось поворачивать. Такую операцию не обязательно проводить средствами Photoshop, с ней легко справляются наши программы.

Производим распознавание и видим, что Fine Reader затратил около 43 с, а Cuneiform - порядка 18 с.

Интересно: Fine Reader здесь показал не лучший результат по скорости, но по качеству - у него преимущество. Судите сами: в основном ошибки распознавания оказались только в формулах, а Cuneiform умудрился совершить их и в тексте.


Рис. 7. Это распознанная страница учебника в Cuneiform. Да-с… придется еще постараться для того, чтобы «довести до ума» этот материал.	Рис. 8. Типичная картина после распознавания текста. Опять эти формулы писать…

Другой не менее интересный тест на скорость и качество - распознавание ксерокса учебника, причем для него мы возьмем два варианта: хорошего и плохого качества.

При распознавании хорошего ксерокса (рис. 9) Fine Reader вновь оказался впереди - 4 с, а Cuneiform - 5 с.

Рис. 9. Так выглядит образец хорошего ксерокса. Чтобы его получить, надо либо пользоваться хорошей аппаратурой, либо настроить ее на нужный контраст.

Посмотрев на распознанный текст, можно сказать, что Fine Reader не на много, но все же лучше справился с задачей. Cuneiform не смог распознать правильно букву "Ц", а цифру ноль посчитала буквой "О".


Рис. 10. Стоит исправить две-три ошибки, и текст готов. Fine Reader 5.0 неплохо поработал.	Рис. 11. Такого типа ошибки, как сейчас совершил Cuneiform 2000 Master, раньше были у Fine Reader 4.0.

Теперь давайте посмотрим, какие результаты у нас получатся, если распознавать ксерокс плохого качества.

Рис. 12. Так выглядит наш образец плохого ксерокса. Имея достаточно терпения и знания, его можно было бы улучшить, используя возможности Photoshop.

Fine Reader - 1 мин 48 с, а Cuneiform - около 30 с. Тут явно проиграл Fine Reader. Посмотрим, что же удалось распознать нашим участникам. Картина явно меняется: Cuneiform за 30 с со всей страницы едва ли распознал правильно более одного-двух десятков слов. С Fine Reader, несмотря на плохое качество исходного материала, было получено максимальное количество распознанного текста, который, имея оригинал, можно было бы привести в нормальный вид. А пользователям Cuneiform пришлось бы набирать весь текст вручную. Тише едешь - дальше будешь.


Рис. 13. Cuneiform не справился с задачей, и такой текст нельзя считать распознанным.	Рис. 14. Сравните этот текст с текстом, полученным в Cuneiform 2000, и вы поймете, насколько лучше Fine Reader справился с таким нелегким делом.

Страница:

Последние рефераты