Распознавание документов на частном примере обзор доступных платных и бесплатных решений

Всем привет! Типичная ситуация сложилась в компании, в которой я работаю. В бухгалтерии вечный аврал, людей не хватает, все занимаются чем-то безусловно важным, но по сути бесполезным. Такое положение дел не устраивало руководство.

Если подробнее, то проблема в том, что ресурсов бухгалтерии не хватает на текущие задачи, а выделять ставки под новых людей никто не хочет. Поэтому сверху приняли решение порезать некоторые задачи и освободить время бухгалтеров для более полезных дел. Под нож попала такая работа как сканирование и распознавание документов, копирование, внесение их в прочие рутинные радости.

Так передо мной, как аналитиком, встала задача: найти решение для распознавания документа типичного для моей компании счет-фактуры структурировать его в имеющиеся хранилища, а также в 1С. Решение, которое будет удобным, понятным, и не влетит компании в копеечку.

Опыт получился занятным, решил поделиться тем, что удалось собрать. Возможно я что-то упустил, поэтому велком в комментарии, если есть, что добавить.

Программы сканирования документов, программы распознавания документов не новое решение на рынке, его можно найти как в бесплатных программах, так и встроенных в системы.

Начал я с бесплатных программ:

glmageReader
Paperwork
VietOCR
CuneiForm.

В ходе распознавания нашего счета-фактуры такими программами я увидел следующее:

В таких программах как VietOCR, Paperwork, glmageReader можно настроить хранение отсканированных документов в определенные папки, Paperwork умеет их даже сортировать, согласно меткам.
В основном они хорошо справляются с текстом, а там, где текст распознан некорректно, в некоторых программах можно вручную изменить содержимое, прежде чем экспортировать файл.

Однако есть и проблемы:

Есть разница между работой с pdf сканами и png. Не всегда удается удачно конвертировать png в pdf.
Большинство таких программ сложно справляются с распознаванием документов табличного вида, даже самого простого формата. В результате мы получаем распознанный текст без размеченных полей.
Иногда неточно определяется шрифт, вследствие чего при конвертации весь распознанный текст наезжает друг на друга.
В процессе распознавания иногда необходимо делать выравнивание по ключевым словам, с доворотами и смещением координат.
В некоторых программах таблица распознавалась как картинка и экспортировалась в новый документ Word тоже в качестве картинки, очень урезанной, которую даже сложно разглядеть.
При редактировании распознанного содержимого в некоторых программах возникали проблемы, менялся шрифт или сам текст.

Технология сработала достаточно хорошо, Учитывая, что программы бесплатные, описанные выше проблемы допустимы. Однако, я искал более упорядоченного решения.

Затем я исследовал распознавание в ABBYY FineReader 15 Corporate

За 7-дневный срок триала, я изучил и эту платформу.

Что отметил:

Когда я открыл png файл, он отлично был считан и в результате удачно конвертирован в pdf без потери качества изображения и текста.
Программа отлично знает, как отсканировать документ для редактирования текста. Причем в режиме редактирования файла формата png текст удается отредактировать без проблем, но иногда слетает разметка.
Однако то же самое я не могу сказать про редактирование файла-скана pdf. При попытке редактирования летели слои.
Табличный вид распознается качественно, вся структура сохраняется, меня это порадовало.
OCR редактор хорошо распознал мой сформированный pdf счет-фактуры. Где-то пару символов требовалось поправить вручную.
Однако, была ситуация, что почти весь подобный документ распознался с меньшей точностью и данных для изменения вручную было уйма. Думаю, здесь можно было бы решить вопрос технически, но это затратило бы больше времени.
Здесь можно настроить автоматическую конвертацию входящих документов, которые регулярно будут тянуться из указанной папки, по указанному расписанию.
Он позволяет сравнивать версии документов, даже если они в разных форматах. При большом потоке документов и правок в них, это очень удобно.

От использования этого софта были приятные впечатления. Однако, когда я обратился к ценнику системного решения ABBYY Flexicapture (а мне нужно именно системное), то выяснил, что решение, особенно кастомизированное, обходится в довольно круглую сумму, около 400 тыс. руб./мес. и выше за 10 тыс. страниц.

Я стал искать альтернативу. Как освободить руки сотрудника, получить качественное распознавание документов и не переживать за сохранность и структуру данных.

И тут я решил получше разглядеть ELMA RPA, которую я уже изучал ранее.

Вендор предлагает перекинуть значительную часть работы по экспорту данных в ERP с плеч бухгалтеров на роботов. По сути, именно это решает поставленную передо мной задачу. Чтобы познакомиться с распознаванием в этой системе, я взял у вендора триальную версию системы.

Здесь я обнаружил, что распознавание не преследует цели конвертировать полученные данные в новый документ-файл.

Здесь главная цель распознавание реквизитов документа и их передача в другие системы/сайты/приложения. Кроме того, роботы складывают всю информацию куда надо: автоматически находят нужные папки и сохраняют в необходимых форматах.

Какие виды распознавания в системе я посмотрел:

Распознавание по шаблону

Нам предлагается на основании шаблона документа распознать подгружаемый документ. Насколько мне известно, этот вид распознавания бесплатный, внутрь зашит движок Tesseract.

Что отметил:

Этот вид распознавания работает именно со сканами формата jpg и png, pdf он пока не рассматривает. Но продукт еще молодой, думаю, все впереди.
Этот вид распознавания входит в бесплатную версию Community Edition
Удобно размечен текст по блокам, которые можно сопоставить, согласно переменным, которые мы создали в контексте робота. Таким образом вручную настроить, что именно тянем в распознавание.
Нашу счет-фактуру он распознал 50/50, некоторые слова подменил как посчитал нужным. :)

Однако, вендор на данный кейс сообщил, что этот вид распознавания адаптирован под простые документы, с текстовой структурой или с легкими формами. И посоветовал для распознавания счета-фактуры использовать другой вид распознавания intellect lab.

Процесс тот же, загружаем шаблон и по нему распознаем. Но здесь шаблон отправляется на облачный сервер.

От сервера получаем ответ (распознает такой тип документа или нет), и если распознается, то передается структура шаблона (переменные для маппинга), для сопоставления переменных, которые необходимо будет записать в RPA процессе.

В процессе воспроизведения мы отправляем уже документ, который хотели бы распознать и получаем ответ от iLab сервера о распознавании.

Что отметил по поводу этого распознавания:

Здесь уже распознавание работает как программа сканирования документов pdf, и при этом работает и с форматами jpg и png.
Качество документа не влияет на эффективность распознавания. Даже документы с плохим качеством распознаются корректно.
Счет-фактура распозналась полностью и без подмен переменных.
Робот сумел получить скан с почты, распознать его и создать его экземпляр в 1С. То есть автоматически сохранил файл там, где мы ему задали, что, естественно, крайне удобно.
Входит в бесплатную Community Edition в виде распознавания документа в облаке. Подходит, если используем стандартные типы (СФ, УПД, АВР и др.), и, например до 100 документов в месяц или до 500 в год. (Стоит заметить, что считаем не в страницах, а в документах непосредственно.)

Сам процесс распознавания документов довольно сложно отобразить на видео, так как это происходит в коробке, а экран пустует несколько секунд. Поэтому я сделал отдельную запись распознанных данных в блокнот для визуализации.

Распознавание документа в блокнот

Соответственно, эти же данные робот записывает в 1С, создавая там новый документ:

распознание документа и создание в 1С

Что удалось выяснить по ценам: Если мы, например, хотим работать масштабно именно с ilab распознаванием, то за наши 10 000 документов придется выложить:

примерно 180 000 руб. единовременно,
плюс, допустим, 400 000 руб. покупка робота с оркестратором
итого: 580 000 руб.

Робот бессрочный, а 10 000 документов на какое-то время хватит. Довольно выгодно получается, как минимум в том, что заплатим за все один раз.

Что понравилось в распознавании в этой платформе в целом:

Можно настроить получение документов по событию, а также, например из электронной почты и любых других внешних источников. У меня пока была цель настроить получение с почты.
Все считанные данные с документа можно спокойно записать в контекстные переменные и далее их передать в необходимые системы, приложения, сайты, ВМ и т д. И я не переписываю уже ничего руками.
Скорость обработки. 15 секунд и объект распознан, а остальной порядок действий это счет по минутам. Если заявиться с потоковым сканированием с большим количеством документов, думаю это не составит больших временных затрат.
Много качественного функционала в свободном доступе, для небольших компаний им можно вполне обойтись.

Итого:

Бесплатные программы справляются с задачей распознавания документов лучше, чем я предполагал, однако за счет них значительно ускорить работу с большим объемом не удастся
ABBYY FineReader хорошо справляется с обработкой и распознаванием документов после, однако, чтобы получить системное решение, нужны большие финансовые возможности.
ELMA RPA удивила по качеству распознавания документов, вариативностью, а также возможностям хранения и передачи после распознавания, но стоит учесть, что продукт молодой.

Трансформеры за последние несколько лет штурмом захватили мир NLP, а сегодня они с успехом применяются в выходящих за рамки NLP приложениях. Они обладают такими возможностями благодаря модулю внимания, который схватывает отношения между всеми словами последовательностей. Но са

В этой подборке исследуем StoreKit 2, распознаем лица и позы на Android, улучшаем производительность React-приложений, учим сквирклморфизм и многое другое!

Этот дайджест доступен в виде еженедельной

Представьте ситуацию: вам нужно воспользоваться оплаченным (как вы думаете) сервисом и вдруг оказывается, что он отключен за неуплату. Такая неприятность портит впечатление от бренда, снижая поток прибыли, а внезапно отключенный клиент может не вернуться к сервису. К старту ку

Но ученые научились определять, где система дает сбой.

MS TECH | GETTY, UNSPLASH

В далекое прошлое ушли уютные форумы, где люди-модераторы заставляли участников следовать правилам и

Для начала хотелось бы упомянуть, что это далеко не первое исследование подобного рода. Начиная с 1960-х готов по настоящее время было разработанно множество программных комплексов и методик, позволяющие решать задачи идентификационного (кем именно была выполнена рукопись, представленная на исследование) и диагностического характера (дифференциации рукописей на мужское и женское, вычисление предполагаемого возраста исполнителя руко

Оракул технологического мира Gartner регулярно и охотно делится с обществом своими наблюдениями относительно текущих трендов. Эксперты компании составили подборку из 10 трендов в сфере данных и аналитики, которые стоит учитывать ИТ-лидерам в 2021 году от искусственного интеллекта до малых д

Десять лет назад Марк Андриссен написал для Wall Street Journal статью под названием "Софт пожирает мир", в которой говорит о фундаментальном сдвиге ро

На днях столкнулся с предложением открыть карту рассрочки мне это было не особо актуально, но я сходу не понял, чем такая карта будет отличаться от кредитной. По заявлению менеджера основной ее плюс в том, что расплачиваться за товар можно будет несколько месяцев и все это бе

Мне давно нравятся Байесовские сети доверия

Недавно мы писали о противостоянии Apple и Spotify, в рамках которого компании продолжают мериться размерами роялти для музыкантов. Сегодня продолжим тему на повестке антимонопольное разбирательство и новые платные продукты.

Фотография: Joran Quinten. Источник: Unsplash.com

Современный мир удивительное место. Глобальная экономика, производственные цепочки, разнесенные по всему миру, и связность, казалось бы, абсолютно несовместимых между собой вещей через общие точки соприкосновения. Хорошим примером такой связности является то, что ажиотажный спрос на туалетную бумагу в США привел к дефициту электронных товаров всех категорий, а в перспективе вовсе к глобальному сбою в мировой торговле.

Нехватка электронных чипов от процессоров до модулей связи отражается на многих сферах. Поставщики десктопных компьютеров и ноутбуков не могут отгрузить требуемый объем продукции, автомобильная промышленность отказывается от некоторых моделей маш

Однажды на работе мне поставили R&D задачу создать бота, который будет "ходить" по сайту, выбирать товары, заполнять формы и оплачивать покупки. На тот момент мы писали часть Antifraud системы, которая позволяла детектировать ботов в браузере. И с этого момента все началось...

Несмотря на широкую распространенность платформы 1С в России и большое количество разработчиков автоматизация различных процессов, связанных с этими решениями, может потребовать значительного времени и длиться месяцами.

Основная проблема связана с тем, что все доработ

Идеи о разработке бизнес-пользователями ходят уже давно, и многие вендора стараются предложить свои решения именно для бизнес-пользователей. Казалось, что времена, когда бухгалтер или финансист сможет разработать автоматизацию для себя, наступят очень нескоро, и в этой статье мы хотим показать, что это уже сейчас стало реальностью.

При написании этой статьи мы пообщались со специалистом финансового отдела одного из Российски

Современные компании активно используют process mining для поиска узких мест в своих бизнес-процессах. У многих из них сформировано понимание ценности этой технологии ее используют для поиска инсайтов в больших массивах информации. Такая аналитика очень актуальна для предприятий, начинающих роботизировать свои процессы. Process mining помогает выявить узкие места автоматизации и связать существующие разрозненные IT-системы в единое

Я пообщался с основателями стартапа ElectroNeek: Сергеем (CEO), Дмитрием (CIO) и Михаилом (CTO). В конце интервью видео, где в прямом эфире собирают робота.

Дмитрий, пришли, пожалуйста фотку для КДПВ, где вы все вместе.
Не поверишь, мы т

Robotic Process Automation, или сокращенно RPA, набирает все больше оборотов на рынке СНГ и Казахстана, в частности. Участники рынка обеспокоились непрерывностью своей деятельности, эффективностью и, конечно, экономией. Пандемия указала нам на дыры, которые имеются в процессах, на то, как это опасно подвязывать процессы на людях и что полная диджитализация это не будущее, это сейчас.

За последние полгода я п

Работая в компании IT-аутсорса в качестве руководителя 3 линии поддержки, задумался, как автоматизировать подключение сотрудников по RDP, через VPN к серверам десятков клиентов.

Таблички с адресами, паролями и прочими настройками серверов, конечно, хорошо, но поиск клиента и вбивание адресов с аккаунтами занимает довольно существенное время.
Держать все подключения к VPN в Windows не самая лучшая идея, да и при переустан

В школе все мы решали задачки вида едет из пункта А в пункт Б. Речь преимущественно шла о скорости и времени как быстро доберётся транспортное средство? Реальность, однако, подбрасывает задачки значительно интереснее: Существует масштабная ритейл-сеть по продаже товаров, которой необходимо, чтобы огромное количество номенклатурных позиций доезжало в каждый из 17000 магазинов, расположенных на половине площади самой большой страны в

Танюшка - автор канала IT DIVA и данной статьи, кофеголик и любитель автоматиз

Автоматизируем ведение большого количества пользователей в AD:

Добрый день! В этой статье я бы хотел описать применённое мной практическое решение по автоматизации одной рутинной задачи второй линии технической поддержки одного крупного предприятия.

Имеем два территориально распределённых домена AD по 10 000 человек, применённое решение по организации Веб-доступа к удаленным рабочим столам через прило

Привет, я фронт, и за десять лет разработки в энтерпрайзах, стартапах и некрупных компаниях я впервые деплою свой код сам и отвечаю за его эксплуатацию, а не только за проектирование и разработку сервиса. О том, как я до этого дошел и почему не собираюсь останавливаться, в этой статье.

Ваш новый разработчик только что закончил подписывать трудовой договор и с горящими глазами готов закрывать по 15 задач в день. На его пути стоит лишь одно препятствие новый ноутбук, который пока что не настроен должным образом. Чаще всего процесс настройки окружения описывается в документе, который выдается новому разработчику. Мы не сильно далеко ушли и тоже составили такой список.

Установка Xcode

Прошло больше года с момента введения жестких ограничительных мер, связанных с распространением COVID-19. Сейчас мир постепенно возвращается в нормальный режим жизни, хотя угроза новых вспышек заболевания остается. Поэтому принимаются все необходимые меры: маски, перчатки и сдача ПЦР-тестов по разным поводам. С административной точки зрения, это, скорее всего, правильно. А вот с организационной система не готова. Главная проблема с

Сегодня мы, Smart Engines, расскажем историю, как работали в пандемию и что у нас из этого получилось. Расскажем, когда и для кого размер приложения имеет значение, что такое живость документов и куда катится этот дивный мир распознавания.

Привет, хабр! С 2015-го года мы публикуем в нашем блоге посты, в которых описываем различные аспекты распознавания документов, удостоверяющих личность, (и не только) на мобильных устройствах (и не только). В комментариях нас несколько раз просили рассказать в целом о том, к

Баркод, безусловно, относится к одному из тех изобретений человечества, которые изменили течение нашей жизни. Благодаря появлению штрихового кодирования и его последующей эволюции, многие обыденные действия не только значительно упростились и ускорились, но ино

	Русский
	English

Распознавание документов на частном примере обзор доступных платных и бесплатных решений

Начал я с бесплатных программ:

Затем я исследовал распознавание в ABBYY FineReader 15 Corporate

И тут я решил получше разглядеть ELMA RPA, которую я уже изучал ранее.

Распознавание по шаблону

Итого:

Сейчас читают

Искусственный интеллект

Перевод Наглядно о том, почему трансформеры работают настолько хорошо

Дайджест интересных материалов для мобильного разработчика 398 (14 20 июня)

Перевод Оптимизация платежей в Dropbox при помощи машинного обучения

Перевод ИИ все еще не умеет модерировать хейт-спич

О том как мы научили машину определять пол человека по его почерку

Перевод ТОП-10 трендов в сфере данных и аналитики 2021. Версия Gartner

Финансы в it

Перевод Перерасти ПО код это современное электричество

Зачем банки предлагают карты рассрочки и как это работает

БСД, или как легко объяснить финансистам их же задачи в терминах машинного обучения

Стимул для изменений как борьба с яблочниками отразилась на крупнейшей стриминговой платформе

Как ажиотажный спрос на туалетную бумагу привел к дефициту электроники

Дефицит чипов способствует развитию теневого рынка электроники контрафакта

Rpa

RPA инструменты и не только

Оглавление

Лайфхаки для роботизации 1С

Кто такие citizen developers и как они двигают вперед цифровую трансформацию туториал по созданию робота

Внедрение process mining аудит процессов в два клика

Интервью с техдиректором ElectroNeek от написания кода к управлению процессами

Что нужно знать перед началом роботизации процессов?

Автоматизация рутины

Powershell настоящий язык программирования. Скрипт оптимизации рутины в техподдержке

Автозаказ как сделать так, чтобы нужные продукты сами попадали на полки 17000 магазинов по всей стране

Как обновить все сцены Unity-проекта в один клик

Автоматизируем ведение большого количества пользователей в AD

Фронт без релиз-инженера, или Как я перестал бояться и полюбил деплой

Онбординг нового разработчика с помощью Ansible