Электронный архив

ABBYY FineReader Server против хаоса. Как наше решение удаляет дубликаты и наводит порядок в бизнес-документах?

09.09.2020 12:15:30 |

Автор: admin

Привет, Хабр! Наверняка вы помните посты о том, как наш ABBYY Recognition Server помогал в оцифровке материалов и каталогов библиотек на Сахалине, в Латвии, Великобритании и в других странах. Мы давно не рассказывали об этом продукте, а ведь все это время он развивался. Мы обучили его новым способностям, прокачали его навыки с помощью интеллектуальных OCR-технологий последнего поколения и даже дали новое имя ABBYY FineReader Server. Объясняем: под общим брендом FineReader мы объединили все продукты для распознавания, конвертации и редактирования документов.

Сегодня ABBYY FineReader Server помогает не только оцифровывать материалы из библиотек и архивов, но и упорядочивать хранение информации в крупных компаниях. Например, группа FESCO оцифровывает бухгалтерские счета и транспортные накладные и отправляет их в единый электронный архив, чтобы быстрее проводить транзакции, а сотрудники PwC прямо с мобильного телефона конвертируют фотографии счетов, договоров и других документов в PDF с возможностью полнотекстового поиска и отправляют их в корпоративные системы. В США юридическая фирма Kantor & Kantor использует это решение, чтобы быстрее находить значимую информацию в тысячах страниц судебных дел.

В этом посте мы расскажем о нескольких новых возможностях ABBYY FineReader Server: как они технически реализованы и для чего крупные компании пользуются ими.

Читать дальше

По данным исследования OReilly Состояние качества данных в 2020 году, большинство крупных компаний испытывают трудности при работе с корпоративной информацией. Например, 60% опрошенных отметили большое число корпоративных источников и дублирование информации в них, а 49% отсутствие контроля над качеством входящих данных. Дубликаты не единственная проблема. Информация устаревает, а объемные и уже не актуальные файлы замедляют поиск информации, затрудняют работу корпоративных систем, да и занимают место, что напрямую влияет на стоимость хранения данных. Это не тот балласт, который стоит переносить в новенькие DMS или ECM-системы.

На самом деле такие проблемы знакомы и каждому пользователю. Достаточно иногда взглянуть на свой рабочий стол, чтобы понять: пора навести порядок в этом зоопарке. Что уж говорить о корпоративном хранилище большой компании, где сотрудников тысячи, а документов миллионы.

Справиться с этими проблемами управлять потоками документов, хранить только нужные данные и в необходимом вам формате помогают технологии интеллектуальной обработки информации. Ниже мы расскажем о нескольких возможностях, которые появились в ABBYY FineReader Server и помогут избавиться от хаоса:

Автоматическое удаление полных дубликатов;
Предварительная обработка документов;
Улучшенное распознавание большинства популярных штрих-кодов, включая ISBN, PDF417, Aztec и QR;
Единый веб-интерфейс для распознавания и конвертации файлов;
Улучшенное сжатие цветных изображений.

Полные дубликаты: найти и остановить

В компаниях любого размера, как правило, есть электронные архивы, которые наполнялись в течение многих лет. Допустим, в вашем SharePointе исторически накопилось много файлов. Что там хранится и как можно быстро найти нужный документ иногда большая тайна даже для его создателей. Но не для ABBYY FineReader Server. В нем есть режим работы Аудит, который позволяет посмотреть, какие документы размещены в хранилище и сколько их.

Сначала вы получите общую статистику по файлам: сколько изображений в графическом формате, скан-копий документов, PDF с текстовым слоем, документов MS Word. Кроме того, вы увидите и общее количество файлов в других, не текстовых форматах: видео, аудио, исполняемые файлы, системные файлы приложений и т.д. Их ABBYY FineReader Server не обрабатывает, но они существуют в архиве и это стоит учитывать. Аудит также определит, сколько всего документов стоит конвертировать, какие в хранилище есть группы дубликатов и где они лежат. Расскажем о них подробнее.

Хэш-сумма это уникальный идентификатор файла. Он высчитывается компьютером путем математических преобразований информации, содержащейся в нем. Если файлы являются дубликатами, то хэши у них будут совпадать, даже если у файлов разные имена и расширения. По умолчанию ABBYY FineReader Server использует 128-битный алгоритм хэширования MD5.

При аудите FRS считает хэш-сумму каждого файла, а затем сравнивает их между собой. Если они совпадают, значит, файлы, скорее всего, являются полными дубликатами и попадут в отчет:

На скриншоте видна статистика: сколько картинок и сканов нужно распознать перед конвертацией, сколько текстовых документов можно перевести в PDF и сколько в хранилище файлов, которые невозможно обработать с помощью FRS. Под табличкой есть отчет по дубликатам и по файлам, чей размер больше 20 МB.

Допустим, компания решила организовать централизованный электронный архив на базе SharePoint вместо десятка разрозненных хранилищ. Для этого сначала необходимо проанализировать, какие файлы годами копились и сейчас содержатся в архивах. Вдруг там полно дубликатов и устаревших документов? А компании как раз не нужны такие копии, потому что хочется хранить меньше документов и легче искать в них нужную информацию. Проведя аудит, можно аккуратно заглянуть в ~~черную дыру~~ электронное хранилище и посмотреть, есть ли там дубликаты и если да, то о каких документах речь. Аудит удобно запускать как первый шаг, если у компании большое хранилище и, например, необходимо посчитать, на сколько страниц вам понадобится лицензия FRS, чтобы обработать файлы.

Второй режим работы FRS Обработка. Если компания не хочет отправлять в новое хранилище дубликаты документов, то в программе можно поставить галочку Исключить файлы-дубликаты.

В этом случае FRS обрабатывает файлы, конвертирует, в этот же момент считает хэш-сумму каждого из них и сравнивает ее с хэшем каждого уже найденного в хранилище файла. Решение обрабатывает один файл из группы дубликатов, а остальные пропускает. Если содержимое двух файлов полностью одинаковое, а название файлов разное, то такие файлы тоже считаются дубликатами.

Когда обработка завершена, FRS снова выведет отчет по дубликатам. Это сделано для тех пользователей, которые не знают про аудит, не хотят его запускать или случайно пропускают этот этап. У них может появиться вопрос: А были ли вообще в хранилище дубликаты? А какие это файлы? Много ли их?. В отчете будет показана группа дубликатов.

Как повысить качество изображения

При обработке в FRS файлы проходят несколько стадий. Например, изображения, которые нужно распознать, сначала отправляются на так называемую предобработку. На этом этапе происходит применение различных фильтров к документу, чтобы улучшить качество его распознавания. Например, если у пользователя сканы низкого качества, он может попробовать поменять набор настроек, чтобы повысить качество изображения: допустим, настроить яркость, контрастность, уровень интенсивности света и тени, повернуть, обрезать лишние границы, осветлить фон и др.

В большинстве случаев хватает профиля предобработки, который настроен в FRS по умолчанию. Это оптимальный набор фильтров, который повышает качество большого количества документов. Решение автоматически выставляет разрешение, подходящее для распознавания текста, определяет, не повернуто ли изображение, исправляет перекосы.

Пользователь может и сам подобрать оптимальный состав фильтров для своих документов и объединить свои группы настроек в профиль. Это удобно, чтобы каждый раз не выставлять 100500 галок. Профилей может быть сколько угодно для обработки фото, для сканов и т.д.

Свои профили предобработки изображений настраивают пользователи и компании, у которых:

Очень специфичные документы, например, какие-то фотографии, сделанные в темном помещении.
Документы, на основе которых будут приниматься критически важные решения, и тут важно бороться за каждый процент качества распознавания, который можно повысить.
Задача распознать и конвертировать файлы для дальнейшей отправки документов в интеллектуальные системы для анализа и извлечения текстовой информации с помощью NLP-технологий например, на платформах eDiscovery. Для них качество текста очень важно, и малейшая опечатка в слове может привести к неправильным результатам. Например, на каком-то слове не выделится сущность.

Поколдовали со штрихкодами

По сравнению с предыдущей версией решения наши разработчики значительно улучшили распознавание ISBN, PDF-417, Aztec и QR-кодов. В некоторых категориях качество повысилось на 15%. При этом скорость обработки увеличилась на 20%.

Расскажем, в каких случаях компании используют такие штрихкоды и для чего их необходимо распознавать.

Первый. В логистические, транспортные и другие компании часто поступают большие файлы, в которых содержатся сразу много сканов разных документов например, товарных накладных. И чтобы поделить этот файл на самостоятельные документы, на первой странице каждой новой накладной помещают штрихкод. В FRS есть функция разделения документов по штрихкоду. В результате на экспорте вместо одного большого комбинированного документа получается несколько аккуратно поделенных файлов.

Второй. В банках, розничных магазинах и других компаниях иногда само значение штрихкода может быть как-то использовано, допустим, в нем может быть зашифровано название файла. Например, у большой торговой сети может быть поток документов от разных поставщиков. Они используют разные штрихкоды. FRS поможет обрабатывать весь массив документов и сразу разложить счета от каждого поставщика в отдельные папки.

Кстати, в одном из европейских банков у нас был любопытный кейс. В компанию поступали бумажные письма со штрихкодами, в них были закодированы имена адресатов. Клиент хотел оцифровывать такие штрихкоды, чтобы уже по электронной почте отправлять оцифрованный документ тому адресату, которому пришло бумажное письмо.

Распознавание и конвертирование прямо в вебе

Сотрудникам крупных компаний по работе часто нужно быстро распознавать и конвертировать файлы в нужные им форматы. Например, бухгалтерия получает от контрагентов сканы товарных накладных или счета в разных графических форматах: JPEG, TIFF, PDF. Специалистам нужно конвертировать все документы в единый формат, допустим, в PDF с текстовым слоем, а затем пересылать дальше, положить в хранилище и т.д.

Раньше в FRS было две возможности для такой конвертации.

Первая: сисадмины настраивали две расшаренные папки. В одну из них конечный пользователь помещал свой документ, а через некоторое время в выходной папке появлялся документ, уже сконвертированный в нужный формат.

Вторая. Пользователь отправлял на определенный адрес письмо с вложенным документом, который нужно сконвертировать или распознать. В ответ ему в почту приходил email с результатом распознавания.

Оба этих способа существуют и сейчас. Но поскольку все движется в сторону веба, то в FRS появилась и третья возможность конвертация и распознавание документов через веб-интерфейс. Мы постарались сделать его максимально простым и понятным.

Загружаешь файл, выбираешь один или несколько форматов, в которые нужно конвертировать документ, а также выбираешь языки, которые используются в документе. Получаешь результат.

Такой сервис может пригодится в любой компании, где людям нужно массово конвертировать файлы. Причем конечным пользователям не придется тратить время на настройки. Все уже готово к работе, достаточно закинуть файл и получить результат.

Качество изображения лучше, а вес меньше

В FRS мы усовершенствовали алгоритмы сжатия MRC, чтобы обеспечить высокое качество цветных изображений при сжатии тяжелых файлов. Во-первых, подобрали более оптимальные параметры сжатия MRC для режимов минимального размера и сбалансированного. Во-вторых, использовали нестрогий детектор определения цветности: это значит, что почти черно-белые изображения обрабатываются как черно-белые. Это позволяет заметно уменьшать их размер. Тестирование фичи на образцах из базы изображений ABBYY показало, что уровень сжатия файлов с цветными картинками стал лучше на 10-30%.

Подобное сжатие необходимо для конвертирования файлов в формат PDF. Чем меньше размер документа с изображением, тем быстрее он открывается на мобильном устройстве, загружается с сайта или отправляется по почте.

В качестве заключения

Эта статья рассказывает о самых интересных и необходимых на наш взгляд новых фичах ABBYY FineReader Server. Попробовать их можно уже сейчас скачайте триал-версию продукта бесплатно. Если вам интересно узнать больше подробностей о FRS, то пишите в комментариях свои вопросы!

Подробнее..

Категории: Блог компании abbyy , Abbyy , Ecm/сэд , Электронный архив , Abbyy recognition server , Abbyy finereader server , Information management

Выбор инструмента безвозвратного уничтожения документов в электронном архиве

27.07.2020 22:10:16 |

Автор: admin

Уничтожение документов, срок архивного хранения которых истек, и дальнейшее хранение которых не требуется один из элементов работы архива любой организации. Для уничтожения документов на бумажных носителях применяются методы физического уничтожения сжигание, химическая обработка, шредирование, гарантирующие невозможность восстановления информации. Для документов, хранящихся в электронном виде, применяются иные методы: уничтожение данных на носителе либо уничтожение самого носителя данных. Инструментов уничтожения данных существует предостаточно, но далеко не все они оказались применимыми для автоматизации уничтожения документов в архиве.

Задача

При внедрении электронного архива в организации нам предстояло автоматизировать уничтожение документов электронного архива. Сам архив представляет собой систему Directum, в которой при помощи встроенного инструмента разработки IS-Builder написано большое количество логики по приему документов в архив из систем-источников, преобразованию форматов электронных подписей документов, предоставлению и отзыву прав доступа к целым делам или отдельным документам. Тексты документов архива хранятся на магнитном носителе, и при проведении регламентной процедуры удаления с носителя должны безвозвратно удаляться файлы только тех документов, срок хранения которых истек. То есть об уничтожении целого носителя не могло быть и речи, и задача состояла в поиске подходящего инструмента уничтожения данных документа на носителе.

Поскольку процесс удаления документов реализован тоже на IS-Builder, то и средство уничтожения файлов мы искали такое, работой которого можно управлять из кода на встроенном языке программирования системы Directum. С точки зрения быстродействия, к инструменту предъявлялось требование: инструмент должен тратить не более одной секунды на уничтожение файла размером один мегабайт. Что касается алгоритма, применяемого инструментом для уничтожения данных, то обязательно соответствие ГОСТ Р 50739-95, и приветствуется поддержка нескольких алгоритмов для возможности выбора. Также инструмент должен быть свободно распространяемым и бесплатным для коммерческого использования.

Большинство инструментов, информацию о которых удалось найти поиском в интернете, не удовлетворяли поставленным требованиям, так как были утилитами только с графическим интерфейсом, без возможности программного взаимодействия. Для более детального изучения были выбраны лишь:

утилита SDelete из набора Sysinternals;
Eraser утилита с интересным подходом к уничтожению;
ну и на реализацию инструмента прямо на IS-Builder мы тоже возложили надежду.

Как мы тестировали

Для тестирования мы подготовили на жестком диске небольшой раздел, чтобы было проще окинуть взглядом наш театр военных действий. На этом диске мы создавали файлы, уничтожали их разными способами и затем смотрели, что от них осталось. Уничтожение считается успешным, если выполнено со скоростью не ниже требуемой, и не удается найти ни одного фрагмента исходного файла. А чтобы сравнение инструментов было честным, для уничтожения файлов во всех инструментах был применен один и тот же алгоритм, поддерживаемый ими всеми DOD 5220.22-M, формально удовлетворяющий и требованиям ГОСТ.

Для контроля результатов уничтожения мы использовали следующие инструменты:

WinHex условно бесплатная утилита, получающая доступ к содержимому носителя на низком уровне, позволяющая искать данные по фрагменту содержимого и восстанавливать их;
DiskView еще одна утилита от Sysinternals. Она использовалась скорее в процессе, чем для контроля результатов с ее помощью мы наблюдали географию расположения фрагментов файлов в кластерах на диске.

Инструмент на IS-Builder

Суть алгоритма DOD 5220.22-M достаточно простая, и мы реализовали его на встроенном языке программирования системы Directum. На вход алгоритм получает имя файла и запрашивает у файловой системы его размер в байтах. Затем три раза генерируется буфер вычисленного размера, который записывается в указанный файл. Красота подхода в том, что алгоритм уничтожения может быть реализован совершенно любой, с любым количеством проходов и самыми немыслимыми шаблонами перезаписи. Кроме того, поскольку инструмент реализуется на IS-Builder без зависимостей от внешнего ПО, со встраиванием его в прикладную разработку системы Directum не возникает совершенно никаких сложностей. И работает-то он быстро. Вот только не уничтожает данные! WinHex обнаружил на диске не просто фрагменты исходного файла, а весь файл целиком и успешно его восстановил. Выяснилось, что в момент записи первого же буфера на диск местоположение файла на диске меняется: исходный файл располагался в начале раздела, а оказался посередине или в конце. Это мы выяснили с помощью DiskView. Исходные же кластеры хоть и помечены свободными, но все еще содержат в себе данные. Это, разумеется, никуда не годится. Способы записи в файл использовали разные, результат везде одинаковый, данные можно найти и восстановить. Получается, мы можем генерировать буфер для перезаписи, но не можем правильно записать его на диск. И поскольку рабочих схем найти не удалось, пришлось попрощаться с идеей обойтись встроенными в Directum средствами.

SDelete

docs.microsoft.com/en-us/sysinternals/downloads/sdelete

В утилите SDelete от Sysinternals реализован всего один алгоритм удаления (DOD 5220.22-M), но можно указать количество проходов перезаписи, уничтожить дерево каталогов со всем содержимым и даже выполнить зачистку незанятого места на диске. SDelete является утилитой командной строки и имеет всего несколько ключей, так что вызвать ее из вычислений IS-Builder несложно:

SDelete = "C:\Sysinternals\SDelete\sdelete.exe"Command = Format('"%s" -p 1 "%s"'; ArrayOf(SDelete; Filename))ExecuteProcess(Command; smNormal; wmYes)

В результате применения утилиты файлы исчезли с диска практически бесследно: с помощью WinHex удалось обнаружить только следы перезаписи имени файла, но содержимое найти и восстановить не удалось. При этом работала утилита довольно быстро (удаление файла размером 1 мегабайт = 0,2 секунды) и заслуженно вырвалась в лидеры.

Eraser

eraser.heidi.ie

Бесплатная утилита с графическим интерфейсом. Что отличает Eraser от остальных, так это работа с очередью заданий на уничтожение. Если вы захотите удалить что-то, то вы должны создать соответствующую задачу и добавить ее в очередь. Каждая задача в очереди Eraser это совокупность информации:

об объекте уничтожения это может быть конкретный файл или каталог, содержимое Корзины пользователя, незанятое место на диске. Это также может быть безопасное перемещение файлов или папок или полная очистка раздела на жестком диске;
об алгоритме уничтожения Eraser знает несколько готовых алгоритмов перезаписи, а также предлагает возможность создать свои собственные, настроив необходимое количество проходов и указав для каждого из них свой шаблон данных для перезаписи;
о времени старта задача может быть выполнена непосредственно после помещения в очередь, по расписанию, при загрузке операционной системы или вручную.

Работающий в фоне процесс Eraser занимается обработкой очереди и выполнением задач. Таким образом, уничтожение данных в Eraser это всегда асинхронный процесс, очень напоминающий серверные события в Directum.

Управление утилитой с помощью ключей командной строки тоже работает, причем давно, хотя работа в командной строке до сих пор официально не заявлена и находится в статусе разрабатываемой функциональности:

Eraser = "C:\Program Files\Eraser\Eraser.exe"Command = Format('"%s" erase /method="ecbf4998-0b4f-445c-9a06-23627659e419" /quiet file="%s"'; ArrayOf(Eraser; Filename))ExecuteProcess(Command; smNormal; wmYes)

Уничтожение файла с помощью Eraser выполнено успешно. Оценить скорость работы не вышло в силу асинхронности уничтожения. С точки зрения использования в прикладной разработке смущает подвешенный статус работы в командной строке, но возможность создавать произвольные методы уничтожения выглядит интересной.

Результаты

Если бы не досадный фэйл с записью буфера на диск, реализация на IS-Builder выглядела бы на миллион, но, увы, до финиша она не дошла. Два других инструмента показали себя гораздо лучше, при этом наиболее выигрышно выглядит утилита SDelete. Она не требует установки, обладает хотя и минимальным, но достаточным функционалом и хорошим быстродействием.