Русский
Русский
English
Статистика
Реклама

Восстановление информации

Подробное руководство по Autopsy

15.12.2020 22:17:55 | Автор: admin


Autopsy это программа с открытым исходным кодом, которая используется для выполнения криминалистических операций с жесткими дисками и смартфонами.


Этот инструмент применяется:


  • правоохранительными органами
  • местной полицией
  • корпоративными отделами безопасности

Основное предназначение программы расследование улик киберпреступлений, но также Autopsy может использоваться для восстановления удаленной информации.


Содержание:


  • Создание нового проекта
  • Источники данных
  • Просмотр содержимого
    • Типы файлов:
      • По расширению
      • Документы
      • Исполняемые файлы
    • По типам MIME
  • Удаленные файлы
  • Файлы по размеру
  • Полученные результаты
    • Извлеченный контент
      • Метаданные
      • Корзина
      • Загрузки из интернета
    • Ключевые слова
  • Timeline
  • Discovery
  • Изображения/Видео
  • Тегирование
  • Создание отчетов

Первым делом скачаем Autopsy.


Создание нового проекта


Запускаем Autopsy в Windows и нажимаем "New Case".



Вводим название проекта, а также выбираем базовый каталог, чтобы все данные сохранялись в одном месте.



При необходимости можно добавить дополнительную информацию.



Источники данных


Теперь добавим тип источника данных. Есть разные типы на выбор:


  • Disk Image or VM file: сюда входит файл образа, который может быть точной копией:
    • жесткого диска
    • карты памяти
    • виртуальной машины
  • Local Disk: этот параметр включает такие устройства, как:
    • жесткий диск
    • USB накопители
    • карты памяти и т. д.
  • Logical Files: образы любых локальных каталогов или файлов.
  • Unallocated Space Image File: файлы, запускаемые с помощью модуля Ingest.
  • Autopsy Logical Imager Results: источник данных от сканера логических разделов дисков.
  • XRY Text Export: источник данных из экспорта текстовых файлов из XRY.

Теперь добавим источник данных. В данном случае выберем заранее подготовленный образ.



Затем будет предложено настроить модуль Ingest.



Содержимое модуля Ingest приведено ниже:



Информация об источнике данных отображает основные метаданные. Его подробный анализ отображается внизу. Его можно извлекать один за другим.



Просмотр содержимого


Типы файлов


Типы файлов можно классифицировать по форме расширения файла или типа MIME.


Autopsy предоставляет информацию о расширениях файлов, которые обычно используются ОС, тогда как типы MIME используются браузером, чтобы решить, какие данные представлять. Также отображаются удаленные файлы.


Типы файлов можно разделить на категории в зависимости от:


  • расширений
  • документов
  • исполняемых файлов


По расширению


В категории файлов по расширению можно заметить, что они были разделены на типы файлов, такие как:


  • Изображения
  • Видео
  • Аудио
  • Архивы
  • Базы данных и т. д.


Давайте исследуем изображения, которые были восстановлены.



Мы также можем просмотреть миниатюры изображений.



При просмотре миниатюры можно изучить метаданные файла и подробную информацию об изображении.



Вдобавок здесь есть возможность посмотреть несколько восстановленных аудиофайлов, которые можно извлечь из системы и прослушать с помощью различных программ.



Документы


Документы делятся на 5 типов:


  • HTML
  • Office
  • PDF
  • обычный текст
  • форматированный текст

Изучив параметр документов, можно увидеть все имеющиеся HTML-документы. Наиболее важные можно открыть и посмотреть.



Изучив вариант PDF, можно найти важный PDF-файл в образе диска.



Точно так же можно просматривать различные текстовые файлы.


Удаленные текстовые файлы можно восстановить.



Исполняемые файлы


Эти типы файлов делятся на:


  • .exe
  • .dll
  • .bat
  • .cmd
  • .com


По типам MIME


Здесь есть четыре подкатегории:


  • Приложения
  • Аудио файлы
  • Изображения
  • Текстовые файлы

Они разделены на несколько разделов и типов файлов.



Удаленные файлы


Deleted Files: отображает информацию об удаленном файле, который затем можно восстановить.



Файлы по размеру


MB Size Files: здесь файлы классифицируются в зависимости от их размера, начиная с 50 МБ. Это позволяет исследователю искать большие файлы.



Полученные результаты


В этом разделе мы получаем информацию об извлеченном контенте.


Извлеченный контент


Extracted Content: весь извлеченный контент дополнительно детализируется. В нашем случае мы нашли:


  • метаданные
  • корзину
  • загрузки из Интернета

Давайте рассмотрим каждый из них подробнее.



Metadata: здесь мы можем просмотреть всю информацию о файлах, такие как:


  • дату создания
  • дату изменения
  • владельца файла и т. д.


Recycle Bin: в этой категории находятся файлы, помещенные в корзину.



Web Downloads: здесь можно увидеть файлы, которые были загружены из Интернета.



Ключевые слова


Keyword Hits: в этом случае любые конкретные ключевые слова можно найти в образе диска. Поиск может осуществляться по:


  • точному совпадению
  • электронным письмам
  • регулярным выражениям и т. д.


Вы можете просмотреть доступные адреса электронной почты.



Вы можете выбрать экспорт в формат CSV.



Timeline


С помощью данной функции можно получить информацию об использовании системы в формах:


  • статистической
  • подробной
  • списком




Discovery


Эта опция позволяет находить носители с помощью различных фильтров, которые присутствуют в образе диска.



По выбранным параметрам можно получить желаемый результат.



Изображения/Видео


Этот вариант предназначен для поиска изображений и видео с помощью различных параметров и нескольких категорий.



Тегирование


Тегирование используется для:


  • создания закладок
  • отслеживания
  • пометки любого примечательного элемента и т. д.


Теперь, когда видны параметры тегов, становится ясно, что файлы были помечены по различным категориям.



Создание отчетов


После завершения расследования эксперт может составить отчет в различных форматах по своему усмотрению.



Отметьте источник данных, отчет по которому необходимо создать.



Здесь мы выбрали создание отчета в формате HTML.



Наш криминалистический отчет готов!


image

Подробнее..

Восстановление утраченных текстов с помощью современных технологий. Железо

04.10.2020 16:16:23 | Автор: admin
image

Для начала немного новостей.

Как вы можете помнить, в 2018 году я опубликовал статью Как нам удалось прочитать рукопись, найденную в 80-х возле третьего крематория в Аушвице-Биркенау. Так же можете почитать интервью со мной в новой газете.

После совместной работы новая информация заставила зашевелиться как и сам музей Биркенау так и историков. Впервые у Павла Поляна вышли Свитки из Пепла на немецком языке.

В январе 2020 года мы получаем письмо от нашего друга историка Андреаса Киллиана из Франкфурта со ссылкой на магазин музея Аушвиц Биркенау.

Там мы обнаруживаем новую книгу о Марселе Наджари. После того, как мы получили эту книгу по почте, мы узнаем, что музей Биркенау, по их словам, регулярно предпринимал попытки исследования рукописи, пока местный польский доктор Томаш Лоевский из университета науки и техники в Кракове, не сделал новую мультиспектральную пересъемку.

Увы, но книга вышла очень однобокой. Описанная хронология исследования исключала любые события вне польской принадлежности. По словам Павла, после наших публикаций в СМИ, они получили хороший заряд любви за пропуск очень важного исторического материала. К счастью, пересъемка действительно дала новый результат! Добавились новые даты и слова. В книге были распечатаны новые сканы. На них я действительно визуально обнаружил новые символы, которые абсолютно отсутствовали в цифровых копиях двадцатилетней давности, что были у нас. Однако, исследователь не применял метода, который использовал я. А теперь представьте себе, что я чувствую и как я жажду увидеть эти новые файлы! Рукопись до сих пор имеет потенциал, и мы пытаемся получить к ней доступ.

В России существует большое децентрализованное движение по поиску и увековечивания памяти солдат, погибших в ВОВ. Поисковые отряды разбросаны по стране и частенько ругаются друг на друга из-за некомпетентности проведения вскрытия нагрудных медальонов, безвозвратно уничтожая их. Но то, что удается развернуть, далеко нелегко прочитать. Такая же ситуация с письмами или мемуарами родственников, огромное количество испорченного материала в архивах в регионах нашей страны. Кучей других, казалось бы, испорченных на первый взгляд документов имеет огромный потенциал к прочтению. Существующая литература по криминалистике, что далась мне через гугл, крайне устарела. Посмотрев российские публикации по реконструкции писем Достоевского, Чехова, пообщавшись с архивистами из гос. учреждений, частных компаний, изучив публикации и опыт западных коллег, было решено подготовить этот просветительский обзор современных технологий ( или как это сейчас модно говорить: топ 10 фич для нечитаемого письма с наследством от вашего прадеда).

Этот материал относится к классу изучения культурного наследия и составлен из научных публикаций, доступных за последние 15 лет, а также и моего опыта и анализа.

В этой публикации мы будем двигаться от сложного к доступному, а в следующей, более практической, поговорим об алгоритмах и софте.

1. Рентгеновская микротомография (X-ray micro tomography)
2. Рентгеновская томография с фазовым контрастом (X-ray phase contrast imaging)
3. Рентгенофлуоресцентная визуализация (X-ray fluorescence imaging)
4. Оптическая когерентная томография (Optical coherence tomography)
5. Терагерцовая визуализация (Terahertz imaging)
6. Инфракрасная термография (infrared thermography)
7. Раман спектроскопия (RAMAN imaging)
8. Мультиспектральный анализ (Multispectral imaging)
9. Выбор технологии.

1. Рентгеновская микротомография


Университет Cardiff (UK)

Я опишу стандартный вариант интереса музейного архивиста. Что нибудь старое неизученное и очень интересное. Например, судебный свиток 16-го века из поместья Дисс Хейвуд в Норфолке (UK) вполне сгодится. По каким-то причинам печального прошлого он обожжен огнем и попытки отмочить и развернуть его могут уничтожить как чернила так и сам носитель. Железистые чернила (скорее всего это они) на обожженных участках совершенно нечитаемы. К тому же, на свитке сажа и прочий налипший мусор. Теоретически, в нем должны быть сведения о жизни в поместье, земельных сделках, нарушениях мира, уплате штрафов, имен присяжных и прочую бюрократию. Данные из него могут быть использованы для изучения демографии, урожайности сельхозкультур да и самой истории. Кто знает, что там за разворотом, если не заглянуть? А развернуть его без последствий возможно только виртуально.


В качестве оборудования для изымания виртуальной копии использовался рентгеновский томограф. Я не стану вдаваться в название модели как сейчас так и далее по тексту, потому что ученые работают на том, что или свободно на текущие даты или вообще доступно. К тому же, там столько настроек, дополнительных приборов, ручных калибровок и измерений, что эта процедура неповторима от эксперимента к эксперименту. Бывает, что ученые вынуждено ускоряют эксперимент в ущерб разрешению, поскольку прижимает время.

Процесс сканирования
Перед сканированием свиток помещается в цилиндрический пластиковый контейнер вертикально на половину. Чтобы он не падал и был зафиксирован во время сканирования, контейнер набивался кусками материала типа вспененного полиэтилена. Сканер был настроен на запись 2511 рентгеновских проекций и это заняло около 3 дней. Потом свиток переворачивался в своем контейнере с небольшим перекрытием зон сканирования и операция повторялась.


По предположению, свиток внутри не имеет сложных наложений. Поэтому удается избежать решения задачи по анализу его внутренней ориентации. По первым сканам это подтвердилось.


Один из томографических срезов

Как правило, разница в плотности пергамента и воздуха на рентгеновских томографических изображениях очень значительна. И поэтому обработка для извлечения их содержимого начинается с выполнения автоматической сегментации с использованием фильтра threshold (бинаризация). Но это пол беды, так как существует множество мест слипшихся частей или отверстий, для чего необходима ручная корректировка.


Демонстрация алгоритма разделения слоев.

Предположение усредненной толщины пергамента всего документа позволяет разделить слитую область на несколько слоев максимально равномерно.

Первичный анализ показывает, что свиток Дисса Хейвуда состоит из четырех плотно скрученных листов, а текст нанесен на двух сторонах каждого. Если промахнуться мимо нужного слоя из-за ошибок сегментации, текст будет рассыпаться.

Удивительно, но этот процесс был по почти полностью автоматическим! Из-за серьезных повреждений ручной коррекции потребовали только 15 из 8044 срезов.

Сам алгоритм сегментации был не самым оптимальным ( исследователи пишут, что жуткий говнокод, да и еще в матлабе) на 1 срез уходило по 4 минуты! Так что сегментирование всего свитка заняло около 3 недель. Тем не менее, 15 раз поправить из 8000 тысяч за три недели, это еще очень хорошо, по сравнению с результатами в других исследованиях.

Вот так выглядит виртуальное развертывание.



От себя добавлю, в идеале необходим такой софт, при котором щелкая по тексту виртуально развернутой копии, можно было бы локально регулировать глубину сегментации. Тогда у нас в руках будет возможность выбирать максимально читаемую границу разделения. Это более тщательная процедура, которая должна быть передана уже самим переводчикам. Задача ученых на этом этапе должна быть завершена.


Несмотря на потрясающий результат, он основан на выделении существующего контраста между папирусом и чернилами. Вы можете наблюдать черные пятна на папирусе, это как раз зоны, где рентген не смог выделить контраста в материале. Но что делать, если рукопись полностью обуглена?

2. Рентгеновская томография с фазовым контрастом


Со школьной скамьи мы знаем про извержение Везувия, случившегося в 79 году нашей эры. Кто-то помнит картину Карла Брюллова Последний день Помпеи. Результатом этой катастрофы стало разрушение римских городов, особенно Помпеи и Геркуланума. Погребение под толстыми слоями вулканического материала создало некую консервацию этих мест на сотни лет. Сегодня же это место стало абсолютно потрясающей возможностью для изучающих древнюю греко-римскую культуру.

После первого обнаружения папирусных свитков в 1752 году была обнаружена целая библиотека в маленькой комнате огромной виллы, содержащая сотни рукописных обугленных свитков, бережно хранящихся на полках. Эта богатая книжная коллекция, состоящая главным образом из эпикурейских философских текстов является уникальным культурным сокровищем. Это единственная древняя библиотека, сохранившаяся вместе со своими книгами!

Сколько же было попыток развернуть эти полуобугленные свитки! Все это приводило к их безвозвратной потери. Было решено сохранить их физическую целостность в надежде на великие умы будущего.

За последние 20 лет был достигнут значительный прогресс в чтении текстов Геркуланума. Использование бинокулярных микроскопов и мультиспектральной съемки (об этом мы поговорим ниже) значительно улучшили читаемость этих текстов. К сожалению, эти методы неприменимы к текстам, которые остаются свернутыми, да и вообще напоминающие скорее кусок угля из вашего мангала, дорогой читатель.


Как уже было сказано выше, в рентгеновской компьютерной томографии механизм выделения контраста основан на поглощении рентгеновского излучения. Этот метод особенно хорошо работает для различения сильно поглощающих материалов от слабо поглощающих материалов (кости и мясо).

В древности папирусы писались чернилами на основе углерода, полученным из сажи, плотность которых почти такая же, как у самого обугленного папируса. Именно близость этих физических свойств долгие годы не позволяла найти необходимый для вычленения текстов контраст.

После изучения аналогичных не сгоревших рукописей исследователи пришли к выводу, что нанесенные чернила не проникали внутрь папируса. Это означает, что они нанесены поверх материала. Этот факт оказался решающим для экспериментов, потому что используя фазовый контраст можно найти именно эту разницу. У разной толщины материала различный показатель преломления ( фазовые сдвиги рентгеновского излучения). Высота чернил над папирусом где-то около 100 микрон. Именно эта технология позволила впервые вычленить достаточно читаемые символы.

В отличие от свитка из Англии, у этого папируса крайне сложно размотать внутренние слои. Поскольку алгоритмы сегментации бесполезны из-за сложных поверхностей. Непрерывные участки с текстом были идентифицированы вручную почти во всех случаях.



Это новаторское исследование открывает новые перспективы не только для многих папирусов, но и для тех, которые еще не обнаружены. Возможно, под более глубокими вулканическими породами есть еще одна библиотека!

3. Рентгенофлуоресцентная визуализация


Стэнфордская лаборатория. (USA)

Вы что нибудь слышали о палимпсестах? Документах, в которых информация стоила куда дешевле чем сам носитель. Никому ненужные тексты могли соскабливаться, отбеливаться и перекрываться новыми свежими.

Гален Пергамский врач императоров и гладиаторов. Его текст О смесях и силе простых лекарств был переведен в 6 веке на сирийский язык для распространения его идей в древнеисламском мире. Восстановление данного текста позволит понять, как лечились болезни в то время и это очень ценная информация. К сожалению, несмотря на известность врача наиболее полная и сохранившаяся версия перевода была стерта и переписана гимнами в 11 веке. Более ранние исследования выявили следы текста под ними, но они не увенчались успехом оба текста были написаны одинаковыми чернилами, к тому же, основной был хорошо вычищен. Добиться необходимого контраста для прочтения не удавалось в течение 10 лет.

Не так давно международная группа исследователей показала прекрасный результат с помощью Стэнфордского источника синхротронного излучения (SSRL) из национальной ускорительной лаборатории SLAC.

Мы надеялись, что там будет достаточно следов чернил, чтобы мы смогли расшифровать хотя бы одно или два слова,-говорит Уве Бергманн, штатный ученый из SLAC, который возглавлял проект рентгеновской визуализации. Отчетливое письмо, которое мы сейчас видим, знаменует огромный успех.

Конечно же, команда опасалась, что даже с помощью мощных рентгеновских методов визуализации в SSRL текст все еще может быть неразборчивым. Например, количество железа в оставшихся чернилах слишком мало или они слишком смазаны.

Рентгенофлуоресцентная визуализация работает по принципу выбивания электронов вблизи ядер атомов металлов. Эти дырки заполняются внешними электронами, что приводит к характерной рентгеновской флуоресценции, которую можно зафиксировать. Скрытый текст Галена и новый религиозный текст флуоресцируют несколько по-разному, потому что их чернила содержат различные комбинации железа, цинка, ртути и меди. Разница в веках не может не отразиться на составе чернил и это именно те необходимые различия, которые позволят разделить полученные массивы данных.

Сканирование одного листа занимает около 10 часов для каждой из 26 страниц. Результат огромное количество данных. Приходилось прибегать даже к машинному обучению, чтобы извлекать информацию. Руками это разобрать крайне сложно.





В конце января 2019 года у себя в твиттере Майкл Тотт выложил фотографию. В канале, который отвечает за наличие серы в рукописи, обнаружился великолепный контраст.



А это диаграмма элементарного состава участка рукописи.




Лично я бы хотел такой фотошоп, где слои у изображения выступали бы в качестве его составных химических элементов. Как бы называлось тогда цветовое пространство? Рукопись все еще находится на стадии изучения.

4. Оптическая когерентная томография


Университет Дьюка (США)

Это метод фотонной визуализации в основном используется в офтальмологии. Например, для недоношенных плодов по глазному дну можно определить степень развития мозга. В основе технологии лежит схожий принцип что и с ультразвуковым измерением, только излучением служат ИК лучи (850нм-1000нм). Изображения получаются высоко детализированными ( микроскоп идет бонусом ), а из-за свойств ИК лучей проникать в ткани на 1-2мм у нас есть возможность получать объемный массив, по которому можно делать срезы на нужной глубине.

Папирус


Описан случай изучения образца папируса 2 века до нашей эры. В Древнем Египте умерших среднего класса мумифицировали с помощью маски из обрывков папируса типа папье маше, потом наносили грунт и краски. Есть подозрения, что этот папирус был взят б.у с уже каким-то существующим текстом. Некоторые ученые, по словам Майкла Тотта, растворяют маски в средстве для мытья посуды, чтобы добраться до этих слоев папируса под краской. Все бы ничего, но это разрушает артефакт, да и процедура зависит от прямоты рук и не дает никаких гарантий. Если бы проблемы были только в желании неинвазивного исследования, так поди еще вывези это из страны! Законы, запрещающие вывозить образцы культурного наследия, бюрократия, упаковка, тряска и т.п. Так сложилось, что сестра Синтия Тотт работает офтальмологом совсем неподалеку от университетского архива папирусов (несколько минут ходьбы). В ее учреждении есть оптический сканер когерентной томографии.


Перед вами в роли пистолета тот самый оптический сканер, и заинтересованные лица.


Здесь на фотографии на заднем плане на стекле лежит та самая полосочка папируса. Результатом сканирования стал гиперкуб, срезав шапку которого (оторвав первый слой обоев в твоей любимой хрущевке, дорогой читатель) можно действительно различить символы алфавита!


Не удивляйтесь, что видите знакомые вам символы. Майкл утверждает, что в то время греческий язык был языком правительства, поэтому поиск символов не требует привлечения носителей мертвого языка, но основная сложность работы с этим оборудованием и подобного уровня задач в том, что почти все ресурсы в мире сосредоточены на решениях задач сохранения здоровья и жизни, что понятно. Специалистов очень мало, а свободных и идейных тем более. Да и существующие программные решения не подготовлены для решения задач, связанных с культурным наследием. Тем не менее, это перспективная технология.

5. Терагерцовая визуализация


Одна из молодых технологий, набирающая обороты в огромном количестве областей в последнее время. Успешных крупных примененных кейсов для восстановления рукописей мне не удалось найти. Есть множество аналитических экспериментов, подтверждающие наличие потенциала, а в некоторых случаях превосходящих рентген из-за выделения контраста среди не железосодержащих элементов. Вообще, об этой технологии есть хорошая и очень интересная лекция.

https://www.youtube.com/watch?v=9N0U_OuaWGc

Используемые длины волн от 100 гигагерц до 3 терагерц, могут проникать через бумагу и многие другие материалы. Излучение не ионизированное и поэтому безопасно для человека. На основе статистики отраженных полей во времени существует возможность локализовать каждую страницу.

Перед вами анимация, показывающая по очереди буквы LAZ,THZ. Эти буквы были напечатаны на лазерном принтере и сложены в стопку. Излучатель положили сверху и по отраженному сигналу удалось различить текст до 20 листов. Глубже сигнал отражался с уже нечитаемым количеством накопленных ошибок.


Музей Метрополитен в Нью Йорке заинтересовался данным подходом, потому что в их архивах лежат книги, которые запрещено открывать под угрозой разрушения. А доступ к томографии не такой простой. Большим плюсом выступает доступность оборудования. В отличие от предыдущих технологий, на рынке уже представлены несколько законченных продуктов, готовых к подключению прямо к ноутбуку по USB.

6. Инфракрасная термография


Теперь мы рассматриваем построение изображения в диапазоне работ термовизоров. Активная импульсная термография была успешно применена для неинвазивного выделения древних текстов в пергаментных переплетах книг. В качестве примера можно привести результаты, полученные в результате анализа рукописи XIII века (ms 509/D813), хранящуюся в Римской библиотеке Ангелика. Рукопись представляет из себя изложение Ветхого Завета и состоит из 127 письменных пергаментов. Часть из них пострадала от воды. Последние страницы с крупными размытыми пятнами, делающими текст нечитаемым.

Термограммы, выполненные на различные поврежденные области, показывают частичное восстановление чернильного текста во всех исследованных областях.



Такие термограммы были получены при помощи двух ламп-вспышек мощностью 1 кВт. Потеря пигментного компонента чернил не означает смыв остальных его составляющих. Возможность восстановления контраста может обуславливаться временным нагреванием зон с остатками чернил, которые эффективно поглощают часть падающего света.

7. Рамановская спектроскопия


Бодлианская библиотека.Оксфорд

В случае облучения какого-либо вещества лазером, помимо релеевского рассеивания крайне малая часть отраженного сигнала меняет свою частотную составляющую. Появляются спектральные линии, которых не было в первичном источнике света. Число и расположение появившихся линий определяется молекулярным строением вещества. Таким образом можно определить его состав. При установке лазера на станок чпу, можно снимать эти данные по координатам и потом уже сформировать изображение из элементарного состава. Этот способ очень популярен для исследования пигментного состава картин и выявлении скрытых надписей. Правда в работе с Армянской рукописью целью выступала немного другая задача.Следует, отметить, что облучение лазером носит очень слабый, но все таки повреждающий характер.



А вот так выглядит полученная пигментная маска обложки, на основе элементарного состава. В данном примере показан результат по красному пигменту.



Не так то это и круто, скажете вы. Ведь подобную маску так или иначе можно попробовать вычленить и из фотографии? Фотография, получается, тоже является аналитическим инструментом?

8. Мультиспектральный анализ


И так, мы подошли к тому, о чем собственно и имеет смысл говорить, если речь идет о доступности технологии. Большинство крупнейших мировых музеев и архивов имеют в своем распоряжении именно это оборудование. 1993 году Свитки Мертвого моря стали одними из первых рукописей, изучаемых с помощью спектральной визуализации. Правда в то время исследователи пытались восстановить выцветшие или неразборчивые тексты с помощью инфракрасной пленки.

Пленка ушла, пришла цифра и сверхяркие светодиоды (или же набор фильтров и два строительных галогеновых светильника). Суть технологии довольно проста. Вам необходимо сделать около 12 цифровых изображений на чернобелую матрицу (очень желательно) в 12 различных спектрах из оптического диапазона: три в ИК, потом красный, янтарный, оранжевый, желный, зеленый, голубой, синий, фиолетовый и уф. На фотографии выше два светодиодных прожектора, которые на данный момент подсвечивают образец в УФ свете. По результатам делаются дальнейшие выводы об образце: есть ли потенциал, поможет ли нам софт, и не стоит ли начать топтать кабинеты чиновников, выбивая бюджет для поездки в национальную исследовательскую лабораторию.

В 2020 году ученые, изучающие материал пергамента Кумранской рукописи свободный от текстов, случайно обнаруживают буквы. Огромное количество мелких частей никогда не изучалось на предмет наличия текстов, потому что не было никаких намеков на это. Некоторые участки были даже специально нарезаны. для каких-то других задач. А при пересъемке в ИК спектре то, что казалось пустым, внезапно оказалось сенсацией.


Один из величайших исследователей Девид Ливингстон посвятил Африке большую часть своей жизни, пройдя пешком свыше 50 тысяч километров. В одной из последних своих работ вместо закончившихся чернил он использовал сок местной ягоды. Но прекрасный контраст сохранялся только первое время. Когда же рукопись добралась до его коллег сок потерял свой пигмент. Она ждала 140 лет, чтобы быть полностью прочитанной. Кстати, проект по изучению его дневника https://livingstoneonline.org занял 1 место в DHawards в 2016 году.



На изображении выше страница рукописи и дальнейшие комбинации из полученных спектральных изображений пригодных как в качестве масок подавления шумов так и непосредственно повышения контраста необходимых элементов.

Подавление газетного текста производилось маской из ИК диапазона, так как сок ягоды там отсутствовал, а вот в других каналах он присутствовал более контрастно вместе с газетным. Результатом расшифровки стала история, в которой Ливингстон был непосредственным свидетелем страшной резни среди работорговцев. Он был так поражен происходящим, что прервал свои поиски истоков Нила. На сегодня рукопись полностью расшифрована и доступна для любых желающих. Но так как вы, дорогой читатель, скорее всего живете во время, когда не ценят то, что дается бесплатно, читать вы ее скорее всего и не будете.

В блоге британской библиотеки вы тоже встретите регулярные результаты исследований мультиспектральной съемки. 800 летняя! Магна карта (Великая хартия вольностей) показала отличный результат, несмотря на свое состояние. Или результат Евангелие Бодмина. 9 век. Приглядитесь, это одна и таже страница.


Чтобы лучше понять, как устроен процесс, есть хорошее видео https://www.youtube.com/watch?v=GhpBmL5_OXw

Более того, если вам кажется, что это не доступно простым смертным, мой итальянский приятель Антонино Косентино (будучи ученым) поведает вам о своем проекте https://chsopensource.org/ где делится результатами своих исследований о применении бытовых зеркалок и обьективов в мультиспектральной съемке. Его проект Antonello посвящен этому полностью. Правда, я не уверен, что набор фильтров вместо светодиодных прожекторов является лучшим решением. Хотя бы потому, что такой набор вам обойдется в 800 евро. Чтобы лучше понимать, как ведут себя цветовые пигменты в мультиспектреальной съемке, я покажу
вам таблицу пигментов от Антонино



https://habrastorage.org/webt/j1/bl/mi/j1blmiegmk2pxxngg3_mhrq0n9c.jpeg

На ней вы видите, как многие пигменты в IR становятся прозрачными или отражают или поглощают ИК лучи и как в UV все выглядит совершенно по-другому. Съемка между IR и UV тоже покажет свой набор контрастов.

Теперь, обладая достаточными знаниями, перейдем к сравнительному анализу перечисленных выше методов, чтобы узнать, на каком из выше приведенных методов лучше исследовать предполагаемый образец.

9. Выбор технологии


Исследование папирусов, одна из самых популярных тем культурного наследия. В одной из научных работ, исследователи задались вопросом, чем светить на мумию. Стоит ли перебирать технологии по очереди в поисках результата, или лучше заранее сузить выбор?

Если воспроизвести идеальные условия, можно будет довольно точно рассуждать о способности технологии раскрывать определенные пигменты лучше других.

Исследователями по древней технологии были подготовлены 4 листа папируса 10x15см (фантомы), разделенных на четыре зоны. Каждая зона на каждом листе была помечена жирным крестом разного состава чернил по часовой стрелке, чтобы не возникало ситуации, при которой кресты в сложенных пачках папирусов накладывались бы друг на друга.


Три типа чернил выбраны по историческим причинам, а последний современный (чего месту пропадать):

  • углерод (сажа, уголь)
  • оксид железа ( наиболее распространены)
  • железистые чернила (в меньшей степени)
  • современная углеродная тушь (Winsor and Newton, UK, Великобритания)

Мультиспектральная съемка обеспечивает отличную детализацию поверхности с чернилами на основе железа и углерода с высоким разрешением, но ограниченным проникновением в глубину.


Однако, этот недостаток в некоторой степени смягчается, если производить съемку на просвет.


Оптическая когерентная томография предлагала неожиданно низкое проникновение из-за высокого коэффициента оптического затухания папируса.


Рентгеновские методы позволили идентифицировать чернила на основе железа даже при добавлении дополнительных листов папируса поверх фантомов, но они не смогли обнаружить чернила на основе углерода.




Рентгенофлуоресцентная визуализация




Кресты, соответствующие современным чернилами и на основе углерода, не были обнаружены. Углерод является легким элементом (атомный номер 6) и флуоресцирует при слишком низкой энергии для обнаружения используемой системой. Самым легким элементом, который можно было обнаружить, был фосфор (15). Железо, присутствующее в железистых чернилах (26), было хорошо видно и можно было отличить от фона даже через 6 слоев папируса.

Рентгеновская томография с фазовым контрастом

Из-за ограничений по времени у исследователей были взяты только кресты с чернилами на основе оксида железа и углерода. Отчетливо видна волокнистая структура папируса. Кресты также видны, из-за наличия разного показателя преломления с папирусом. Довольно слабо видны следы и от углеродосодержащих чернил.




Терагерцовая визуализация, к удивлению исследователей, оказалась способна обнаруживать чернила на основе углерода лучше, чем чернила на основе железа. ТГц волны, как предполагается, чувствительны к чернилам, которые не видны с помощью рентгеновских методов. Эти результаты подтверждаются предыдущим исследованиями.
Результаты образцов


Мне приятно приносить в российский интернет эту тему, потому что впервые столкнувшись с необходимостью изучения этого, я обнаружил на сколько важным может оказаться этот материал. Я решил не умещать все в одной статье из-за обширности темы. В следующей статье мы поговорим про алгоритмы и цифровую отработку изображений.

Ежели желаете, подписывайтесь на мой твиттер, до того, как это станет когда нибудь модным. https://twitter.com/alexufo7

Подробнее..

Восстановление утраченных текстов с помощью современных алгоритмов. Софт

08.10.2020 18:22:32 | Автор: admin
image

В первой части мы с вами поговорили о научном оборудовании, которое используется для прочтения, казалось бы, утраченных навсегда текстов. А теперь мы поговорим о том, как обрабатывать эти данные. Мы рассмотрим интересные цветовые пространства, алгоритмы, фильтры и методы статистического анализа. Но перед этим еще раз вернемся к их извлечению. Нам, простым смертным, доступны два варианта сканеры и фотоаппараты*.


Есть еще USB микроскопы https://www.dinolite.us/products/digital-microscopes/usb но при их цене в 500$ каждый при 12 диапазонах будет стоить слишком дорого. К тому же, он скорее для исследования деталей, чем для оцифровки. Рекламные видеоролики с примерами изображения мне не сильно понравились перешарп изображения, как у дешевой китайщины.

Сканеры.


Со сканерами все понятно. Сейчас подавляющее количество сканеров на контактном сенсоре (cis) что позволяет питать сканер прямо по USB без применения дополнительного питания. Это действительно удобно. Однако, у них низкая разрешающая способность 600dpi (хотя не всегда нужно выше) и очень большие проблемы с глубиной резкости. Если ваш документ приподнят над поверхностью стекла CIS сканера более чем на 3мм ждите мыла. Более того, как рассказал мне Дмитрий Николаев он лично наблюдал откровенное маркетинговое намахалово в разных сканерах. Ты выбираешь в настройках продукта формат tiff, а по USB шине сканер гонит jpeg, и уже драйвер сканера делает преобразование.


На что только не пойдешь, чтобы удовлетворить возросшие потребности покупателей!
.
О, молодец! Заметил!
Сейчас будет шутка
Где-то в компьютерном
image





Более профессиональные сканеры на CCD сенсоре. Их сканирующая часть состоит из объектива, зеркала и самого CCD сенсора. Из-за этого проблем с глубиной резкости у них нет. Так же есть еще одна важная физическая характеристика это глубина цвета. Теоретически, изображение с цветовой глубиной в 48 бит для анализа лучше, чем в 16 бит. Как вы уже знаете, для формирования цветного изображения сканеру необходимо три цветовых фильтра перед сенсором. Существуют специальные мультиспектральные сенсоры для спутникового оборудования, но опять же, в готовых решениях их не найти. Мне даже попадался проект опенсурсного сканера, где существовала возможность менять белый источник света сканера на любой из 12 полос оптического диапазона. Но к сожалению, проект куда-то исчез из сети.

Если вы, дорогой читатель, имеете опыт построения железок этого уровня, можем попробовать это обсудить. Взять какой нибудь сканер, и переделать ему подсветку. Однако, вы все прекрасно знаете, сколько времени сканер тратит на изображение в 1200dpi формата А4. А при необходимости 12 сканов мы получаем минимум час чистой работы железки. Это печалит. Поэтому в современных мультиспектральных системах используются 2D сенсоры. Но у сканера есть и свои преимущества.

Фотоаппараты


Если посмотреть даташиты на какие нибудь кремниевые сенсоры, то их спектральная отзывчивость от УФ до 1000нм и выше. После 700нм это уже ближний ИК диапазон, который нужно отсекать для привычной для нашего глаза картинки. Для этого перед каждым сенсором в любой потребительской технике находится ИК фильтр такого зеленого, на отлив фиолетового, цвета. Для задач мультиспектрального сканирования он только мешает. Поэтому любители ИК фотографии его удаляют самостоятельно.

Мне больше импонирует использование USB3 промышленных камер без bayer-pattern т.е. использование монохромных сенсоров. (USB 3.0 monochrome industrial cameras) например, BFS-U3-200S6M-C. Очень удобно заниматься подготовкой лаборатории, корректировкой освещения и позиционированием документа, а особенно, проверки резкости (при разных длинах волн фокус разный!) наблюдая изображение на большом экране монитора.

Не следует забывать и про любителей вглядываться в вечность. Продавец астрокамер заверил меня, что между исследованием космоса и документов нет разницы и вместо промышленных камер лучше использовать камеры с активным охлаждением матрицы (их рабочий режим до минус 45 по цельсию) Например ASI183MM Pro.(А наш терминатор кремния BarsMonster сообщал, что для коротких экспозиций до 5-10 секунд это не так важно.)

С этой камерой можно использовать объективы от потребительских камер стандарта micro 4/3. Когда я делал обычную съемку на фотоаппарат Lumix DMC-GX80 (16mpx) дневника Васи Баранова я убедился, что мой Olympus 45mm f/1.8 на диафрагме 5.6 выдает достаточно резкие фотографии и вполне пригоден для использования. Даже шумов не так много, учитывая, что света было не так много как хотелось бы.

из истории
Как-то Павел Полян укладывал меня спать у себя в московской квартире и предварительно разгребал для этого свои архивы. Одну комнату он расчистил, а другую завалил. И в этом процессе и был обнаружен этот дневник, оставленный с какой-то выставки. Ну мы его и оцифровали.




И так, будем считать, что у нас так или иначе есть или RGB изображение или же мультиспектральный набор из серии монохромных фотографий. Последний требует особого подхода, о нем ниже.

Софт


ImageJ
Утилита ImageJ является популярным инструментом в анализе изображений на западе. Свободные графические алгоритмы, часто пишутся под эту программу и она часто упоминается в разного рода исследованиях как платформа для быстрой отработки графических алгоритмов. Особенно интересен раздел плагинов
https://imagej.nih.gov/ij/plugins/

ENVI
Если смотреть историю мультиспектрального анализа, то конечно же первым предметом исследования для ученых были фотографии со спутников. В них установлены те самые мультиспектральные датчики и задачи ставятся ровно такие же произвести коррекцию и вытащить максимальное количества информации. В этом смысле нет разницы: вглядываемся ли мы в космос или в рукопись. Популярным исследовательским решением выступает программный комплекс ENVI. Я буду говорить о версии 5.3 (другой не нашел ;-) ). В нем меня очень порадовал подход с возможностью анимирования результатов обработки изображений. У меня есть стойкие причины утверждать, что распознавание мозгом деталей на изображении происходит лучше в динамике изменений. То есть вместо того, чтобы передать переводчику статические файлы с набором контрастов, лучше дать ему анимашку.
(Если знаете другое ПО, просьба сообщить.)

https://www.harrisgeospatial.com/Software-Technology/ENVI

Photoshop
Забывать его тоже не будем.

С чего начинать


Анализ каналов


ENVI / ImageJ / Photoshop plugin

RGB модель плохо подходит для максимизации отображаемых данных для нашей зрительной системы так же как и для сегментации изображений, определения краев и т.п. В 1989 году Xerox предложила цветовую модель YES. Она как раз основывается на физиологической модели нашего зрения. При съемке свитков Мертвого моря в 90-х после преобразования RGB в модель YES в канале E были обнаружены ранее непрочитанные исследователями символы.

Цветовое пространство OHTA было экспериментально выведено при статистическом изучении некорреляционных компонентов цвета из большой выборки обычных фотографий. В 2012 году был предложен новый метод сегментации огня, основанный на OHTA.https://www.scientific.net/AMR.485.7 С помощью этого метода можно точно разделить пламя в различных погодных условиях и в различных условиях окружающей среды.

Все это означает, что выделение требуемого контраста определенных компонентов теоретически возможно. Поэтому начинать все следует с анализа каналов известных цветовых моделей, а потом уже пускаться в статистический анализ. Вы, конечно же, можете найти в imageJ почти все популярные цветовые модели и разложить на каналы самостоятельно, но есть замечательный аналитический онлайн ресурс http://retroreveal.org

Он отобразит в галерее каналы следующего набора цветовых моделей: Yuv, YQ1Q2, HSI, HSV, HSL, LCHLuv, LSHLuv, LSHLa, XYZ, Yxy, YUV, YIQ, Luv, Lab, AC1C2, I1I2I3.

К моему удивлению, он по каким-то причинам специально недоступен через выдачу в гугле. Его robots.txt содержит запрет на индексирование.

Если результат в анализе каналов показывает, что необходимая информация в изображении проявляется, то для увеличения читаемости ничего кроме перебора всего остального из статьи я вам предложить не смогу. Так или иначе с опытом приходит понимание: есть ли в исследуемом документе что-то еще или же вам без ускорителя частиц все-таки не обойтись.

ColorTransform 2


http://www.russellcottrell.com/photo/colorTransformer2.htm

Если через онлайн сервис retroreveal.org вы получаете статический файл с маленьким приростом читаемого, это совсем не означает конечный результат работы с преобразованием цветовых моделей. Вам нужна более точная корректировка. Видео с процессом работы плагина https://twitter.com/DJWrisley/status/1246143333501673473

Фильтры


Levels and saturation


Приведу, как пример из истории, привожу его как часть интуитивного мышления исследователя. Чуть ранее мы говорили о цветовом пространстве YES и нашем восприятии, а в пространстве RGB мы интуитивно правим изображение по уровням и насыщенности. Хорошим примером такого чутья действия выступает расшифровка медальона



image


Как это прям точно было реализовано я не знаю, но обработка велась в photoshop Олегом Гусевым. Я же смог добиться разборчивости через предварительное поднятие банальной насыщенности.

Обратите внимание на скриншот с развертыванием бумаги. Как много остается мокрой бумажной пыли! А ведь такая кучка вполне может содержать пигмент на целую букву! При том, что идеальное решение этой задачи существует с помощью рентгеновской микротомографии! Я точно знаю, что рентгеновский томограф есть в институте кристаллографии им.А.В.Шубникова, но там такая очередь!



(Пожалуйста, не пытайтесь обрабатывать пример выше самостоятельно, сохранив файл на компьютер. Это скриншот с видео труп. Я проверял результат с другого увеличенного кадра и подтверждаю, что это реально)

Black&White


Подробно о применении этого фильтра я писал здесь.
Пример



Вот видео процесса https://www.youtube.com/watch?v=u2xnfsAiEJY и PDF версия

Если коротко, фильтр Black&White пересчитывает модель RGB в 7 цветных слоев, что позволяет регулировать интенсивность каждого довольно точно. Это как бы псевдо мультиспектральная съемка.

Highpass


Photoshop

В процессе обработки вы можете столкнуться с тем, что фильтры просвечивают и затемняют нужные зоны рукописи. В этом случае помогает фильтр highpass, его назначение именно в регулировании перепадов яркости. Опять же его практическое применение вы увидели в видео выше.

Алгоритмы


Decorrelation Stretch


ENVI / ImageJ

При отсутствии технологических возможностей, требования к анализу цифровых изображений выставляются часто предельные. Почему? Представьте, что у вас нет возможности слетать на марс с другим фотоаппаратом. Так в 2004 году марсоход Opportunity прислал фотографию после бурения породы.



На изображении три отверстия, созданные внутри кратера выносливости летом 2004 года. Ученые из NASA применили алгоритм Decorrelation Stretch

Поскольку цветовые вариации на марсе крайне слабы, с помощью этого алгоритма можно лучше различить структуру породы. Когда бур просверливает серый гематит, в результате получается ярко-красный порошок, а благодаря обработке можно различить процесс прохождения слоев. Первый слой красный, второй желтый, а самый глубокий зеленый.


Реализация этого алгоритма конкретно для imageJ доступна за денежку. Его автор Jon Harman. Он написал не очень дешевое мобильное приложение с этим же функционалом, чтобы не скучать во время вылазки в горы для любителей изучения древней наскальной живописи. Ссылки на его софт встречаются в публикациях, но что касается рукописей, как-то мне ничего дельного не встретилось.

Применение к рукописям членов зондеркоммандо программы Dstretch, чьи цифровые копии лежат у меня, по моему мнению, этот алгоритм неприменим из-за проблем с детализацией. Именно поэтому он лучше подходит для поиска крупных объектов. В базе матлаба тоже есть реализация этого алгоритма www.mathworks.com/help/images/ref/decorrstretch.html но Dstrech умеет работать с конвертированием в массу цветовых пространств.

Результат обработки обычных фотографий наскальной живописи на его сайте достаточно любопытен.

www.dstretch.com/Presentations.html


Colour Deconvolution


ENVI / ImageJ / Photoshop plugin

https://imagej.net/Colour_Deconvolution

https://4n6site.com/improc/decoplugin/webapp.htm

Цветовая деконволюция активно применяется в медицине для разделения подкрашенной прозрачной клеточной ткани. У алгоритма строгие требования к однородности цветовых пигментов и необходимости их наложения с наличием полупрозрачности (то есть верхний слой пигмента не должен полностью закрашивать подложку). Но такие ситуации тоже могут быть. Например, в примерах коммерческого плагина для photoshop есть онлайн редактор. К сожалению, реализации работающего на лету алгоритма я не встретил. Нужно тупо задавать три параметра и жать кнопку. Это очень неудобно.



Мое мнение по этому алгоритму: если контраст, который мы ищем основан на разнице в цвете (не близкого по спектру), обойтись получится куда более удобными подходами выше. Но если исходить из результата, очень близкие прозрачные цвета, наложенные друг на друга могут быть успешно разделены. Повторить это из известных мне трюков в фотошопе у меня не получилось.

Методы статистической обработки


Статистические методы анализа предполагают, что разделить информацию на слои для обнаружения новых закономерностей возможно, только не ясны параметры, по которым это следует сделать.

Здесь мы переключаемся на программный пакет ENVI, специализирующийся на обработке мультиспектральных спутниковых данных. В своем наборе он содержит больше количество алгоритмов, которые выступают стандартом первичного анализа данных, полученных после оцифровки.

Метод главных компонент (PCA) и метод независимых компонент (ICA)


Спектральные полосы изображения сильно коррелируют, так как занимают близкие области в пространстве. Для анализа такой массив данных не очень удобен. Методы PCA и ICA используется для снижения размерности, то есть удаления избыточной информации. Из 12 каналов можно получить 3, но более детализированных. После обработки первый канал изображения содержит наибольшую дисперсию данных (наименьший разброс случайной величины относительно ее математического ожидания т.е среднего предполагаемого положения), второй вторую по величине и так далее до того момента, когда данные уже сливаются в хаотический шум.

Удачным примером служат некоторые страницы палимпсеста Архимеда ( 287-212 ГГ. до Н.Э.)


На этом рисунке палимпсест содержит смесь из двух наложенных текстов и, вероятно, разные слои из плесени и прочих пятен. На основе мультиспектральной съемки из итоговых 14 слоев удалось извлечь чистые страницы первичного текста Архимеда.

На изображении ниже к рукописи Лейба Лангфуса применен ICA. Особенность этого документа практически полное отсутствие цветового пигмента чернил и отдавался он на перевод таким, какой был со сканера.
После обработки появляется более значимый контраст. Даже этого достаточно, чтобы просто увеличить скорость перевода.


А здесь применение ICA для образца из главы про цветовую деконволюцию. Мы получаем результат, но теряем оригинальные цвета.



Индивидуальные подходы


В зависимости от характера повреждения текста процесс возможной обработки является уже творческой задачей. К сожалению, примеров работ с подобными трюками пока мне известно крайне мало.

Компенсация протекших чернил


В случае с рукописью марселя Наджари мне пришел в голову способ компенсирования протекших чернил.

Я уже отсылал к своей статье. Суть довольно проста если у вас есть два скана одной страницы, вы можете использовать обратную сторону зеркально чтобы уменьшить ее влияние на восприятие информации на лицевой стороне. Так или иначе этот способ позволил значительно увеличить читаемость первой страницы Марселя и на дальнейших значительно облегчить труд переводчика.

Оптико-электроная текстология


Из российских проектов мне известны работы по прочтению рукописи Чехова и Достоевского. Не смотря на то, что те статьи озаглавлены как ОСНОВ ОПТИКО-ЭЛЕКТРОННОЙ ТЕКСТОЛОГИИ это кропотливый труд. Суть рассматриваемой работы заключалась в большом мастерстве автора соединять видимые элементы рукописного текста, который зрительно можно разобрать. Оказывается, можно вполне себе восстановить целые предложения.

Ниже страницы письма Ф. М. Достоевского к А. Е. Врангелю от 14 июля 1856 г. с зачеркнутым текстом.


А это результат


Не смотря на то, что были попытки проводить мультиспектральный анализ, из-за идентичного состава чернил разницы в контрасте не возникло. На этом исследователи остановились. Еще фрагмент:


Мастерству натренированного глаза можно только удивляться! По словам исследователей, данная работа продвигалась невероятно медленно. ЕЩЕ Б! Я когда это первый раз увидел, думал что за магия, где формулы? На мой взгляд, методы статистической обработки позволили бы сделать эту работу быстрее.

Итог


На этом, я думаю можно подводить итоги и завершать экскурс в эту интересную тему. Я надеюсь, что вы сможете поделиться данной статьей с людьми, в чьих интересах лежит схожая область или же они не подозревают о существовании таких подходов. Мемуары вашего ветерана или же другой испорченный документ может быть восстановлен с помощью современных технологий.

Обращусь к коммерческим компаниям, занимающимся как и фотокамерами так и другим исследовательским оборудованием. Для вас это может быть хорошим пиар ходом.Эту статью наверняка прочитают сотрудники государственных архивов и музеев и не долог тот час, когда вы можете быть нужны друг другу. Как много еще неизученных документов, письма Пушкина, Салтыкова-Щедрина, Достоевского, Чехова и других писателей, которые без вас еще долго будут пылиться на полках из-за отсутствия нужного оборудования. По данным вы можете подготовить замечательные и полезные рекламные статьи.

Подробнее..

Восстанавливаем данные с ZOOM H6 Handy Recorder подручными средствами

21.06.2020 14:07:34 | Автор: admin

Введение



Намедни попал в нашу лабораторию довольно любопытный заказ. Профессиональный диктофон ZOOM H6 Handy Recorder. Устройство и носитель в рабочем состоянии, проблема носитель, на котором находились данные (карта памяти SDHC на 32 Гбайт) был отформатирован в фотоаппарате. Вопрос о том, каким образом флешка из диктофона попала в фотоаппарат, оставим для истории нам ответ на него не интересен. Интересно восстановить записанные звуковые данные.

Форматирование разделов FAT32 это всегда потеря файловых записей; процесс сопровождается их заменой чистыми. С одной стороны, это удобно, так как в структурах FAT32 не остается никаких рудиментов файловых записей. С другой это крайне губительно для данных, так как в случае фрагментации файлов и необходимости их восстановить, простое RAW-сканирование становится недостаточным, на выходе получаются поврежденные или неработающие файлы.

Не исключение и наш заказ. Попытки отсканировать карту памяти имеющимся ПО (Data Extractor, R-Studio, R.Explorer) структуру папок обнаружить не смогли. При черновом восстановлении аудиопотока (wav-файлы) получаются работающие файлы, но с перемешанным содержимым то есть продолжительность звуковой дорожки верная, файл проигрывается, но звук идет кусками то из одной дорожки, то из другой.

Владелец устройства сообщил, что запись велась на два микрофона в формате интервью, то есть аудиопоток должен быть идентичным, но громкость голосов в каждой записи разной.

image
Поврежденный аудиофайл. Явно заметно, что области громкого звука и тихого звука имеют примерно одинаковую продолжительность и резкие, обрывающиеся, границы

image
Тот же аудиофайл после исправления.

ТТХ устройства



Начинаем, как водится, со знакомства с устройством. Идем на сайт производителя, и вдумчиво читаем, что там про него пишут. Особенно нам интересны поддерживаемые форматы файлов и количество независимых микрофонов. Устройство поддерживает подключение до 4 микрофонов и, соответственно, одновременную запись с них. Максимально может записываться одновременно 8 дорожек (оно и понятно: стерео с 4 микрофонов). С форматами файлов все тоже понятно. Ассортимент не велик, форматы широко распространенные, никаких своих форматов нет. И это хорошо.

image
Форматы аудиофайлов, поддерживаемые рекордером

Вся нужная информация найдена. Начинаем работать. Для восстановления информации нам нужно ответить последовательно на следующие вопросы: какой формат записи использовался в нашем случае, как расположены данные на карте памяти, и что надо сделать для того, чтобы файлы заработали правильно?

1. Какой использовался формат записи?



Ответ на этот вопрос находится в заголовке аудиофайла:

image

Тут все просто, в пояснениях не нуждается. Поехали дальше.

2. Как расположены данные на карте памяти?



Здесь и дальше используем WinHex.

Находим первый заголовок аудиопотока (берем пример заголовка из результатов предварительного RAW-восстановления). Выглядит он примерно так:

image

В каждом файле есть таймштамп:

image

Поиск тех аудиоданных, которые нам нужны, лучше вести не по заголовкам файлов (их могут оказаться, и оказалось в нашем случае, многие сотни), а по таймштампам.

Производим поиск от начала до первого таймштампа нужной нам аудиозаписи. Обозначаем начало сектора с таймштампом как начало блока. Теперь производим поиск последнего таймштампа нужной нам аудиозаписи (ищем, соответственно, с конца). Дальше нам нужно найти окончание данных, относящихся к нужной нам записи. Это просто: ищем следующий за последним таймштампом заголовок нового аудиопотока. На всякий случай нужно убедиться, что он не относится к тому, что мы ищем: смотрим в сектор, видим там другой таймштамп. Отлично. Последний байт перед найденным заголовком отмечаем как конец блока.

Теперь у нас имеется выделенная область, содержащая данные нужного нам аудиопотока:

image

Копируем эту область в новый файл. Так, во-первых, удобнее работать. А во-вторых, другие-то данные нам не нужны зачем нам их восстанавливать?

Дальше работаем с полученным файлом.

Из формата файла: WAV, 44k, mono. То есть при записи с двух микрофонов мы имеем дело с двумя звуковыми дорожками.

Разбиваем файл на фрагменты по количеству таймштампов. Получаем четное количество фрагментов со следующими параметрами:

Фрагмент 1 32 кбайт;
Фрагмент 2 кратно 32 кбайт;
Заголовки фрагментов 1 и 2 идентичны.

Фрагмент 3 32 кбайт;
Фрагмент 4 кратно 32 кбайт;
Заголовки фрагментов 3 и 4 идентичны.

И так далее, все имеющиеся аудиопотоки (восстановить требовалось 10).

После несложных вычислений:

1) Аудиопоток фрагментирован;
2) Размер фрагментов составляет 32 кбайт;
3) Фрагменты чередуются в порядке: четные относятся к первой дорожке, нечетные ко второй.

image
Структура аудиопотока, записанного с двух микрофонов рекордером ZOOM H6 Handy recorder

3. Пора собирать аудиофайлы



Очевидно, что после того, как мы узнали, каким образом ZOOM H6 handy recorder пишет данные, собрать их в нормально проигрываемые аудиофайлы не составило никакого труда и заняло несколько минут машинного времени:

1) Разбиваем весь выделенный аудиопоток на куски по 32 кбайт; мы использовали File Splitter & Cutter;
2) Четные куски отправляем в одну папку, нечетные в другую; использовался Total Commander, выделение по маске (кнопка "+" на цифровой клавиатуре) *.*1; *.*3; *.*5; *.*7; *.*9;
3) Переименовываем файлы в обеих папках так, чтобы их расширения представляли собой номера по порядку; снова Total Commander, групповое переименование и выбираем в расширении счетчик, а в параметрах счетчика не менее 5 цифр (так как фрагментов будет много);
4) Объединяем файлы по порядку в каждой из папок; опять же, удобен Total Commander;
5) Переименовываем результат в *.wav и наслаждаемся результатом =).

А что насчет других форматов файлов и другого количества микрофонов?



Конечно, это был интересный вопрос. И мы не преминули воспользоваться возможностью это проверить. Использовали три микрофона (больше просто не было в наличии), формат записи MP3, битрейт самый низкий и самый высокий из возможных.

Результат абсолютно идентичен предыдущему, с той лишь разницей, что в начале аудиопотока не два куска с заголовками, а три. Размер блока при записи те же 32 кбайт. Расположение кусков также по порядку:

image

Собрать файлы можно также, без напряжения, используя общеизвестный софт; единственное, что распределять куски по 32 кбайт придется по трем папкам. Делаем это с использованием скрипта для Total Commander. Ну а дальше групповое переименование, сборка и результат.

Заключение



Радует, когда производитель не заморачивается сложными собственными форматами данных, нагромождением алгоритмов их записи и тому подобной мутью, в разы увеличивающей необходимое на восстановление информации время.
Подробнее..

Из песочницы Простой способ возвратить утраченные данные в Linux с любого внешнего накопителя программным решением для Windows

25.10.2020 18:16:57 | Автор: admin
При утрате пользователями данных с разделов под управлением файловой системы linux, можно задействовать программу от компании Hetman. Несмотря на наличие в сети Интернет множества различных предложений по восстановлению файлов, только единицы способны вернуть утраченную информацию с систем Ext4/3/2. Программное обеспечение Hetman Partition Recovery произведет анализ указанных дисков, определит и представит пользователям искомые файлы непосредственно в интерфейсе программы для последующего выбора и восстановления нужных элементов.

  • Введение
  • Восстановление пользовательской информации с диска Linux в системе Windows
  • Подводя итог

Введение


Операционная система Linux востребована и ее распространение постоянно увеличивается. Пользователи все больше используют систему на своих устройствах. Среди существующих вариантов самыми массовыми являются версии Fedora, Ubuntu, OpenSUSE.

Востребованность Linux во многом обусловлена использованием открытого исходного кода. В операционной системе пользователи могут самостоятельно, исходя из личных потребностей, редактировать и распространять измененный код в коммерческом и бесплатном программном обеспечении согласно утвержденной стандартной лицензии.

Linux задействует различные виды файловых систем, к которым относятся Ext2/3/4, XFS, ReiserFS. Операционная система довольно надежна, однако несмотря на это, Linux не застрахована от потери пользовательских данных. Информация может быть утрачена разными способами (удаление, форматирование, системный сбой, ошибка записи\чтения, поломка и т.д) и с различных носителей (USB-накопители, карты памяти, съёмные жесткие диски).

Наиболее действенным способом минимизировать потенциальную потерю данных является создание нескольких резервных копий и их последующее хранение на различных вариантах носителей. Однако такой вариант не всегда удобен, требует много времени (при значительных объемах изменяемых информационных материалов) и зачастую игнорируется пользователями.
Поэтому лучшим вариантом, в случае непредвиденной утраты данных, является использование программного обеспечения для восстановления. Подобное решение способно возвратить исчезнувшую информацию, так как она не удаляется бесследно и все еще остается доступной на запоминающем устройстве, пока не будет полностью перезаписана.

Мы предлагаем рассмотреть инструмент для возврата данных от компании Hetman. Программа Hetman Partition Recovery поддерживает файловые системы Linux. Она способна быстро просканировать и восстановить искомые данные, отображая содержимое найденных файлов в специальном окне.

Представленная пошаговая инструкция описывает процедуру возврата удаленных файлов с накопителей Linux Ext4/3/2, XFS и ReiserFS.

Примечание: Данные будут доступны для восстановления только, если они не были предварительно перезаписаны другой информацией.

Восстановление пользовательской информации с диска Linux в системе Windows


Для восстановления удаленных данных с подключаемого внешнего накопителя пользователям потребуется персональные компьютер или ноутбук под управлением операционной системы Windows. Следуйте, представленному далее, простому упорядоченному алгоритму, позволяющему вернуть утраченные данные при помощи программы Hetman Partition Recovery.

1. Подключите внешний диск, на котором требуется восстановить данные, к компьютеру. Windows не сможет распознать файловую систему устройства и предложит отформатировать данный диск.

image

Нажмите на кнопку Отмена, чтобы позволить программе для восстановления Hetman Partition Recovery произвести процедуру поиска и возврата утраченных файлов.

image

2. Запустите Hetman Partition Recovery. При необходимости, скачайте и установите программу с официального сайта.

image

3. В главном окне щелкните правой кнопкой мыши подключенный Linux-диск и во всплывающем контекстном меню выберите раздел Открыть.

image

4. На новой странице в окне программы отметьте необходимый вариант анализа. Рекомендуется первоначально воспользоваться режимом Быстрое сканирование.

image

Если нужных файлов обнаружено не было, то задействуйте режим Полный анализ, позволяющий отыскать и восстановить максимально полный объем данных (процесс может занять значительное количество времени и напрямую зависит от объема диска и степени повреждения информации).

image

Подтвердите свой выбор нажатием на кнопку Далее.

5. По исполнению анализа все обнаруженные файлы будут представлены в правой панели окна программы.

image

Щелкните левой кнопкой мыши любой файл и в соответствующем отдельном миниатюрном окне можно будет его подробнее рассмотреть.

image

6. Отметьте понравившиеся файлы для последующего восстановления и щелкните кнопку Восстановить на ленте главной панели управления программы.

image

7. Выберите необходимый метод сохранения и нажмите на кнопку Далее.

image

8. Задайте конечный путь для сохранения восстановленных готовых файлов и нажмите на соответствующую кнопку Восстановить.

Примечание. Не сохраняйте выбранные файлы на носитель, с которого осуществляется процесс восстановления, так как данная операция может привести к затирке и перезаписи части данных.

image

9. Нажмите на кнопку Готово по окончанию.

image

Все отмеченные файлы будут восстановлены и помещены в предварительно заданное место на диске.

image

Программа Hetman partition Recovery ориентирована для работы в операционной системе Windows. Однако ее возможности позволяют в том числе восстанавливать информацию с других файловых систем, не определяемых Windows, таких как Ext 2/3/4, XFS, ReiserFS и другие.

image

Подводя итог


Несомненно, лучший способ избежать непредвиденной потери данных это своевременно и полно выполнять резервное копирование. Однако, если архивных копий нет, а важная информация удалена, частично повреждена, отформатирована или полностью испорчена, то можно воспользоваться специализированным программным обеспечением для восстановления данных, к которому также относится мощное решение от компании Hetman, чтобы вернуть исчезнувшие файлы за несколько простых шагов.
Подробнее..

Категории

Последние комментарии

  • Имя: Макс
    24.08.2022 | 11:28
    Я разраб в IT компании, работаю на арбитражную команду. Мы работаем с приламы и сайтами, при работе замечаются постоянные баны и лаги. Пацаны посоветовали сервис по анализу исходного кода,https://app Подробнее..
  • Имя: 9055410337
    20.08.2022 | 17:41
    поможем пишите в телеграм Подробнее..
  • Имя: sabbat
    17.08.2022 | 20:42
    Охренеть.. это просто шикарная статья, феноменально круто. Большое спасибо за разбор! Надеюсь как-нибудь с тобой связаться для обсуждений чего-либо) Подробнее..
  • Имя: Мария
    09.08.2022 | 14:44
    Добрый день. Если обладаете такой информацией, то подскажите, пожалуйста, где можно найти много-много материала по Yggdrasil и его уязвимостях для написания диплома? Благодарю. Подробнее..
© 2006-2024, personeltest.ru