Перевод Система хранения данных на основе ДНК реально ли это и как работает?

Системы хранения данных, основанные на ДНК, могут стать выходом для человечества, которое генерирует все большие объемы информации. По сравнению со всеми прочими носителями у ДНК просто феноменальная плотность записи данных. Еще одно преимущество в случае ДНК для хранения данных в оптимальных условиях не нужна энергия, причем информацию можно сохранять сотни лет. Через несколько веков данные можно без проблем считать конечно, при условии наличия соответствующих технологий.

Но есть у ДНК и минусы. Например, сейчас еще нет стандартов кодирования информации в нити ДНК. Синтезирование искусственных молекул дело достаточно дорогое, а считывание хранимой информации может занимать дни и недели. Многократное обращение к нитям ДНК за информацией приводит к нарушению структуры молекул, так что в итоге могут возникнуть ошибки. Сейчас предложен метод, который поможет решить некоторые из этих проблем. Система хранения данных (пока что лишь изображений) представляет собой нечто среднее между обычной файловой системой и базой на основе метаданных.

Подробнее о проблемах

Разрабатываемые системы хранения данных в ДНК предусматривают добавление определенных меток последовательностей (sequence tags) к участкам ДНК, которые содержат данные. Для получения необходимой информации в молекулу добавляются участки, которые способны образовывать пары оснований с нужными метками. Все это используется для амплификации полной последовательности. Примерно как пометить каждое изображение в коллекции собственным ID, а затем настроить все так, чтобы амплифицировался один конкретный ID.

Метод достаточно эффективен, но у него есть два ограничения. Во-первых, этап амплификации, который выполняется при помощи процесса полимеразной цепной реакции (ПЦР), имеет ограничения на размер амплифицируемой последовательности. При этом каждый тег занимает часть и так ограниченного пространства, поэтому добавление подробных меток сокращает объем пространства для хранения данных.

Еще одно ограничение заключается в том, что ПЦР, амплифицирующая определенные фрагменты ДНК с данными, потребляет часть исходной библиотеки ДНК. То есть каждый раз, когда мы считываем данные, часть их уничтожается. Ученые сравнивают такой способ поиска информации со сжиганием стога сена для обнаружения иголки. Если это делать часто, в итоге можно потерять вообще всю базу данных. Правда, есть способы восстанавливать потерянные участки, но этот метод не идеален, поскольку при его использовании увеличивается вероятность появления ошибки в ДНК и участках данных.

Новый метод позволяет отделить информацию меток от основных данных. Кроме того, исследователи создали систему, которая дает возможность получить доступ лишь к интересующим нас данным. Остальная информация остается нетронутой, так что молекулы ДНК остаются в сохранности и не повреждаются.

Новая система

Основа технологии капсулы из диоксида кремния, в которых хранятся отдельные файлы. К каждой капсуле прикрепляются ДНК-метки, которые показывают, что в файле. Размер каждой капсулы составляет около 6 микрометров. Благодаря такой системе ученым удалось научиться извлекать отдельные изображения с точностью 100%. Набор файлов, который они создали, не очень велик их всего 20. Но если учитывать возможности ДНК, то масштабировать такую систему можно до секстиллиона файлов.

Закодированы эти 20 файлов были во фрагменты ДНК длиной около 3000 нуклеотидов, это около 100 байт данных. В одну капсулу из кремнезема можно поместить файл размером до гигабайта. После того, как файл помещен в оболочку, на его поверхность помещаются метки из одноцепочечной ДНК. К одной оболочке можно прикрепить несколько меток, которые служат ключевыми словами. Например, рыжий, кот, животное.

Помеченные таким образом капсулы из кремнезема объединяются в единую библиотеку данных. Она не так компактна, как хранилище из чистой ДНК, но зато данные в этом случае не повреждаются.

Поиск файлов

Для поиска файлов используется группа ключевых слов меток. Например, если нужно найти изображение кошки, используются метки оранжевый, кошка и домашний. Для поиска тигра только оранжевый и кошка. Скорость поиска в такой системе пока что очень невелика что-то около 1 кБ в секунду.

Еще одна хитрость связана с тем, что каждая метка связана с флуоресцентными молекулами разного цвета. Поэтому в ходе запроса любые капсулы с нужными метками будут светиться определенным цветом. Сейчас уже есть устройства, которые используют лазеры для разделения объектов по цвету флуоресценции, так что выделить нужные данные технически возможно.

При этом остальная часть библиотеки затрагиваться не будет, а значит, не пострадают данные. Стог сена ради поиска одной иголки сжигать уже не требуется. Дополнительный плюс в возможности логического поиска с разными критериями. Например, условия запроса могут быть сложными: true для кот, false для домашний, true для черный и т.п.

Не только поиск

Да, ведь задача поиска нужных данных это лишь часть дела, причем даже не половина. Обнаруженные данные необходимо еще секвенировать. А для этого требуется раскрыть оболочку из кремнезема, вынуть хранимую в капсуле нить, ввести ДНК в бактерию и потом уже считать данные. Это крайне медленный процесс, по сравнению с которым даже стримеры являются очень быстрой технологией.

С другой стороны, системы на основе ДНК и не будут быстрыми, их главное предназначение хранение огромных объемов информации, которую не требуется часто извлекать. Кроме того, с течением времени технологию будут совершенствовать, так что скорость считывания информации, можно надеяться, возрастет.

Обложка к комиксу Weird science. 50-годы

NASA разрабатывает планетоход VIPER (Volatiles Investigating Polar Exploration Rover), который будет искать и составлять карту залежей воды на Луне.

^{Предтеча мультиметра гальванометр}
Многие из нас практически ежедневно использует мультиметр по работе или в ходе реализации каких-то хобби-проектов. Есть простенькие мультиметры, которые измеряют лишь силу тока и напряжение. Есть очень сложные приборы, которые, кажется, способны измерить

Привет, Хабр! Сегодня суббота, а значит самое время отправиться на барахолку. Погода радует сейчас облака и +25 вместо обычных в это время +35. С неба на все происходящее взирает суровое око, сложенное из облаков, но никто не боится торговля идет своим чередом.

С

Давайте снова поговорим о мечтах. Но если в прошлый раз речь шла о детских мечтах, то в этот раз поговорим о мечтах дней текущих. Может быть не столь заветных, но душу греющих. Любой увлеченный чем-либо человек всегда мечтает добиться успеха в своих начинаниях будь то высо

В 2013 году Илон Маск предложил идею создания скоростной транспортной системы, которая способна в разы сократить время, которое мы тратим на перемещение из точки А в точку Б. Сокращение достигается благодаря очень высокой скорости перемещения пас

Совсем недавно мы с вами познакомились с экспонатом, олицетворяющим суровость и непоколебимость, надежность и долговечность сервером HP NetServer LM, в недрах кубического корпуса которого вот уже больше 28 лет трудится процессор Intel 486DX2 с частотой 66 МГц. Кубич

Привет, Хабр. В прошлой статье я рассказал о начальном анализе предметной области и базовом проектировании нашей новой ECM-системы. Теперь я расскажу о первой практической задаче, которую мы решили. А именно - о выборе способа организации структуры хранилища бизнес-ат

Любой корпоративный ИТ-ландшафт состоит из множества приложений, большинство из которых имеет собственные базы данных. В этих базах хранятся информационные объекты, представляющие бизнес-объекты, события и фазы бизнес-процессов. Многие объекты бизнес-процессов имеют "отражения" сразу в нескольких базах данных: например, единица оборудования промышленного предприятия с разных точек зрения описана в системах бухучета, управления ремо

Всем привет!

В недавней статье мы рассказали, как мы шли к построению нашей Data Platform. Сегодня хотелось бы глубже погрузиться в желудок нашей платформы и попутно рассказать вам о том, как мы решали одну из задач, которая возникла в связи с ростом разнообразия интегрируемых источников данных.

То есть, если возвращаться к финальной картинке из упомянутой выше статьи (специально дублирую ее, чтобы уважаемым чи

Хочется пролить свет на интересную линейку систем хранения данных HPE Nimble Storage Adaptive Flash и попытаться раскрыть вопрос почему маркетологи решили его назвать Adaptive Flash, а не более традиционно - Hybrid Flash. Судя по поиску, существует не так много обзоров и статей, посвященных Nimble, поэтому надеюсь, что этот материал будет полезен интересующимся данной темой.

В мое распоряжение попал массив с

Несколько лет назад в нашем онлайн-шутере столкнулись с немного абсурдной проблемой: контента стало так много, что мы уже не могли с ним работать вручную. Сотни единиц оружия, карт, механик, гаджетов и много чего еще все нужно балансировать между собой, иначе геймплей развали

Они отличаются тем, что у гибридных (Ca+, Ca/Sb) свинцовый сплав положительных решёток легирован сурьмой, а отрицательных кальцием, тогда как у кальциевых (Ca/Ca) те и другие кальцием. В результате, выделение газов происходит при разных напряжениях заряда, и токи окончания заряда при этих напряжениях тоже разные.

Однако, современные автом

Взгляд на наше космическое будущее из 1970-х годов

В период с 1956 по 1962 годы психолог Кейптаунского университета Курт Данцигер проводил масштабный опрос. По его просьбе 436 южноафриканских школьников и студентов написали

Восставший может погрузиться вбездну, апогрузившийся вбездну может вновь восстать. (Говард Филипс Лавкрафт. Зов Ктулху)

В бездну пучин сланцевых пород скалы эпохи Велнока,что на юге графства Херефордшир (Великобритания) раз за разом п

(Примечание переводчика: не нашёл публикации (-ий) по данной теме на Хабре.)

Блоуинг Рок, Северная Каролина, 21 декабря 2018 года организация Great Internet Mersenne

Ковидные времена, наверное, ударили по всем. Но кроме очевидных последствий пандемия смогла принести и кое-что хорошее: многие из нас научились жить в новом времени и в новом формате. Например, нашли новые фишки для удаленной работы, по-новому оценили онлайн-мероприятия, стали иначе распределять время. Мы, в Онтико тоже не теряли времени зря, и придумали новый формат для проведения конференций.

В этом году уже три конференци

Галактика Андромеды в различных спектральных диапазонах: радио, инфракрасном, видимом, ультрафиолетовом и рентгеновском

Два года назад в космосе завершилась работа российского спутника Спектр-Р основы аст

Два года назад никто и подумать не мог, что белые воротнички будут работать из дома. И что удаленная работа может быть такой же продуктивной, как офисная. В 2020-м миф о том, что в офис нужно ходить каждый день, был разрушен. Поэтому пора снять оставшиеся табу. Эксперты начи

^{Источник: NASA}
Весной 2020 года NASA одобрило проект создания огромного радиотелескопа на обратной стороне Луны. Согласно планам, его планируют создава

Табак это не только вредные сигареты, но и крутое модельное растение. Российские разработчики модифицировали, внедрив биолюминесцентные грибные белки.

Процесс создания ген

Что делать, если технический прогресс ухудшает жизнь людей? Перестаньте кормить зверя

Погоди, какой-то луддит хочет поговорить со мной лицом к лицу

В девятнадцатом веке английские текстильщики отреагировали на внедрение новых технологий на фабрике, разбив вдребезги ткацкие станки, из-з

Недавно я рассматривал процессы которые используются для производства мРНК вакцин, и подумал, что будет уместным, написать еще и про производство векторных аденовирусных вакцин, таких как J&J, Oxford/AstraZeneca, CanSino, НИЦЭМ Гамалеи и других. Это совершенно другая система, со своими преимуществами и недостатками и со своей длинной историей масштабирования производства, где на каждом

Судебные специалисты по генеалогии комбинируют традиционные исследования родословных деревьев с базами ДНК. Они идентифицируют останки людей, фигурирующих в нераскрытых уже много лет делах

В августе 1979 года во время розысков наконечников стрел в пещерах гражданск

В анонсах мероприятий, которые проходят в Leader-ID, можно встретить неожиданные вещи. К примеру мастер-класс по выделению молекул ДНК, для которого достаточно оборудования и реагентов, которые есть на любой кухне. Этот эксперимент можно провести вместе с детьми погрузить их, так сказать, в мир биологии и химии.

Почему привычные нам BI-системы меняются? Куда движется их развитие, какие технологии сейчас внедряются, как можно улучшить аналитику для бизнеса? В этой статье мы коснемся этих вопросов и постараемся ответить, чего следует ожидать в ближайшем будущем от систем бизнес-аналити

Система контроля версий (от англ. Version Control System, VCS) это место хранения кода. Как dropbox, только для разработчиков!

Она заточена именно на разработку продуктов. То есть на хранение кода, синхронизацию работы нескольких человек, создание релизов (бранчей)... Но давайте я лучше расскажу на примере, чем она лучше дропбокса. Всё как всегда, история с кучей картиночек для наглядности ))

А потом

Привет, меня зовут Павел. Я работаю ведущим системным инженером группы внедрения в департаменте вычислительных систем компании STEP LOGIC. В этом посте я поделюсь своими наблюдениями о флеш-системе хранения данных Huawei OceanStor Dorado V6, которую мы тестировали ~~в полях~~ в инфраструктуре зак

По результатам теста SPC-1, признанного независимого стандарта в оценке производительности систем хранения данных, full-SSD хранилище корпоративного класса Huawei Dorado 18000 V6 поставило новый мировой IOPS-рекорд и подтвердило своё превосходство на глобальном рынке по другим техническим параметрам, включая время задержки и соотношение цена производительность.

Обстоятельно аргументируем, что делает OceanStor Dorado 18000 V6 по-настоящему хай-эндовой системой хранения данных с порядочным заделом на ближайшие годы. Заодно развеиваем распространённые опасения относительно All-Flash-хранилищ и показываем, за счёт чего Huawei выжимает из них максимум: end-to-end NVMe, дополнительное кэширование на SCM и целая пачка других решений.

Открытые данные в России, официально существуют уже 8 лет, 10 июня 2013 года был мой пост на хабре о принятии соответствующего закона.

Что изменилось за эти годы? Стало ли лучше или хуже? Работают ли порталы открытых данных? Публикуются ли данные?

Для тех кто интересуется состоянием открытых данных в России, я решил актуализировать цифры и собрать в виде набора фактов:

за 2020 год на федерально

Скоро выходит Android 12, но в этом августе уже с 11-й версии разработчикам придётся использовать новые стандарты доступа приложений к внешним файлам. Если раньше можно было просто поставить флаг, что ваше приложение не поддерживает нововведения, то скоро они станут обязател

Представляем вам версию 0.2 библиотеки глубокого обучения KotlinDL.

KotlinDL 0.2 теперь доступен на Maven Central (до этого он лежал на bintray, но закатилось солнышко земли опенсорсной). Появилось столько всего нового: нов

Линейный график является неотъемлемой частью анализа данных. Он даёт нам представление о том, как величина изменяется при последовательных измерениях. В случае работы с временными рядами важность линейных графиков становится решающей. Тренд [направление], сезонность и корреля

В нашем блоге мы неоднократно подчеркивали важность данных для бизнеса и отдельных пользователей. Не зря данные называют новой нефтью. Нет такой сферы, где современные технологии получения, обработки и анализа данных не привели бы к революционным изменениям. И сегодня мы поговорим об экологии, вернее, о пластиковых отходах, из которых формируются целые острова мусора в океане. Данные изменили многие подходы к вопросам экологии, и в

	Русский
	English

Перевод Система хранения данных на основе ДНК реально ли это и как работает?

Подробнее о проблемах

Новая система

Поиск файлов

Не только поиск

Сейчас читают

Блог компании selectel

Странник VIPER как сконструирован планетоход и что он будет делать на Луне

Краткая история мультиметра как он появился и кто его создатели

Испанская барахолка камеры, старые сотовые телефоны и очень старые ноутбуки

Dreamstation собираем ретрокомпьютер мечты на платформе Socket 8

Hyperloop почему о нем ничего не слышно и кто продолжает работу

Cubique reloaded. Обзор сервера HP NetServer LH Pro

Хранение данных

Что нам стоит дом построить? (часть 2)

Дата-центрическая архитектура волшебная пуля от интеграционных проблем