Русский
Русский
English
Статистика
Реклама

Перевод Взламываем код биологических молекулярных ключей

Нейросети обучили быстро считывать информацию о поверхности белков молекул, критически важных для многих биологических процессов. Эта технология уже используется для создания защиты от вируса, ответственного за COVID-19



Геометрическое глубокое обучение может распознавать сложные поверхности белков, что позволяет исследователям предсказывать взаимодействие биологических молекул

У специалиста по вычислительной биологии Бруно Коррейа в лаборатории было правило: никакого машинного обучения (МО). Он не считал эту дисциплину строгой наукой. Но недавно Коррейа использовал её для поиска потенциальных способов взаимодействия белков сложных свёрнутых молекул, отвечающих за многие биологические процессы и получил результат в 40 000 раз быстрее обычных методов. На обложке журнала Nature Methods за февраль 2020 красуется его система. О своём нежелании принимать МО Коррейа говорит: Я ошибался, и рад, что ошибался.

Что заставило его передумать? Геометрическое глубокое обучение (ГО) новая область ИИ, способная находить закономерности у искривлённых поверхностей.

Белки взаимодействуют, пристраивая свои бугристые поверхности неправильной формы друг к другу как части трёхмерной головоломки. Исследователи десятилетиями пытались понять, как они это делают. Хорошо известная задача фолдинга белков, с которой учёные борются с середины XX века, пытаются понять взаимодействие белков через расшифровку связи между составляющими белок аминокислотами и его итоговой трёхмерной формой. В 1999 году IBM начала разработку новой линейки суперкомпьютеров Blue Gene специально для работы над этой задачей. Через 20 лет к ней применила новейшие алгоритмы МО DeepMind.

Система Коррейи называется MaSIF (molecular surface interaction fingerprinting выявление характерных признаков взаимодействия молекулярных поверхностей). Она избегает присущей трёхмерному белку сложности, игнорируя внутреннюю структуру молекул. Вместо этого система сканирует двумерную поверхность белка в поисках характерных признаков взаимодействия распознанных нейросетью признаков того, что в определённом месте к молекуле может присоединиться другой белок. Идея в том, что при встрече две любые молекулы, по сути, представляют друг другу эту поверхность. Поэтому большего для изучения и не требуется, сказал Мохаммед Аль-Кьюрайши, исследователь белков в Гарвардской медицинской школе, также использующий ГО. Это очень инновационный подход.

Программная платформа MaSIF, концентрирующаяся на предсказании взаимодействий белков на основе их поверхностей, может помочь ускорить т.н. синтез белков de novo, пытающийся синтезировать полезные белки с нуля, не полагаясь на варианты, встречающиеся в природе. Однако её можно также использовать и для базовой биологии, сказал Майкл Бронштейн, эксперт по геометрическому ГО из Имперского колледжа Лондона, помогавший разрабатывать систему. Как рак влияет на свойства белков? сказал он. Можно спросить не уничтожают ли возникающие в результате рака мутации что-либо в белке, из-за чего он начинает вести себя по-другому, и не соединяется с тем, с чем надо. MaSIF, возможно, ответит на такие фундаментальные вопросы.

Неглубокий подход


Если вам интересно, как ГО может создавать портреты характерных особенностей белков, Бронштейн предлагает посмотреть на цифровые камеры начала 2000-х. Их алгоритмы распознавания лиц работали очень просто. Нужно было лишь определить наличие лица глаз, носа, рта вне зависимости от того, длинный нос или короткий, пояснял он.

Современные камеры более разносторонние. Они могут распознать определённого человека, позволяя вам быстро отфильтровать библиотеку фотографий и найти все фотографии с ним.

Эти преимущества появились благодаря глубоким нейросетям, давшим компьютерам возможность находить едва различимые признаки во внешности индивида на основании обучающих данных. В этом процессе множество фотографий определённого лица, размеченных соответствующим образом, скармливается нейросети. Компьютеру не нужно заранее объяснять, какие признаки лица зелёные глаза, широко разнесённые брови, черные волосы каким-то образом складываются в лицо конкретное человека. При наличии достаточного количества размеченных примеров нейросеть сама обучается различать все эти признаки.

MaSIF делает то же самое для белков. Предыдущие подходы к поиску характерных признаков взаимодействия были похожи на простейшие алгоритмы распознавания лиц. Исследователи должны были определять конкретные геометрические формы заранее допустим, бугристый участок на поверхности белка определённой формы и размера и потом искать совпадения. MaSIF наоборот, начинает с набора базовых поверхностных структур, связанных с взаимодействием белков. К примеру, физической кривизны поверхности (выпуклости или вогнутости), электрического заряда, притяжение или отталкивание воды. Затем во время обучения нейросеть обучается тому, как нужно комбинировать эти признаки в характерные особенности, распознающие разные закономерности более высокого порядка.

До недавнего времени подобное МО нельзя было использовать на искривлённых поверхностях белков неправильной формы. Появление геометрического ГО открыло эоту возможность. Коррейа ставит в заслугу Бронштейну то, что тот продемонстрировал этот метод во время их двухнедельной совместной работы дома у Бронштейна в феврале 2018 года. Это всё он, сказал Коррейа, работающий в Федеральной политехнической школе Лозанны. Наши описания, сделанные вручную, никакого результата не давали.

Один вариант системы, MaSIF-site, может изучать целые поверхности белка и предсказывать, где с наибольшей вероятностью к нему присоединится другой белок как бы рисует мишень на искривлённом холсте. Нам нравится называть это задачей одного тела, сказал Коррейа. Можете представить это себе как способ понять, где на определённом белке расположены функциональные места. MaSIF-site справляется с этой задачей на 25% лучше, чем два ведущих алгоритма, предсказывающих местные взаимодействия.

Другой вариант системы, MaSIF-search, работает с задачей, которую Коррейа называет многие ко многим. Вместо того, чтобы предсказывать, как один белок свяжется с одной целевой молекулой (как обычно бывает в симуляторах), система сравнивает характерные признаки взаимодействия многих белков, и ищет совпадение. В клетке есть 10 000 белков, и многие из них постоянно сталкиваются друг с другом, пояснил Коррейа. На этой задаче MaSIF не опережает ведущие предсказывающие алгоритмы; он нашёл примерно в два раза меньше потенциальных связей на случайной выборке из 100 белков. Однако предсказывающему алгоритму на поиск потребовалось порядка 100 дней вычислительного времени. У MaSIF ушло на это четыре минуты.

Это значительное ускорение открывает интересные возможности для базовых исследований, сказал Бронштейн. Ведь в теле человека белки формируют функциональные сети, состоящие из десятков тысяч взаимосвязей. На построение этих графов уходит огромное количество времени, сказал Бронштейн. С такими методами, какие использует MaSIF, может получиться лишь приближённый результат, однако и он позволяет вам создать хотя бы грубую версию этих сетей связанных белков для любого организма.

Аль-Кьюрайши отметил, что хотя такой поверхностный подход MaSIF к предсказанию взаимодействий белков и имел смысл, он не мог учесть такое явление, как индуцированное соответствие: то, как поверхности молекул меняют форму (и химические свойства), приближаясь друг к другу. Иначе говоря, поверхности двух белков могут не демонстрировать характерных признаков взаимодействия друг с другом, пока не сблизятся настолько, что почти соприкоснутся друг с другом. Этот фактор MaSIF пропускал, поскольку индуцированное соответствие зависит от структуры, находящейся под поверхностью белка. Эволюция, вероятно, проводит оптимизацию именно под это индуцированное соответствие, сказал Аль-Кьюрайши. Удивительно, что MaSIF, даже с этой оговоркой, всё равно работает достаточно хорошо.

Коррейа планирует изучить вопросы включения индуцированного соответствия и другой поверхностной динамики в MaSIF. Для меня это последний рубеж понимания работы белков, сказал он. Вероятно, следующие 10 лет я буду заниматься именно этим. Однако на текущий момент у него имеются другие срочные дела использовать MaSIF для сканирования шипастых белков, усеивающих поверхность вируса SARS-CoV-2, вызывающего COVID-19. Мы пытаемся понять, каковы характерные признаки взаимодействия в этом вирусе, сказал он. Судя по всему, у него есть ещё несколько мест для атаки, кроме тех, что мы уже знаем. Коррейа уже использует эту информацию касательно SARS-CoV-2 для синтеза антивирусных белков с нуля. Он надеется опубликовать результаты в этом году. Было бы здорово, если бы мы могли разрабатывать новые белки на основе характерных поверхностных признаков вирусного белка, чтобы подавить вторжение вируса в клетки, сказал он. Для этого я и работаю.
Источник: habr.com
К списку статей
Опубликовано: 19.06.2020 10:21:33
0

Сейчас читают

Комментариев (0)
Имя
Электронная почта

Машинное обучение

Биотехнологии

Геометрическое глубокое обучение

Фолдинг белков

Категории

Последние комментарии

© 2006-2020, personeltest.ru