Русский
Русский
English
Статистика
Реклама

Deepmind

Перевод В сообществе машинного обучения есть проблема токсичности

06.07.2020 20:09:26 | Автор: admin
Токсичность везде.

Во-первых, нарушен процесс независимой экспертизы (peer review). Четверть работ с конференции NeurIPS выкладывается на arXiv. В DeepMind есть исследователи, которые публично преследуют рецензентов, критикующих их представление ICLR. Кроме того, статьи известных институтов с arXiv принимаются на ведущих конференциях, даже если рецензенты решают отклонить работу. И наоборот, некоторые статьи с большинством положительных отзывов отклоняются (не хочу называть никаких имён, просто взгляните на страницу openreview ICRL этого года).

Во-вторых, существует кризис воспроизводимости. Видимо, настройка гиперпараметров на тестовом наборе стала стандартной практикой в настоящее время. У статей, которые не превосходят лучший на сегодняшний день метод, нулевые шансы быть принятыми на хорошей конференции. В результате гиперпараметры настраиваются тонкими трюками, чтобы получить прирост производительности там, где его нет.

В-третьих, существует проблема поклонения. Каждая статья, имеющая отношение к Стэнфорду или DeepMind, превозносится как прорыв. Например, у BERT цитирований в семь раз больше, чем у ULMfit. Принадлежность к Google придаёт статье очень много доверия и известности. На каждой конференции ICML перед каждым плакатом DeepMind стоит толпа людей, независимо от содержания работы. Та же история с Zoom-встречами на виртуальной конференции ICLR 2020. Более того, NeurIPS 2020 собрала в два раза больше заявок, чем ICML, хотя обе конференции высшего уровня. Почему? Почему слово нейронный так превозносится? Далее, Бенгио, Хинтон и ЛеКун [лауреаты премии Тьюринга 2018 года за исследования в области ИИ прим. пер] действительно являются пионерами глубокого обучения, но называть их крёстными отцами ИИ безумие. Это уже становится культом.

В-четвёртых, Ян ЛеКун довольно мягко высказался о темах предвзятости и справедливости. Однако в ответ получил совершенно неадекватную токсичность и отрицательную реакцию. Избавиться от ЛеКуна и заткнуть человеку рот это не решение.

В-пятых, у машинного обучения и информатики в целом огромная проблема неравенства (diversity). На нашем факультете CS только 30% студентов и 15% профессоров женщины. Уход в отпуск по уходу за ребёнком во время аспирантуры или докторантуры обычно означает конец академической карьеры. Однако этим неравенством часто злоупотребляют как предлогом, чтобы оградить некоторых людей от любой формы критики. Сведение каждого негативного комментария в научной дискуссии к расе и полу создаёт токсичную среду. Люди боятся участвовать в дискуссиях, чтобы их не назвали расистами или сексистами, что, в свою очередь, усиливает проблему неравенства.

В-шестых, мораль и этика устанавливаются произвольно. В любой дискуссии доминирует внутренняя политика США. В этот самый момент тысячи уйгуров попадают в концентрационные лагеря, основанные на алгоритмах компьютерного зрения, изобретённых этим сообществом, и никому, кажется, вообще нет дела до этого. Добавление раздела Более широкое воздействие в конце каждой работы не решит эту проблему. Поднимаются кучи дерьма, когда какой-то исследователь не упомянут в статье. Между тем африканский континент с населением в 1 миллиард человек практически исключён из любого значимого обсуждения ML (кроме нескольких семинаров Indaba).

В-седьмых, распространена ментальность типа публикуйся или умри. Если ты не публикуешь 5+ статей в год на конференциях NeurIPS/ICML, ты неудачник. Исследовательские группы стали настолько большими, что научный руководитель даже не помнит имён всех аспирантов. Некоторые подают на NeurIPS более 50 работ в год. Единственной целью написания статьи стало добавление ещё одной статьи NeurIPS в резюме. Качество вторично; основной целью стало прохождение стадии предварительного просмотра.

Наконец, дискуссии стали неуважительными. Лауреат приза Гельмгольца от Международного общества нейронных сетей Юрген Шмидхубер обзывает вором члена Лондонского королевского общества Джеффри Хинтона, Эфиопско-американский и содиректор группы Ethical Artificial Intelligence Team в Google Тимнит Гебру обзывает белым супрематистом крёстного отца ИИ Яна ЛеКуна, Профессор Калтеха и директор исследований ИИ в Nvidia Анима Анандкумар обзывает сексистом исполнительного директора Geometric Intelligence и автора книг Гари Маркуса. Все подвергаются нападкам, но ничего не улучшается.

Альберт Эйнштейн выступал против квантовой механики. Пожалуйста, можно прекратить демонизировать тех, кто не разделяет наши взгляды в точности? Давайте позволим людям не соглашаться, не перерезая им глотки.

В тот момент, когда мы затыкаем людям рот из-за их мнения, научный и общественный прогресс просто умирает.
Подробнее..

Перевод В чём состоит задача фолдинга белков? Краткое пояснение

25.12.2020 14:07:02 | Автор: admin

Белок бактерии Staphylococcus aureus

В конце ноября команда Google DeepMind объявила о том, что её система глубокого обучения AlphaFold достигла небывалых уровней точности в решении задачи фолдинга белков трудной проблемы из области вычислительной биохимии.

В чём состоит эта проблема и почему её так трудно решить?

Белки это длинные цепочки аминокислот. Ваша ДНК кодирует эти последовательности, а РНК помогает производить белки согласно этой генетической схеме. Белки синтезируются в виде линейных цепочек, но впоследствии сворачиваются в сложные шарообразные структуры (см. картинку в начале статьи).

Часть цепочки может свернуться в плотную спираль, "-спираль". Другая часть может согнуться туда и обратно, сформировав широкую плоскую фигуру, "-лист":



Сама последовательность аминокислот называется первичной структурой. Упомянутые фигуры называют вторичной структурой.

Сами эти компоненты также складываются, формируя уникальные сложные формы. Это называется третичной структурой:


Фермент, взятый у бактерии Colwellia psychrerythraea


Белок RRM3

Выглядит беспорядочно. Почему же этот спутанный клубок аминокислот так важен?

Структура белка не случайна! Каждый белок сворачивается в определённую, уникальную, и по большей части предсказуемую структуру, что совершенно необходимо для его правильной работы. Благодаря физической форме белок хорошо подходит к структурам, с которыми он может связываться. Имеют значение и другие физические свойства, особенно распределение по белку электрического заряда. На картинке положительный заряд обозначен синим, отрицательный красным:


Поверхностное распределение заряда на белке-переносчике липидов растений 1 риса посевного

Если белок, по сути, представляет собой самособирающуюся наномашину, то основным предназначением последовательности аминокислот будет производство его уникальной формы, распределение заряда, и всё прочее, что определяет функцию белка. Как именно происходит этот процесс, пока не совсем ясно сегодня это активная область исследований.

В любом случае, понимание структуры важно для понимания её работы. Однако последовательность ДНК задаёт только первичную структуру белка. Как нам узнать его вторичную и третичную структуры то есть, точную форму, которую примет этот клубок?

Эту задачу называют задачей фолдинга белков, и к ней есть два базовых подхода: измерение и предсказание.

Экспериментальные методы могут измерять структуру белка. Однако это не так просто сделать: в оптический микроскоп структур не видно. Долгое время основным методом исследования структур была рентгеновская кристаллография. Кроме неё, использовался ядерный магнитный резонанс, а в последнее время появилась новая технология, криоэлектронная микроскопия.


Дифракционная рентгеновская картина протеазы SARS

Однако эти методы дороги, сложны и времязатратны, а кроме того, работают не со всеми белками. В частности, белки, встроенные в клеточную мембрану тот же рецептор ангиотензинпревращающий фермент 2 (ACE2), к которому привязывается вирус COVID-19 складывается в липидном бислое клетки, и его очень сложно кристаллизовать.


Строение клеточной мембраны

Поэтому мы смогли разобрать структуры крохотного процента от секвенированных белков. В универсальной базе данных белков содержится 180 млн последовательностей, а в базе данных трёхмерных структур белков всего 170 тысяч позиций.

Нам нужен метод получше.

* * *

Вспомним, что вторичная и третичная структуры белков в основном являются функцией первичной структуры, известной нам благодаря секвенированию. Что если, вместо того, чтобы измерять структуру белка, мы могли бы её предсказать?

Это задача предсказания структуры белков. Специалисты по вычислительной биохимии работают над ней уже несколько десятилетий.

Как к ней можно подступиться?

Очевидный способ симулировать физику процесса напрямую. Моделируем силы для каждого атома, учитывая его местоположение, заряд и химические связи. Считаем ускорения и скорости, и пошагово прокручиваем эволюцию системы. Это называется молекулярной динамикой.


Суперкомпьютер "Антон" компании D. E. Shaw Research


Суперкомпьютер IBM Blue Gene


Онлайн-головоломка Foldit

Проблема в том, что такой подход требует чрезвычайно много вычислительных ресурсов. В типичном белке содержатся сотни аминокислот, то есть тысячи атомов. Имеет значение и окружающая среда: при сворачивании белок взаимодействует с окружающей его водой. Поэтому приходится симулировать поведение порядка 30 тысяч атомов. При этом между каждой парой атомов происходит электростатическое взаимодействие, то есть, при грубой оценке, мы получаем 450 млн пар, задачу со сложностью O(N2). Существуют умные алгоритмы, понижающие её сложность до O(N log N). Кроме того, для симуляции необходимо просчитать 109-1012 шагов. Исключительная головная боль.

Хорошо, но нам же не нужно симулировать весь процесс сворачивания. Другой поход предлагает найти структуру с минимальной потенциальной энергией. Обычно объекты склонны приходить в состояние покоя с наименьшей энергией, поэтому такой эвристический подход оправдан. Энергию может подсчитать та же модель молекулярной динамики, что даёт нам величины взаимодействий. С таким подходом мы можем испробовать кучу кандидатов, и выбрать структуру с наименьшей энергией. Проблема, конечно, заключается в том, откуда брать структуры. Их просто слишком много специалист по молекулярной биологии Сайрус Левинтол подсчитал, что их может быть порядка 10300. Естественно, можно использовать более умный подход, чем случайный перебор. Но их всё равно остаётся слишком много.

Поэтому было предпринято уже множество попыток ускорить подобные вычисления. Антон, суперкомпьютер от D. E. Shaw Research, использует особое оборудование специальные интегральные схемы. IBM тоже использует био суперкомпьютер Blue Gene. В Стэнфорде запустили проект Folding@Home, использующий распределённые мощности домашних компьютеров. Проект Foldit от UW превратил фолдинг в игру, чтобы дополнить вычисления интуицией человека.

И всё же долгое время ни одна технология не справлялась с предсказанием широкого спектра белковых структур с большой точностью. На проходящих два раза в год соревнованиях CASP, где результаты работы алгоритмов сравниваются со структурами, измеренными экспериментально, первые места получали предсказания с точностью в 30-40%. До недавнего времени:


Медианная точность предсказаний в категории свободного моделирования у лучшей из команд

Как же работает AlphaFold? Она использует несколько глубоких нейросетей, чтобы обучаться разным функциям, связанным с каждым из белков. Одна из ключевых функций предсказание итоговых расстояний между парами аминокислот. Это приводит алгоритм к итоговой структуре. В одном из вариантов алгоритма (описанном в журналах Nature и Proteins) была выведена потенциальная функция этого предсказания, к которой был применён простейший градиентный спуск, сработавший на удивление хорошо.

Главное преимущество AlphaFold над предыдущими методами ему не нужно строить предположения касательно структур. Некоторые методы работают, разбивая белки на участки, просчитывая каждый из них, а потом собирая всё обратно. AlphaFold это не нужно.

Судя по всему, в DeepMind считают проблему фолдинга решённой, что мне кажется излишним упрощением, однако в любом случае их прогресс значителен. Эксперты, не связанные с Google, используют такие эпитеты, как "фантастический" и "революционный".

Теперь у генной инженерии есть уже два мощных инструмента, CRISPR и фолдинг белков. Возможно, 2020-е годы станут для биотехнологий такими же, какими 1970-е были для вычислительной техники.

Поздравляем исследователей из DeepMind с этим прорывом!
Подробнее..

Категории

Последние комментарии

  • Имя: Макс
    24.08.2022 | 11:28
    Я разраб в IT компании, работаю на арбитражную команду. Мы работаем с приламы и сайтами, при работе замечаются постоянные баны и лаги. Пацаны посоветовали сервис по анализу исходного кода,https://app Подробнее..
  • Имя: 9055410337
    20.08.2022 | 17:41
    поможем пишите в телеграм Подробнее..
  • Имя: sabbat
    17.08.2022 | 20:42
    Охренеть.. это просто шикарная статья, феноменально круто. Большое спасибо за разбор! Надеюсь как-нибудь с тобой связаться для обсуждений чего-либо) Подробнее..
  • Имя: Мария
    09.08.2022 | 14:44
    Добрый день. Если обладаете такой информацией, то подскажите, пожалуйста, где можно найти много-много материала по Yggdrasil и его уязвимостях для написания диплома? Благодарю. Подробнее..
© 2006-2024, personeltest.ru