Русский
Русский
English
Статистика
Реклама

Воспроизводимость

Как решать проблемы научных публикаций?

11.08.2020 08:15:01 | Автор: admin
В первой части статьи мы рассмотрели проблемы системы научных публикаций, которые затрудняют исследования и распространение данных. Я очень рад, что эта тема оказалась интересной и привлекла множество интересных идей и комментариев.

В этот раз обсудим, какие решения уже придуманы, внедряются и разрабатываются. А в конце я опишу свое видение оптимальной системы обмена научной информацией.



Системы поиска научной информации


Тем, что сейчас можно найти любую научную статью онлайн, уже никого не удивишь. Однако всего пару десятков лет назад все было далеко не так просто.

Немного историй из жизни
На первом курсе (15 лет назад) у нас было несколько обязательных занятий по библиотековедению. Нам рассказывали как искать статьи в тематических каталогах, как оформлять заявки в архив. А уж сколько нюансов библиотечного дела осталось за кадром! Страшно представить, как бы эта система пыталась справляться с нынешним потоком информации. Я несказанно рад, что для поиска статьи мне не нужно пользоваться библиотечным каталогом.

В комментариях к предыдущей статье (раз и два) упоминали, что в 90-е годы можно было попросить авторов прислать бумажную копию статьи по обычной почте! Замечательно, что в научном сообществе такие отзывчивые люди, но для меня это скорее повод порадоваться прогрессу передачи информации.

Сейчас вы можете найти любую статью по авторам, названию, году публикации или ключевым словам из аннотации. Достаточно открыть Scopus, PubMed, Google Scholar или другую систему.

Однако, несомненно, есть куда расти. Большая часть систем ищет только по аннотации, хотя поиск по всему тексту даст доступ к гораздо большему объему информации. Здесь возникает проблема, что нередко полного текста нет в открытом доступе (из-за paywall). Кроме того, были бы полезны возможности поиска по методам, использованным в работе, и отдельным экспериментам.

Использование систем поиска важный фактор в создании новых журналов или архивов препринтов. Часто популярным поисковым сервисом пользуются многие ученые в определенной области (например, в биологии и медицине это PubMed). В этом случае, статьи, опубликованные на ресурсах, неиндексируемых такими поисковиками, оказываются практически незаметными для научного сообщества.

Открытый доступ


Одна из самых важных проблем современных научных журналов ограничения доступа к статьям по подписке (paywall). Любой, кто хоть раз работал со статьями, обязательно сталкивался с этим.

Краткое содержание предыдущей серии
Кратко опишу проблему для тех, кто с ней не знаком. Ученые отправляют статью в журнал, а тот предоставляет к ней платный доступ либо по подписке, либо за однократный платеж. Стоимость одной статьи для читателя, таким образом, может достигать 30 евро, а ученому в работе требуются сотни статей. При этом деньги получают не авторы статьи, а журнал. То есть, журнал не только получает прибыль с помощью чужой авторской собственности и бесплатного труда рецензентов, но и ограничивает доступ к научному знанию.

Проблема доступа к статьям общепризнанная, и научное сообщество прилагает большие усилия, чтобы перевести все статьи в открытый доступ.

Решение проблемы известно уже давно: при подаче статьи для публикации авторы оплачивают однократный взнос, а статья свободно распространяется. Любой желающий может свободно скачать статью. Стоимость публикации тема отдельного обсуждения, но даже по нынешним ценам публикация всех статей в открытом доступе обойдется дешевле подписки для всех университетов.

Самое интересное, что журналам это тоже выгодно, им не нужно обслуживать систему подписки, они просто берут деньги с авторов.

PeerJ
Интересную модель монетизации научного журнала упомянул в своем комментарии к предыдущей части rg_software. В PeerJ можно подать свою статью, как в любой open access журнал (одна публикация стоит 1200$). А можно один раз оплатить пожизненное членство 400$ (для каждого автора) и получить возможность публиковать бесплатно одну статью в год.

Кроме того, у статей в открытом доступе может быть гораздо больше читателей (так как доступ к таким статьям ничем не ограничен), а значит, им проще набрать цитирования. Это опять же выгодно всем и авторам, и даже журналам, ведь это поднимает импакт-фактор.

Presubmission


У многих журналов свои стандарты оформления текста, иллюстраций и других частей статьи. Из-за этого может возникнуть весьма неприятная проблема. С этой проблемой сталкиваются не все, но если вам очень не повезёт, можно потерять полгода на совершенно непродуктивную работу и ожидание без какого-либо улучшения самого исследования. Речь идет о необходимости полностью переделать оформление для журнала, если в предыдущем журнале редактор отверг статью. Часто изменения могут быть весьма значительными и занимать немало времени. А также статья может быть отклонена не один раз.

А вот в биологии...
Из обсуждения первой части статьи я сделал вывод, что эта проблема может быть заметна не во всех разделах науки. Однако как минимум в биологии это достаточно существенный недостаток процесса публикации.

Для того чтобы избежать полного переделывания всей статьи, журналы предлагают авторам предварительная подача presubmission. Авторы лишь отправляют краткое описание своей статьи редактору, а тот выносит предварительное решение. Если статья журналу не подходит, то можно отправить ее в другой журнал, не тратя время на подготовку всего оформления. Если редактор заинтересовался вашей работой, то дальше начинается обычная подача полного текста на рецензию. В данный момент многие издательства предоставляют авторам такую возможность.

Presubmission может показаться незначительным улучшением, но в современной ситуации с огромным числом журналов она может заметно упростить жизнь авторам и сэкономить немало времени.

Предварительная регистрация исследования(preregistration)


Довольно интересный пилотный проект запустило издательство PLoS. Можно в самом начале работы зарегистрировать свой проект в журнале. В этом случае речь идет только о концепции, при регистрации нет ни финальных результатов, ни готового текста. Такая предварительная регистрация это интересная возможность получить обратную связь от других ученых и возможных рецензентов в самом начале работы. Такой подход помогает оптимизировать работу и ускорить рецензию уже при подаче в журнал.

Другой плюс предварительной регистрации публикация результатов независимо от того, получилось подтвердить заявленную гипотезу или нет. Дело в том, что сейчас опубликовать отрицательные результаты практически невозможно. Это приводит к перекосу восприятия научных фактов: публикуются только гипотезы, которые удалось подтвердить, те гипотезы, которые не удалось, публикуется крайне редко. Предварительная регистрация может решить эту проблему. Если вы с самого начала зарегистрировали свой проект, итоговый результат будет опубликован независимо от того, положительный он или отрицательный.

У предварительной регистрации проектов есть и очевидные отрицательные стороны. Некоторые ученые считают, что так можно будет занимать интересные темы и затем неторопливо их исследовать. Да и в целом вопрос приоритета в такой системе становится очень неоднозначным. Во многих областях науки важна не столько первоначальная идея, сколько ее экспериментальная проверка. То есть предложить проект просто, а реализовать гораздо сложнее. Предварительная регистрация может поощрять предлагать больше проектов, чем группа сможет исследовать.

Но есть и более наглядный минус этой системы. Журналы, которые используют предварительную регистрацию, оказываются в менее выгодном положении по сравнению с традиционными журналами. Ведь предварительная регистрация требует открыть подробности вашего проекта, а также с самого начала выбрать журнал, в котором вы будете публиковать свое исследование. Другие ученые могут использовать идеи вашего проекта и опубликовать свое исследование в традиционном журнале. То есть система предварительной регистрации может эффективно работать, только если в ней участвуют все журналы.

Рецензирование статей


Краткое содержание предыдущей серии
Опять кратко напомню суть для людей далеких от научных публикаций. Научные статьи рецензируются проверяются специалистами в соответствующей области на соответствие стандартам и методам научных исследований. При подаче статьи в журнал, ее читают два или три рецензента, они оценивают статью и рекомендуют необходимые изменения. Авторы должны исправить выявленные недочеты перед публикацией.

Рецензия самая главная часть процесса публикации, без нее нельзя быть уверенным в том, что информация была проверена. Однако, это долгий и трудоемкий процесс. Вот некоторые пути оптимизации рецензии.


Препринты


Препринт это авторский научный текст, который еще не был проверен рецензентами. Авторы могут выложить свое исследование на специальных сайтах, например, arxiv.org и bioarxiv.org.

Сервисы препринтов стали очень популярны в последнее время. С точки зрения распространения научной информации они ничем не уступают обычным статьям любой может скачать манускрипт и прочитать его. Основные отличие препринт не был проверен. Но если его читает специалист, эта проблема не слишком существенна читатель сам для себя выступает в роли рецензента. Зато препринт можно выложить гораздо раньше, ускоряя обмен информацией.

Чаще всего препринты в то же время отправляют в обычный научный журнал. То есть через некоторое время препринт становится обычной рецензированной статьей. В некоторых случаях препринты помогают решить проблему закрытого доступа, а также получить комментарии от коллег к статье пока она еще находится на ревизии.

А вот в физике...
Комментарий Jerf о использовании препринтов к предыдущей статье:
<...> стоит отметить, что физики и математики довольно давно решили проблему с paywall и задержкой распространения результатов: для этого и был создан упомянутый в тексте arxiv.org. Я лично почти всегда просто читаю версию нужной мне статьи в виде препринта с arXiv, и тот же sci-hub мне почти не нужен (разве что для старых статей, из тех времен, когда arXiv еще не покрывал 99% процентов статей по физике и математике). Да, препринты не проходят рецензирование, но как раз сам факт того, была принята статья в какой-то журнал, или нет, можно проверить бесплатно. А если в процессе рецензирования оказываются найдены какие-то ошибки в тексте, то почти всегда авторы вносят соответствующие исправления и в версию статьи, выложенную на arXiv. В других областях науки, вроде бы, тоже постепенно такая схема получает всё большее распространение.

И еще хотелось бы прокомментировать фразу Чем же занимаются авторы, пока идет рецензия? А ничем, они ждут отзывы. Это не совсем справедливо, поскольку (во всяком случае, в случае физики и математики) прежде, чем послать статью в журнал на рецензию, её выкладывают на arXiv. После этого все, кому она покажется интересной, её читают, и достаточно часто присылают свои комментарии авторам по email.

Конечно, было бы здорово, если бы к arXiv-у была прикручена какая-то возможность анонимного комментирования со строгой модерацией. Вопрос, правда, в том, как это организовать правильно, чтобы избежать каких-нибудь нежелательных побочных эффектов.



F1000Research


В журнале F1000Research совместили обе возможности манускрипт сначала публикуется в виде препринта, а после рецензии получает статус проверенной статьи. На мой взгляд, это перспективное направление, но пока совсем немного журналов его используют.

Этот журнал также позволяет публиковать постеры и слайды с присвоением doi. То есть эти материалы становится легче искать и при необходимости цитировать.

Мне очень близка позиция этого журнала, указанная на их главной странице:
Publish all your findings including null results, data notes and more.
Engage with your reviewers openly and transparently.
Accelerate the impact of your research.

Интересно, что похожую модель выбрали для JMIRx журналов, ассоциированных с biorxiv, medrxiv и psiarxiv. Авторы загружают статью в архив, а редакторы JMIRx выбирают некоторые статьи и предлагают их для рецензии. Авторы и сами могут подать заявку своей статьи на ревизию. Правки предложенные рецензентами также выкладываются в архив.

Вот как описывают идею в JMIRx:
Researchers could submit type-1 electronic papers [non peer-reviewed preprints] to preprint servers for discussion and peer-review, and journal editors and publishers would pick and bid for the best papers they want to see as type-2 papers [version of record] in their journal.

На мой взгляд, это отличный пример нового подхода к публикации результатов. Я не со всем согласен в их решениях, например, рецензентов приглашают в основном по предложениям авторов статьи, но принцип внедрения инноваций считаю очень правильным.

Независимая рецензия до подачи в журнал


Недавно несколько журналов объединились, чтобы ученые подавали свою статью не в конкретный журнал, а на общую для всех рецензию. Уже после прохождения рецензии, будет подобран оптимальный журнал для публикации. В этом процессе также участвует редактор, который в данном случае представляет все объединение.

Такой формат рецензии дает уверенность, что статья не будет отвергнута конкретным журналом в процессе. А значит авторы не будут терять время на повторную подачу, ведь выбор конкретного журнала для публикации происходит уже после рецензии.

Очевидным развитием такой схемы будет объединение все большего числа журналов. Однако конкуренция издательств может стать преградой для этого процесса. В рамках же одного издательства подобрать нужный журнал по теме не очень сложно. Кроме того, у разных издательств есть журналы похожей тематики, да и по импакт-фактору они часто близки.

Публикация рецензий


Некоторые журналы (например, eLife и Nature) публикуют рецензии. Я считаю это правильным, ведь рецензия это важная часть научного процесса. Если рецензент предложил хорошие эксперименты и заметил важные неточности он внес вклад в развитие исследования. С другой стороны иногда требования рецензентов могут быть совсем нелогичны, тогда тоже полезно видеть рецензии, чтобы понимать что было добавлено, а что исходно предлагали авторы. При этом публикация рецензии не мешает рецензентам оставаться анонимными.

Вопрос необходимости анонимных рецензий не имеет однозначного ответа. В большинстве случаев используется полуслепой метод, когда фамилии авторов известны, а ревьюеры анонимны. В Nature был предложен вариант двойных слепых рецензий, когда ни авторы, ни рецензенты не раскрывают своих имен (после рецензии имена авторов открывают, разумеется). При этом задача обеспечения анонимности статьи ложится на авторов, и это далеко не так просто. Часто по теме, объекту и методам работы можно точно установить лабораторию, выполнившую исследование.

Деанонимизация рецензента
В своем комментарии к первой части CactusKnight замечает, что иногда и инкогнито рецензента раскрыть не очень сложно:
бывает и такое
мне пришлось столкнуться с подобным рецензентом, который в рецензии (я неспроста взял ее в кавычки) потребовал процитировать 14 его статей, слабо связанных с тематикой нашей статьи


А уже упоминавшийся F1000Research наоборот поддерживает противоположный подход рецензия там полностью открытая. И авторы, и рецензенты знают имена друг друга. У меня нет однозначного мнения, какой подход лучше. Свои преимущества есть у каждого из них. В одном многие участники дискуссии сходятся анонимная рецензия, вероятно, более критическая.

Оплата труда рецензентов


Одна из очевидных проблем, на мой взгляд труд рецензентов не оплачивается.


Понятно, что журналы совсем не заинтересованы в изменении такой системы. Но несмотря на это небольшие подвижки происходят. Некоторые журналы, как минимум, обсуждают возможность бесплатных публикаций для активных рецензентов. Шаги в этом направлении очень небольшие, но кажется, сообщество начинает всерьез задумываться о порочности существующей модели.

Импакт-фактор, как мера крутости


Очень важная проблема современного научного процесса в целом как оценить успех и эффективность научной работы. Это вечная тема, которую можно обсуждать со всевозможных сторон, но сегодня для нас важно, как на это влияют научные публикации.

Дело в том, что статьи это основная мера успешности ученого. Подавляющее большинство метрик успеха используют те или иные показатели, связанные с публикациями. Все, кто хоть немного был связан с наукой, слышали про индекс Хирша, число цитирования и импакт-фактор. Последний чаще всего используются при отчетах по грантам и при получении новых (то есть определяет сколько у ученого будет денег). А значит импакт-фактор наиболее явно влияет на успех научных сотрудников.

Impact factor is a serious business


Импакт-фактор это сумма цитирования за год, всех статей, которые вышли за два предыдущих года. То есть это средняя мера цитирования статей в журнале. Отсюда следует самый главный недостаток этого параметра импакт-фактор это характеристика журнала, а не отдельной статьи. В какой-то степени эти величины скоррелированы плохую статью не опубликуют в заметном журнале. Проблема в том, что это очень косвенная оценка. Мы не знаем, в какие журналы авторы отправляли свою статью, нам также неизвестно чем руководствовался редактор, когда принимал или отвергал статью. Это может быть как качество или новизна статьи, так и хайповая тема или известный ученый в авторах. Мы не знаем, почему статья оказалась в хорошем журнале это кумулятивная мера, объединяющая все достоинства и недостатки статьи. Кроме того, окончательное решение принимает всего один человек редактор, и именно от его решения зависит оценка качества научной статьи. Все это делает импакт-фактор очень непрозрачной и непростой для анализа мерой качества отдельной статьи.

Сам вопрос о качестве научных работ весьма сложен. Что важнее, высокое качество экспериментов или новизна? А может быть сиюминутная популярность темы? Но импакт-фактор скрывает все эти параметры (и многие другие) в одну цифру, рассчитанную по всем статьям за два года.

А что если импакт-фактор бесполезен?


Многие ученые выступают против использования импакт-фактора вот для примера объединения DORA и ASAPbio, которые выступают за отмену импакт-факторов. Нобелевский лауреат Рэнди Шекман, один из основателей журнала eLife, также призывает отказаться от такой метрики. Интересно, что в eLife изначально не хотели индексировать свой журнал в этом рейтинге. Но составители списка импакт-факторов, агентство Thomson Reuters, не учли их мнение.


Однако самое главное принципы оценки, которые используют крупные грантодатели. Если они решат отказаться от импакт-фактора в пользу другого способа оценки это может очень быстро изменить существующее положение вещей.

Воспроизводимость


Это важнейшая проблема, которая стоит сейчас перед всем научным сообществом. Единственного пути решения этой проблемы не существует, и грантодатели, и журналы, и сами ученые должны совместными усилиями бороться за повышение достоверности данных. Однако научные публикации играют важную роль в этом процессе. Более строгая рецензия статей по проверке методов исследования и доступности данных должна стать безусловной отправной точкой для повышения воспроизводимости.


Одним из способов упорядочить описание методов, материалов и данных являются различные стандартные формы. Сейчас не существует единого стандарта описания методов, но некоторые журналы предлагают свои руководства по оформлению. Так например, Cell press использует так называемые STAR methods и key resources table. Это перечень критериев для описания методов и точного указания всех использованных материалов. Эти критерии не идеальны, но это большой шаг вперед. Также Cell не разрешает более переносить методы в Supplementary, что также помогает стандартизировать описание.

Стоит также отметить появление большого числа ресурсов исключительно для обмена протоколами исследований (например, protocols.io). Для этого делают специальные журналы с очень подробным описанием процедур. А например журнал JoVE (Journal of Visualized Experiments) публикует не только текстовое описание процедур, но и видео, показывающее подробности процесса, что может быть очень полезно для воспроизведения сложных экспериментов.

Как решить все проблемы
Некоторые, однако, заходят слишком далеко. Недавно появилось предложение всем ученым документировать весь процесс работы на видео. Мне кажется, что эта идея довольно бесполезна, не говоря уж о затратах времени и необходимости огромных хранилищ для таких массивов информации.

Если речь идет о воспроизводимости, то конечно необходимо упомянуть Retraction Watch. Это попытка решать проблему с другой стороны. Они занимаются поиском модификаций изображений, нарушений экспериментов и других фальсификаций в уже опубликованных статьях. Важно понимать, что даже самые внимательные и ответственные рецензенты могут пропустить ошибку или неточность. И здесь помогает сообщество, которое отмечает подозрительные статьи.

Нередко в результате действий Retraction Watch журнал отзывает статьи с фальсификациями. Здесь надо отметить, что следующий шаг в современной системе почти никогда не делают. Никто не проверяет другие статьи, которые проверяли эти же рецензенты, например. Даже если редактор в одном журнале обнаружит систематически недобросовестного рецензента, в других журналах об этом не узнают.

Взаимодействие ученых


В прошлый раз оживленную реакцию вызвала возможность комментирования научных статей. Раньше был распространен особый жанр публикаций Комментарий к статье. То есть один ученый писал небольшую заметку в журнал, где обсуждал статью других авторов. Это неплохая возможность научной дискуссии, но довольно медленная.

Сейчас я таких заметок почти не встречаю. На сайтах журналов бывает раздел с комментариями, но им почти никто не пользуется. Меня очень вдохновляет в этом отношении Хабр, так как здесь комментарии служат ценным источником дополнительной информации, развивающим идеи статьи. Понятно, что комментарии в научном журнале должны работать по-другому, но сама возможность публикации небольших экспериментальных статей или дискуссий востребована.

Как работают комментарии в журналах сейчас
В комментариях к первой части, Iamkaant упомянул очень показательный пример:
Вот в этой работе www.nature.com/articles/nature14295, в Nature, на секундочку, авторы показали, что между двумя слоями графена вода формирует квадратную решетку. Потом им указали, что то, что они видели с помощью электронного микроскопа, может быть растворенной в воде солью, которая кристаллизовалась между слоями графена. И образует как раз такую же квадратную решетку. Авторы написали комментарии к статье, что да, все так, никак опровергнуть не можем. Но статья отозвана не была и продолжает висеть в журнале и резюме авторов

На этом примере интересно посмотреть, как работают комментарии в журналах. Если вы пройдете по ссылке на сайт журнала, то найти комментарии будет не так-то просто. Они будут в самом низу, под списком литературы, описанием всех рисунков, технической информацией, конфликтом интересов и прочим. Не удивительно, что ими никто не пользуется. И кроме того журнал совсем никак не поощряет ученых общаться в комментариях.

Здесь надо учитывать, что большинство читателей статьи являются специалистами в той же области. Многие из них хотят использовать данные или экспериментальные подходы из статьи. То есть их мнение может быть ценным и для авторов, и для других читателей статьи. И сейчас ученые пользуются разными инструментами, чтобы обеспечить такую коммуникацию.

Вот важная причина для этого
Одна из моих коллег при обсуждении первой части поделилась со мной историей из жизни:
Однажды один рецензент написал отрицательную рецензию на наш обзор только на основе того, что мы цитируем и обсуждаем публикацию про которую все знают что она не воспроизводится. Публикация к слову цитируется несколько тысяч раз и за многие годы так и не получила опровержения. Под ней нет ни одного комментария! Спрашивается: если ты так сильно уверен что одно из ключевых исследований в твоей области это ерунда морально ли не делиться этими знаниями с другими людьми? Как мы должны об этом узнать?


Как ни удивительно, одной из самых популярных платформ остается Twitter. Ученые не только делятся ссылками на свои статьи, но и устраивают довольно большие обсуждения. Мне кажется, это не очень удобно (хотя бы из-за лимита числа символов), но платформа уже стала своеобразной соцсетью для ученых.

Но развиваются и более специализированные платформы. Наверно, самая известная социальная сеть для ученых ResearchGate. Это довольно удобный сайт с широким функционалом. Здесь можно выкладывать статьи и препринты, подписываться на обновления интересных вам ученых, создавать WIP проекты с еще не опубликованными экспериментами, писать комментарии к статьям. Есть также и система рейтинга, который складывается из публикаций, вопросов, ответов и числа подписчиков.

У Elsevier есть своя соцсеть для ученых на основе программы для работы со списками литературы Mendeley. На удивление, даже после покупки Elsevier программа остается бесплатной. Это достаточно удобный reference manager, но как социальной сетью я им не пользовался.

Каким я вижу журнал будущего


На самом деле, в названии этого раздела я вас обманул. Ничего особенно футуристичного в такой концепции нет. Я не предлагаю заменить ученых роботами для автоматического сбора данных или использовать блокчейн для защиты от фальсификации. Все, что я предлагаю использовать, уже существует и используется. Я лишь предлагаю объединить вместе работающие концепции.

Основная идея


Идея состоит в том, чтобы создать единый архив информации, куда авторы смогут выложить исследование на любую тему. При этом сочетающий достоинства научных журналов, но работающий (почти) автоматически!

Основой для системы будет служить программа такая, как JANE. Если вы не знакомы с подобными программами, а под рукой у вас есть короткий научный текст биомедицинской тематики, то рекомендую пройти по ссылке и попробовать ее. JANE ищет похожие статьи, а на основании этого подбирает подходящие журналы и указываетавторов, работающих по этой теме. Подробности описаны вот в этой статье.

Who is Jane?
Have you recently written a paper, but you're not sure to which journal you should submit it? Or maybe you want to find relevant articles to cite in your paper? Or are you an editor, and do you need to find reviewers for a particular paper? Jane can help!

Just enter the title and/or abstract of the paper in the box, and click on 'Find journals', 'Find authors' or 'Find Articles'. Jane will then compare your document to millions of documents in PubMed to find the best matching journals, authors or articles.


Мне кажется, что такая программа идеально подходит на роль автоматического редактора. Она сможет проверить тематические категории и ключевые слова, а также найти ревьюеров.

Автор статьи загружает манускрипт на сервер, программа находит подходящих рецензентов, отправляет им электронные письма. Рецензенты проверяют статью, выносят решение, отмечают статус статьи на сайте, а необходимые комментарии отправляют авторам. По результатам исправлений рецензенты разрешают публикацию статьи и выставляют ей оценку.

Таким образом, мы по цене архива препринтов получаем рецензируемый журнал!

Это не все функции, которые я бы хотел предложить, но это самая основная идея. К ней легко добавить дополнительный необходимый функционал. Давайте посмотрим, как может такой сервис выглядеть в подробностях.

Подробности


Замечания по формату


Сервис должен быть доступен всем, любые документы должны быть в открытом доступе.

Мне очень нравится концепция журнала F1000Research, которую я уже упоминал ранее. Поэтому сразу после загрузки текст становится доступен в виде препринта. При этом специально указывается, что рецензия еще не прошла. После рецензии статус статьи меняется на рецензированную статью.

Обычно, статья состоит из нескольких разделов, часто представляющих собой разные гипотезы, эксперименты или части работы. Мне кажется полезным добавить ключевые слова к таким разделам и даже отдельным экспериментам, чтобы упростить поиск по ним. Также стоит указывать авторов, которые этот эксперимент проводили и анализировали.

К каждому эксперименту указывается ссылка на использованные методы, которые описываются со ссылками на полные протоколы. Такие протоколы можно публиковать отдельно на специальных сайтах (например, protocols.io).

Все данные обязательно выкладываются на независимые сервисы. Ссылки связывают каждый эксперимент с конкретными файлами результатов.

Для большего контроля и воспроизводимости можно добавить требование открывать доступ к электронному лабораторному журналу по проекту (примером такого журнала может служить benchling). Сейчас это не требует никаких усилий, но может значительно уменьшить фальсификации, улучшить описание экспериментов. Однако электронные лабораторные журналы еще не стали стандартом, поэтому в данный момент требование может быть слишком строгим.

Указывать ссылки на другие статьи разных типов. То есть теперь не просто будут считаться цитирования статьи, а некоторые цитирования будут указаны как упоминания, некоторые как основа для исследования, а некоторые цитируются, чтобы указать на противоречия. Разные типы цитирования будут давать разный вклад в оценку цитируемой статьи. Упоминания и основные ссылки можно определять автоматически(по числу цитат в статье). Интересный подход к различным типам ссылок описан вот в этой статье, а я более подробно обсужу это ниже.

Добавить цитирование конкретных разделов статей (хотя бы для внутренних ссылок). То есть когда вы цитируете другую статью вы указываете, в каком разделе этой статьи находится нужная информация. Это значительно упростит поиск фактов в статье и верификацию источников литературы.

Регистрация


Читать статьи и комментарии могут все желающие. Но загружать статьи, писать комментарии и рецензии могут только зарегистрированные пользователи.

Для регистрации надо быть автором статьи в рецензируемом журнале или получить рекомендацию от ученого с публикациями. Такая система служит некоторой гарантией специалистов для возможности публикации.

Каждому участнику присваивается рейтинг. При регистрации рейтинг определяется на основе библиометрических показателей(число статей, цитирование, индекс Хирша).

Автоматический редактор и рецензия


Когда авторы загружают свою статью на сервер, система анализирует абстракт и подбирает ключевые слова и рецензентов. При подборе рецензентов учитываются их соавторы и аффилиации, чтобы избежать конфликта интересов.

Подбираются рецензенты с разным рейтингом, но не слишком низким. То есть система будет пытаться найти рецензента с высоким рейтингом и со средним. Поиск рецензентов проводится не только среди зарегистрированных пользователей, а среди всех ученых, имеющих публикации в базе данных.

Выбранные рецензенты получают электронные письма от журнала с предложением провести рецензию манускрипта. В письме приводится абстракт, ссылка на полный текст и ссылка на анонимный канал общения с авторами. Если рецензент принимает предложение, он читает статью и пишет свой отзыв авторам. Если отказывается, система ищет дальше.

Работа рецензента в данном случае отличается лишь выставлением оценки манускрипту по нескольким показателям. В остальном рецензент также описывает достоинства и недостатки статьи, предлагает дополнительные эксперименты. Отзыв рецензента сразу становится доступен авторам, они могут исправить статью и провести дополнительные эксперименты. В этом случае не нужно ждать ответов всех рецензентов, сразу авторы получают ответ сразу.

Все зарегистрированные пользователи могут писать пользовательские рецензии и оценивать статью. Эту оценку можно считать независимо от оценки выбранных ревьюеров, либо объединять их учитывая возможный конфликт интересов и рейтинг.

Рейтинг


Все зарегистрированные пользователи имеют рейтинг. Рейтинг набирается за статьи, в том числе в других журналах, за рецензии, за комментарии. В идеале, рейтинг должен быть полуавтоматический.

Важно, что все действия пользователей логируются и за каждое действие рейтинг пользователя может быть повышен или понижен. Например, рецензент получает баллы за каждую рецензию. Если рецензия оказалась необъективной или если была пропущена очевидная ошибка, рецензент получит минус в рейтинг. За хорошую рецензию получит дополнительные баллы в плюс. Как разбираются спорные случаи, возникающие при оценке статей, я опишу ниже.

Комментарии


Рецензия и ответы авторов на нее становятся первым уровнем комментариев. При этом рецензенты могут остаться анонимными или по своему желанию открыть свое имя.

Все зарегистрированные пользователи могут оставлять комментарии к любой статье. Это могут быть пользовательские рецензии, ветки свободной дискуссии, воспроизведение экспериментов (как успешные, так и неудачные), жалобы на недостаточно подробные методы и недоступные данные.

Такие жалобы могут быть полуавтоматическими оставить жалобу можно нажав кнопку и описав суть претензии. Авторы могут сами исправить такую ошибку, тогда их рейтинг не снижается. Если авторы не отвечают на жалобу, назначается дополнительный рецензент, а авторы и первоначальные рецензенты статьи теряют рейтинг.

Комментарии с отдельными экспериментами получают собственный идентификатор(doi) и могут быть проверены рецензентом. Авторы тоже могут публиковать дополнительные эксперименты к своей статье в виде комментариев. Это достаточно часто бывает полезно, так как эксперименты, не вписывающиеся в линию статьи, обычно не включают в манускрипт. Такая возможность позволит делать небольшие работы на основе статьи, которые не тянут на полноценную публикацию. Например, это может быть полезно для студенческих проектов.

Сеть


В таком варианте сервиса можно использовать все преимущества сетей с большим числом пользователей. Например вы сможете получать рекомендации о статьях, которые читают люди с такой же историей поиска.

Или подписаться на известного ученого. Тогда только пользуясь его оценками статей можно получить срез его мнения о опубликованных работах. То есть каждый ученый становится в некотором смысле редактором, но отбирает статьи после их публикации, а не до.

Кроме того, такая сеть взаимодействий позволяет находить конфликты интересов.

Разрешение конфликтов


Понятно, что в любой системе могу могут возникать конфликты. Это можно видеть и на примере войн правок в Википедии, и на других ресурсах. Для выявления и разрешения конфликтов можно использовать алгоритмы, но в некоторых случаях необходимо решение человека. Модераторы могут работать как на постоянной основе, так и быть волонтерами. Во втором случае активные пользователи с хорошим рейтингом могут получать сообщения с просьбой проверить определенную статью или комментарий. То есть они могут работать как рецензенты, но для решения конкретного вопроса.

Поиск конфликтов во многих случаях может быть автоматизирован. Можно рассмотреть несколько типичных вариантов возможного нарушения добропорядочности.

Противоборствующие школы бывают случаи, когда несколько групп придерживаются разных теорий и пытаются понизить оценку противоположной точки зрения.

Определить такую ситуацию можно по графу связей цитирований, оценок и аффилиаций. Противоборствующие группы будут представлены изолированными кликами в графе, а оценки статей друг друга будут противоположными. В таком случае можно помечтать оценки, комментарии и рецензии от другой группы специальной меткой просто так отбрасывать их нельзя, они могут содержать ценную информацию. Но и учитывать такие отзывы как беспристрастные тоже нельзя.

Друзья иногда бывает и обратная ситуация, коллеги или знакомые завышают оценки друг другу. Это тоже можно вычислить по графу связей и цитирований. Такие оценки также можно помечтать специальным тегом.

Жалобы. Как я уже писал в разделе про комментарии, на статью можно пожаловаться, если вы нашли в ней серьезный недочет. Это может быть недостаточно подробное описание методов, отсутствующий код или ссылки на данные, а может быть и более серьезная проблема манипуляция изображениями, фальсификации или лженаучные теории. Небольшая жалоба может быть исправлена автором без привлечения модератора. Серьезное нарушение рассматривается независимым модератором (или несколькими), которые выносят решение. В зависимости от этого решения меняется рейтинг авторов, рецензентов и комментатора.

Продвижение


В своем комментарии к первой части darksnake описал похожую систему. Он также поделился идеей способа продвижения такого журнала.
Именно как препринт архив. Их сейчас очень не много. На основе архива препринтов можно делать формальных журнал. Делать свой журнал с нуля не реально. А вот делать журнал на основе готовой базы публикаций вполне реально.

Мне кажется, что такая модель продвижения подходит и для описанной системы. Ведь с точки зрения пользователя от архива препринтов она отличается несильно. Дополнительных расходов на штат редакторов в этом случае тоже нет.

Немного фантазий
Но конечно, самый эффективный способ продвижения это запрос на публикацию от грантодателей. Если изменятся правила получения грантов, то ученые станут публиковаться в любой необходимой форме. Крупных грантодателей не так много в основном, это европейские и американские государственные организации. Если они создадут общую программу улучшения системы публикаций, то результат не заставит долго ждать.

Для меня ярким примером такого подхода является PubMed Central (PMC). Один из крупнейших американских грантодателей в области биологии и медицины National Institutes of Health (NIH) обязал всех ученых, получивших гранты NIH, выкладывать свои работы в открытом доступе в свой собственный архив. При этом авторы могут выбрать любой журнал для публикации, но полный текст будет в любом случае доступен в PMC.

Оплата работы рецензентов


Я описал вариант бесплатного сервиса и для читателей, и для авторов. Конечно, он требует некоторой суммы денег на поддержание и развитие инфраструктуры и прочие необходимые расходы. Однако за цену сервиса препринтов мы получим рецензируемый журнал.

В будущем можно добавить оплату труда рецензентов, например 100-200 евро за рецензию. Даже в таком случае общая стоимость для авторов будет сльно ниже средней цены публикации с открытым доступом. Возможны различные варианты: рецензенты могут получать оплату в зависимости от качества их рецензии и рейтинга. Оплата публикации в журнале может быть по схеме плати сколько можешь или любой другой, но в любом случае за гораздо меньшие деньги, чем сейчас стоит open access.

Проблемы


В обсуждениях данной системы, я встречал несколько потенциальных проблем. Давайте обсудим некоторые из них (я уверен, в комментариях напишут еще).

Слишком большая нагрузка на рецензентов


Существуют опасения, что без предварительного отбора редактором, рецензентам будет приходить слишком много статей. Мне кажется, что это решаемая задача.

Во-первых, несложно отслеживать сколько статей было отправлено каждому рецензенту и не отправлять новые, если их уже слишком много.

Во-вторых, есть достаточно большой резерв ученых, которым обычно не направляют статьи на рецензию постдоки и аспиранты. Часто, именно они рецензируют статьи в не очень крутые журналы, но они получают предложение от своего руководителя, который формально считается рецензентом статьи. Многие скептически относятся к рецензии статей учеными на начальных ступеньках карьеры, но мне кажется, что многие из них способны справиться с задачей не хуже, чем их старшие коллеги.

В-третьих, по моему опыту, далеко не все рецензенты полностью читают статьи перед тем, как отправить ее на рецензию. В таком случае, потенциальный рецензент и сам может принять решение брать статью или нет, прочитав абстракт и посмотрев картинки. Рецензент всегда может отказаться брать статью, если она ему неинтересна, если он не считает себя достаточно компетентным в нужной области или если у него нет времени.

В-четвертых, с решением этой проблемы должна помочь система рейтинга. Так, ученые с большим рейтингом могут получать преимущество в поисках рецензента. А рейтинг может отображаться даже при анонимном общении. И наоборот, пользователи с низким рейтингом будут ограничены в возможности отправки статей (например, не чаще одного раза в несколько месяцев), так как ранее они были замечены в подаче некачественных данных.

Затачивание статей под лайки


Это означает, что ученые будут максимально подстраивать свои статьи под любую введенную систему оценки. И если предложить оценивать статью условными лайками от других ученых, то статьи будут оптимизированы, чтобы больше этих лайков набрать. Это извечная проблема, она возникает в любой системе оценки. В комментарии к предыдущей части jungeschwiliупомянула эффект кобры и закон Гудхарта, которые очень хорошо описывают суть проблемы. Тем не менее, можно предложить несколько путей компенсации этого эффекта.

Во-первых, рейтинг не предполагается единственной мерой качества качества статьи. Я предлагаю лишь уйти от оценки с помощью импакт-фактора, а также добавить очевидную оценку рецензентов.

Во-вторых, автоматический поиск конфликтов интересов позволяет обойти заметную долю лайков от друзей или врагов автора, которые могут быть менее объективны.

В-третьих, оптимально иметь обратную связь если ученый недобросовестно оценивает статьи, то цена его оценки падает.

We need to go deeper


Микростатьи


Проблему, являющуюся предпосылкой этого пункта, я не разбирал в прошлый раз. Состоит она в том, как оценивать всех авторов статьи. В биологии принято считать первого автора самым важным, внесшим наибольший вклад в работу. Но градаций может быть очень много, разделить степень участия между большим числом авторов может быть непросто. Некоторые журналы просят прямо указать в конце статьи вклад авторов.

Однако есть более интересное решение. Если статью публиковать не как единое целое, а как набор отдельных экспериментов, то к каждому можно давать отдельный список авторов. А кроме того, можно цитировать не всю статью целиком, а только интересующие вас части.

Такая концепция дает еще ряд интересных преимуществ. Петр Лидский очень подробно описал концепцию и даже процесс перехода к ней вот в этой статье. Если вам интересен взгляд на один из вариантов развития журналов будущего, то очень рекомендую ознакомиться.

Интеграция полученной информации


Одна из самых важных проблем это даже не то, как лучше опубликовать научную статью, организация научного знания в целом. Ведь каждая статья это лишь крохотный кусочек огромного пазла, который мы пытается собирать без схемы.

Сейчас одним из немногих способов объединять разрозненные исследования служат обзоры. Их пишут ученые на основе разных экспериментальных работ. Однако, даже самые хорошие обзоры достаточно быстро устаревают, ведь новые статьи выходят каждую неделю.

В комментариях (раз, два) к предыдущей статье предлагали использовать формат wiki для постоянного обновления обзоров силами сообщества. На мой взгляд, это достаточно интересная идея. Более того, она в немного других вариантах уже применяется в различных базах данных. Однако и здесь есть куда развиваться.

Вот так моя коллега, Зоя Червонцева, описывает свой взгляд на проблемы научных публикаций:
Мне кажется, самая большая проблема с биологическими публикациями сейчас это бардак в смысловой части, а не в организационной. Есть много частных утверждений (белок А делает то-то в таких-то условиях), которые никак друг с другом не соотносятся. Обзоры пытаются закрывать эту потребность, но их не хватает. Идеальная система публикаций имхо должна в явном виде вписывать свои новые утверждения в некоторую структуру (граф?) предыдущего знания.

Отдельная сложность заключается в том, что многие утверждения сейчас вероятностные не белок А делает что-то, а белок А, возможно, согласно результатам нашего нового супер-навороченного протокола, с таким-то p-value связывается с этим сайтом в ДНК и так для тысячи сайтов в геноме. То есть получается даже не единица информации, а плотность вероятности информации)). Плюс, конечно, батч-эффект и баги в программах анализа это да, но кажется, что невоспроизводимость тут не так страшна, как то, что мы в принципе не умеем сейчас этот тип информации нормально интегрировать.

Сейчас подобную функцию выполняют различные базы данных. Но им еще далеко до идеала. Не говоря уж о том, чтобы создать структуру данных, описывающих сразу большой раздел науки. Однако я уверен, что это направление продолжить активно развиваться в ближайшем будущем.

Роль классических журналов в будущем


Понятно, что классические журналы не исчезнут в одночасье. Но это и не нужно. Они вполне могут работать параллельно с системой открытого доступа.

Например, они могут выбирать выдающихся ученых и заказывать им обзоры по различным областям знаний. Или заниматься научной журналистикой. Или более доступно излагать исследования для неспециалистов.

Небольшое заключение


Вот такие направления развития публикаций кажутся мне перспективными. Я думаю, что в ближайшем будущем даже такие прогнозы могут оказаться достаточно скромными в это области огромный потенциал для развития, и кто знает, какой формат представления информации окажется самым эффективным. Я лишь уверен, что нам необходимо развивать научные публикации и использовать доступные возможности.

Больше форматов хороших и разных


А вас я бы хотел поблагодарить за то, что вы дочитали эту статью, и пригласить к дискуссии в комментариях. Я уверен, что у вас есть интересные идеи, и буду рад их обсудить.

Благодарности


Большое спасибо Ольге Золотаревой за дискуссии и идеи для этой статьи. Спасибо Софье Камалян за помощь в проверке текста. Спасибо всем, кто принял участие в дискуссии по первой части статьи, особенно: Петру Лидскому, Надежде Воробьевой, Омару Кантидзе, Зое Червонцевой, Алексею Савчику. Пользователям Хабра: rg_software, Jerf, CactusKnight, qvan, technic, darksnake, nnseva, damewigit и многим другим. А также всем коллегам, с которыми обсуждали проблемы научных публикаций.

Первая часть статьи.
Подробнее..

Перевод Кризис воспроизводимости исследований в области искусственного интеллекта

02.12.2020 16:10:54 | Автор: admin

В исследованиях ИИ доминируют технологические гиганты, однако грань между реальными прорывами и рекламой коммерческого продукта постепенно размывается. Некоторые учёные считают, что пора это прекратить.




В прошлом месяце в журнале Nature опубликовали ругательный отзыв, подписанный 31 учёным. Им не понравилось исследование Google Health, ранее появившееся в этом же журнале. В нём компания Google описывала успешные результаты испытаний искусственного интеллекта (ИИ), искавшего признаки рака груди на медицинских фотоснимках. Критики утверждают, что команда Google предоставила так мало информации о коде и ходе испытаний, что исследование оказалось больше похожим на рекламное описание закрытой частной технологии.

Мы не могли это больше выносить, говорит Бенджамин Хайбе-Каинс, ведущий автор отзыва, изучающий вычислительную геномику в Торонтском университете. И дело не в этом конкретном исследовании мы уже много лет подряд наблюдаем подобную тенденцию, и это нас уже реально раздражает.

Хайбе-Каинс с коллегами принадлежат к растущему числу учёных, сопротивляющихся видимому отсутствию прозрачности в исследованиях ИИ. Увидев эту работу от Google, мы поняли, что это лишь ещё один пример из ряда восторженных публикаций в очень уважаемом журнале, не имеющих ничего общего с наукой, говорит он. Это больше реклама прикольной технологии. Мы с этим ничего сделать не можем.

Наука основывается на доверии, в том числе раскрытии деталей того, как ведутся исследования, достаточно подробном для того, чтобы другие могли повторить их и подтвердить полученные результаты. Именно так наука исправляет саму себя, и выкорчёвывает неподтверждённые результаты. Воспроизводимость позволяет другим основывать свою работу на этих результатах, что помогает двигать область знаний вперёд. Наука, которую нельзя воспроизвести, оказывается на обочине истории.

По крайней мере, теоретически. На практике мало какие исследования полностью воспроизводятся, поскольку большинству исследователей интереснее получать новые результаты, чем повторять старые. Однако в таких областях, как биология, физика, информатика, исследователи ожидают, что авторы дадут достаточно информации доля того, чтобы эти эксперименты можно было провести повторно даже если это и делается редко.

Амбициозный новичок


ИИ ругают по нескольким причинам. Во-первых, это новичок. Экспериментальной наукой он стал в последние лет десять так говорит Джоэль Пиньо, специалист по информатике из Facebook AI Research и университета Макгилла, соавтор жалобы. Сначала это была чисто теоретическая область, но теперь мы проводим всё больше экспериментов, говорит она. И наша приверженность строгой методологии отстаёт от амбициозности наших экспериментов.

Это не просто академическая проблема. Отсутствие прозрачности не позволяет как следует проверить новые модели и технологии ИИ на надёжность, отсутствие искажений и безопасность. ИИ быстро переходит из исследовательских лабораторий в реальный мир, что напрямую влияет на жизни людей. Однако хорошо работающие в лаборатории модели машинного обучения (МО) могут сломаться в реальном мире, что потенциально может привести к опасным последствиям. Воспроизведение результатов экспериментов разными исследователями в разных условиях быстрее вскроет возможные проблемы, что сделает ИИ надёжнее для всех.

ИИ и так страдает от проблемы чёрного ящика: иногда невозможно сказать, как или почему модель МО выдаёт именно такой результат. Отсутствие прозрачности в исследованиях только всё ухудшает. Большим моделям требуется как можно больше наблюдателей, чтобы большее число людей испытывало их и разбиралось в их работе. Именно так можно сделать использование ИИ в здравоохранении безопаснее, в обеспечении общественного порядка справедливее, в чатах вежливее.

Нормальной воспроизводимости ИИ мешают отсутствие трёх вещей: кода, данных и железа. В отчёте 2020 года "Состояние ИИ", проверенном ежегодном анализе ситуации в этой области, проводимом инвесторами Нэйтаном Бенайхом и Йеном Хогартом, указано, что кодом делятся лишь 15% исследований ИИ. Чаще плохо себя ведут исследователи из индустрии, чем учёные из университетов. В частности, в отчёте выделены компании OpenAI и DeepMind, которые меньше всего любят делиться своим кодом.

Отсутствие необходимых для воспроизводимости инструментов ощущается острее, когда речь заходит о двух столпах ИИ данных и железе. Данные часто хранятся в частных руках к примеру, данные, собираемые Facebook на своих пользователей, или оказываются чувствительными, как в случае с медицинскими карточками. Технологические гиганты проводят всё больше исследований на огромных и чрезвычайно дорогих компьютерных кластерах, доступ к которым есть у небольшого числа университетов или мелких компаний.

К примеру, обучение генератора языка GPT-3, по некоторым оценкам, обошлось OpenAI в $10-$12 млн и это только если учитывать последнюю модель, без учёта стоимости или разработки и обучения прототипов. Тогда эту цифру, вероятно, можно увеличить на один-два порядка, говорит Бенайх, основатель венчурной фирмы Air Street Capital, вкладывающейся в ИИ-стартапы. Крохотный процент крупных технологических фирм может себе такое позволить, говорит он: Никто больше не может разбрасываться такими огромными бюджетами на подобные эксперименты.


Гипотетический вопрос: у некоторых людей есть доступ к GPT-3, а у некоторых нет. Что будет, когда мы увидим появление новых работ, в которых GPT-3 используют люди, не относящиеся к проекту OpenAI, чтобы получить передовые результаты?
И главная проблема: выбирает ли OpenAI победивших и проигравших исследователей?


Скорость прогресса головокружительная. Каждый год публикуются тысячи работ. Однако если не знать, кому можно доверять, очень сложно продвигать развитие этой области. Воспроизведение позволяет другим исследователям проверять, что авторы не подбирали наилучшие результаты вручную, и что новые технологии действительно работают так, как описано. Всё сложнее отличить надёжные результаты от остальных, говорит Пиньо.

Что тут можно сделать? Как и многие другие исследователи ИИ, Пиньо делит своё время между университетом и корпоративными лабораториями. В последние годы она активно влияла на систему публикации исследований ИИ. К примеру, в прошлом году она помогла продвинуть список пунктов, которые исследователи обязаны обеспечить в работе, подаваемой на одну из крупнейших ИИ-конференций, NeurIPS. В него входят код, подробное описание экспериментов.

Воспроизводимость ценна сама по себе


Пиньо также помогла запустить несколько конкурсов по воспроизводимости, в которых исследователи пытаются воспроизвести результаты опубликованных исследователей. Участники выбирают работы, принятые на конференциях, и соревнуются друг с другом, запуская эксперименты на основе предоставленной информации. Правда, в награду они получают только признание.

Отсутствие мотивации не способствует распространению подобных практик во всех областях исследований, а не только в ИИ. Воспроизведение вещь необходимая, но она никак не поощряется. Одно из решений такой проблемы привлекать к этой работе студентов. В последние пару лет Розмари Ке, кандидат наук из Mila, исследовательского института в Монреале, основанного Йошуа Бенджио, организовала конкурс воспроизводимости, в рамках которого студенты пытаются в рамках обучения воспроизводить исследования, поданные на NeurIPS. Некоторые из успешных попыток рецензируются и публикуются в ReScience.

Воспроизведение чужой работы с нуля требует больших усилий, говорит Ке. Конкурс воспроизводимости вознаграждает эти усилия и отдаёт должное людям, хорошо выполняющим задачу". Ке и другие рассказывают об этих попытках на конференциях ИИ, организовывая рабочие семинары, поощряющие исследователей добавлять прозрачности в свои работы. В этом году Пиньо и Ке расширили свой конкурс уже на семь крупнейших ИИ-конференций, включая ICML и ICLR.

Ещё один проект, продвигающий прозрачность, называется Papers with Code [Работы с кодом]. Его организовал исследователь ИИ Роберт Стойник, когда работал в Кембриджском университете. Сейчас они с Пиньо вместе работают в Facebook. Сначала проект запустился в виде отдельного веб-сайта, на котором исследователи могли ставить ссылки с их работ на использовавшийся в них код. В этом году проект скооперировался с популярным сервером для препринтов arXiv. С октября все работы по машинному обучению, публикуемые на arXiv, имеют раздел Papers with Code, откуда идёт ссылка на код, который авторы работы готовы опубликовать. Цель проекта сделать распространение такого кода нормой.

Влияют ли на что-нибудь эти попытки? Пиньо обнаружила, что в прошлом году, когда появился список необходимых компонентов, количество содержащих код работ, отправленных на конференцию NeurIPS, выросло с 50% до 75%. Тысячи рецензентов говорят, что использовали код для оценки присланных работ. Количество участников конкурса воспроизводимости растёт.

Дьявол в деталях


Но это только начало. Хайбе-Каинс указывает, что одного только кода часто недостаточно для повторного запуска эксперимента. Для построения ИИ-моделей приходится вносить множество мелких изменений добавить параметр там, значение тут. Любой из них может сделать рабочую модель нерабочей. Без метаданных, описывающих, как модели обучают и подстраивают, код может быть бесполезным. Дьявол действительно в мелочах, говорит он.

Также не всегда понятно, какой код нужно распространять. Многие лаборатории используют особые программы для запуска моделей. Иногда это частное закрытое ПО. Также иногда сложно сказать, какой частью кода нужно поделиться, говорит Хайбе-Каинс.

Пиньо не особенно волнуют такие препятствия. Стоит ждать большой пользы от распространения кода, говорит она. Данными делиться сложнее, однако и тут есть решения. Если исследователи не могут поделиться данными, они могут дать инструкции по самостоятельному сбору подходящего набора данных. Или можно организовать доступ к данным небольшому количеству рецензентов, которые подтвердят результаты для всех остальных, говорит Хайбе-Каинс.

Самая большая проблема с железом. DeepMind заявляет, что крупнейшие проекты типа AlphaGo или GPT-3, на которые тратят деньги большие лаборатории, в конце концов пойдут на пользу всем. Недоступный другим исследователям на ранних этапах ИИ, требующий огромных вычислительных мощностей, в процессе разработки часто становится более эффективным и более доступным. AlphaGo Zero опередила предшественника AlphaGo, используя гораздо меньше вычислительных ресурсов, говорит Корай Кавукчуоглу, вице-президент по исследованиям в DeepMind.

В теории это значит, что даже если воспроизвести исследование получится с опозданием, это всё равно будет возможно. Кавукчуоглу отмечает, что Жан-Карло Паскутто, бельгийский программист из Mozilla, пишущий в свободное время программы, играющие в шахматы и го, смог воспроизвести вариант AlphaGo Zero, назвав его Leela Zero, используя алгоритмы, описанные в работах DeepMind. Пиньо также считает, что такие флагманские исследования, как AlphaGo и GPT-3, встречаются редко. Она говорит, что большинство исследований в области ИИ работают на компьютерах, доступных средней лаборатории. И такая проблема не уникальная для ИИ. Пиньо и Бенайхом указывают на физику частиц, в которой некоторые эксперименты можно проводить только на таком дорогостоящем оборудовании, как Большой адронный коллайдер.

Однако эксперименты по физике проводятся на БАК несколькими лабораторями совместно. А крупные эксперименты с ИИ обычно проводятся на оборудовании, принадлежащем и контролируемом частными компаниями. Но Пиньо говорит, что и эта ситуация меняется. К примеру, группа Compute Canada собирает вычислительные кластеры, чтобы дать университетам возможность проводить крупные эксперименты с ИИ. Некоторые компании, в том числе и Facebook, предоставляют университетам ограниченный доступ к своему оборудованию. Ситуация не полностью решена, говорит она. Но некоторые двери начинают открываться.


Редактируя или рецензируя рукопись, требуйте открыть общий доступ к соответствующему коду. Для науки это необходимость. Несмотря на отговорки Google, утаивающей код и подробности моделей, если бы в журнале Nature заявили, что не будут публиковать работу без этих подробностей, то в Google что-нибудь бы придумали.
Будем честны: следовать полезным практикам, делиться кодом, данными и другими материалами бывает неудобно для любых авторов (хотя некоторые практики могут облегчить эту задачу). Однако для развития науки это необходимо. Коммерческим предприятиям это не должно сходить с рук.


Хайбе-Каинс сомневается. Когда он попросил команду Google Health поделиться кодом от своего ИИ, ставящего онкологические диагнозы, ему сказали, что код ещё нужно дополнительно тестировать. Это же оправдание команда повторяет в формальном ответе на критику Хайбе-Каинса, также опубликованную в журнале Nature. Мы собираемся подвергнуть наши программы всесторонним проверкам, перед тем, как начать использовать их в клинических условиях, работать вместе с пациентами, поставщиками услуг и регуляторами, чтобы всё работало эффективно и безопасно. Также исследователи заявили, что им не разрешено делиться всеми медицинскими данными, которые они используют.

Так не пойдёт, говорит Хайбе-Каинс. Если они хотят сделать из этого коммерческий продукт, то я понимаю, почему они не хотят раскрывать всю информацию. Однако он считает, что если вы публикуете работу в научном журнале или на конференции, ваш долг опубликовать код, который могли бы запустить другие. Иногда можно выпустить версию, обученную нам меньшем количестве данных, или использующую менее дорогое оборудование. Результаты, возможно, получатся хуже, но люди смогут с ними повозиться. Граница между изготовлением коммерческого продукта и исследованием постоянно размывается, говорит Хайбе-Каинс. Думаю, что эта область знаний в итоге проиграет.

От исследовательских привычек тяжело отказаться


Если компании критикуют за публикацию работ, зачем вообще этим заниматься? Частично, конечно, дело в связях с общественностью. Однако в основном это нужно потому, что в лучших коммерческих лабораториях полно исследователей из университетов. В какой-то мере культура таких мест, как Facebook AI Research, DeepMind и OpenAI формируется традиционными академическими привычками. Также технологические компании выигрывают, участвуя в широком исследовательском сообществе. Все крупные ИИ-проекты в частных лабораториях строятся на множестве результатов, полученных опубликованными исследованиями. И мало какие исследователи ИИ не пользовались инструментами для МО с открытым кодом, типа PyTorch от Facebook или TensorFlow от Google.

Чем больше исследований будет проводиться в компаниях технологических гигантах, тем больше придётся решать компромиссов между требованиями бизнеса и исследований. Вопрос в том, как исследователи будут решать эти проблемы. Хайбе-Каинс хотел бы, чтобы журналы типа Nature разделяли свои публикации на отдельные потоки воспроизводимые исследования и демонстрация технических достижений.

Пиньо оптимистичнее смотрит в будущее. Я бы не работала в Facebook, если бы тут не было открытого подхода к исследованиям, говорит она.

Другие корпоративные лаборатории также настаивают на приверженности к открытости. Научная работа требует тщательного изучения и воспроизводимости со стороны других исследователей, говорит Кавукчуоглу. Это важнейшая часть подхода к исследованиям у нас в DeepMind.

OpenAI выросла в нечто очень не похожее на традиционную лабораторию, говорит Кайла Вуд, представитель компании. Естественно, к ней возникают вопросы. Она отмечает, что OpenAI работает с более чем 80 коммерческими и академическими организациями в рамках инициативы Partnership on AI, чтобы подумать о долгосрочных нормах публикации исследований.

Пиньо считает, что в этом что-то есть. Она считает, что компании, изучающие ИИ, демонстрируют третий способ проведения исследования, где-то между двумя потоками Хайбе-Каинса. Она сравнивает интеллектуальные результаты работы частных ИИ-лабораторий с фармацевтическими компаниями последние вкладывают миллиарды в разработку лекарств, и большую часть результатов оставляют себе.

Долгосрочное влияние практик, внедрённых Пиньо и другими, ещё предстоит проследить. Изменятся ли привычки насовсем? Как это повлияет на использование ИИ вне исследований? Многое зависит от того, в каком направлении пойдёт ИИ. Тенденция к увеличению моделей и наборов данных которой придерживается, к примеру, OpenAI будет поддерживать ситуацию, в которой передовые варианты ИИ будут недоступными для большинства исследователей. С другой стороны, такие новые технологии, как сжатие моделей и обучение за несколько итераций [few-shot learning] может прервать эту тенденцию и позволить большему количеству исследователей работать с менее крупными и более эффективными ИИ.

Так или иначе, крупные компании продолжат доминировать в исследованиях ИИ. И если всё сделать правильно, в этом не будет ничего плохого, говорит Пиньо: ИИ меняет систему работы исследовательских лабораторий. Главное убедиться, что у более широкой общественности есть шанс поучаствовать в исследованиях. Поскольку вера к ИИ, от которого зависит многое, начинается с передовых рубежей.
Подробнее..

Перевод Лучшие экспериментальные протоколы для исследования реального мира

24.04.2021 16:07:19 | Автор: admin

Золотым стандартом исследований в области машинного обучения служит последовательная модель эксперимента: у вас есть базовый уровень, ваш эксперимент и фиксированный, заранее определённый набор тестов. Вы оцениваете свой базовый уровень на наборе тестов, получаете базовое значение. Затем вы выполняете свой эксперимент на наборе тестов и получаете другое значение. Затем вы сравниваете эти два результата. Допустим, вы публикуете все эти артефакты и предположительно любой может воспроизвести данные результаты. Это пример хорошей науки. Но я люблю невоспроизводимые исследования. И вот почему.


Воспроизводимость всегда была краеугольным камнем научного прогресса и предметом многочисленных семинаров и призывов к действию, особенно в области машинного обучения. Хотя попытки улучшить воспроизводимость результатов исследований, как правило, полностью оправданы и явно полезны для общества, они сопряжены с риском закрепления этой очень узкой модели точной воспроизводимости в качестве единственно приемлемого стандарта.

В академических кругах машинного обучения мало ценят то, что не все исследования могут позволить себе роскошь идеальной воспроизводимости по очень фундаментальным причинам и что, тем не менее, существуют научно обоснованные способы достижения статистической воспроизводимости при правильной разработке своего экспериментального протокола. Я считаю, что нам нужно улучшить собственное образование в рамках сообщества в целом, особенно в тех областях, где предмет исследования реальная производительность, например, для таких исследований робототехники, которые проводятся в моей лаборатории.

Для многих экспериментов, выполненных в Google, нет идеальной воспроизводимости, потому что фундаментально они связаны с оценкой влияния моделей на реальный мир. А реальный мир постоянно меняется: взаимодействие пользователей с системой существенно зависит от суточного цикла, смены времён года, мировых событий или ещё более неуловимых долгосрочных социальных тенденций. Ещё важнее то, что в результате изменений в самих моделях меняются пользовательские шаблоны.

Если вы заботитесь о влиянии своей модели на реальный мир, то для такого случая нет набора тестов.

Вы не можете проводить свои эксперименты последовательно (оценить базовый уровень в один день, а эксперимент провести на следующий), потому что мир уже изменился за это время, и ваши значения не сопоставимы. Вы также не можете сохранить вчерашний набор тестов, потому что ваши данные эволюционируют вместе с вашей моделью: если ваша модель предлагает пользователям набор результатов поиска, а показатель качества служит оценкой выбора их пользователями, невозможно вернуться к вчерашним пользователям и спросить их о том, что бы они сделали, если бы получили другой набор результатов.

Лекарством от этого стало параллельное проектирование эксперимента, иначе известное как A/B-тестирование. Для каждого экземпляра теста вы случайным образом выбираете выполняемую ветвь эксперимента: оценку базового уровня или эксперимент. Эта простая обработка отменяет любую изменчивость из-за лежащих в основе изменений распределения и позволяет получить статистически эффективные результаты, даже если ваша схема оценки находится в состоянии постоянного изменения.

И это приводит нас к самому большому непониманию A/B-тестирования и его пользы в качестве научного инструмента: оно часто используется, например, в UX-дизайне, чтобы узнать, влияют ли небольшие изменения компоновки сайта на переходы пользователей или могут ли тонкие изменения затенения сделать рекламу более привлекательной. В результате оно приобрело репутацию инструмента улучшения доверительных интервалов для очень малых эффектов. И поскольку исследователи машинного обучения относятся к доверительным интервалам в лучшем случае как к вынужденному допустимому отклонению, фактическая значимость А/В-тестирования для исследований в области машинного обучения обычно упускается из виду.

Параллельное A/B-тестирование целиком относится к тестированию больших эффектов, особенно когда нет возможности жёсткого контроля схемы оценки.

Мои коллеги недавно наглядно продемонстрировали это в контексте исследований робототехники. Как известно, в робототехнике очень сложно создать воспроизводимую схему оценки: роботы меняют положение, оборудование, объекты изнашиваются, меняется освещение, операторы роботов тонким образом влияют на то, как данная схема сбрасывается после каждого эксперимента. Печально известная проблема сброса, в частности, очень сложна, потому что создание хорошего протокола сброса, который возвращает настройку вашего робота в известное фиксированное состояние, может быть столь же трудным, как и запуск эксперимента в первую очередь.

Они взяли одну из наших простейших установок, задачу захвата идентичных пенопластовых кубиков внутри бункера, и измерили воспроизводимость этой идеально контролируемой среды.

Простая установка захвата с помощью робота. Источник: Robotics at Google (Робототехника в Google)Простая установка захвата с помощью робота. Источник: Robotics at Google (Робототехника в Google)

Они за несколько дней последовательно провели 11 экспериментов по захвату и измерили вероятность успеха и доверительные интервалы для каждого из них. Результаты, нормированные по отношению к производительности базового прогона, показаны ниже:

Изменчивость в идентичных экспериментах. Источник: Robotics at Google (Робототехника в Google)

Если бы каждому эксперименту соответствовала другая модель, мы бы сказали, что эксперимент 7 примерно на 2% лучше, а эксперимент 5 примерно на 5% хуже. И у нас бы даже были достаточно жёсткие доверительные интервалы, чтобы убедить вас в этом. Но здесь не было никаких различий между экспериментами, все они были идентичными. Обратите внимание, что это не случай отсутствия данных: большее количество данных будет только сокращать доверительные интервалы, а не перемещать их положение относительно базового уровня. Такая необъяснимая изменчивость целиком попадает в неизвестные неизвестные окружающей среды. И эта установка так же проста, как и для реального эксперимента с роботом: во многих статьях по робототехнике сообщается об экспериментах с последовательной обработкой и гораздо большим потенциалом необъяснимой изменчивости, чем этот. Что ещё важнее, если бы мы не измерили эту повседневную изменчивость, мы бы даже не догадались о её существовании. Очень немногие исследователи когда-либо задумывались об измерении внутренней изменчивости в их экспериментальной установке в первую очередь, потому что, давайте посмотрим правде в глаза: так это работает, и из этого направления исследований могут поступать только плохие новости.

Урок здесь заключается в том, что при использовании этого конкретного экспериментального протокола мы определённо не можем доверять любой разнице производительности ниже 10% я даже не знаю, доверял бы ли я разнице в 10% без большой повторной проверки. Неужели это безнадёжно? Конечно, нет. Введите параллельное тестирование.

Только избавившись от иллюзии идеальной воспроизводимости, вы сможете наслаждаться восхитительной свободой статистической воспроизводимости и по-прежнему заниматься наукой с гораздо более высокой эффективностью данных в качестве бонуса.

Вот три дня одного и того же эксперимента, но на этот раз базовый уровень оценивался параллельно с экспериментом, случайным образом выбранным в каждом эпизоде.

Изменчивость в параллельных идентичных экспериментах. Источник: Robotics at Google (Робототехника в Google)Изменчивость в параллельных идентичных экспериментах. Источник: Robotics at Google (Робототехника в Google)

Теперь обратите внимание, насколько последовательны числа, говорящие вам, что на самом деле нет никакой разницы между базовым уровнем и экспериментом. Нейтральные А/А-эксперименты, подобные этому, самый жёсткий статистический тест, и любой эксперимент, который действительно влияет на производительность, смог бы выдать чёткий сигнал.

Это было выполнено без каких-либо изменений в экспериментальной установке, только с немного другим экспериментальным протоколом.

Итак, почему же все не делают так? Давайте рассмотрим некоторые из этих задач.

Одно из распространённых заблуждений заключается в том, что, поскольку необходимо снова и снова оценивать базовый уровень для каждого эксперимента, нужно в два раза больше оценочных данных. Это неверно, как только есть некоторая изменчивость в вашей установке: выигрыш в статистической эффективности, который получается от постоянной оценки базового уровня, может составлять порядка величины данных или бесконечное количество данных в худшем случае, как мы видели выше. Есть хитроумные способы получения ещё большей эффективности данных с помощью перекрывающихся экспериментов вероятно, это самая недооценённая исследовательская работа, вышедшая из стен Google, но создание правильных инструментов для этой работы требует гораздо больше усилий, чем большинство исследователей, вероятно, готовы приложить при изучении этой проблемы.

Один из недостатков заключается в том, что ваша базовая оценка всегда должна быть работоспособной, предпочтительно выраженной в том же двоичном файле, что и ваш эксперимент, и поддерживать переключение на лету. Это, несомненно, требует работы и тщательного проектирования программного обеспечения. Преимущество этого заключается в том, что вы также защищаете себя от случайной деградации данных, когда какой-то сотрудник случайно изменяет что-то в вашем проекте, что влияет на базовую производительность, и вы этого не замечаете. Такое происходит с предсказуемой регулярностью в любой общей кодовой базе. Многие изменения в системе незначительны, влияют на исходную производительность тонкими способами и в конечном счёте не имеют отношения к рассматриваемому научному вопросу. Отсутствие необходимости всё это контролировать это абсолютная свобода.

Одно из очевидных преимуществ этой установки заключается в возможности контролировать свои доверительные интервалы на лету. Вы можете решить прекратить эксперимент, убедив себя, что он даёт даже немного отрицательный результат. Часто требуется гораздо меньше данных, чтобы убедиться в этом. Если эксперимент даёт положительный результат отлично! Просто выполняйте его, пока не получите правильные величины ошибок. А если вы измеряете не величину эффекта, а просто значимость, вы также можете остановить эксперимент раньше.

Но что можно сказать о том, чтобы сделать исследование воспроизводимым другими? Вы по-прежнему можете публиковать базовые и экспериментальные модели, а также экспериментальный протокол, а каждый может генерировать собственные данные о своей воспроизводимой системе, чтобы убедиться в достоверности полученных результатов. Напомним, что допущение здесь заключается в том, что использованные данные не могут быть повторно использованы либо потому, что они по своей сути эфемерны, либо не переносятся на любой будущий экземпляр той же исследовательской установки.

Ещё одно ключевое преимущество параллельного тестирования защита от ряда предвзятостей, главная из которых предвзятость экспериментатора: так как вы не можете знать, какая выборка данных в какую ветвь эксперимента направляется, вы не можете обманывать себя, полагая, что один результат лучше другого. Оно также защищает вас от случайной настройки на тестовый набор, так как в оценке присутствует определённый уровень стохастичности.

Ещё одна предвзятость, более характерная для укрепляющего обучения и робототехники, это несовершенные сбросы: если одна ветвь эксперимента заставляет механизм сброса вести себя немного иначе, чем другая, возможны тонкие различия, которые останутся незамеченными. Мы видели, как RL-системы манипулируют своей средой, чтобы получить определённые состояния сброса и, следовательно, повысить свои шансы на успех в последующих эпизодах или даже передать информацию между эпизодами таким образом.

Фактически протоколы параллельных экспериментов часто способны значительно уменьшить или устранить необходимость в сбросах в первую очередь: если ваша система завершает каждый эпизод в допустимой части пространства состояний, так как нет способа узнать, какая ветвь эксперимента привела к этой конкретной конфигурации среды, вы часто можете проводить пожизненные эксперименты без сброса и без предвзятости в отношении ветвей эксперимента.

Абсолютная изменчивость для идентичных базовых уровней. Источник: Robotics at Google (Робототехника в Google)Абсолютная изменчивость для идентичных базовых уровней. Источник: Robotics at Google (Робототехника в Google)

Одна из главных вещей, от которой вы отказываетесь, это комфорт иметь одну аккуратную пару результатов с базовой точностью и точностью испытаний, которые бы вы записали на бумаге и которые бы ожидал каждый академический рецензент. У каждого эксперимента имеется собственный базовый уровень, который, в свою очередь, имеет собственный доверительный интервал. Ваш абсолютный показатель точности испытаний зависит от дня выполнения измерения, но он всё ещё совершенно надёжен, поскольку каждый раз оценивается статистическая значимость измеренных различий между ветвями.

Тем не менее для рецензентов, принимающих эту реальность, барьер остаётся огромным. Переход от абсолютных, воспроизводимых истин к относительным, статистическим истинам вызывает дискомфорт. Это то, что во многих научных областях, таких как разработка лекарств, сделано по необходимости, но это всё ещё чуждо машинному обучению, где обычно нет необходимости отступать к комфорту автономных оценок. Проблема с этой институциональной аллергической реакцией на эксперименты с реальными системами, сбросившими видимость идеальной воспроизводимости, заключается в том, что в таких областях, как робототехника, реальная производительность на самом деле стала научным сферическим конём в вакууме и что академические практики, которые работают против этих в остальном твёрдых научных протоколов, активно сдерживают нас. Проводить эксперименты в реальном мире трудно, рискованно, а с академическими препонами для такого рода исследований следует бороться на каждом шагу.

Слишком много нашей коллективной энергии в этой области тратится на попытки придумать новые, цельные, совершенные эталонные тесты, которые чрезвычайно трудно построить, в несколько донкихотском стремлении сделать робототехнику более похожей на исследования в области машинного обучения. Конечный результат заключается в том, что, за очень редкими исключениями, большая часть усилий в этом направлении сводится к моделированию эталонных тестов и отказу от реалистичности ради воспроизводимости. У таких усилий всё ещё много достоинств, но они составляют только около половины уравнения, и часто сама цена их создания отвлекает исследователей от реальных научных поисков. Другие пытались определить метаэталонные тесты, обходя проблему воспроизводимости, не определяя задачу или экспериментальный протокол в точности в первую очередь. Как человек, который своевольно относится к протоколам и тщетности чрезмерной специализации проблемы, я думаю, что это позитивное общее направление, даже если оно откладывает обсуждение большей части сложных аспектов фактического исполнения.

Для нас в области машинного обучения и робототехники настало время использовать те простые инструменты, которые делают невоспроизводимые исследования воспроизводимыми и научно обоснованными. Ни один из протоколов, которые я описываю здесь, не является особенно трудным для реализации, но они обещают улучшить реальную науку, упростить её и ускорить. А если вы хотите ускорить свой прогресс в области machine learning или data science приходите учиться к нам, а наши опытные менторы пояснят все сложные моменты, на которые при самообразовании вы бы потратили ценное время.

Узнайте, как прокачаться и в других специальностях или освоить их с нуля:

Другие профессии и курсы
Подробнее..

Категории

Последние комментарии

  • Имя: Макс
    24.08.2022 | 11:28
    Я разраб в IT компании, работаю на арбитражную команду. Мы работаем с приламы и сайтами, при работе замечаются постоянные баны и лаги. Пацаны посоветовали сервис по анализу исходного кода,https://app Подробнее..
  • Имя: 9055410337
    20.08.2022 | 17:41
    поможем пишите в телеграм Подробнее..
  • Имя: sabbat
    17.08.2022 | 20:42
    Охренеть.. это просто шикарная статья, феноменально круто. Большое спасибо за разбор! Надеюсь как-нибудь с тобой связаться для обсуждений чего-либо) Подробнее..
  • Имя: Мария
    09.08.2022 | 14:44
    Добрый день. Если обладаете такой информацией, то подскажите, пожалуйста, где можно найти много-много материала по Yggdrasil и его уязвимостях для написания диплома? Благодарю. Подробнее..
© 2006-2024, personeltest.ru