Русский
Русский
English
Статистика
Реклама

Публикации

Перевод Мы стоим на пороге кризиса Фальшивой науки

20.06.2021 14:08:21 | Автор: admin


Журналы все чаще отзывают научные статьи, потому что оказывается, что написаны они не теми, кем заявлено. Необходимо выработать более эффективные способы решения проблемы, в противном случае мы рискуем полностью утерять общественное доверие к науке.

Занятие наукой подразумевает поиск знаний об окружающем мире при помощи строгой логики и проверки каждого предположения. По результатам таких поисков исследователи описывают важные открытия в работах и отправляют их издателям для возможной публикации. После экспертной оценки, в ходе которой другие ученые подтверждают достоверность изложенного материала, журналы публикуют работы для ознакомления с ними общественности.

В связи с этим многие небезосновательно верят, что опубликованные работы весьма надежны и отвечают высоким стандартам качества. Вы можете ожидать встретить какие-то незначительные оплошности, упущенные в процессе ревью, но явно не крупные нестыковки. Ведь все-таки это наука!

Как ни печально, но в подобном предположении вы ошибетесь. Реальная и точная наука существует, но и в этой области наблюдается тревожное количество фиктивных исследований. Причем за последние несколько лет их объем увеличивается с невероятной скоростью, о чем свидетельствует все более частый отзыв научных статей от публикаций.

Фиктивная наука
На данный момент практикуется ряд приемов, которые угрожают подрывом легитимности научных исследований в целом. К ним относятся выдумывание авторов, а также указание соавторства никак не связанных с исследованием ученых и даже более гнусные приемы вроде заваливания журналов материалами из низкосортного бреда, сгенерированного ИИ.

Этот процесс аналогичен отзыву товаров в магазинах. Если ранее проданный товар по какой-то причине оказался плох или опасен, то магазин обязан отозвать его и попросить покупателей его не использовать. Таким же образом журнал может отозвать опубликованную работу, которая в ретроспективе оказалась фиктивной.

Конечно же, иногда статьи отзываются по причине искренней ошибки автора. Однако более, чем в половине случаев причиной оказываются академические нарушения или откровенная подделка. Вплоть до начала последнего десятилетия подобные явления обычно ограничивались фальсификацией исследователями экспериментальных данных или искажением результатов экспериментов в угоду их теории. Однако, чем больше усложняется технологический мир, тем более запутанными становятся и средства мошенничества в нем.

Одним из простых решений может стать простое игнорирование ложных работ. Но проблема в том, что их, как правило, сложно определить. К тому же, каждый отзыв статьи из публикации в некоторой степени губит репутацию журнала. А если такое будет происходить регулярно, то и общественная вера в научные исследования сойдет на нет. Следовательно, научное сообщество должно уделить этой проблеме серьезное внимание.

Camille Nos


Часть этой проблемы смоделирована намеренно. К примеру, Camille Nos никак не связано с ИИ, но все равно заслуживает упоминания. Созданное в марте 2020 года, Nos уже выступило соавтором более, чем 180 работ в таких разносторонних областях, как астрофизика, компьютерная наука и биология.

Я использовал оно, потому что Nos не является реальным человеком. На деле это псевдо-личность, созданная французским движением в защиту науки RogueESR. В качестве первого имени было взято французское гендерно-нейтральное Camille, а в качестве фамилии слияние греческого слова , означающего разум/познание, и французского слова nous, означающего мы.

Nos была создана в ответ на новый, вызвавший бурную критику, закон (источник на французском) по реорганизации академических исследований во Франции. Несмотря на то, что задачей закона было улучшение исследовательской деятельности, его противники считают, что ввиду устанавливаемых им требований рабочие места ученых окажутся в шатком положении и будут зависеть от внешнего финансирования. В частности, согласно новому закону, финансирование ученых должно соответствовать их прежним заслугам, хотя открытия, как правило, совершаются на уровне сообщества коллективно.

Чтобы открыто обозначить эту проблему, многие исследователи выбрали добавлять в качестве соавторов Nos. Однако журналы и научные рецензенты, которые отвечали за проверку таких работ, не всегда ставились в известность о том, что Nos реальным человеком не является.

Несмотря на то, что исследовательская составляющая этих работ пока что внушает доверие, здесь возникает обеспокоенность тем фактом, что в качестве соавтора можно легко добавить псевдо-личность, у которой даже нет удостоверения. Безусловно сама затея подчеркивать общественные усилия такими авторами, как Nos является похвальной, но мысль о том, что сегодня ученых можно буквально рожать из воздуха, весьма настораживает.


Усилия сообщества должны быть стандартизированы, но пока для этого нет системы

Указание авторов там, где они не участвовали


Тем не менее проблема проявляется не только в недостатках системы экспертной оценки и научной среды. Случаи фейкового соавторства особенно участились в работах по теме ИИ. Это мошенничество включает практику внесения в соавторы широко известных ученых, даже без их уведомления или согласия. Еще один способ это добавление фиктивного соавтора, такого как Camille Nos, но уже с целью симулирования международного сотрудничества или вызова более широкого научного дискурса.

Помимо привнесения иллюзии международного сотрудничества, указание фиктивных авторов с респектабельными именами может повысить авторитетность работы. Многие ученые, прежде чем читать или цитировать таких авторов в своей работе, будут искать их имена в Google. При этом участие в соавторстве сотрудника престижного института может подтолкнуть их к более пристальному изучению работы, особенно если она еще не проходила экспертное ревью. Престиж института в таком случае может служить неким заместителем достоверности на период оценки работы экспертами. А на такую оценку порой уходят долгие месяцы.

Сложно сказать, сколько лже-авторов на текущий момент уже внесено в публикации. Одна из причин в том, что некоторые ученые могут предпочесть игнорировать указание собственной фамилии в работе, которую они не писали. Это особенно верно для случаев, когда содержимое такой работы нельзя назвать плохим (как и хорошим), а на судебные разбирательства может уйти много денег и времени. Более того, сейчас не существует ни одного стандартного метода для проверки идентичности ученого перед публикацией его работы, что позволяет фиктивным авторам проскальзывать налегке.

Все эти проблемы показывают необходимость внедрения процесса верификации ID. Официально ничего подобного мы на данный момент не имеем, и это должно быть стыдно. В эпоху, когда каждый банк может верифицировать ваш ID онлайн и сопоставить его с лицом на вашей веб-камере, наука даже не способна защитить от мошенничества своих наиболее ценных участников.


Когда речь идет о написании научных работ, то путь мысли старого-доброго человеческого ума пока еще превосходит налучший ИИ

Алгоритмы плохие писатели


В 1994 году физик Алан Сокал решил написать фейковую статью по какой-то гуманитарной теме и отправить ее в журнал. Статью приняли, хотя никто, включая самого автора, не понял, о чем она была. Это не только смехотворно, но также показывает, насколько рецензенты могут облениться. В этом случае они, по сути, одобрили бессмысленную статью.

Аналогичным образом в 2005 году трое студентов, изучавших компьютерные науки, решили приколоться над научным сообществом, разработав программу SCIgen. Она генерирует абсолютно бессмысленные работы с графами, иллюстрациями и цитатами, приправленные множеством заумных слов из компьютерной науки. Одна из таких статей даже была принята к участию в конференции. Более того, в 2013 году различными издателями было отозвано 120 работ, когда вскрылось, что написала их SCIgen. За 2015 год сайт программы все еще зарегистрировал около 600 000 посещений.

К сожалению, фейковые статьи генерируются не только в качестве шутки или студенческого прикола. Целые компании зарабатывают деньги, создавая бредовые статьи и отправляя их хищническим журналам, которые такие работы принимают просто потому, что берут за это комиссию. Подобные компании, иначе именуемые бумажными фабриками, вырабатывают все более и более изощренные методы.

Несмотря на совершенствование техник обнаружения подделок, эксперты небезосновательно остерегаются, что такие бессовестные деятели, отточив свое мастерство на низкосортных журналах, могут рискнуть переключиться на авторитетные. Это способно привести к своеобразной гонке вооружений между бумажными фабриками и журналами, которые не хотят публиковать бредятину.

Конечно, это не все, и на горизонте маячит еще один вопрос: Как долго написанием научных работ будут заниматься только люди? Может ли случиться так, что через 10 или 20 лет ИИ-алгоритмы станут способны автоматически анализировать обширные объемы литературы и делать собственные заключения в новой работе, соответствующей высшим научным стандартам? Как тогда мы будем отдавать должное этим алгоритмам или их создателям?

Хотя сегодня мы пока имеем дело с намного более простыми вопросами: Как выявить работы, написанные относительно несложными алгоритмами, и не несущие никакой смысловой нагрузки? Что с ними в итоге делать? Помимо добровольных усилий и принуждения лже-авторов отзывать свои работы, научное сообщество имеет поистине мало ответов на эти вопросы.


Большинство журналов остро нуждаются в обновлении систем безопасности для отслеживания фиктивных работ

Противодействие фальшивой науке


Большинство журналов, дорожащих своей заслуженной репутацией, по крайней мере требуют от желающих опубликовать свои работы верификацию по электронной почте. Вот, к примеру, система верификации журнала Science. Но несмотря на это, создать фейковую почту и пройти такой процесс проверки достаточно просто. Подобный вид мошенничества по-прежнему распространен, что подтверждается большим количеством работ, ежегодно отзываемых даже из престижных журналов. Это лишь доказывает, что нам необходима более строгая система контроля.

Один из эффективных подходов идентификации ученых это ORCID. По сути, с помощью этой системы, каждый исследователь может получить уникальный идентификатор, который затем будет автоматически привязываться к хронологии его деятельности. Применение ORCID при экспертной оценке журналов и в процессе публикации существенно усложнит создание фиктивных личностей или использование имен исследователей без их согласия.

Несмотря на то, что это очень многообещающая инициатива, ни один серьезный журнал еще не ввел обязательное получение авторами идентификаторов из ORCID или иных систем. Я считаю, что подобное бездействие позорно, ведь таким образом можно с легкостью решить проблему.

Наконец, в данном контексте может помочь сам искусственный интеллект. Некоторые журналы развертывают модели ИИ для обнаружения фиктивных работ. Однако пока что, издатели еще не пришли к согласию по единому стандарту. Как следствие, журналы, которым недостает ресурсов или опыта, не могут применять меры того же уровня, что и авторитетные издания.

Это расширяет разрыв между журналами высокого и низкого уровня и, лично для меня, является очевидным подтверждением того, что все заинтересованные издания должны объединиться и найти способ распределить ресурсы для борьбы с мошенничеством. Конечно же, более популярные журналы могут получать выгоду за счет отставания конкурентов, но только в краткосрочной перспективе. Если же заглянуть дальше, то преобладание числа журналов с низкими стандартами может снизить доверие к научным публикациям в целом.

И речь не о том, что исследователи и научные журналы сидят и бездействуют вместо того, чтобы отслеживать лже-авторов. Отдельные издания действительно проделывают в этом направлении очень многое. Но, если одни журналы имеют для этого средства, а другие нет, то получается, что публикуются они не на равных правилах игры. К тому же, мошенники всегда смогут нацелить свои фейковые статьи на журнал с низким бюджетом.

Именно поэтому в данном случае для отслеживания бумажных фабрик и определения идентичности всех их авторов необходим коллективный подход.

Помимо науки: все больше фейковых новостей


Думаю, ни для кого не секрет, что фейковый контент свойственен не одной только науке. Всего несколько лет назад в разгар эпохи Трампа выражение фейковые новости уже звучало как хит сезона. А с тех пор методы генерации контента с целью влияния на общественное мнение стали только изощреннее. При этом они весьма похожи на методы, применяемые в научных работах.

К примеру, в различных консервативных СМИ было очевидно, что авторами обзорных статей являются фейковые журналисты. Их фотографии генерировались ИИ-алгоритмами, а аккаунты LinkedIn и Twitter были абсолютно вымышленными, и до сих пор неизвестно, кто на самом деле стоял за этими статьями.

Существуют также несколько генераторов новостных статей, которые упрощают создание фейковых аннотаций. Несмотря на то, что опытного фактчекера таким способом не проведешь, среднего пользователя Facebook подобный материал может зацепить настолько, что он даже поделится им с друзьями.

Именно поэтому я доверяю только новостям и научным данным из проверенных источников, а также контенту, который могут самостоятельно перепроверить на истинность. Другие источники я полностью отвергаю, потому что знаю, что большинство из них находится в диапазоне от простительной ошибки до абсолютного вымысла.

Еще несколько лет назад я не придерживался такой позиции, как и люди, меня окружающие. Доверие к новостям существенно подкосилось, и я даже не представляю, каким образом его можно вернуть. Сегодня то, что уже давно происходило с новостями, начало происходить с наукой. Очень плохо, что найти правду о происходящем в мире становится все сложнее. Но если пошатнуться основы самого человеческого знания, то это уже будет куда большее бедствие.

Несмотря на то, что споры вокруг фейковых новостей затихли после выборов 2020 года, тема далеко не закрыта. Поскольку инструменты для подделывания контента все больше и больше совершенствуются, я считаю, что в ближайшие годы этот вопрос еще разгорится очередной волной внимания.

Хочется верить, что к тому времени мы уже достигнем согласия на тему того, как противостоять фейковому контенту и фейковым исследованиям.


Подробнее..

Habr vs Medium сколько можно заработать опубликовав 9 статей на Medium.com

08.08.2020 14:07:54 | Автор: admin
Привет Хабр.

Наверное многие авторы, публикующие статьи на русскоязычных ресурсах, хотя бы раз задумывались о публикации своих текстов в англоязычном сегменте интернета. Мне тоже стало интересно узнать, как это работает и какой отзыв аудитории можно получить. Я пишу статьи исключительно в качестве хобби, так что терять нечего, почему бы и не попробовать.



Для тех кому интересно что получилось, подробности под катом.

Во-первых, почему medium.com? Ответ простой не знаю. Как-то так получилось, что наибольшее количество полезных материалов я находил именно там, поэтому идея разместить тексты там же появилась сама собой. Во-вторых, стоит ли вообще выкладывать что-либо на английском? Разумеется, мой английский далеко не нативный как, наверное, у 99% авторов Хабра, так что возможно, в этом смысле всё плохо. С другой стороны, не менее 2млрд людей на Земле знают английский, при том что Англия + США это всего лишь 0.4млрд, так что 3/4 людей, способных прочитать английский текст, также не являются нативами, и на эту тему можно просто не париться. Наконец, технический текст это все же не текст художественный, и содержание тут имхо важнее формы. В третьих, я решил выложить те статьи, которые уже были выложены на русскоязычном Хабре и получили высокий рейтинг. В этом плане, материал должен быть более-менее качественный.

В общем, получился достаточно любопытный эксперимент, которым интересно поделиться с читателями.

Бизнес-модель


Для начала, интересно сравнить бизнес-модели Хабра и Medium, благо все это доступно в открытых источниках и ни для кого не секрет. Авторы Хабра получают вознаграждение согласно правилам ППА если статья набирает +30 или +50 голосов от участников Хабра, она оплачивается, если нет, автор работал бесплатно. У такого правила есть разумеется, и недостатки, например, если статья набрала +30 голосов, но хотя бы один читатель поставил "-", то автор не получает ничего. Имхо не очень справедливо, но сейчас не об этом. В отличие от Хабра, у Medium правила несколько другие. Во-первых, доступ к сайту для читателей платный, бесплатно можно просматривать лишь несколько статей в месяц. Статьи при этом оплачиваются по времени прочтения, которое учитывается только для подписчиков сайта. Бесплатные просмотры, например люди, открывающие статью из поиска Гугла, на оплату не влияют. Хотя если кто-то прочитал несколько статей бесплатно, в итоге ему понравилось, он зарегистрировался и оплатил аккаунт, то прочитанные им статьи зачтутся автору. Вторая тонкость в том, что выплаты автору зависят от доли, которую занимают статьи автора в общем времени чтения для этого читателя. Видимо, идея в том, что Medium хочет мотивировать авторов делать уникальный контент если какие-то читатели приходят на сайт, чтобы читать статьи конкретного автора, то его гонорар от таких прочтений будет максимальным. Сложно сказать, насколько это работает, для топовых авторов может смысл в этом и есть, для новичков разницы наверно, не будет. Какого-либо порога, в отличие от +30/+50 у Хабра, в Medium нет можно получить за статью 0.01$ и сайт честно её выплатит.

С общей идеей, надеюсь, понятно, посмотрим теперь что из этого получается.

Статистика и просмотры


Первое, что бросается в глаза, это число просмотров в целом. На Хабре статья за 2-3 дня легко набирает 5000-10000 просмотров, здесь же 50 это уже много.



Причин я не знаю, возможно, на Medium публикуется гораздо больше материалов, и шанс что новая статья будет замечена, ничтожно мал. Статистика за каждую статью довольно подробная, и включает в себя как внутренние, так и внешние просмотры (которые, еще раз напомню, не оплачиваются):



Интересен параметр Reading Time, показывающий время чтения. Для некоторых статей он может выглядеть вот так:


34 секунды это время, достаточное чтобы пролистать текст по диагонали, не более того. Но зато видеть такую статистику довольно интересно, было бы неплохо, если бы что-то подобное появилось у Хабра.

Следующее, что интересно сравнить, это популярность статей среди русскоязычной и зарубежной аудитории. Как уже говорилось выше, выкладывались более-менее популярные статьи, которые имеют хорошие отзывы на Хабре, и думаю, вполне интересны.

Для сравнения я привожу ссылки на статьи, опубликованные на Хабре. Ссылок на Medium я не даю, кто захочет, может найти поиском самостоятельно. Статьи отсортированы по числу просмотров.


Некоторые результаты неожиданны, например последняя статья про Software Defined Radio, которая набрала на Хабре примерно 50К просмотров и рейтинг +55, на Medium вообще никого не заинтересовала, её прочитал 1 человек.

И наконец, обещанные результаты прибыль. Названия статей заменены на русскоязычные.



Как можно видеть, сумма получилась астрономическая. За месяц было заработано целых 49 центов. В общем, если бы я решил жить в США и зарабатывать написанием текстов, жить наверно пришлось бы под мостом в картонной коробке.

Тут виден один интересный момент: науч-поп, в отличие от Хабра, на Medium не идет совсем. Причин опять же, я не знаю. Статьи по программированию наоборот, приносят определенную прибыль, причем она не совпадает с рейтингами Хабра. Статья Панорама-FM или как увидеть все радиостанции сразу с помощью SDR практически не вызвала интереса на Хабре, но на Medium принесла наибольшую прибыль. Науч-поп весьма интересен на Хабре, на Medium, наоборот, все результаты по нулям. К примеру, статья про гаджеты для наблюдения солнца имеет рейтинг +45 и 16К просмотров на Хабре, на Medium она имеет только 3 просмотра. Конечно можно было бы традиционно пошутить в стиле ну тупыые, но я точно знаю что это не так, крупнейший производитель солнечных телескопов Coronado как раз расположен в Америке, да и число любителей астрономии там весьма велико. Скорее всего, вся главная страница просто занята топами, и статьи новичков туда просто не попадают. Возможно, я просто не попал в целевую аудиторию, и постоянные читатели Medium ищут статьи про политику, covid или что-то еще, но не про наблюдения Солнца. В общем, вопрос тут тоже открытый, как и вопрос оптимальной стратегии размещения публикаций. К примеру, одна из англоязычных авторов, судя по всему, профессиональный копипастер копирайтер, в своем блоге писала, что она в течении 3х недель публиковала на Medium 1 текст в день, но для серьезных технических текстов это просто невозможно.

Наконец, последний момент, который показался интересным никто ничего не комментирует. На Хабре дискуссия под каждым текстом может развернуться на несколько страниц, здесь же тишина. Причин опять же, я не знаю.

Заключение


Результаты оказались довольно-таки любопытными, и наверно они справедливы для множества социальных сервисов. Оказаться замеченным на международном рынке гораздо сложнее чем на локальном, тут влияет и разница менталитетов, ну и собственно, объем этого рынка. Наверное, когда команда Хабра задумывала свой англоязычный портал, их идея была примерно такой же уж с таким-то количеством довольно интересных текстов мы сейчас взлетим. Мне в этом плане проще, написание статей это лишь хобби, и окупаемости тут не требуется.

Надеюсь, для желающих попробовать, этот опыт окажется интересным.

И как обычно, всем удачных экспериментов.
Подробнее..

Habr vs Medium сколько можно заработать, опубликовав 9 статей на Medium.com

08.08.2020 16:12:48 | Автор: admin
Привет, Хабр.

Наверное многие авторы, публикующие статьи на русскоязычных ресурсах, хотя бы раз задумывались о публикации своих текстов в англоязычном сегменте интернета. Мне тоже стало интересно узнать, как это работает и какой отзыв аудитории можно получить. Я пишу статьи исключительно в качестве хобби, так что терять нечего, почему бы и не попробовать.



Для тех кому интересно что получилось, подробности под катом.

Во-первых, почему medium.com? Ответ простой не знаю. Как-то так получилось, что наибольшее количество полезных материалов я находил именно там, поэтому идея разместить тексты там же появилась сама собой. Во-вторых, стоит ли вообще выкладывать что-либо на английском? Разумеется, мой английский далеко не нативный как, наверное, у 99% авторов Хабра, так что возможно, в этом смысле всё плохо. С другой стороны, не менее 2млрд людей на Земле знают английский, при том что Англия + США это всего лишь 0.4млрд, так что 3/4 людей, способных прочитать английский текст, также не являются нативами, и на эту тему можно просто не париться. Наконец, технический текст это все же не текст художественный, и содержание тут имхо важнее формы. В третьих, я решил выложить те статьи, которые уже были выложены на русскоязычном Хабре и получили высокий рейтинг. В этом плане, материал должен быть более-менее качественный.

В общем, получился достаточно любопытный эксперимент, которым интересно поделиться с читателями.

Бизнес-модель


Для начала, интересно сравнить бизнес-модели Хабра и Medium, благо все это доступно в открытых источниках и ни для кого не секрет. Авторы Хабра получают вознаграждение согласно правилам ППА если статья набирает +30 или +50 голосов от участников Хабра, она оплачивается, если нет, автор работал бесплатно. У такого правила есть разумеется, и недостатки, например, если статья набрала +30 голосов, но хотя бы один читатель поставил "-", то автор не получает ничего. Имхо не очень справедливо, но сейчас не об этом. В отличие от Хабра, у Medium правила несколько другие. Во-первых, доступ к сайту для читателей платный, бесплатно можно просматривать лишь несколько статей в месяц. Статьи при этом оплачиваются по времени прочтения, которое учитывается только для подписчиков сайта. Бесплатные просмотры, например люди, открывающие статью из поиска Гугла, на оплату не влияют. Хотя если кто-то прочитал несколько статей бесплатно, в итоге ему понравилось, он зарегистрировался и оплатил аккаунт, то прочитанные им статьи зачтутся автору. Вторая тонкость в том, что выплаты автору зависят от доли, которую занимают статьи автора в общем времени чтения для этого читателя. Видимо, идея в том, что Medium хочет мотивировать авторов делать уникальный контент если какие-то читатели приходят на сайт, чтобы читать статьи конкретного автора, то его гонорар от таких прочтений будет максимальным. Сложно сказать, насколько это работает, для топовых авторов может смысл в этом и есть, для новичков разницы наверно, не будет. Какого-либо порога, в отличие от +30/+50 у Хабра, в Medium нет можно получить за статью 0.01$ и сайт честно её выплатит.

С общей идеей, надеюсь, понятно, посмотрим теперь что из этого получается.

Статистика и просмотры


Первое, что бросается в глаза, это число просмотров в целом. На Хабре статья за 2-3 дня легко набирает 5000-10000 просмотров, здесь же 50 это уже много.



Причин я не знаю, возможно, на Medium публикуется гораздо больше материалов, и шанс что новая статья будет замечена, ничтожно мал. Статистика за каждую статью довольно подробная, и включает в себя как внутренние, так и внешние просмотры (которые, еще раз напомню, не оплачиваются):



Интересен параметр Reading Time, показывающий время чтения. Для некоторых статей он может выглядеть вот так:



34 секунды это время, достаточное чтобы пролистать текст по диагонали, не более того. Но зато видеть такую статистику довольно интересно, было бы неплохо, если бы что-то подобное появилось у Хабра.

Следующее, что интересно сравнить, это популярность статей среди русскоязычной и зарубежной аудитории. Как уже говорилось выше, выкладывались более-менее популярные статьи, которые имеют хорошие отзывы на Хабре, и думаю, вполне интересны.

Для сравнения я привожу ссылки на статьи, опубликованные на Хабре. Ссылок на Medium я не даю, кто захочет, может найти поиском самостоятельно. Статьи отсортированы по числу просмотров.


Некоторые результаты неожиданны, например последняя статья про Software Defined Radio, которая набрала на Хабре примерно 50К просмотров и рейтинг +55, на Medium вообще никого не заинтересовала, её прочитал 1 человек.

И наконец, обещанные результаты прибыль. Названия статей заменены на русскоязычные.



Как можно видеть, сумма получилась астрономическая. За месяц было заработано целых 49 центов. В общем, если бы я решил жить в США и зарабатывать написанием текстов, жить наверно пришлось бы под мостом в картонной коробке.

Тут виден один интересный момент: науч-поп, в отличие от Хабра, на Medium не идет совсем. Причин опять же, я не знаю. Статьи по программированию наоборот, приносят определенную прибыль, причем она не совпадает с рейтингами Хабра. Статья Панорама-FM или как увидеть все радиостанции сразу с помощью SDR практически не вызвала интереса на Хабре, но на Medium принесла наибольшую прибыль. Науч-поп весьма интересен на Хабре, на Medium, наоборот, все результаты по нулям. К примеру, статья про гаджеты для наблюдения солнца имеет рейтинг +45 и 16К просмотров на Хабре, на Medium она имеет только 3 просмотра. Конечно можно было бы традиционно пошутить в стиле ну тупыые, но я точно знаю что это не так, крупнейший производитель солнечных телескопов Coronado как раз расположен в Америке, да и число любителей астрономии там весьма велико. Скорее всего, вся главная страница просто занята топами, и статьи новичков туда просто не попадают. Возможно, я просто не попал в целевую аудиторию, и постоянные читатели Medium ищут статьи про политику, covid или что-то еще, но не про наблюдения Солнца. В общем, вопрос тут тоже открытый, как и вопрос оптимальной стратегии размещения публикаций. К примеру, одна из англоязычных авторов, судя по всему, профессиональный копипастер копирайтер, в своем блоге писала, что она в течении 3х недель публиковала на Medium 1 текст в день, но для серьезных технических текстов это просто невозможно.

Наконец, последний момент, который показался интересным никто ничего не комментирует. На Хабре дискуссия под каждым текстом может развернуться на несколько страниц, здесь же тишина. Причин опять же, я не знаю.

Заключение


Результаты оказались довольно-таки любопытными, и наверно они справедливы для множества социальных сервисов. Оказаться замеченным на международном рынке гораздо сложнее чем на локальном, тут влияет и разница менталитетов, ну и собственно, объем этого рынка. Наверное, когда команда Хабра задумывала свой англоязычный портал, их идея была примерно такой же уж с таким-то количеством довольно интересных текстов мы сейчас взлетим. Мне в этом плане проще, написание статей это лишь хобби, и окупаемости тут не требуется.

Надеюсь, для желающих попробовать, этот опыт окажется интересным.

И как обычно, всем удачных экспериментов.
Подробнее..

Как решать проблемы научных публикаций?

11.08.2020 08:15:01 | Автор: admin
В первой части статьи мы рассмотрели проблемы системы научных публикаций, которые затрудняют исследования и распространение данных. Я очень рад, что эта тема оказалась интересной и привлекла множество интересных идей и комментариев.

В этот раз обсудим, какие решения уже придуманы, внедряются и разрабатываются. А в конце я опишу свое видение оптимальной системы обмена научной информацией.



Системы поиска научной информации


Тем, что сейчас можно найти любую научную статью онлайн, уже никого не удивишь. Однако всего пару десятков лет назад все было далеко не так просто.

Немного историй из жизни
На первом курсе (15 лет назад) у нас было несколько обязательных занятий по библиотековедению. Нам рассказывали как искать статьи в тематических каталогах, как оформлять заявки в архив. А уж сколько нюансов библиотечного дела осталось за кадром! Страшно представить, как бы эта система пыталась справляться с нынешним потоком информации. Я несказанно рад, что для поиска статьи мне не нужно пользоваться библиотечным каталогом.

В комментариях к предыдущей статье (раз и два) упоминали, что в 90-е годы можно было попросить авторов прислать бумажную копию статьи по обычной почте! Замечательно, что в научном сообществе такие отзывчивые люди, но для меня это скорее повод порадоваться прогрессу передачи информации.

Сейчас вы можете найти любую статью по авторам, названию, году публикации или ключевым словам из аннотации. Достаточно открыть Scopus, PubMed, Google Scholar или другую систему.

Однако, несомненно, есть куда расти. Большая часть систем ищет только по аннотации, хотя поиск по всему тексту даст доступ к гораздо большему объему информации. Здесь возникает проблема, что нередко полного текста нет в открытом доступе (из-за paywall). Кроме того, были бы полезны возможности поиска по методам, использованным в работе, и отдельным экспериментам.

Использование систем поиска важный фактор в создании новых журналов или архивов препринтов. Часто популярным поисковым сервисом пользуются многие ученые в определенной области (например, в биологии и медицине это PubMed). В этом случае, статьи, опубликованные на ресурсах, неиндексируемых такими поисковиками, оказываются практически незаметными для научного сообщества.

Открытый доступ


Одна из самых важных проблем современных научных журналов ограничения доступа к статьям по подписке (paywall). Любой, кто хоть раз работал со статьями, обязательно сталкивался с этим.

Краткое содержание предыдущей серии
Кратко опишу проблему для тех, кто с ней не знаком. Ученые отправляют статью в журнал, а тот предоставляет к ней платный доступ либо по подписке, либо за однократный платеж. Стоимость одной статьи для читателя, таким образом, может достигать 30 евро, а ученому в работе требуются сотни статей. При этом деньги получают не авторы статьи, а журнал. То есть, журнал не только получает прибыль с помощью чужой авторской собственности и бесплатного труда рецензентов, но и ограничивает доступ к научному знанию.

Проблема доступа к статьям общепризнанная, и научное сообщество прилагает большие усилия, чтобы перевести все статьи в открытый доступ.

Решение проблемы известно уже давно: при подаче статьи для публикации авторы оплачивают однократный взнос, а статья свободно распространяется. Любой желающий может свободно скачать статью. Стоимость публикации тема отдельного обсуждения, но даже по нынешним ценам публикация всех статей в открытом доступе обойдется дешевле подписки для всех университетов.

Самое интересное, что журналам это тоже выгодно, им не нужно обслуживать систему подписки, они просто берут деньги с авторов.

PeerJ
Интересную модель монетизации научного журнала упомянул в своем комментарии к предыдущей части rg_software. В PeerJ можно подать свою статью, как в любой open access журнал (одна публикация стоит 1200$). А можно один раз оплатить пожизненное членство 400$ (для каждого автора) и получить возможность публиковать бесплатно одну статью в год.

Кроме того, у статей в открытом доступе может быть гораздо больше читателей (так как доступ к таким статьям ничем не ограничен), а значит, им проще набрать цитирования. Это опять же выгодно всем и авторам, и даже журналам, ведь это поднимает импакт-фактор.

Presubmission


У многих журналов свои стандарты оформления текста, иллюстраций и других частей статьи. Из-за этого может возникнуть весьма неприятная проблема. С этой проблемой сталкиваются не все, но если вам очень не повезёт, можно потерять полгода на совершенно непродуктивную работу и ожидание без какого-либо улучшения самого исследования. Речь идет о необходимости полностью переделать оформление для журнала, если в предыдущем журнале редактор отверг статью. Часто изменения могут быть весьма значительными и занимать немало времени. А также статья может быть отклонена не один раз.

А вот в биологии...
Из обсуждения первой части статьи я сделал вывод, что эта проблема может быть заметна не во всех разделах науки. Однако как минимум в биологии это достаточно существенный недостаток процесса публикации.

Для того чтобы избежать полного переделывания всей статьи, журналы предлагают авторам предварительная подача presubmission. Авторы лишь отправляют краткое описание своей статьи редактору, а тот выносит предварительное решение. Если статья журналу не подходит, то можно отправить ее в другой журнал, не тратя время на подготовку всего оформления. Если редактор заинтересовался вашей работой, то дальше начинается обычная подача полного текста на рецензию. В данный момент многие издательства предоставляют авторам такую возможность.

Presubmission может показаться незначительным улучшением, но в современной ситуации с огромным числом журналов она может заметно упростить жизнь авторам и сэкономить немало времени.

Предварительная регистрация исследования(preregistration)


Довольно интересный пилотный проект запустило издательство PLoS. Можно в самом начале работы зарегистрировать свой проект в журнале. В этом случае речь идет только о концепции, при регистрации нет ни финальных результатов, ни готового текста. Такая предварительная регистрация это интересная возможность получить обратную связь от других ученых и возможных рецензентов в самом начале работы. Такой подход помогает оптимизировать работу и ускорить рецензию уже при подаче в журнал.

Другой плюс предварительной регистрации публикация результатов независимо от того, получилось подтвердить заявленную гипотезу или нет. Дело в том, что сейчас опубликовать отрицательные результаты практически невозможно. Это приводит к перекосу восприятия научных фактов: публикуются только гипотезы, которые удалось подтвердить, те гипотезы, которые не удалось, публикуется крайне редко. Предварительная регистрация может решить эту проблему. Если вы с самого начала зарегистрировали свой проект, итоговый результат будет опубликован независимо от того, положительный он или отрицательный.

У предварительной регистрации проектов есть и очевидные отрицательные стороны. Некоторые ученые считают, что так можно будет занимать интересные темы и затем неторопливо их исследовать. Да и в целом вопрос приоритета в такой системе становится очень неоднозначным. Во многих областях науки важна не столько первоначальная идея, сколько ее экспериментальная проверка. То есть предложить проект просто, а реализовать гораздо сложнее. Предварительная регистрация может поощрять предлагать больше проектов, чем группа сможет исследовать.

Но есть и более наглядный минус этой системы. Журналы, которые используют предварительную регистрацию, оказываются в менее выгодном положении по сравнению с традиционными журналами. Ведь предварительная регистрация требует открыть подробности вашего проекта, а также с самого начала выбрать журнал, в котором вы будете публиковать свое исследование. Другие ученые могут использовать идеи вашего проекта и опубликовать свое исследование в традиционном журнале. То есть система предварительной регистрации может эффективно работать, только если в ней участвуют все журналы.

Рецензирование статей


Краткое содержание предыдущей серии
Опять кратко напомню суть для людей далеких от научных публикаций. Научные статьи рецензируются проверяются специалистами в соответствующей области на соответствие стандартам и методам научных исследований. При подаче статьи в журнал, ее читают два или три рецензента, они оценивают статью и рекомендуют необходимые изменения. Авторы должны исправить выявленные недочеты перед публикацией.

Рецензия самая главная часть процесса публикации, без нее нельзя быть уверенным в том, что информация была проверена. Однако, это долгий и трудоемкий процесс. Вот некоторые пути оптимизации рецензии.


Препринты


Препринт это авторский научный текст, который еще не был проверен рецензентами. Авторы могут выложить свое исследование на специальных сайтах, например, arxiv.org и bioarxiv.org.

Сервисы препринтов стали очень популярны в последнее время. С точки зрения распространения научной информации они ничем не уступают обычным статьям любой может скачать манускрипт и прочитать его. Основные отличие препринт не был проверен. Но если его читает специалист, эта проблема не слишком существенна читатель сам для себя выступает в роли рецензента. Зато препринт можно выложить гораздо раньше, ускоряя обмен информацией.

Чаще всего препринты в то же время отправляют в обычный научный журнал. То есть через некоторое время препринт становится обычной рецензированной статьей. В некоторых случаях препринты помогают решить проблему закрытого доступа, а также получить комментарии от коллег к статье пока она еще находится на ревизии.

А вот в физике...
Комментарий Jerf о использовании препринтов к предыдущей статье:
<...> стоит отметить, что физики и математики довольно давно решили проблему с paywall и задержкой распространения результатов: для этого и был создан упомянутый в тексте arxiv.org. Я лично почти всегда просто читаю версию нужной мне статьи в виде препринта с arXiv, и тот же sci-hub мне почти не нужен (разве что для старых статей, из тех времен, когда arXiv еще не покрывал 99% процентов статей по физике и математике). Да, препринты не проходят рецензирование, но как раз сам факт того, была принята статья в какой-то журнал, или нет, можно проверить бесплатно. А если в процессе рецензирования оказываются найдены какие-то ошибки в тексте, то почти всегда авторы вносят соответствующие исправления и в версию статьи, выложенную на arXiv. В других областях науки, вроде бы, тоже постепенно такая схема получает всё большее распространение.

И еще хотелось бы прокомментировать фразу Чем же занимаются авторы, пока идет рецензия? А ничем, они ждут отзывы. Это не совсем справедливо, поскольку (во всяком случае, в случае физики и математики) прежде, чем послать статью в журнал на рецензию, её выкладывают на arXiv. После этого все, кому она покажется интересной, её читают, и достаточно часто присылают свои комментарии авторам по email.

Конечно, было бы здорово, если бы к arXiv-у была прикручена какая-то возможность анонимного комментирования со строгой модерацией. Вопрос, правда, в том, как это организовать правильно, чтобы избежать каких-нибудь нежелательных побочных эффектов.



F1000Research


В журнале F1000Research совместили обе возможности манускрипт сначала публикуется в виде препринта, а после рецензии получает статус проверенной статьи. На мой взгляд, это перспективное направление, но пока совсем немного журналов его используют.

Этот журнал также позволяет публиковать постеры и слайды с присвоением doi. То есть эти материалы становится легче искать и при необходимости цитировать.

Мне очень близка позиция этого журнала, указанная на их главной странице:
Publish all your findings including null results, data notes and more.
Engage with your reviewers openly and transparently.
Accelerate the impact of your research.

Интересно, что похожую модель выбрали для JMIRx журналов, ассоциированных с biorxiv, medrxiv и psiarxiv. Авторы загружают статью в архив, а редакторы JMIRx выбирают некоторые статьи и предлагают их для рецензии. Авторы и сами могут подать заявку своей статьи на ревизию. Правки предложенные рецензентами также выкладываются в архив.

Вот как описывают идею в JMIRx:
Researchers could submit type-1 electronic papers [non peer-reviewed preprints] to preprint servers for discussion and peer-review, and journal editors and publishers would pick and bid for the best papers they want to see as type-2 papers [version of record] in their journal.

На мой взгляд, это отличный пример нового подхода к публикации результатов. Я не со всем согласен в их решениях, например, рецензентов приглашают в основном по предложениям авторов статьи, но принцип внедрения инноваций считаю очень правильным.

Независимая рецензия до подачи в журнал


Недавно несколько журналов объединились, чтобы ученые подавали свою статью не в конкретный журнал, а на общую для всех рецензию. Уже после прохождения рецензии, будет подобран оптимальный журнал для публикации. В этом процессе также участвует редактор, который в данном случае представляет все объединение.

Такой формат рецензии дает уверенность, что статья не будет отвергнута конкретным журналом в процессе. А значит авторы не будут терять время на повторную подачу, ведь выбор конкретного журнала для публикации происходит уже после рецензии.

Очевидным развитием такой схемы будет объединение все большего числа журналов. Однако конкуренция издательств может стать преградой для этого процесса. В рамках же одного издательства подобрать нужный журнал по теме не очень сложно. Кроме того, у разных издательств есть журналы похожей тематики, да и по импакт-фактору они часто близки.

Публикация рецензий


Некоторые журналы (например, eLife и Nature) публикуют рецензии. Я считаю это правильным, ведь рецензия это важная часть научного процесса. Если рецензент предложил хорошие эксперименты и заметил важные неточности он внес вклад в развитие исследования. С другой стороны иногда требования рецензентов могут быть совсем нелогичны, тогда тоже полезно видеть рецензии, чтобы понимать что было добавлено, а что исходно предлагали авторы. При этом публикация рецензии не мешает рецензентам оставаться анонимными.

Вопрос необходимости анонимных рецензий не имеет однозначного ответа. В большинстве случаев используется полуслепой метод, когда фамилии авторов известны, а ревьюеры анонимны. В Nature был предложен вариант двойных слепых рецензий, когда ни авторы, ни рецензенты не раскрывают своих имен (после рецензии имена авторов открывают, разумеется). При этом задача обеспечения анонимности статьи ложится на авторов, и это далеко не так просто. Часто по теме, объекту и методам работы можно точно установить лабораторию, выполнившую исследование.

Деанонимизация рецензента
В своем комментарии к первой части CactusKnight замечает, что иногда и инкогнито рецензента раскрыть не очень сложно:
бывает и такое
мне пришлось столкнуться с подобным рецензентом, который в рецензии (я неспроста взял ее в кавычки) потребовал процитировать 14 его статей, слабо связанных с тематикой нашей статьи


А уже упоминавшийся F1000Research наоборот поддерживает противоположный подход рецензия там полностью открытая. И авторы, и рецензенты знают имена друг друга. У меня нет однозначного мнения, какой подход лучше. Свои преимущества есть у каждого из них. В одном многие участники дискуссии сходятся анонимная рецензия, вероятно, более критическая.

Оплата труда рецензентов


Одна из очевидных проблем, на мой взгляд труд рецензентов не оплачивается.


Понятно, что журналы совсем не заинтересованы в изменении такой системы. Но несмотря на это небольшие подвижки происходят. Некоторые журналы, как минимум, обсуждают возможность бесплатных публикаций для активных рецензентов. Шаги в этом направлении очень небольшие, но кажется, сообщество начинает всерьез задумываться о порочности существующей модели.

Импакт-фактор, как мера крутости


Очень важная проблема современного научного процесса в целом как оценить успех и эффективность научной работы. Это вечная тема, которую можно обсуждать со всевозможных сторон, но сегодня для нас важно, как на это влияют научные публикации.

Дело в том, что статьи это основная мера успешности ученого. Подавляющее большинство метрик успеха используют те или иные показатели, связанные с публикациями. Все, кто хоть немного был связан с наукой, слышали про индекс Хирша, число цитирования и импакт-фактор. Последний чаще всего используются при отчетах по грантам и при получении новых (то есть определяет сколько у ученого будет денег). А значит импакт-фактор наиболее явно влияет на успех научных сотрудников.

Impact factor is a serious business


Импакт-фактор это сумма цитирования за год, всех статей, которые вышли за два предыдущих года. То есть это средняя мера цитирования статей в журнале. Отсюда следует самый главный недостаток этого параметра импакт-фактор это характеристика журнала, а не отдельной статьи. В какой-то степени эти величины скоррелированы плохую статью не опубликуют в заметном журнале. Проблема в том, что это очень косвенная оценка. Мы не знаем, в какие журналы авторы отправляли свою статью, нам также неизвестно чем руководствовался редактор, когда принимал или отвергал статью. Это может быть как качество или новизна статьи, так и хайповая тема или известный ученый в авторах. Мы не знаем, почему статья оказалась в хорошем журнале это кумулятивная мера, объединяющая все достоинства и недостатки статьи. Кроме того, окончательное решение принимает всего один человек редактор, и именно от его решения зависит оценка качества научной статьи. Все это делает импакт-фактор очень непрозрачной и непростой для анализа мерой качества отдельной статьи.

Сам вопрос о качестве научных работ весьма сложен. Что важнее, высокое качество экспериментов или новизна? А может быть сиюминутная популярность темы? Но импакт-фактор скрывает все эти параметры (и многие другие) в одну цифру, рассчитанную по всем статьям за два года.

А что если импакт-фактор бесполезен?


Многие ученые выступают против использования импакт-фактора вот для примера объединения DORA и ASAPbio, которые выступают за отмену импакт-факторов. Нобелевский лауреат Рэнди Шекман, один из основателей журнала eLife, также призывает отказаться от такой метрики. Интересно, что в eLife изначально не хотели индексировать свой журнал в этом рейтинге. Но составители списка импакт-факторов, агентство Thomson Reuters, не учли их мнение.


Однако самое главное принципы оценки, которые используют крупные грантодатели. Если они решат отказаться от импакт-фактора в пользу другого способа оценки это может очень быстро изменить существующее положение вещей.

Воспроизводимость


Это важнейшая проблема, которая стоит сейчас перед всем научным сообществом. Единственного пути решения этой проблемы не существует, и грантодатели, и журналы, и сами ученые должны совместными усилиями бороться за повышение достоверности данных. Однако научные публикации играют важную роль в этом процессе. Более строгая рецензия статей по проверке методов исследования и доступности данных должна стать безусловной отправной точкой для повышения воспроизводимости.


Одним из способов упорядочить описание методов, материалов и данных являются различные стандартные формы. Сейчас не существует единого стандарта описания методов, но некоторые журналы предлагают свои руководства по оформлению. Так например, Cell press использует так называемые STAR methods и key resources table. Это перечень критериев для описания методов и точного указания всех использованных материалов. Эти критерии не идеальны, но это большой шаг вперед. Также Cell не разрешает более переносить методы в Supplementary, что также помогает стандартизировать описание.

Стоит также отметить появление большого числа ресурсов исключительно для обмена протоколами исследований (например, protocols.io). Для этого делают специальные журналы с очень подробным описанием процедур. А например журнал JoVE (Journal of Visualized Experiments) публикует не только текстовое описание процедур, но и видео, показывающее подробности процесса, что может быть очень полезно для воспроизведения сложных экспериментов.

Как решить все проблемы
Некоторые, однако, заходят слишком далеко. Недавно появилось предложение всем ученым документировать весь процесс работы на видео. Мне кажется, что эта идея довольно бесполезна, не говоря уж о затратах времени и необходимости огромных хранилищ для таких массивов информации.

Если речь идет о воспроизводимости, то конечно необходимо упомянуть Retraction Watch. Это попытка решать проблему с другой стороны. Они занимаются поиском модификаций изображений, нарушений экспериментов и других фальсификаций в уже опубликованных статьях. Важно понимать, что даже самые внимательные и ответственные рецензенты могут пропустить ошибку или неточность. И здесь помогает сообщество, которое отмечает подозрительные статьи.

Нередко в результате действий Retraction Watch журнал отзывает статьи с фальсификациями. Здесь надо отметить, что следующий шаг в современной системе почти никогда не делают. Никто не проверяет другие статьи, которые проверяли эти же рецензенты, например. Даже если редактор в одном журнале обнаружит систематически недобросовестного рецензента, в других журналах об этом не узнают.

Взаимодействие ученых


В прошлый раз оживленную реакцию вызвала возможность комментирования научных статей. Раньше был распространен особый жанр публикаций Комментарий к статье. То есть один ученый писал небольшую заметку в журнал, где обсуждал статью других авторов. Это неплохая возможность научной дискуссии, но довольно медленная.

Сейчас я таких заметок почти не встречаю. На сайтах журналов бывает раздел с комментариями, но им почти никто не пользуется. Меня очень вдохновляет в этом отношении Хабр, так как здесь комментарии служат ценным источником дополнительной информации, развивающим идеи статьи. Понятно, что комментарии в научном журнале должны работать по-другому, но сама возможность публикации небольших экспериментальных статей или дискуссий востребована.

Как работают комментарии в журналах сейчас
В комментариях к первой части, Iamkaant упомянул очень показательный пример:
Вот в этой работе www.nature.com/articles/nature14295, в Nature, на секундочку, авторы показали, что между двумя слоями графена вода формирует квадратную решетку. Потом им указали, что то, что они видели с помощью электронного микроскопа, может быть растворенной в воде солью, которая кристаллизовалась между слоями графена. И образует как раз такую же квадратную решетку. Авторы написали комментарии к статье, что да, все так, никак опровергнуть не можем. Но статья отозвана не была и продолжает висеть в журнале и резюме авторов

На этом примере интересно посмотреть, как работают комментарии в журналах. Если вы пройдете по ссылке на сайт журнала, то найти комментарии будет не так-то просто. Они будут в самом низу, под списком литературы, описанием всех рисунков, технической информацией, конфликтом интересов и прочим. Не удивительно, что ими никто не пользуется. И кроме того журнал совсем никак не поощряет ученых общаться в комментариях.

Здесь надо учитывать, что большинство читателей статьи являются специалистами в той же области. Многие из них хотят использовать данные или экспериментальные подходы из статьи. То есть их мнение может быть ценным и для авторов, и для других читателей статьи. И сейчас ученые пользуются разными инструментами, чтобы обеспечить такую коммуникацию.

Вот важная причина для этого
Одна из моих коллег при обсуждении первой части поделилась со мной историей из жизни:
Однажды один рецензент написал отрицательную рецензию на наш обзор только на основе того, что мы цитируем и обсуждаем публикацию про которую все знают что она не воспроизводится. Публикация к слову цитируется несколько тысяч раз и за многие годы так и не получила опровержения. Под ней нет ни одного комментария! Спрашивается: если ты так сильно уверен что одно из ключевых исследований в твоей области это ерунда морально ли не делиться этими знаниями с другими людьми? Как мы должны об этом узнать?


Как ни удивительно, одной из самых популярных платформ остается Twitter. Ученые не только делятся ссылками на свои статьи, но и устраивают довольно большие обсуждения. Мне кажется, это не очень удобно (хотя бы из-за лимита числа символов), но платформа уже стала своеобразной соцсетью для ученых.

Но развиваются и более специализированные платформы. Наверно, самая известная социальная сеть для ученых ResearchGate. Это довольно удобный сайт с широким функционалом. Здесь можно выкладывать статьи и препринты, подписываться на обновления интересных вам ученых, создавать WIP проекты с еще не опубликованными экспериментами, писать комментарии к статьям. Есть также и система рейтинга, который складывается из публикаций, вопросов, ответов и числа подписчиков.

У Elsevier есть своя соцсеть для ученых на основе программы для работы со списками литературы Mendeley. На удивление, даже после покупки Elsevier программа остается бесплатной. Это достаточно удобный reference manager, но как социальной сетью я им не пользовался.

Каким я вижу журнал будущего


На самом деле, в названии этого раздела я вас обманул. Ничего особенно футуристичного в такой концепции нет. Я не предлагаю заменить ученых роботами для автоматического сбора данных или использовать блокчейн для защиты от фальсификации. Все, что я предлагаю использовать, уже существует и используется. Я лишь предлагаю объединить вместе работающие концепции.

Основная идея


Идея состоит в том, чтобы создать единый архив информации, куда авторы смогут выложить исследование на любую тему. При этом сочетающий достоинства научных журналов, но работающий (почти) автоматически!

Основой для системы будет служить программа такая, как JANE. Если вы не знакомы с подобными программами, а под рукой у вас есть короткий научный текст биомедицинской тематики, то рекомендую пройти по ссылке и попробовать ее. JANE ищет похожие статьи, а на основании этого подбирает подходящие журналы и указываетавторов, работающих по этой теме. Подробности описаны вот в этой статье.

Who is Jane?
Have you recently written a paper, but you're not sure to which journal you should submit it? Or maybe you want to find relevant articles to cite in your paper? Or are you an editor, and do you need to find reviewers for a particular paper? Jane can help!

Just enter the title and/or abstract of the paper in the box, and click on 'Find journals', 'Find authors' or 'Find Articles'. Jane will then compare your document to millions of documents in PubMed to find the best matching journals, authors or articles.


Мне кажется, что такая программа идеально подходит на роль автоматического редактора. Она сможет проверить тематические категории и ключевые слова, а также найти ревьюеров.

Автор статьи загружает манускрипт на сервер, программа находит подходящих рецензентов, отправляет им электронные письма. Рецензенты проверяют статью, выносят решение, отмечают статус статьи на сайте, а необходимые комментарии отправляют авторам. По результатам исправлений рецензенты разрешают публикацию статьи и выставляют ей оценку.

Таким образом, мы по цене архива препринтов получаем рецензируемый журнал!

Это не все функции, которые я бы хотел предложить, но это самая основная идея. К ней легко добавить дополнительный необходимый функционал. Давайте посмотрим, как может такой сервис выглядеть в подробностях.

Подробности


Замечания по формату


Сервис должен быть доступен всем, любые документы должны быть в открытом доступе.

Мне очень нравится концепция журнала F1000Research, которую я уже упоминал ранее. Поэтому сразу после загрузки текст становится доступен в виде препринта. При этом специально указывается, что рецензия еще не прошла. После рецензии статус статьи меняется на рецензированную статью.

Обычно, статья состоит из нескольких разделов, часто представляющих собой разные гипотезы, эксперименты или части работы. Мне кажется полезным добавить ключевые слова к таким разделам и даже отдельным экспериментам, чтобы упростить поиск по ним. Также стоит указывать авторов, которые этот эксперимент проводили и анализировали.

К каждому эксперименту указывается ссылка на использованные методы, которые описываются со ссылками на полные протоколы. Такие протоколы можно публиковать отдельно на специальных сайтах (например, protocols.io).

Все данные обязательно выкладываются на независимые сервисы. Ссылки связывают каждый эксперимент с конкретными файлами результатов.

Для большего контроля и воспроизводимости можно добавить требование открывать доступ к электронному лабораторному журналу по проекту (примером такого журнала может служить benchling). Сейчас это не требует никаких усилий, но может значительно уменьшить фальсификации, улучшить описание экспериментов. Однако электронные лабораторные журналы еще не стали стандартом, поэтому в данный момент требование может быть слишком строгим.

Указывать ссылки на другие статьи разных типов. То есть теперь не просто будут считаться цитирования статьи, а некоторые цитирования будут указаны как упоминания, некоторые как основа для исследования, а некоторые цитируются, чтобы указать на противоречия. Разные типы цитирования будут давать разный вклад в оценку цитируемой статьи. Упоминания и основные ссылки можно определять автоматически(по числу цитат в статье). Интересный подход к различным типам ссылок описан вот в этой статье, а я более подробно обсужу это ниже.

Добавить цитирование конкретных разделов статей (хотя бы для внутренних ссылок). То есть когда вы цитируете другую статью вы указываете, в каком разделе этой статьи находится нужная информация. Это значительно упростит поиск фактов в статье и верификацию источников литературы.

Регистрация


Читать статьи и комментарии могут все желающие. Но загружать статьи, писать комментарии и рецензии могут только зарегистрированные пользователи.

Для регистрации надо быть автором статьи в рецензируемом журнале или получить рекомендацию от ученого с публикациями. Такая система служит некоторой гарантией специалистов для возможности публикации.

Каждому участнику присваивается рейтинг. При регистрации рейтинг определяется на основе библиометрических показателей(число статей, цитирование, индекс Хирша).

Автоматический редактор и рецензия


Когда авторы загружают свою статью на сервер, система анализирует абстракт и подбирает ключевые слова и рецензентов. При подборе рецензентов учитываются их соавторы и аффилиации, чтобы избежать конфликта интересов.

Подбираются рецензенты с разным рейтингом, но не слишком низким. То есть система будет пытаться найти рецензента с высоким рейтингом и со средним. Поиск рецензентов проводится не только среди зарегистрированных пользователей, а среди всех ученых, имеющих публикации в базе данных.

Выбранные рецензенты получают электронные письма от журнала с предложением провести рецензию манускрипта. В письме приводится абстракт, ссылка на полный текст и ссылка на анонимный канал общения с авторами. Если рецензент принимает предложение, он читает статью и пишет свой отзыв авторам. Если отказывается, система ищет дальше.

Работа рецензента в данном случае отличается лишь выставлением оценки манускрипту по нескольким показателям. В остальном рецензент также описывает достоинства и недостатки статьи, предлагает дополнительные эксперименты. Отзыв рецензента сразу становится доступен авторам, они могут исправить статью и провести дополнительные эксперименты. В этом случае не нужно ждать ответов всех рецензентов, сразу авторы получают ответ сразу.

Все зарегистрированные пользователи могут писать пользовательские рецензии и оценивать статью. Эту оценку можно считать независимо от оценки выбранных ревьюеров, либо объединять их учитывая возможный конфликт интересов и рейтинг.

Рейтинг


Все зарегистрированные пользователи имеют рейтинг. Рейтинг набирается за статьи, в том числе в других журналах, за рецензии, за комментарии. В идеале, рейтинг должен быть полуавтоматический.

Важно, что все действия пользователей логируются и за каждое действие рейтинг пользователя может быть повышен или понижен. Например, рецензент получает баллы за каждую рецензию. Если рецензия оказалась необъективной или если была пропущена очевидная ошибка, рецензент получит минус в рейтинг. За хорошую рецензию получит дополнительные баллы в плюс. Как разбираются спорные случаи, возникающие при оценке статей, я опишу ниже.

Комментарии


Рецензия и ответы авторов на нее становятся первым уровнем комментариев. При этом рецензенты могут остаться анонимными или по своему желанию открыть свое имя.

Все зарегистрированные пользователи могут оставлять комментарии к любой статье. Это могут быть пользовательские рецензии, ветки свободной дискуссии, воспроизведение экспериментов (как успешные, так и неудачные), жалобы на недостаточно подробные методы и недоступные данные.

Такие жалобы могут быть полуавтоматическими оставить жалобу можно нажав кнопку и описав суть претензии. Авторы могут сами исправить такую ошибку, тогда их рейтинг не снижается. Если авторы не отвечают на жалобу, назначается дополнительный рецензент, а авторы и первоначальные рецензенты статьи теряют рейтинг.

Комментарии с отдельными экспериментами получают собственный идентификатор(doi) и могут быть проверены рецензентом. Авторы тоже могут публиковать дополнительные эксперименты к своей статье в виде комментариев. Это достаточно часто бывает полезно, так как эксперименты, не вписывающиеся в линию статьи, обычно не включают в манускрипт. Такая возможность позволит делать небольшие работы на основе статьи, которые не тянут на полноценную публикацию. Например, это может быть полезно для студенческих проектов.

Сеть


В таком варианте сервиса можно использовать все преимущества сетей с большим числом пользователей. Например вы сможете получать рекомендации о статьях, которые читают люди с такой же историей поиска.

Или подписаться на известного ученого. Тогда только пользуясь его оценками статей можно получить срез его мнения о опубликованных работах. То есть каждый ученый становится в некотором смысле редактором, но отбирает статьи после их публикации, а не до.

Кроме того, такая сеть взаимодействий позволяет находить конфликты интересов.

Разрешение конфликтов


Понятно, что в любой системе могу могут возникать конфликты. Это можно видеть и на примере войн правок в Википедии, и на других ресурсах. Для выявления и разрешения конфликтов можно использовать алгоритмы, но в некоторых случаях необходимо решение человека. Модераторы могут работать как на постоянной основе, так и быть волонтерами. Во втором случае активные пользователи с хорошим рейтингом могут получать сообщения с просьбой проверить определенную статью или комментарий. То есть они могут работать как рецензенты, но для решения конкретного вопроса.

Поиск конфликтов во многих случаях может быть автоматизирован. Можно рассмотреть несколько типичных вариантов возможного нарушения добропорядочности.

Противоборствующие школы бывают случаи, когда несколько групп придерживаются разных теорий и пытаются понизить оценку противоположной точки зрения.

Определить такую ситуацию можно по графу связей цитирований, оценок и аффилиаций. Противоборствующие группы будут представлены изолированными кликами в графе, а оценки статей друг друга будут противоположными. В таком случае можно помечтать оценки, комментарии и рецензии от другой группы специальной меткой просто так отбрасывать их нельзя, они могут содержать ценную информацию. Но и учитывать такие отзывы как беспристрастные тоже нельзя.

Друзья иногда бывает и обратная ситуация, коллеги или знакомые завышают оценки друг другу. Это тоже можно вычислить по графу связей и цитирований. Такие оценки также можно помечтать специальным тегом.

Жалобы. Как я уже писал в разделе про комментарии, на статью можно пожаловаться, если вы нашли в ней серьезный недочет. Это может быть недостаточно подробное описание методов, отсутствующий код или ссылки на данные, а может быть и более серьезная проблема манипуляция изображениями, фальсификации или лженаучные теории. Небольшая жалоба может быть исправлена автором без привлечения модератора. Серьезное нарушение рассматривается независимым модератором (или несколькими), которые выносят решение. В зависимости от этого решения меняется рейтинг авторов, рецензентов и комментатора.

Продвижение


В своем комментарии к первой части darksnake описал похожую систему. Он также поделился идеей способа продвижения такого журнала.
Именно как препринт архив. Их сейчас очень не много. На основе архива препринтов можно делать формальных журнал. Делать свой журнал с нуля не реально. А вот делать журнал на основе готовой базы публикаций вполне реально.

Мне кажется, что такая модель продвижения подходит и для описанной системы. Ведь с точки зрения пользователя от архива препринтов она отличается несильно. Дополнительных расходов на штат редакторов в этом случае тоже нет.

Немного фантазий
Но конечно, самый эффективный способ продвижения это запрос на публикацию от грантодателей. Если изменятся правила получения грантов, то ученые станут публиковаться в любой необходимой форме. Крупных грантодателей не так много в основном, это европейские и американские государственные организации. Если они создадут общую программу улучшения системы публикаций, то результат не заставит долго ждать.

Для меня ярким примером такого подхода является PubMed Central (PMC). Один из крупнейших американских грантодателей в области биологии и медицины National Institutes of Health (NIH) обязал всех ученых, получивших гранты NIH, выкладывать свои работы в открытом доступе в свой собственный архив. При этом авторы могут выбрать любой журнал для публикации, но полный текст будет в любом случае доступен в PMC.

Оплата работы рецензентов


Я описал вариант бесплатного сервиса и для читателей, и для авторов. Конечно, он требует некоторой суммы денег на поддержание и развитие инфраструктуры и прочие необходимые расходы. Однако за цену сервиса препринтов мы получим рецензируемый журнал.

В будущем можно добавить оплату труда рецензентов, например 100-200 евро за рецензию. Даже в таком случае общая стоимость для авторов будет сльно ниже средней цены публикации с открытым доступом. Возможны различные варианты: рецензенты могут получать оплату в зависимости от качества их рецензии и рейтинга. Оплата публикации в журнале может быть по схеме плати сколько можешь или любой другой, но в любом случае за гораздо меньшие деньги, чем сейчас стоит open access.

Проблемы


В обсуждениях данной системы, я встречал несколько потенциальных проблем. Давайте обсудим некоторые из них (я уверен, в комментариях напишут еще).

Слишком большая нагрузка на рецензентов


Существуют опасения, что без предварительного отбора редактором, рецензентам будет приходить слишком много статей. Мне кажется, что это решаемая задача.

Во-первых, несложно отслеживать сколько статей было отправлено каждому рецензенту и не отправлять новые, если их уже слишком много.

Во-вторых, есть достаточно большой резерв ученых, которым обычно не направляют статьи на рецензию постдоки и аспиранты. Часто, именно они рецензируют статьи в не очень крутые журналы, но они получают предложение от своего руководителя, который формально считается рецензентом статьи. Многие скептически относятся к рецензии статей учеными на начальных ступеньках карьеры, но мне кажется, что многие из них способны справиться с задачей не хуже, чем их старшие коллеги.

В-третьих, по моему опыту, далеко не все рецензенты полностью читают статьи перед тем, как отправить ее на рецензию. В таком случае, потенциальный рецензент и сам может принять решение брать статью или нет, прочитав абстракт и посмотрев картинки. Рецензент всегда может отказаться брать статью, если она ему неинтересна, если он не считает себя достаточно компетентным в нужной области или если у него нет времени.

В-четвертых, с решением этой проблемы должна помочь система рейтинга. Так, ученые с большим рейтингом могут получать преимущество в поисках рецензента. А рейтинг может отображаться даже при анонимном общении. И наоборот, пользователи с низким рейтингом будут ограничены в возможности отправки статей (например, не чаще одного раза в несколько месяцев), так как ранее они были замечены в подаче некачественных данных.

Затачивание статей под лайки


Это означает, что ученые будут максимально подстраивать свои статьи под любую введенную систему оценки. И если предложить оценивать статью условными лайками от других ученых, то статьи будут оптимизированы, чтобы больше этих лайков набрать. Это извечная проблема, она возникает в любой системе оценки. В комментарии к предыдущей части jungeschwiliупомянула эффект кобры и закон Гудхарта, которые очень хорошо описывают суть проблемы. Тем не менее, можно предложить несколько путей компенсации этого эффекта.

Во-первых, рейтинг не предполагается единственной мерой качества качества статьи. Я предлагаю лишь уйти от оценки с помощью импакт-фактора, а также добавить очевидную оценку рецензентов.

Во-вторых, автоматический поиск конфликтов интересов позволяет обойти заметную долю лайков от друзей или врагов автора, которые могут быть менее объективны.

В-третьих, оптимально иметь обратную связь если ученый недобросовестно оценивает статьи, то цена его оценки падает.

We need to go deeper


Микростатьи


Проблему, являющуюся предпосылкой этого пункта, я не разбирал в прошлый раз. Состоит она в том, как оценивать всех авторов статьи. В биологии принято считать первого автора самым важным, внесшим наибольший вклад в работу. Но градаций может быть очень много, разделить степень участия между большим числом авторов может быть непросто. Некоторые журналы просят прямо указать в конце статьи вклад авторов.

Однако есть более интересное решение. Если статью публиковать не как единое целое, а как набор отдельных экспериментов, то к каждому можно давать отдельный список авторов. А кроме того, можно цитировать не всю статью целиком, а только интересующие вас части.

Такая концепция дает еще ряд интересных преимуществ. Петр Лидский очень подробно описал концепцию и даже процесс перехода к ней вот в этой статье. Если вам интересен взгляд на один из вариантов развития журналов будущего, то очень рекомендую ознакомиться.

Интеграция полученной информации


Одна из самых важных проблем это даже не то, как лучше опубликовать научную статью, организация научного знания в целом. Ведь каждая статья это лишь крохотный кусочек огромного пазла, который мы пытается собирать без схемы.

Сейчас одним из немногих способов объединять разрозненные исследования служат обзоры. Их пишут ученые на основе разных экспериментальных работ. Однако, даже самые хорошие обзоры достаточно быстро устаревают, ведь новые статьи выходят каждую неделю.

В комментариях (раз, два) к предыдущей статье предлагали использовать формат wiki для постоянного обновления обзоров силами сообщества. На мой взгляд, это достаточно интересная идея. Более того, она в немного других вариантах уже применяется в различных базах данных. Однако и здесь есть куда развиваться.

Вот так моя коллега, Зоя Червонцева, описывает свой взгляд на проблемы научных публикаций:
Мне кажется, самая большая проблема с биологическими публикациями сейчас это бардак в смысловой части, а не в организационной. Есть много частных утверждений (белок А делает то-то в таких-то условиях), которые никак друг с другом не соотносятся. Обзоры пытаются закрывать эту потребность, но их не хватает. Идеальная система публикаций имхо должна в явном виде вписывать свои новые утверждения в некоторую структуру (граф?) предыдущего знания.

Отдельная сложность заключается в том, что многие утверждения сейчас вероятностные не белок А делает что-то, а белок А, возможно, согласно результатам нашего нового супер-навороченного протокола, с таким-то p-value связывается с этим сайтом в ДНК и так для тысячи сайтов в геноме. То есть получается даже не единица информации, а плотность вероятности информации)). Плюс, конечно, батч-эффект и баги в программах анализа это да, но кажется, что невоспроизводимость тут не так страшна, как то, что мы в принципе не умеем сейчас этот тип информации нормально интегрировать.

Сейчас подобную функцию выполняют различные базы данных. Но им еще далеко до идеала. Не говоря уж о том, чтобы создать структуру данных, описывающих сразу большой раздел науки. Однако я уверен, что это направление продолжить активно развиваться в ближайшем будущем.

Роль классических журналов в будущем


Понятно, что классические журналы не исчезнут в одночасье. Но это и не нужно. Они вполне могут работать параллельно с системой открытого доступа.

Например, они могут выбирать выдающихся ученых и заказывать им обзоры по различным областям знаний. Или заниматься научной журналистикой. Или более доступно излагать исследования для неспециалистов.

Небольшое заключение


Вот такие направления развития публикаций кажутся мне перспективными. Я думаю, что в ближайшем будущем даже такие прогнозы могут оказаться достаточно скромными в это области огромный потенциал для развития, и кто знает, какой формат представления информации окажется самым эффективным. Я лишь уверен, что нам необходимо развивать научные публикации и использовать доступные возможности.

Больше форматов хороших и разных


А вас я бы хотел поблагодарить за то, что вы дочитали эту статью, и пригласить к дискуссии в комментариях. Я уверен, что у вас есть интересные идеи, и буду рад их обсудить.

Благодарности


Большое спасибо Ольге Золотаревой за дискуссии и идеи для этой статьи. Спасибо Софье Камалян за помощь в проверке текста. Спасибо всем, кто принял участие в дискуссии по первой части статьи, особенно: Петру Лидскому, Надежде Воробьевой, Омару Кантидзе, Зое Червонцевой, Алексею Савчику. Пользователям Хабра: rg_software, Jerf, CactusKnight, qvan, technic, darksnake, nnseva, damewigit и многим другим. А также всем коллегам, с которыми обсуждали проблемы научных публикаций.

Первая часть статьи.
Подробнее..

Непостижимая гиперпродуктивность учёных

13.05.2021 10:08:31 | Автор: admin

imageИллюстрация David Parkins изстатьи Nature 561, 167-169 (2018).


Научный прогресс двигается быстрее и быстрее. Новости полны пресс-релизами о перспективных разработках и об очередных взятых вершинах. Кто же они, герои эпохального подъёма? Новые гении, как Тесла, Эйнштейн или Тьюринг? Возможно ли измерить вклад гения в науку? Оказывается, да, теперь есть такая дисциплина наукометрия. Если совсем по-простому, нынче вклад в науку измеряется числом вышедших статей. Если судить по этому показателю, существует в мире не менее сотни людей, чьи способности таковы, что они публикуют не менее одной научной работы в рабочую неделю. Пять дней публикация в рецензируемом научном журнале. Хотите узнать секрет их креативности?


Предыстория


В марте 1909 г. Фриц Габер впервые получил аммиак, используя в качестве катализатора порошкообразный осмий. Результаты учёный передал в фирму BASF, которая построила в 1913 г. первый завод по синтезу аммиака. Аппаратуру для него разработал инженер К. Бош. Процесс получения азотной кислоты из аммиака к тому времени уже был разработан. Это означало, что Германия больше не зависит от импорта селитры, и способна сама прокормить себя (в буквальном смысле удобрения теперь производились из воздуха) и обеспечить выпуск военной продукции: порох, взрывчатка. А в 1914 году началась Первая мировая война. Подробнее об этой истории читайте в Нитраты на войне. Часть II. Горький мёд и почти детективная история.


Привели ли научные разработки процесса Габера-Боша к Первой мировой войне дискуссионный вопрос. Однако, история Второй мировой войны, с точки зрения химии, начиналась подозрительно похожим образом.


Снова крупное научное достижение процесс Фишера-Тропша. В 3040-е гг. на основе этой технологии налажено производство синтетического бензина в Германии. Коммерциализация осуществлена в 1933 году фирмой Braunkohle Benzin AG. Её история и годы жизни (1933-1945) удивительным образом пересекается с историей Германии тех лет. Располагая синтетическим бензином, Третий Рейх смог вести военные действия с невиданной ранее моторизацией вооруженных сил.


А вот какой был ответ советских химиков

Большинство предприятий, расположенных на Украине, в частности в Донбассе, и в центральных районах, оказалось в зоне военных действий и на оккупированной территории. В результате выхода из строя значительных производственных мощностей выпуск химической продукции снизился. Так, в декабре 1941 г. производство продукции по сравнению с июнем 1941 г. составило по Наркомату химической промышленности 32,3% (в ноябре было еще ниже 30,9%). Цитировано по статье ХИМИЧЕСКАЯ ПРОМШЛЕННОСТЬ В ГОД ВЕЛИКОЙ ОТЕЧЕСТВЕННОЙ ВОЙН.


Не преувеличивая, скажу, что без серной кислоты нет не только производства военной продукции, как порох и взрывчатка, но и практически всей химии. Потеря производства серной кислоты означала неминуемый проигрыш войны. Однако, советским химикам удалось внедрить ванадиевый катализатор контактного синтеза серной кислоты. В результате удалось резко увеличить производственные мощности, и в тяжелое военное время наша промышленность была обеспечена этим важным сырьем. Это позволило во время Великой Отечественной войны полностью покрыть потребности оборонной промышленности страны в важном стратегическом сырье, необходимом для получения взрывчатых веществ. (Цитировано по статье Катализатор победы).


Роль ученых в ходе Второй мировой войны возросла настолько, что они являлись целями стратегических военных операций. Читайте об "операции Скрепка" и недавний пост Математики во время Второй Мировой войны: интеллект важнее грубой силы. Кульминацией силы науки явилась демонстрация ядерного оружия.


Последовавшая вслед за Второй мировой Холодная война велась в основном научно-производственными комплексами мировых держав. Гонка вооружений требовала всё больше и больше разработок, НИИ, ученых и инженеров. Быть учёным стало означать не только призвание и наклонности, но и профессию.


Пирамида


Нужные на особый случай ученые кадры заготовить сложно, если возможно вообще. Это не мобилизационный резерв, как в армии. Учебные заведения США и СССР готовили гораздо больше специалистов, чем было востребовано мирной экономикой. Спрос и предложение уравновешиваются, а в результате имеем падение уровня доходов рядовых учёных. Обычных учёных, занятых своей деятельностью. Среди них возникает стремление подняться выше в ранге, чтобы избежать проблем с трудоустройством, плюс, хотя бы элементарно компенсировать вложения сил и времени, потраченные на учебу.


Занятие наукой становится рискованной инвестицией: сначала работаешь на профессора, потом "сделав себе имя" становишься профессором сам и берешь несколько новых аспирантов, работающих уже на тебя. Каждый из них надеется сам стать профессором и так далее. Число занятых в науке возрастает. Подробнее о ситуации смотрите под катом. Там изложена ситуация 20-летней давности, но с тех пор вещи не стали лучше.


Известное письмо профессора Jonathan I. Katz - Don't Become a Scientist!

Не становитесь ученым!


Джонатан И. Кац


Профессор физики


Вашингтонский университет, Сент-Луис, Мо.


[my last name]@wuphys.wustl.edu


Подумываете о том, чтобы стать ученым? Хотите раскрыть тайны природы, проводить эксперименты или расчеты, чтобы узнать, как устроен мир? Забудьте об этом!


Наука это весело и увлекательно. Острые ощущения от открытий неповторимы. Если вы умны, амбициозны и трудолюбивы, вам стоит изучать естественные науки в бакалавриате. Но это и всё, что вам следует сделать. После окончания университета вам придется иметь дело с реальным миром. Это означает, что вам не следует даже рассматривать возможность поступления в аспирантуру по естественным наукам. Вместо этого займитесь чем-нибудь другим: медициной, юриспруденцией, компьютерами, инженерным делом или чем-то еще, что вас привлекает.


Почему я (занимая должность профессора физики) пытаюсь отговорить вас от карьеры, которая была для меня успешной? Потому что времена изменились (я получил докторскую степень в 1973 году, а статус профессора в 1976 году). Американская наука больше не предлагает разумного карьерного пути. Если вы идете в аспирантуру по естественным наукам, то рассчитываете на трудовую деятельность, занимаясь научными исследованиями, применяя всю свою изобретательность и любопытство для решения важных и интересных проблем. Вы практически наверняка будете разочарованы, возможно, когда будет уже слишком поздно выбирать другую карьеру.


Американские университеты готовят примерно в два раза больше докторов наук, чем имеется рабочих мест для них. Когда на рынке возникает избыток чего-то или кого-то, цена снижается. В случае с учеными, получившими докторскую степень, снижение цены происходит за счёт многих лет, проведенных в постдокторантуре. Постоянная работа оплачивается не сильно меньше, чем раньше, но вместо того, чтобы получить настоящую работу через два года после получения докторской степени (как это было типично 25 лет назад), большинство молодых ученых проводят пять, десять или более лет постдоками. У них нет перспектив на постоянную работу, и часто они вынуждены переезжать каждые два года, чтобы получить новую должность постдока. Для получения более подробной информации обратитесь к Сети молодых ученых или прочитайте статью в майском номере журнала Washington Monthly за 2001 год.


В качестве примера можно привести двух ведущих кандидатов на должность ассистента профессора на моей кафедре. Одному было 37 лет, десять лет после окончания аспирантуры (он не получил работу). Блестящему ведущему кандидату было 35 лет, семь лет после окончания аспирантуры. Только тогда ему предложили первую постоянную работу (это не стаж, просто возможность получить его через шесть лет, и шаг с беговой дорожки поиска новой работы каждые два года). Последний пример 39-летний кандидат на должность доцента, он опубликовал 35 работ. В отличие от них, врач обычно начинает частную практику в 29 лет, юрист в 25 лет и становится юридическим партнером в 31 год, а ученый со степенью доктора наук computer science имеет очень хорошую работу в 27 лет (компьютерные науки и инженерия это те немногие области, в которых промышленный спрос делает разумным получение степени доктора наук). Любой человек, обладающий интеллектом, амбициями и желанием упорно трудиться, чтобы добиться успеха в науке, может также добиться успеха в любой из этих других профессий.


Типичная зарплата постдока начинается от 27 000 долларов в год в биологических науках и около 35 000 долларов в физических науках (стипендии аспирантов меньше половины этих цифр). Сможете ли вы содержать семью на такой доход? Для молодой пары в небольшой квартире этого вполне достаточно, хотя я знаю одного физика, жена которого ушла от него, потому что устала от постоянных переездов без особых перспектив осесть на новом месте. Когда вам будет за тридцать, вам понадобится больше: дом в районе с хорошей школой и все остальное, что необходимо для жизни обычного среднего класса. Наука это профессия, а не религиозное призвание, и она не оправдывает клятву бедности или безбрачия.


Разумеется, вы шли в науку не только чтобы разбогатеть. Поэтому вы решаете отказаться от медицинской или юридической школы, хотя врач или юрист обычно зарабатывает в два-три раза больше, чем ученый (тому, кому повезло иметь хорошую работу высокого уровня). Я тоже сделал такой выбор. Я стал ученым, чтобы иметь возможность свободно работать над проблемами, которые меня интересуют. Но у вас такой свободы, скорее всего, не будет. В качестве постдока вы будете работать над чужими идеями, и к вам могут относиться как к техническому специалисту, а не как к независимому сотруднику. В конце концов, вас, вероятно, полностью вытеснят из науки. Вы можете получить прекрасную работу программиста, но почему бы не сделать это в 22 года, а не терпеть десятилетие страданий на рынке труда в науке? Чем больше времени вы проведете в науке, тем труднее вам будет ее покинуть, и тем менее привлекательными вы будете для потенциальных работодателей в других областях.


Возможно, вы настолько талантливы, что сможете избежать ловушки постдоков, какой-нибудь университет (в физических науках почти нет промышленных рабочих мест) будет настолько впечатлен вами, что вас возьмут на должность с правом преподавания уже через два года после окончания аспирантуры. Возможно. Но общее удешевление научного труда означает, что даже самые талантливые остаются на беговой дорожке постдокторантуры в течение очень долгого времени. Рассмотрим кандидатов на работу, описанных выше. Многие из тех, кто кажутся очень талантливыми, с соответствующими оценками и рекомендациями, позже обнаруживают, что конкуренция в области исследований более сложная или, по крайней мере, другая, и что они должны бороться с остальными.


Предположим, что в конце концов вы получите постоянную работу, возможно, должность профессора. Борьба за работу теперь сменится борьбой за гранты, и тут снова наблюдается избыток учёных. Теперь вы тратите свое время на написание заявок, а не на исследования. Хуже того, поскольку ваши заявки оцениваются конкурентами, вы не можете следовать своему любопытству, а вынуждены тратить свои силы и таланты на предвосхищение и отражение критики, а не на решение важных научных проблем. Это не одно и то же: вы не можете изложить в предложении свои прошлые успехи, потому что они являются законченной работой, а ваши новые идеи, какими бы оригинальными и умными они ни были, все еще недоказуемы. По пословице, оригинальные идеи это поцелуй смерти для заявки; поскольку еще не доказано, что они работают (в конце концов, это то, что вы предлагаете сделать), они могут быть и будут оценены низко. Достигнув земли обетованной, вы обнаруживаете, что это совсем не то, чего вы хотели.


Что делать? Первое, что должен сделать любой молодой человек (а это значит любой, у кого нет постоянной работы в науке), это избрать другую карьеру. Это избавит вас от страданий, связанных с обманутыми ожиданиями. Молодые американцы, как правило, уже осознали плохие перспективы и отсутствие разумной карьеры среднего класса в науке и покидают её. Если вы еще не сделали этого, то присоединяйтесь к ним. Оставьте аспирантуру людям из Индии и Китая, для которых перспективы на родине еще хуже. Я знаю больше людей, чьи жизни были разрушены получением докторской степени по физике, чем наркотиками.


Если вы занимаете руководящую должность в науке, то вам следует попытаться убедить финансирующие агентства готовить меньше докторов наук. Перенасыщение ученых это полностью следствие политики финансирования (почти всё обучение аспирантов оплачивается федеральными грантами). Финансовые агентства сетуют на нехватку молодых людей, интересующихся наукой, в то время как они сами вызвали эту нехватку, разрушив науку как карьеру. Они могли бы обратить эту ситуацию вспять, приведя количество подготовленных специалистов в соответствие со спросом, но они отказываются это делать или даже серьезно обсуждать эту проблему (в течение многих лет NSF распространял нечестное предсказание о грядущей нехватке ученых, и большинство финансирующих агентств по-прежнему действуют так, как будто это правда). В результате лучшие молодые люди, которые должны идти в науку, благоразумно отказываются это делать, а аспирантура заполняется слабыми американскими студентами и иностранцами, которых заманивают американской студенческой визой.


(оригинал письма)


Наукометрия


Учёных в мире становилось всё больше и больше, а в некоторых странах окончание Холодной войны привело еще и к демобилизации армии научно-технического фронта. Как это всегда бывает, под призывы к оптимизации управления научными исследованиями скрывалось старое доброе сокращение расходов и кадров. Однако, сложно решить, какие разработки пустить под нож, а какие оставить, обучение каким специальностям нужно, а каким нет. По силу ли эта задача даже гению? Что говорить об обычных менеджерах, чиновниках и управленцах. Непопулярные меры были замаскированы под введение формальных показателей результативности научной работы. Так у учёных появились свои KPI.


Ключевые показатели эффективности (KPI) подразумевают, что при достижении всех целей нижнего уровня иерархии, главная цель достигается автоматически. Так, мы считаем, что вместе с публикацией серии статей о некой проблеме X (за KPI здесь взята мера количество публикаций, цель нижнего уровня иерархии), научная проблема X оказывается решённой. Никто не сомневается в том, что решение научной проблемы сопровождается публикациями, но верно ли обратное?


Тем не менее, минимум последние 20 лет ученый мир живет с установкой, что эффективность исследований прямо пропорциональна публикационной активности. Вы делаете свою работу, отправляете её в журнал. В зависимости от импакт-фактора журнала (средняя величина, показывающая сколько цитирований имеет статья опубликованная в данном журнале за фиксированный период времени, обычно это три года) вам начисляются баллы.


Например, за две принятых статьи в престижный журнал с импакт-фактором 20 вы заработаете 40 баллов, а за двадцать статей в журнале рангом поменьше, с импакт-фактором 0.5, вы получите всего 10 баллов. Престижный журнал имеет придирчивых и дотошных рецензентов, его редактор выбирает актуальные и перспективные темы работ. Чем больше у вас баллов, тем выше шансы получить финансирование. Чем выше ваш индекс Хирша, тем выше ваш престиж и шансы получить грант.


О слабых сторонах и недостатках такого подхода к науке известно многое, мне не удастся перечислить все источники здесь, отмечу лишь два хороших поста на эту тему:



Проклятие закона Гудхарта


Закон (принцип) Гудхарта заключается в том, что когда экономический показатель становится целевой функцией для проведения экономической политики, прежние эмпирические закономерности, использующие данный показатель, перестают действовать. Своего рода это соотношение неопределенностей


$\Delta x \cdot \Delta p \ge \hbar/2$


где $\Delta x$ погрешность нашего показателя (координаты цели, KPI), $\Delta p$ погрешность меры воздействия (импульс, экономический стимул), а $\hbar/2$ константа.


Так, сделав публикационную активность мерилом вклада ученого в решение научной проблемы и управляя научной деятельностью по показателю, добились того, что показатель перестал отражать реальность. Много публикуется не значит, что делает что-то полезное. Равно и наоборот вклад Григория Перельмана в решение проблемы Пуанкаре бесспорно значителен, но по современным меркам, как ученый он совершенно незаметен. Всего три статьи, просто в архиве препринтов, никаких журналов с высоким импакт-фактором.


Кто думает, что дело поправят новые индексы, правила рецензирования и критерии выдачи грантов или наивен, или лукав. Закон Гудхарта опровергнуть сложно. Григорий Перельман находится по одну сторону значительный вклад, незначительный KPI. Кто же находится по другую? Кто новый вид эволюционировавших исследователей?


Сверхпродуктивные и успешные


Журнал Nature опубликовал в 2018 году интересное статистическое исследование Thousands of scientists publish a paper every five days. Список успешных ученых в открытом доступе вот он! Какие выводы следуют из собранных данных?


Большинство гиперпродуктивных авторов (86%) работают в области физики высоких энергий. Это ученые работающие на ускорителях частиц, в том числе на большом адронном коллайдере. Как правило, это крупные международные проекты и практически все задействованные люди вносят свою лепту. Сложившиеся правила таковы, что в авторы публикаций включают всех, нередко число соавторов превышает 1000 человек. Эти публикации исключены из статистики, так как цель была установить именно продуктивных "писателей".


Оставшиеся области химия, медицина, компьютерные науки (информатика) и биология. Исследователи отправили по электронной почте письма 265 авторам с просьбой рассказать о том, как они попали в чрезвычайно продуктивный класс ученых. 81 ответ приведен в дополнительной информации. Общими ответами были: упорная работа; любовь к науке; наставничество очень многих молодых исследователей; руководство исследовательской группой или несколькими группами; широкое сотрудничество; работа в нескольких областях или в основных службах; наличие подходящих обширных ресурсов и данных; кульминация большого проекта; личные ценности, такие как щедрость и обмен знаниями; опыт и сон всего несколько часов в сутки.


Когда я читал эти ответы, моя реакция была да ладно? Вы серьезно что ли?


Bellomo, Rinaldo: Ни для кого не загадка: это кривая нормального распределения с людьми на каждом хвосте. Для людей, находящихся в середине, каждый хвост будет выглядеть невероятным. Они правы. По определению, они правы. Гаусс гордился бы ими.


Читайте там же: есть победители, а есть неудачники, мы работаем 80 часов в неделю и успешны. Не хотелось бы занудствовать, но распределение Гаусса как раз исключает существование таких отклонений. Потому то его и называют нормальное распределение.


Посмотрим на близкие к реальности причины.


кардиологи публикуют больше работ после того, как становятся директорами (несмотря на тяжелые клинические и административные обязанности). Иногда ускорение бывает ошеломляющим: на пике своей продуктивности некоторые кардиологи публикуют в 10-80 раз больше работ за год по сравнению со своей среднегодовой продуктивностью, когда им было 35-42 года. Также часто наблюдается резкое снижение после передачи кафедры преемнику.


Оставлю это без комментариев.


Далее. Опрос гиперпродуктивных авторов показал, что в большинстве публикаций не соблюдался Ванкуверовский критерий авторства, то есть необходимое соблюдение следующих требований:


  1. участие в разработке или проведении эксперимента, или в обработке полученных данных
  2. участие/помощь в подготовке и редакции текста рукописи
  3. подтверждение опубликованного материала
  4. ответственность за содержание статьи

В реальности дело упрощается до первых двух пунктов. Подтверждение автоматическое (если вы не хотите выпускать статью явно отвечаете на email издательства, нет от вас ответа не возражаете). Ответственность? Раз статью пропустили рецензенты, значит, они гарантируют, что там всё нормально. Учитывая, что рецензирование анонимное и практически всегда бесплатное, по факту, за материал статьи никто не отвечает. Воспроизводимость результатов страдает, да.


Новые способы увеличения продуктивности


Цитата из статьи: Увеличит ли любая какаха, которую мы поместим в графен, его электрокаталитический эффект? (Wang L., Sofer Z., Pumera M. Will any crap we put into graphene increase its electrocatalytic effect? // ACS Nano. 2020. Vol. 14. . 1. Pp. 21-25.)


Располагая 84 достаточно стабильными химическими элементами (исключая благородные газы и углерод), можно подготовить 84 статьи о моноэлементном легировании графена; с двумя легирующими элементами имеем 3486 возможных комбинаций, с тремя 95284, а с четырьмя элементами почти 2106 комбинаций.


Видите? Разбавили графен куриным помётом и его свойства реально стали лучше! Стоит ли удивляться, что именно в химии работают очень продуктивные учёные?


Рассмотрим этот способ детальнее. Однажды я готовил на пару капусту брокколи. Реактивы вода, брокколи. Оборудование обычная мультиварка. Как капуста была готова, я посмотрел, что осталось в чашке мультиварки. Там была коричневая жижа многократно упаренный сок капусты. У меня есть детская ручка с УФ-светодиодом, вроде такой.
Фломастер-невидимка с УФ-фонариком.
Фломастер-невидимка с УФ-фонариком.


Посветив на разбавленную водой коричневую жижу я обнаружил люминесценцию раствора. Что же это такое? А это углеродные квантовые точки, вот что! Горячая тема исследований. Не верите? Пожалуйста, вот статья (не моя, к сожалению): Arumugam N., Kim J. Synthesis of carbon quantum dots from Broccoli and their ability to detect silver ions // Materials Letters. 2018. Vol. 219. Pp. 37-40. Читайте. Вы сможете сделать свои квантовые точки тоже, например, из апельсинового сока. Ничуть не сложнее, а вас процитируют более 1200 раз.


Люминесценция раствора от пропаренной капусты.
Люминесценция раствора от пропаренной капусты.


Больше серьезности. Возьмем вместо мультиварки тефлоновый автоклав и программируемую печь, воду непременно деионизированную. Вооружимся спектрофлуориметром, образец исследуем на просвечивающем электронном микроскопе Зачем всё это? Чтобы описать в статье. Чтобы было о чем писать на нескольких страницах с библиографией.


У вас есть просвечивающий электронный микроскоп? Умеете на нем работать? Не беда если его нет. На помощь приходит гиперпродуктивный ученый. Встречайте: человек-на-приборе. Вот где они, герои публикационной активности. Всего лишь за небольшое дело, которое вас ни к чему не обязывает, вы включаете специалиста по физическим методам исследования в статью. Снимок статья, спектр еще статья, дело пошло, химия богата на образцы.


Странно, что авторы упомянутого исследования в Nature не обнаружили эту простую закономерность.


Неожиданным результатом стало то, что некоторые гиперпрофильные авторы разместили много публикаций в одном журнале. В этом отношении выделяются Acta Crystallographica Section E: Structure Reports Online (перезапущен в 2014 году как Section E: Crystallographic Communications, а краткие отчеты о структурных данных теперь публикуются в IuCrData) и Zeitschrift fr Kristallographie New Crystal Structures. Три автора опубликовали более 600 статей в первом (Хун-Кун Фун, Сейк Венг Нг и Эдвард Тиекинк).


Ничего неожиданного. Эдвард Тиекинк, судя по его профилю, тот самый нужный специалист, без которого вы не опубликуете статью он отвечает за выдачу результатов рентгеноструктурного анализа.


Заключение


Ради Бога, только не думайте, что я призываю пойти в науку и стать широко публикуемым соавтором, наслаждаться грантами, путешествиями на конференции и славой. Помните, это всё пирамида, схема Понци. Сегодня выгодно снимать спектры и превращать их в статьи, завтра нет. Взлёт наук о материалах тоже не навсегда. Истории сегодняшнего успеха никак не рецепты завтрашнего. Если, конечно, не верить всерьёз мантрам вроде: упорная работа, меньше сна, сотрудничество с коллегами, увлеченность задачами, 80 часов работы в неделю Здоровый сон важен, а показатели результативности нет.


Моё мнение наука переместится в R&D подразделения компаний и в лаборатории при кафедрах немногих высших учебных заведений. Прогноз, безусловно, спорный, но оптимистичный. Другое будущее в пирамиде даже представлять не хочется.




VPS от Маклауд недорогие и надежные.


Зарегистрируйтесь по ссылке выше или кликнув на баннер и получите 10% скидку на первый месяц аренды сервера любой конфигурации!


Подробнее..

Чего хотят конференции воспроизводимость экспериментов в data science

11.06.2021 22:17:41 | Автор: admin

Ведущие научные конференции просят воспроизводимости экспериментов. И это нужно для повышения доверия к работам, для извлечения пользы (повторной используемости и цитируемости), ну и тренд (согласно опросу журнала Nature).

Ожидания растут, в 2021 уже 9 из 10 конференций предлагают авторам провериться на воспроизводимость. Сдать тест, заполнить опросник, привести свидетеля и т. д.

О чем речь, зачем нужна воспроизводимость, какие проблемы нужно решать, обсудим в этой статье.

Эксперименты в машинном обучении

Под экспериментом понимают процедуру для проверки и опровержения гипотез. Будь то гипотезы о наличии закономерностей в данных или выборе параметров модели.

Провести эксперимент не так просто, как может показаться. При желании, даже в типовом эксперименте со случайным перемешиванием и разделением данных на train, test и повторением несколько раз можно обнаружить применение рандомизации в постановке эксперимента.

Структура эксперимента

Еще у эксперимента есть цель, план, критерии принятия или опровержения гипотез, использованные данные и ожидаемые результаты. Если порядок проведения эксперимента разбит на этапы и указана последовательность их исполнения, то говорят, что задан пайплайн (pipeline) эксперимента.

Проведенные измерения подвергаются анализу и делается вывод об успешности эксперимента, и можно ли принять или отвергнуть гипотезы.

Так вот, анализ представленных статей на конференции AAAI 2014, AAAI 2016, IJCAI 2013 и IJCAI 2016 показывает, что доля экспериментальных работ составляет более 80% в разы выше чисто теоретических!

Ожидается, что результаты экспериментов будут повторяемы

Вот список конференций и требования по повторяемости результато на апрель 2021 года. Список получен по GuideToResearch (Top 100), поиском по категории Machine Learning, Data Mining & Artificial Intelligence. Уровни и ссылки собраны вручную.

В таблице указаны вот такие уровни требований:

  • Not found требования по воспроизводимости не найдены в CFP или инструкциях автору.

  • Reminder организаторы просят авторов предоставлять воспроизводимые результаты.

  • Encouraged авторам предоставлен чеклист и настоятельно рекомендуется предоставить оценку соответствия ему, будет влиять на оценку работ.

  • Required выполнение требований по воспроизводимости обязательно для подачи работы.

Что это значит и что такое воспроизводимость?

Пока не заметно, чтобы от рецензентов требовали воспроизводить результаты авторов. На это, скорее всего, им не хватит времени, если только эксперимент изначально не автоматизирован. Могут попросить опубликовать код, заполнить чеклист, или уже отдельно проводят трек с повторением экспериментов. Наиболее распространены два чеклиста (пример раз от NeurIPS, пример два по мотивам исследований Gundersen et al.).

Таким образом, нужно быть готовым ответить на пару десятков вопросов и проверить, что ответы на них адекватно отражены в подаваемой статье.

При этом гипотеза, что соответствие чеклистам или устаналиваемым правилам повышает воспроизводимость все еще не подтверждена. Более того, по состоянию на 2020-2021 в области машинного обучения нет устоявшейся терминологии и, тем более, ее перевода на русский. Вот что используют в ACM при выдаче бейджей о воспроизводимости, в вольном переводе:

Повторяй за мной (repeatable experiment / повторяемый эксперимент)
Авторы могут получить те же результаты в пределах погрешности, используя заготовленные артефакты эксперимента.

Артефактами (artifact) здесь называются статья, экспериментальный стенд или его части, исходный код, инструкции к его запуску, данные или способ их получения и так далее, что можно идентифицировать и связать с экспериментом.

Делай вместо меня (reproducible / повторяемые результаты)
Другие исследователи могут получить те же результаты, используя артефакты от авторов.

Думай как я (replicable / воспроизводимые исследования)
По описанию эксперимента другие исследователи могут реализовать артефакты и сделать те же выводы из результатов.

Важно, что использование чеклистов для самопроверки поможет с Повторяй за мной, но вряд ли с более высокими уровнями воспроизводимости.

Минутка философии.

Считается, что воспроизводимость - одна из основ научного метода познания https://en.wikipedia.org/wiki/Reproducibility

Постпозитивист и автор теории потенциальной фальсифицируемости Карл Поппер пишет в середине XX века:

non-reproducible single occurrences are of no significance to science

Popper, K. R. 1959. The logic of scientific discovery. Hutchinson, London, United Kingdom.

То есть единичные невоспроизводимые события не имеют значения для науки. Так то.

Для чего еще повторное использование

Воспроизводимость и повторная используемость эксперимента оказывается полезной не только при подготовке публикации.

Примеры: для своей новой работы нужна часть кода из прошлой статьи, откуда его брать? По-умолчанию, это копирование тетрадки, ячеек или блокнотик с заготовками и сниппетами (отпишитесь, кто так делает). В каких условиях использовался этот код ранее, какую задачу решал и с каким результатом?

Еще примеры: нужно сделать демо результатов после эксперимента, нужен код построения модели еще и в пайплайне, еще тот же код нужен для других специальных экспериментов. Можем ли использовать код эксперимента в разных условиях, с различными входными данными? Как его нужно структурировать для этого и не забыть про описание? А теперь представим, что нужна доработка или исправление дефекта в коде, скопированном для всех кейсов!

Если мы повторно используем часть эксперимента или эксперимент целиком, получим ли мы ожидаемые результаты?

С другой стороны. Например, нашли очень интересную статью на том же arxiv.org или paperswithcode.org. Будет ли полезно для проекта? Есть ли код? Есть ли данные? Могу ли повторить? Не могу. Без кода вообще не смотрю, цитата с круглого стола по воспроизводимости экспериментов.

И еще provenance

То есть прослеживаемость. Вообще важная вещь! Есть даже Prov-ML модель предметной области проведения экспериментов в науках о данных. Корректность UML 2 подтверждена (кроме указания стереотипов в двойных угловых скобках, вместо << нужно ).

Примеры вопросов про прослеживаемость. Откуда у вас это значение? Кто получил результаты? На каком сервере были расчеты? Сколько ресурсов потрачено? Какая точность измерений?

При этом в некоторых случаях под воспроизводимостью могут понимать как раз прослеживаемость получения результатов экспериментов из исходных артефактов. Например, путем ведения журналов экспериментов, каталогов моделей, версий артефактов и так далее. Понятно, что знание того, как был получен результат не означает возможности его повторного получения.

А в чем сложности мой исследовательский код идеален?!

Возможно и так. Посмотрим, тем не менее, какие требования предъявляются к коду, на работоспособность которого мы привыкли рассчитывать и сравним с ожиданиями от исследовательского кода.

Промышленный код сделан по архитектуре или дизайну для реализации поставленных требований или фичи, управляется системой контроля версий, соответствует code style, документирован, автоматически и вручную протестирован, прошел код ревью и апробирован в проде.

Исследовательский код демонстрирует результат статьи/отчета/анализа, не используется/не требуется для понимания (есть же статья), воспринимается как дополнение к ней. При этом часто нужные компетенции для написания индастриал кода отсутствуют в команде. Действительно, рецензенты же не код смотрят (см. выше).

Вот что пишут, какой исследовательский код достаточно хороший на StackOverflow или StackExchange. Исследовательский код должен корректно реализовывать алгоритм, который является результатом в статье. Код эксперимента не код программного продукта, к нему не нужно предъявлять тех же требований. С другой стороны, вряд ли получат много доверия результаты, в представлении которых честно сказано, что код не проверен, скорее всего содержит ошибки, работает не понятно, каким образом.

На упомянутом ранее круглом столе среди сложностей разработки исследовательского кода и причин невоспроизводимости экспериментов на его основе также указаны противоречия и конкуренция внутри организации, первенство в идеях, желание сохранить ноу-хау, ресурсные барьеры.

Повторяемость результатов на практике

Что позволено Юпитеру, не позволено быку

В статье про воспроизводимость Jupyter Notebooks, найденных на GitHub, указывается, что без ошибок и с повторением сохраненных результатов выполнились только 4% из полутора миллионов тетрадок.

4%, Карл!

Среди запусков тетрадок, завершившихся с ошибкой, топ ошибок такой:

График из статьи A Large-scale Study about Quality and Reproducibility of Jupyter Notebooks.

Первое место проблемы с зависимостями в библиотеках и зависимостями в зависимостях. Часть репозиториев использовали requirements.txt, часть setup.py. Не всегда помогает из-за транзитивных зависимостей.

Второе место порядок исполнения. Тетрадка сохранена без прогона вчистую, порядок не сохранен и некоторые переменные объявлены или иницилизированы после использования.

Третье место нет нужных данных, например, указаны абсолютные пути или данных вообще нет в репозитории.

В другом эксперименте, в тетрадках, которые проходят без ошибок, результаты все равно могут не совпадать по следующим причинам:

  • Неуправляемая случайность в данных или алгоритмах (40%)

  • Зависимость вывода и результатов от функций времени (13%)

  • Различия отображения на графиках (некорректное использование matplotlib в том числе) (52%)

  • Недоступны внешние данные (3%)

  • Различия в выводе чисел с плавающей запятой (3%)

  • Непостоянный порядок обхода словарей и др. контейнеров в python (4%)

  • Различия в среде исполнения (27%)

А что с неЮпитером? Например, исследование повторяемости на R показывает примерно 44% воспроизводимости результатов (это как сравнивать красное с квадратным, но тем не менее). Аналогично указывается список причин, почему не удалось повторить результаты.

Как быть?

Никак. Ждать пока появятся гайд и подробные инструкции.

Причем похоже, что для воспроизводимости уровня Думай как я нужно уметь писать хороший текст и еще его уметь читать (см. навык чтения статей по DL вакансия в сами знаете какой компании, google it).

Или учиться проведению экспериментов. Повышать качество своей работы.

Если в индустрии см. построение пайплайнов и версионирование (a.k.a. MLOps), разобраться с исследовательским анализом данных (Exploratory Data Analysis, EDA) и делать его автоматическим, изучать тему, помогая опен-сорс проектам.

Если в академической среде см. постановка эксперимента, оформление статьи, архивирование и публикация результатов.

Что еще стоит узнать структуры репозиториев, работа с системой контроля версий, внимание - тестирование (обзор раз, рассказ два)!

Если в начале изучения ML обсудить с научным руководителем или наставником и изучить курсы по статистической проверке гипотез, и познакомиться с правилами проведения экспериментов в доказательной медицине (hardcore).

P.S. FAIR принципы

Несмотря на то, что принципы находимых (Findable), доступных (Accessible), переносимых (Interoperable) и повторно используемых (Reusable) результатов исследований (FAIR) были представлены еще в 2016 году, большинство опрошенных исследователей все еще не понимают или не применяют их в своих работах.

Ссылки и полезности

[1] Круглый стол по вопроизводимости экспериментов в науках о данных с научной конференции МФТИ.

[2] Статья про скрытый технический долг в системах машинного обучения.

[3] Статья по тестированию наукоемкого ПО.

[5] Доклад по анализу кода Jupyter Notebooks.

[6] Полезные слайды про проведение экспериментов и воспроизводимость.

[7]Статья по разработке исследовательского кода, Best Practices for Scientific Computing.

[8] Top Ten Reasons (not) to Share your Research Code .

[9] Статья с результатами опроса, что больше влияет на воспроизводимость, Understanding experiments and research practices for reproducibility: an exploratory study

Подробнее..

Десятки научных журналов исчезли из интернета за последние 20 лет и никто их не сохранил

10.09.2020 14:18:39 | Автор: admin

92 научных журнала по социальным и гуманитарным наукам и 84 по естественным пропали из интернета за последние два десятилетия, поскольку издатели перестали их поддерживать, пишет ScienceMag. Потенциально это могло привести к утере полезной информации об исследованиях, проведённых публиковавшимися в этих журналах авторами.

Под угрозой исчезновения находятся ещё около 900 онлайн-журналов, говорится в совместном исследовании специалистов из университетов Берлина и Готтингена в Германии и Школы экономики Ханкена в Хельсинки. В его рамках были изучены научные публикации в журналах с 2009 по 2019 годы: оказалось, что их количество утроилось за этот период. При этом уже исчезнувшие журналы в среднем находились в сети в открытом доступе в течение 10 лет по мнению авторов исследования, это означает, что пропасть из сети может намного больше ценных публикаций.

Пропавшими авторы определили журналы, которые хотя бы однажды полностью публиковались в интернете, и менее 50% контента из них сейчас доступны бесплатно в сети. Отмечается, что информация, которую сочли исчезнувшей, на самом деле может быть доступна в виде печатных копий или на коммерческой основе исследование было направлено именно на бесплатный доступ. Исследователи использовали исторический архив интернет-контента Wayback Machine, с помощью которого изучили более 14 тысяч журналов из 50 стран мира, большинство из которых развитые государства. Составить же список из 176 пропавших журналов было нелегко, утверждают авторы для этого пришлось проделать некоторую детективную цифровую работу, поскольку сведения об этих изданиях отрывочны: так, после прекращения поддержки онлайн-журнала, их названия больше не появляются в библиометрических базах данных.

Исследователи отмечают, что в число пропавших не вошли известные журналы, издаваемые крупными игроками в естественных науках. В основном они создавались на базе небольших исследовательских учреждений или научных обществ, а также ни одни из них не выпускался крупным коммерческим издательством. Несмотря на это, по словам авторов статьи, анализ показывает, что научные записи из множества публикаций находятся под угрозой исчезновения, при этом почти из каждой научной дисциплины.

Всего же только около трети из 14 068 журналов,опубликованных в каталоге журналов открытого доступа в 2019 году, потенциально будут обеспечены долгосрочным хранением контента. На данный момент несколько организаций, в том числе коммерческие, предлагают услуги по сохранению информации, а по меньшей мере одна из них Public Knowledge Project Preservation Network (PKP PN) даже предлагает делать это бесплатно. Однако в любом случае этого недостаточно, и издатели должны сами выделить средства на улучшение сохранности и продление поддержки онлайн-журналов.

Исследователи не учитывали научные журналы, доступные по подпискам. При этом такие издания имеют некоторые преимущества перед обычными, говорит Микаэль Лааско из Школы экономики Ханкена в Хельсинки. По его словам, контент, основанный по подписке, чаще всего лучше охватывается как онлайн-, так и привычными физическими библиотеками.

Нет единого мнения о том, кто в конечном итоге несёт ответственность за цифровое сохранение журналов в открытом доступе издатели, авторы, библиотеки или учреждения, на базе которых они были выпущены, говорится в исследовании. Попытки сохранить контент из научных публикаций в таких изданиях могут представлять серьёзную финансовую проблему для издателей, которые не взимают плату с авторов за публикацию. То же самое касается и библиотек. Исчезнувшие статьи могут храниться на репозиториях университетов, однако далеко не все учреждения и их спонсоры требуют, чтобы на такие репозитории помещались абсолютно все научные публикации.

Подробнее..

Категории

Последние комментарии

  • Имя: Макс
    24.08.2022 | 11:28
    Я разраб в IT компании, работаю на арбитражную команду. Мы работаем с приламы и сайтами, при работе замечаются постоянные баны и лаги. Пацаны посоветовали сервис по анализу исходного кода,https://app Подробнее..
  • Имя: 9055410337
    20.08.2022 | 17:41
    поможем пишите в телеграм Подробнее..
  • Имя: sabbat
    17.08.2022 | 20:42
    Охренеть.. это просто шикарная статья, феноменально круто. Большое спасибо за разбор! Надеюсь как-нибудь с тобой связаться для обсуждений чего-либо) Подробнее..
  • Имя: Мария
    09.08.2022 | 14:44
    Добрый день. Если обладаете такой информацией, то подскажите, пожалуйста, где можно найти много-много материала по Yggdrasil и его уязвимостях для написания диплома? Благодарю. Подробнее..
© 2006-2024, personeltest.ru