Data science vs COVID-19

Уже очевидно, что в 2021-м COVID-19 все еще будет оставаться, как говорится, на повестке дня. А значит, закономерно возникают вопросы: есть ли у нас инструменты для прогнозирования роста и снижения заболеваемости, можем ли мы предсказать развитие событий через неделю, месяц или даже год? Давайте разбираться.

Дано: колоссальные возможности data science, три талантливых специалиста.
Найти: способы предсказать распространение COVID-19 на неделю вперёд.

Решение:

На самом деле решений будет три, следите за публикациями. А сегодня мы обсудим одно из них, с Владиславом Крамаренко. Он нашёл модель, способную построить самый точный прогноз* для всего мира на неделю вперёд.

Владислав, привет. Давай подробно обсудим то, что ты сделал: что получилось, над чем еще предстоит работать, какие были ошибки и как их можно учесть в будущем. Начнем с главного: расскажи, какой алгоритм машинного обучения ты использовал?

Остановился на градиентном бустинге. Сложность была в том, что градиентные бустинги бывают разные и дают разную картину. У меня показал лучший результат adaboost, а на втором месте был Catboost.

В смысле, ты попробовал разные, и adaboost лучше всего зашёл?

Да. Лучше всего показал себя adaboost, он давал самый умеренный прогноз. Если мы видели, что всё бурно растёт, значит, для алгоритма и дальше всё будет бурно расти, и другие бустинги куда-то в облака прогноз устремляли. А вот adaboost был самый консервативный.

Как ты обучал модель?

Самая большая сложность в таких задачах найти правильный способ обучения моделей, то есть сделать правильный выбор тренировочной и тестовой выборок. Если в качестве тестовой выборки взять 1 день и разбить все данные на тренировочные и тестовые, то получается, что мы предсказываем всего на 1 день. Это не сложно нужно просто рандомно разбросать дни на тренировочные и тестовые, и 1 день можно будет предсказывать. Эту идею я сразу отбросил и предсказывал последнюю неделю: то есть последнюю неделю отсекал, остальные дни отдавал в тренировочные данные, и день за днём последней недели предсказывал честно, то есть брал для предсказания данные за неделю назад. Но и тут возникла сложность. Я сделал модель, которая идеально предсказывает вторую неделю, добавил кучу признаков, которые помогали в этом, но оказалось, что модель, которая очень хорошо предсказывает вторую неделю, очень плохо предсказывает третью. Начинаю думать, что, может быть, было бы проще поставить данные вручную и не использовать машинное обучение, и такая модель могла бы быть лучше.

Ты говоришь про то, чтобы посмотреть на количество глазами и линию провести дальше?

Проанализировать месячную статистику. Эти данные неплохо ложатся на какую-нибудь кривую. Вся эта статистика довольно странная, и не все заболевшие в неё попадают. Таким образом, статистика не отражает число заболевших. Я знаю, что некоторые ребята для такой задачи используют SEIR-модель (эпидемиологическую модель). Я тоже думал её использовать, но затем решил, что мы должны точно знать, сколько человек болеет, а мы не знаем. Эта модель привязана к тому, скольких заражает один человек, сколько человек болеет. Если мы эти данные не знаем, то с этим не получится работать. На мой взгляд, такая модель будет давать ошибочный прогноз.*

*Мы разберём достоинства и недостатки SEIR-модели с Николаем Кобало в следующей статье

Разумным мне кажется, что люди, которые этим занимаются, сначала должны всё сделать с помощью компьютера, а потом вручную отредактировать, исправить. Машина иногда выдаёт всякие глупости. Например, она видит, что в Китае долгое время не растёт количество заболевших, но при этом в других регионах также долгое время ничего не росло, а затем начался взрывной рост. И на основании этого машина понимает, что то же самое нужно сделать и для Китая, у которого, вообще-то, уже плато. И начинает давать не 80к, а резко в миллион уходит. У меня такое было в одной из моделей.

А традиционные модели? Что ты о них думаешь? Анализы временного ряда, типа ARIMA?

ARIMA я пробовал пару раз, но ни разу она не давала результат лучше, чем градиентный бустинг. Вроде, казалось бы, что с помощью ARIMA можно объяснить любой процесс, но оказалось, что не всегда она работает лучше. Там же куча параметров, процесс должен быть стационарный и так далее. Даже если проинтегрировать, не факт, что получится стационарный процесс.

Вопрос про деревья. Деревья же не экстраполируют. Как их заставить экстраполировать?

Для этого нужно предсказывать не общее количество заражённых, а что-то другое. Понятно, что если мы будем предсказывать общее количество, то в каком-нибудь регионе вроде Москвы нельзя будет предсказать, так как деревья не могут предсказывать больше, чем они видели в тренировочной выборке. Я брал логарифм отношения заболевших за сегодняшний и предыдущий дни. Эти цифры (0.3,1, может, 2) есть в обучающей выборке и модель получается. Понятно, что мы не сможем предсказать резкий рост в 500 раз. Это модели не под силу. Но если мы говорим, например, про отношение прироста за сегодня к приросту за вчера, цифра будет около единицы, причём у нас в выборке есть разные такие значения в этом случае модель предсказывает прекрасно.

В качестве таргета в финальной модели ты брал логарифм отношения заболевших сегодня к заболевшим вчера?

Да. Я ещё пробовал соотношение дельт: на сколько выросло за сегодня, поделить на сколько выросло за вчера. Тоже неплохо работало. А вот общее количество и прирост заболевших за день работало плохо.

А что ты брал в качестве объясняющих переменных?

Я брал около 4-х предыдущих дней. Это работало. Брал информацию о численности населения, количестве курящих и т.п. Добавлял много разной статистики. А потом неделю потратил на то, чтобы посмотреть, какие факторы дают прирост, а какие нет. Но ситуация слишком меняется, эти факторы оказались не устойчивыми, скорее случайными.

Что оказалось устойчивым, кроме предыдущих значений?

Самое важное, что повлияло это количество дней с момента первого заболевания, десятого, сотого Сначала я брал количество дней с первого заражённого, но подумал, что это не очень хорошо, так как часто первого заражённого быстро изолируют, и он не приводит к резкому росту. Поэтому, я стал брать 10 заражённых, а потом докинул до 100 и 1000 заражённых.

На третьем этапе в этой задаче я добавил 50 и 500 заражённых, и это сыграло со мной злую шутку: модель сильно переобучилась и стала плохо предсказывать на следующей неделе.

Ещё из важных данных, я пробовал индекс самоизоляции. На какой-то неделе это давало сильный прирост, а на какой-то вообще не играло роли. Использовал данные об уровне здравоохранения: какие суммы перечисляются врачам, сколько вообще врачей в стране, сколько пожилых и т.п. Это было сделано для прогноза смертности.

Были разные проблемы, которые хотелось решить. Взять самоизоляцию, например. Я понял, что уровень самоизоляции влияет не на завтрашний день, а на дату через две недели. И не факт, что самоизоляция влияет на количество заболевших; может быть, наоборот количество заболевших влияет на уровень самоизоляции.

Кстати, проблемы и решения по оцениванию причинно-следственных связей подробно обсуждаются на треке Casual Inference in ML (https://ods.ai/tracks/causal-inference-in-ml-df2020/) рекомендуем посмотреть в рамках ДатаФест 2020 глобального события дата-саентистов, которое из-за COVID-19 прошло в формате треков, т.е. темы растянуты на несколько лекций и обсуждений, проходящих по отдельным дням.

Какой вывод ты бы сделал относительно моделей МО в общем, не применительно к этой задаче? Твое высказывание звучит так, что за моделями надо присматривать

Есть задачи, которые компьютер решает намного лучше, чем человек. Например, прошлые соревнования в которых я участвовал ЕГЭ по русскому языку. Моя модель решала эти задачи лучше, чем я. Но это обработка текстов

Почему в СПБ и МСК так много заболевших? Нас тестируют поголовно. Не скажу, что в других регионах так массово тестируют. Например, в статистику попало 100 человек. О чём это говорит? Три недели назад они заразились. В итоге мы предсказываем не количество заболевших, а какую-то другую цифру. И как эта цифра коррелирует с количеством заболевших не очень понятно. Компьютер не может ничего нормально предсказать, если мы ему даём непонятно какие цифры.

Кому интересно, вот моё решение: https://github.com/vlomme/sberbank-covid19-forecast-2020

Итак мы поняли, что используя модель машинного обучения можно делать предсказания на неделю вперед на основе истории развития заболевания когда было 10, 100, 1000 заболевших (сейчас, очевидно, такую модель нужно будет переучивать на последних данных).

Мы упоминали эпидемиологическая модель. Её разобрал и применил Николай Кобало. На ее основе, кажется, можно понять, будет ли конец истории, скажем, к лету 2021.

В следующей нашей статье мы разберём, в чём преимущество моделей, которые в качестве предположений используют теорию развития похожих ситуаций в истории.

*в рамках конкурса Forecast the Global Spread of COVID-19

Как научить русскоязычную модель распознавать речь геймеров? Подобными вопросами задаются те, кто увлекается и занимается NLP. В частности, NLP-специалистов интересует, как можно адаптировать русскоязычную модель vosk под их предметную область, чтобы улучшить качество распознавания. Это мы и разберём в да

Привет! Меня зовут Михаил и год назад я стал iOS-разработчиком в компании ЦФТ. До этого почти 8 лет я проработал в сфере логистики и таможенного оформления, а айосером меня можно было назвать разве что из-за наличия iPhone.

Я хочу поделиться своим опытом. Зачем? Меня такие истории мотивирова

Всем привет. Выходим на финишную прямую: сегодня финальная статья о том, какие ответы может дать data science о прогнозировании COVID-19.
Первая статья здесь. Вторая здесь.
Сегодня мы общаемся с Александром Желубенковым о его решениях по предсказанию распространения COVID-

В 2018 году Apple в очередной (третий) раз обновили формат, в котором выдаётся информация о прогоне тестов. Если раньше это был plist файл, который представлял из себя большой xml, то теперь это большой файл с расширением xcresult, который открывается через Xcode и содержит в себе кучу полезной информации,

Всем привет. Мы продолжаем серию статей о том, какие ответы может дать data science о прогнозировании COVID-19. Первая статья здесь (ссылка). Сегодня поговорим о втором классе моделей по предсказанию динамики распространения COVID-19. Они основаны на предположениях о росте заболеваемости и опис

Когда мы говорим о CI&CD, мы часто углубляемся в базовые инструменты автоматизации сборки, тестирования и доставки приложения фокусируемся на инструментах, но забываем осветить процессы, которые протекают во время отрезания и стабилизации релизов. Однако, не все готовые инструменты одинаково полезны, а

Очень много людей с самым разным бэкграундом, и не всегда даже техническим, в последнее время пытаются перейти в data science. И такой ажиотажный интерес - проблема для всех, кто рассматривает переквалификацию в эту сферу. Потому что рынок труда может оказаться наводнён соискателям без опыта.

С точки зрения потенциального работодателя: вы скорее возьмёте выпускника технического вуза, или человека за 40, без профильного опыта

Задача распознавания семантического следования (textual entailment), или импликации (natural language inference), в текстах на естественном языке состоит в определении того, может ли часть текста (посылка, антецедент) подразумеваться или противоречить (или не противоречить) другому фрагменту текст

Технология распознавания эмоций в речи может может найти применение в огромном количестве задач. В частности, это позволит автоматизировать процесс мониторинга качества обслуживания клиентов call-центров.

Определение эмоций человека по его речи уже относительно насыщенн

Мне давно нравятся Байесовские сети доверия

Представьте ситуацию: вам нужно воспользоваться оплаченным (как вы думаете) сервисом и вдруг оказывается, что он отключен за неуплату. Такая неприятность портит впечатление от бренда, снижая поток прибыли, а внезапно отключенный клиент может не вернуться к сервису. К старту ку

В этой статье мы рассмотрим, что такое классификатор, поговорим о мультиклассовой классификации с помощью нейронных сетей. Затем, ознакомившись с контекстом перейдем к основному топику поста к Log-Sum-Exp Trick. Напишем формулы и разберемся, как этот трюк помогает избежать переполнения чисел с плавающей то

Нас вы, скорее всего, знаете по блефарогелю для глаз и ещё разной косметике и медсредствам. Но если брать основной выход нашего производства по объёму, то это гели для УЗИ. В пандемию они стали критичными для страны, потому что с помощью УЗИ нельзя было ни поставить, ни исключить диагноз, но можно было определить, стоит ли вести пациента на КТ. А когда случился коллапс на КТ, УЗИ в кабинетах врачей и региональных клиниках очень пом

Исследования команды Эллен Фоксман (Йельский университет) показывают, что риновирус, который вызывает обычную простуду, может останавливать репликацию SARS-CoV-2.

Два вопроса по ковиду, которые, на мой взгляд, важны, но их не обсуждают.

1) А сколько еще вирусов в популяции людей, последствия которых (для существенного процента переболевших) сопоставимы по разрушительности с ковидными? Мы все знаем корь, свинку, краснуху только потому что они вызывают эпидемии среди непривитых и имеют яркую картину. А как насчет ОРВИ? Некоторые из ни

Два вопроса по ковиду, которые, на мой взгляд, важны, но их не обсуждают:
1) А сколько еще вирусов в популяции людей, последствия которых (для существенного процента переболевших) сопоставимы по разрушительности с ковидными? Мы все знаем корь, свинку, краснуху только потому что они вызывают эпидемии среди непривитых и имеют яркую картину. А как насчет ОРВИ? Некоторые из них лег

Вирус SARS-CoV-2 критически зависит от особого механизма, обеспечивающего синтез его белков. Коллаборация под руководством исследовательской группы из Высшей Технической Школы Цюриха (ETH Zurich) докопалась до молекулярного устройства этого процесса и показала, что его можно ингибировать специальными химическими соединениями, тем самым существенно подавляя репликацию вируса в инфицированных клетках.

Невысокое число прорывных инфекций отражает эффективность действия вакцин

Реакция мира на новый коронавирус в 2020 году и идущая с разным успехом в разных странах прививочная кампания от него него в 2021, обнажили и обострили множество слабых мест экономики и социальных проблем. Фактически, многие аспекты социального (коллективного) бытия сейчас переживают стресс-тест, подобного которому не было с начавшейся в 1929 году Великой депрессии.

Одна из особо проявивших себя, но недостаточ

Перед выходом в офлайн команда Онтико устроила онлайн-квартирник и поговорила о коронавирусе с врачом Университетской клиники Хельсинки Ильёй Кирилкиным. Обсудили мифы вокруг коронавируса, узнали, какие меры защиты эффективны, а какие нет и когда можно ждать окончания пандемии. Илья не только поделился ссылками на статистику и исследования, но простым

Ссылка на наш ролик

Это мой второй текст на Хабре. Он плавно вырос из первой статьи Молекулярная биология

Мы долго шли к этому и вот наконец! Наш внутренний RamblerMeetup&Usermodel выходит в свет! Уже 30 июня эксперты поделятся своими кейсами в области ML и Big Data.

Митап пройдет в онлайн-формате, начало в 19:00. Обязательна предварительная

Меня зовут Денис Власов, я Data Scientist в Учи.ру. С помощью моделей машинного обучения из записей онлайн-уроков мы сделали гифки последовательность из нескольких кадров с наиболее яркими эмоциями учеников. Эти гифки получили их родители в e-mail-рассылке. Вместе с Data Scientist @DariaV Дашей Васюковой расскажем, как без экспертизы в Computer Vision, а только с помощью открытых библиотек и готовых моделей сделать MVP, в ос

Можно выделить ряд алгоритмов, которые являются базовыми и лежат в основе практически каждой строчки программ, написанных на языках высокого уровня. Хорошо иметь под руками классический многотомный труд Дональда Кнута "The Art of Computer Programming", там детально разобраны многие ба

Иллюстрация: UCI

Наша [Ирвинга Капланского и Пола Халмоша] общая философия в отношении линейной алгебры такова: мы думаем в безбазисных терминах, пишем в безбазисных терминах, но когда доходит до серьезно

Всем привет! Меня зовут Андрей, недавно яприсоединился ккоманде VSRobotics изанимаюсь проектом автопостроителя сценариев диалогов робота-оператора. Вэтом посте хочу поделиться историей своего трудоустройства ирешением задачи LGD prediction, которое мне вэтом очень помогло. Не

В этой статье я расскажу о том, почему нормально иногда делать анализ данных в браузере.

В чем суть?

На своей работе в качестве React Front-end разработчика я обычно работаю с дашбордами и различными видами данных. В какой-то момент нам понадобилось добавить предсказания по метрикам, а в команде не было специалистов по анализу данных, которые могли бы этим заняться.

Всем привет. Выходим на финишную прямую: сегодня финальная статья о том, какие ответы может дать data science о прогнозировании COVID-19.
Первая статья здесь. Вторая здесь.
Сегодня мы общаемся с Александром Желубенковым о его решениях по предсказанию распространения COVID-

Всем привет. Мы продолжаем серию статей о том, какие ответы может дать data science о прогнозировании COVID-19. Первая статья здесь (ссылка). Сегодня поговорим о втором классе моделей по предсказанию динамики распространения COVID-19. Они основаны на предположениях о росте заболеваемости и опис

Уже очевидно, что в 2021-м COVID-19 все еще будет оставаться, как говорится, на повестке дня. А значит, закономерно возникают вопросы: есть ли у нас инструменты для прогнозирования роста и снижения заболеваемости, можем ли мы предсказать развитие событий через неделю, месяц или даже год? Давайт

	Русский
	English

Data science vs COVID-19_Часть 1

Сейчас читают

Блог компании центр финансовых технологий (цфт)

Как адаптировать языковые модели Kaldi? (со смешными животными)

Мечтал стать сценаристом, а стал программистом