Авторы кейса для хакатона рассказали, как стать победителем IT-конкурса.
Уже завтра Нижний Новгород превратится в столицу цифровой экономики. Здесь проведут сразу два хакатона: первое в России IT-соревнование по искусственному интеллекту и полуфинал Всероссийского конкурса разработчиков Цифровой прорыв Медицина, здравоохранение, наука. Для последнего EPAM вместе с ННГУ им. Лобачевского подготовили кейс CardioSpike. На основе полученных учеными данных нужно разработать детектор ковидных аномалий в ритме сердца. Пять сотрудников EPAM практики Data Science, которые участвовали в создании датасета, войдут в состав жюри. Они рассказали, как правильно подготовиться к хакатону.
Павел Шашкин, Data Science, EPAM: Каждый набор данных особенный по-своему, и не всегда перенос опыта из других задач даёт хорошие результаты. Начинайте с максимально простого решения, постепенно эмпирически проверяя новые гипотезы и наращивая сложность. Важно отдавать себе отчёт, что, независимо от уровня ваших навыков, с ростом количества разнообразной логики в решении растёт и вероятность допустить в одном из шагов ошибку.
Даниил Гусев, Data Scientist, EPAM: Каждый хакатон это вызов вам, вашим знаниям и умениям решать проблему здесь и сейчас. Для победы нужно придумывать новые подходы, экспериментировать, но это не касается инструментов, которые вы будете использовать. У вас не будет времени на освоение новых библиотек и фреймворков. Используйте только те инструменты, которыми вам уже хорошо знакомы.
Павел Смирнов, Data Science, EPAM: Распределите роли в команде. Кто занимается внешним видом и UX? Кто занимается архитектурой и масштабирование? Кто отвечает за МЛ часть? Кто готовит презентацию? Кто питчит финальное решение перед жюри? Перечитайте постановку задачи несколько раз. Очень важно не забыть в конце, какую задачу вы решаете. Поставьте библиотеки для работы с данными (numpy, pandas и т.д. ). Познакомьтесь с целевой метрикой - https://scikit-learn.org/stable/modules/generated/sklearn.metrics.f1_score.html)/. Посмотрите на описание и документацию к классическим алгоритмам, которые можно применить для решения задачи - https://scikit-learn.org/stable/supervised_learning.html.
Михаил Терпелец, Data Science, EPAM: Всем участникам я бы посоветовал избегать процедурного спагетти и не забывать следовать DRY, KISS, YAGNI. Ну и, конечно, дважды проверять код перед запуском, чтобы в ограниченное время не допускать ошибок по невнимательности. Обученных вам моделей и оптимальных гиперпараметров!
Всеволод Мицкевич, Data Science, EPAM: Так как и задача, и состав команды известны заранее, стоит побеспокоиться о том, чтобы правильным образом делегировать задачи. Каждый из инженеров обладает сильными и слабыми сторонами в разработке. Следует поближе познакомиться между собой и выяснить, какой опыт каждого из участников команды релевантен по отношению к задаче хакатона. Кому-то стоит заняться подготовкой данных, кто-то лучше пишет код, а у кого-то обширнее теоретические знания. Правильное распределение ролей в проекте половина успеха!