Заметки Дата Саентиста как измерить время забега марафона лежа на диване

Продолжая цикл заметок про реальные проблемы в Data Science, мы сегодня разберемся с живой задачей и посмотрим, какие проблемы нас ждут в пути.

Например, помимо Data Science, я давно увлекаюсь атлетикой и одной из целей в беге для меня, конечно, является марафон. А где марафон там и вопрос за сколько же бежать? Часто ответ на этот вопрос дается на глаз ну в среднем бегут или вот Х хорошее время!

И сегодня мы займемся важным делом применим Data Science в реальной жизни и ответим на вопрос:

А что нам говорят данные о московском марафоне?

Точнее, как уже понятно по таблице в начале мы соберем данные, разберемся, кто и как бежал. А заодно это поможет понять, стоит ли нам соваться и позволит здраво оценить свои силы!

TL;DR: Я собрал данные по забегам московского марафона за 2018/2019, проанализиворовал время и показатели участников, а код и данные выложил в открытый доступ.

Сбор данных

Путем шустрого гугления мы обнаружили результаты прошлых пары лет, 2019 и 2018 годов.

Внимательно посмотрел на веб страницу, стало понятно, что данные довольно просто достать нужно лишь разобраться, какие классы за что отвечают, например, класс results-table__col-result, понятное дело, за результат и тд.

Осталось понять как достать все данные оттуда.

И это, оказывается, несложно, ибо тут есть прямая пагинация и собственно мы итерируем по всему отрезку чисел. Бинго, выкладываю собранные данные за 2019 и 2018 год здесь, если кому-то интересно для последующего анализа, то сами данные можно скачать здесь: здесь и здесь.

С чем тут пришлось повозиться

Страница не отдает ошибок если что-то идет не так, никто не посигналит, сайт просто отдает какие-то данные (например, повторяет прошлую страницу с результатами).
В какой-то момент сервер решает, что он устал и перестает отдавать данные и виснет проблема решается с помощью поспать и продолжить сбор с прошлой точки.
Url-магия сайт что-то мудрит со ссылками, и нельзя просто поменять год в url и получить результаты другой гонки приходится ручками через поиск искать и перепроверять, что мы действительно получаем свежие данные иначе отгружает молча данные последнего года.
В какой момент я собирал данные и параметризовал скрипт сбора данных годом запустил и стал собирать через час другой у меня было четыре датасета за 2016, 2017 и оказалось, что страница молча отдавала данные за 2019 год потому что в том месте год вообще игнорировался, что было совершенно неожиданно вывод стоит всегда проверять такие вещами руками, а не только постфактум хотя и постфактум, конечно, надо проверять данные.
Здесь есть несколько типов NA: DNF, DQ, "-" придется проводить анализ и перепроверять, и чистить данные, иначе на выходе мусор.
Типы данных: время здесь это timedelta, но из-за перезапусков и невалидных значений приходится поработать с фильтрами и очисткой временных значений, чтобы мы оперировали над чистыми временными результатами для подсчета средних значений все результаты здесь это усреднение по тем, кто финишировал и у кого зафиксировано валидное время.

А вот и код спойлера, если кто-то решит продолжить собирать интересные беговые данные.

Код парсера

from bs4 import BeautifulSoupimport requestsfrom tqdm import tqdmdef main():    for year in [2018]:        print(f"processing year: {year}")        crawl_year(year)def crawl_year(year):    outfilename = f"results_{year}.txt"    with open(outfilename, "a") as fout:        print("name,result,place,country,category", file=fout)    # parametorize year    for i in tqdm(range(1, 1100)):        url = f"https://results.runc.run/event/absolute_moscow_marathon_2018/finishers/distance/1/page/{i}/"        html = requests.get(url)        soup = BeautifulSoup(html.text)        names = list(            map(                lambda x: x.text.strip(),                soup.find_all("div", {"class": "results-table__values-item-name"}),            )        )        results = list(            map(                lambda x: x.text.strip(),                soup.find_all("div", {"class": "results-table__col-result"}),            )        )[1:]        categories = list(            map(                lambda x: x.text.strip().replace(" ",""),                soup.find_all("div", {"class": "results-table__values-item-country"}),            )        )        places = list(            map(                lambda x: x.text.strip(),                soup.find_all("div", {"class": "results-table__col-place"}),            )        )[1:]        for name, result, place, category in zip(names, results, places, categories):            with open(outfilename, "a") as fout:                print(name, result, place, category, sep=",", file=fout)if __name__ == "__main__":    main()```

Анализ времени и результатов

Перейдем к анализу данных и собственно результатов забега.
Использовались pandas, numpy, matplotlib и seaborn все по классике.

Помимо средних значений по всем массивам, мы отдельно рассмотрим следующие группы:

Мужчины так как я вхожу в эту группу мне интересны именно эти результаты.
Женщины для симметрии.
Мужчины до 35 это условно одна из самых соревновательных групп и понятно, что сравнивать мне стоит именно с ними так как я в этой группе.
Отдельно посмотрим на 2018 и 2019 годы а вдруг что поменялось?.

Сначала бегло глянем на таблицу ниже здесь еще раз, чтобы не скроллить: участников стало больше, 95% в среднем добегает до финиша и большая часть участников мужчины. Хорошо, это значит, что в среднем я в основной группе и данные в среднем должно хорошо отображать среднее время для меня. Продолжаем.

Как мы видим средние показатели за 2018 и 2019 практически не изменились примерно 1.5 минуты стали быстрее бегуны в 2019 году. Разница между интересующими меня группами незначительна.

Перейдем к распределениям целиком. И сначала к общему времени забега.

Как мы видим пик прямо перед 4 часами это условная отметка для любителей пробежать хорошо = выбежать из 4-х часов, данные подтверждают народную молву.

Далее, посмотрим, как в среднем изменилась ситуация за год.

Как мы видим фактически вообще ничего не поменялось распределения выглядят фактически идентичными.

Далее рассмотрим распределения по полу:

В целом оба распределения нормальные с чуть разным центром мы видим, что пик на мужском так же проявляет себя на основном (общем) распределении.

Отдельно перейдем к самой интересной для меня группе:

Как мы видим принципиально картина такая же, как и в целом в мужской группе.
Отсюда делаем вывод, что 4 часа для меня тоже являются хорошим средним временем.

Изучаем улучшения участников 2018 2019

Из интересностей: я почему-то думал, что сейчас быстренько соберу данных и можно углубиться в анализ, искать там закономерности часами и тд. Оказалось все наоборот, сбор данных оказался сложнее самого анализа по классике работа с сетью, сырыми данными, очисткой, форматирование, приведение типов и тд заняло куда больше времени чем анализ и визуализация. Не стоит забывать, что мелочи отнимают немного времени но их [мелочей] совсем не мало и в конце они-то и скушают весь ваш вечер.

Отдельно хотелось посмотреть, а как улучшили свои результаты люди, которые участвовали оба раза, путем сопоставления данных между годами мне удалось установить следующее:

14 человек участвовали оба года и ни разу не финишировали
89 человека добежали в 18 м, но не смогли в 19
124 наоборот
Те, кто смогли добежать оба раза в среднем улучшили на 4 минуты свой результат

Но тут оказалось довольно интересно все:

То есть в среднем люди чуть чуть улучшают результаты но вообще разброс невероятный и в обе стороны то есть хорошо надеяться, что будет лучше но судя по данным, получается вообще как угодно!

Выводы

Я сделал для себя следующие выводы из проанализированных данных

В целом 4 часа хорошая цель в среднем.
Основная группа бегущих как раз уже в самом соревновательном возрасте (и одной группе со мной).
В среднем люди чуть чуть улучшают свой результат, но вообще судя по данным там как попадет вообще.
Средние результаты всего забега примерно одинаковые оба года.
С дивана очень комфортно рассуждать о марафоне.

Они отличаются тем, что у гибридных (Ca+, Ca/Sb) свинцовый сплав положительных решёток легирован сурьмой, а отрицательных кальцием, тогда как у кальциевых (Ca/Ca) те и другие кальцием. В результате, выделение газов происходит при разных напряжениях заряда, и токи окончания заряда при этих напряжениях тоже разные.

Однако, современные автом

Приветствую всех читателей Habr! В своей сегодняшней статье, хочу рассказать вам о своем новом DIY беспроводном устройстве датчике качества воздуха. Помимо оценки качества воздуха, датчик может оценивать уровень освещенности в помещении, температуру, влажность и атмосферное давление, на основе данных атмосферного давления, устройство может предсказывать прогноз погоды. Это полностью открытый проект.

Изображения, используемые на веб-страницах, привлекают пользователей, пользователи довольно-таки охотно щёлкают по ним мышью. Изображения делают веб-страницы лучше во всём кроме скорости работы страниц. Изображения это огромные куски байтов, которые обычно являются теми частями сайтов, которые загружаются медленнее всего. В этом материале я собрал всё, что нужно знать в 2021 году об улучшении скорости работы веб-страни

Журналы все чаще отзывают научные статьи, потому что оказывается, что написаны они не теми, кем заявлено. Необходимо выработать более эффективные способы решения проблемы, в противном случае мы рискуем полностью утерять общественное доверие к науке.

Мне на удивление часто приходится говорить о том, почему мне всё ещё нравится язык C, и о том, почему я плохо отношусь к C++. Поэтому я решил, что мне стоит об этом написать, а не снова и снова повторять одно и то же.

Как это обычно бывает у C-программистов, язык C не был ни моим первым яз

Сравнительно недавно Raspberry Pi Foundation выпустила плату Raspberry Pi Pico, основанную на микроконтроллере (Micro Controller Unit, MCU) RP2040. Эта плата привлекла большое внимание членов сообщества разработчиков различных электронных устройств. Появилось довольно много проектов, в которых используются программируемые модули ввода-вывода (Programmable I/O, PIO) Raspberry Pi Pico. Например, это проект

Datascience это не только fit-predict

Представим, что вы начали работать в компании, которая производит однообразные операции с бесконечными таблицами. Например, в крупном ретейлере или у ведущего оператора связи. Ежедневно перед вами ставят задачу вы

Наверное, все разработчики слышали, что нужно писать чистый код. Но не менее важно писать и использовать безопасный код.

Python-разработчики обычно устанавливают модули и сторонние пакеты, чтобы не изобретать велосипеды, а использовать готовые и проверенные решения. Но проблема в том, что они не в

Привет, Хабр!

Cо времен нашего последнего поста в JetBrains Academy изменилось довольно много: мы выпустили важные обновления платформы, опубликовали множество новых проектов и тем, а также ввели годовую подписку! Кроме того, мы проанализировали наши проекты и составили рейтинг лучших из них по мнению наших пользователей. Ниже мы расскажем обо всем этом подробнее.

Настройка программного обеспечения

Без промедления начнём. Нам нужно установить следующее ПО:

Windows 10
Anaconda 3 (Python 3.8)
Visual Studio 2019 (

Этой весной Питерская Вышка и JetBrains впервые провели проектную смену для старшеклассников Школу по практическому программированию и анализу данных. В течение пяти дней 50 участников со всей страны работали над групповыми проектами по машинному обучению, NLP, мобильной и web-разработке.

Первое место заняла команда Deep Q-Mario ребята создали не

Мы рады сообщить, что стал доступен июньский релиз расширения Jupyter для Visual Studio Code. Если вы работаете с Python, мы рекомендуем загрузить расширение Python из Marketplace или установить его прямо из галереи расширений в Visual Studio Code. Если у вас уже установлено расширение Python, вы также можете получить последнее

Последние несколько лет я занимаюсь дата-инженерингом: строю пайплайны разного уровня сложности, добываю данные, нужные бизнесу, преобразую их и сохраняю, в общем, строю классические ETL.

В этом деле проблем можно ждать откуда угодно и на каждом шаге: источник данных прилег, данные пришли битые, источник без объявления войны поменял формат данных или доступ к ним, хранилище тупит, данных внезапно стало меньше или больше и мн

С 5 июня 2021 года сайт гугла, и самое главное гугл таблицы - перестали отдавать данные с Московской биржи.

При попытке получить котировки с префиксом MCX, например для Сбербанка, формулой из гугл таблиц =GOOGLEFINANCE("MCX:SBER") теперь всегда возвращается результат #N/A.

А при поиске любой российской бумаги

BERT нейросеть, способная весьма неплохо понимать смысл текстов на человеческом языке. Впервые появивишись в 2018 году, эта модель совершила переворот в компьютерной лингвистике. Базовая версия модели долго предобучается, читая миллионы текстов и постепенно осваивая язык, а потом её можно дообучить на собственной

Случайный лес (в буквальном смысле, сфотографировал с телефона)

Эта маленькая заметка предназначена для начинающих разработчиков, которые хотят понять как линейные функции устроены под капотом. Для опытных специалистов в моей заметки нет ничего нового. И так. Линейные функции применяются очень часто

1. Вступление

В самых различных проектах разработчику приходится сталкиваться с задачами ранжирования. Список подобных задач весьма обширен: от банальной сортировки новостей по дате публикации до сложных рейтингов на основе поведенческих факторов.

В ходе обсуждений возникла маленькая задачка построить динамику структуры кредитного портфеля (динамика кредитной карты, например). В качестве важной специфики необходимо применять метод FIFO для погашения займов. Т.е. при погашении первыми должны гаситься самые ранние займы. Это накладывает определенные требования на расчет статуса каждого отдельного займа и определения его даты погашения.

Ниже приведе

В этом переводе автор подробно описывает 9 правил разумного потребления цифрового контента, которые он успешно протестировал на себе.

Бывает у вас такое, что вы сели почитать любимую книгу, но ваш разум начинает блуждать. Есть ли у вас проблемы с концентраци

Унас вблоге мырегулярно публикуем десятки историй ожизни заграницей. Каждая история интересная, это мыгарантируем, номногие изних длинные наверняка выуспеете прочитать невсе. Так что собрали для вас дайджест изпяти недавних историй переезда вЕвропу, Таиланд идаже ОАЭ. Тут только самое главное про плюсы

Для меня попадание в состояние потока является единственным способом продуктивной работы над сложными программными проектами. И я полагаю, что разработчик может так организовать свою жизнь, чтобы как можно сильнее удлинить время, которое он каждый день может проводить в этом состоянии. Тут я хочу рассказать о том, что лично я пытаюсь делать для того, чтобы чаще попадать в состояние потока.

В прошлой статье мы говорили о типах алюминиевого профиля, видах крепежа и других нюансах. Сейчас наступила очередь добавить к профилю еще один отличный инструмент 3D-печать. Воистину, используя алюминиевый профиль и напечатанные на принте

Когда мы купили квартиру и делали в ней ремонт, телефоны были еще кнопочными, а Wi-Fi роутеры если и существовали, то в качестве диковинки. Предполагалось, что интернет будет подключен через витую пару к компу, а сам комп будет стоять на балконе, потому что балкон будет теплым и в нем будет кабинет. Квартира была без отделки, и поэтому мы решили сделать умный ход чтобы не тащить провода под плинтусами от коридора до балкона (как об

Прежде чем доверять свои деньги банку, хорошо бы убедиться, что там они будут в целости и сохранности, а сам банк не обанкротится через пару месяцев. Под надежностью банка обычно понимают его способность выполнять свои обязательства перед вкладчиками и кредиторами.

Что

Всем привет!

В недавней статье мы рассказали, как мы шли к построению нашей Data Platform. Сегодня хотелось бы глубже погрузиться в желудок нашей платформы и попутно рассказать вам о том, как мы решали одну из задач, которая возникла в связи с ростом разнообразия интегрируемых источников данных.

То есть, если возвращаться к финальной картинке из упомянутой выше статьи (специально дублирую ее, чтобы уважаемым чи

Можно выделить ряд алгоритмов, которые являются базовыми и лежат в основе практически каждой строчки программ, написанных на языках высокого уровня. Хорошо иметь под руками классический многотомный труд Дональда Кнута "The Art of Computer Programming", там детально разобраны многие ба

Привет, Хабр! Команда ВТБ запустила серию подкастов о передовых решениях финтеха Деньги любят техно. Журналист, технологический обозреватель Марина Эфендиева будет обсуждать с экспертами банка, рынка, учеными и бизнесменами перспективы и сложности финтеха: внедрения техноло

Практически в каждом секторе, работающем со сложными данными, Spark "де-факто" быстро стал средой распределенных вычислений для команд на всех этапах жизненного цикла данных и аналитики. Одна из наиболее ожидаемых функций Spark 3.0 - это новая платформа Adaptive Query Executi

Мы долго шли к этому и вот наконец! Наш внутренний RamblerMeetup&Usermodel выходит в свет! Уже 30 июня эксперты поделятся своими кейсами в области ML и Big Data.

Митап пройдет в онлайн-формате, начало в 19:00. Обязательна предварительная

Меня зовут Денис Власов, я Data Scientist в Учи.ру. С помощью моделей машинного обучения из записей онлайн-уроков мы сделали гифки последовательность из нескольких кадров с наиболее яркими эмоциями учеников. Эти гифки получили их родители в e-mail-рассылке. Вместе с Data Scientist @DariaV Дашей Васюковой расскажем, как без экспертизы в Computer Vision, а только с помощью открытых библиотек и готовых моделей сделать MVP, в ос

Иллюстрация: UCI

Наша [Ирвинга Капланского и Пола Халмоша] общая философия в отношении линейной алгебры такова: мы думаем в безбазисных терминах, пишем в безбазисных терминах, но когда доходит до серьезно

Всем привет! Меня зовут Андрей, недавно яприсоединился ккоманде VSRobotics изанимаюсь проектом автопостроителя сценариев диалогов робота-оператора. Вэтом посте хочу поделиться историей своего трудоустройства ирешением задачи LGD prediction, которое мне вэтом очень помогло. Не

В этой статье я расскажу о том, почему нормально иногда делать анализ данных в браузере.

В чем суть?

На своей работе в качестве React Front-end разработчика я обычно работаю с дашбордами и различными видами данных. В какой-то момент нам понадобилось добавить предсказания по метрикам, а в команде не было специалистов по анализу данных, которые могли бы этим заняться.

Антивирусное ПО было создано для защиты данных пользователя от любого посягательства из вне. Но в связи с большим спросом на антивирусы, некоторые производители, начали использовать информацию о клиентах в коммерческих целях. В этой статье мы разберёмся, какие программы собирают данные о клиентах и какими альтернативными вариантами их заменить.

Технологии автономных автомобилей способны совершить настоящий переворот в транспортной отрасли и оказать существенное долгосрочное влияния на образ нашей жизни, работы и бизнеса: они могут снизить количество жертв дорожно-транспортных происшествий, разгрузить

Вы со мной не знакомы, но существует известная вероятность, что я знаком с вами. Причина в том, что у меня есть полный, неограниченный доступ к приватной информации миллионов людей, размещённой на аккаунтах Google. Отправленные по почте выписки по банковским счетам, медицинские документы, хранящиеся на Google Drive, сохранённые и пересланные чаты из Facebook, голосовые сообщения на Google Voice, личные фотографии на Go

Привет, Хабр! Я люблю считать и собирать данные. 2020 год состоял из 8784 часов, 4874 из которых я смог учесть в собранной мною статистике. Я знаю как потратил 55% всего прошлого года! В этой статье я постараюсь доказать, что учиться в университете совсем не сложно, а также ра

Как Uber хочет сделать беспилотные автомобили, так и Spotify хочет создавать музыку с помощью компьютера.

Spotify

Шел 2021 год, XD Design продолжает изобретать рюкзак. Создатели легендарного антикражного Bobby представили Flex Gym Bag. Днем Flex деловой аксессуар для ноутбука, который подчеркнет ваш профессионализм в офисе. А вечером удобная сумка для спортзала.

На самом деле, в

От подработок на 500 долларов до контрактов на миллионы. Подробная история бизнеса с нуля со взлетами и падениями

На днях я зафиксировал круглую дату 15 лет с момента регистрации моей первой IT-компании (было это25 апреля 2006 года) так что захотелось немного подели

Весна 2020-го началась с не самых приятных новостей. Сейчас, спустя год, многие компании стремятся помогать сотрудникам в вопросах, к которым раньше не было столь пристального внимания в работе с выгоранием и ментальном здоровье. В ноябре 2020 года мы запустили для коллег спортивное приложение и

Вступление

Программа Тюремных Тренировок это эффективные методы обучения по работе со своим весом. Многие из этих забытых, но действенных техник находятся на грани исчезновения. Современный бодибилдинг поменял наше мышление, навязав ложные убеждения. Поэтому мы сняли этот фильм в Алькатрасе, вернувшись во времена, когда Скала была крупнейшей тюрьмой для особо опасных преступников. Пожалуй, это самое правильное место, чтобы

Привет! Это снова Станислав М***, реабилитированный инвалид. Рассказываю про свой опыт выздоровления.

Поможет тем, кто инвалид. Также рекомендую рассказывать эту историю тогда, если хотите кого-то вдохновить. Если инвалид сумел преодолеть трудности, то и подавно сможет

В американском футболе атакующей команде дается 4 попытки, чтобы пройти 10 ярдов и тогда команда имеет право продолжить атаковать (владеть мячом). И очень часто, перед розыгрышем 4-ой попытки, тренерам приходится решать - попытаться добрать оставшееся до минимальных 10 ярдов с риском не дойти и отдать сопернику мяч в текущей точке поля, либо сразу пробить ногой по мячу, запнув мяч подальше, обезопасив так себя в защите. Чтобы облег

Привет, Хабр! Многие в Новый год дают себе различные обещания, одно из самых частых - начать следить за здоровьем. Наиболее простой и распространённый способ поправить здоровье - бег, поэтому в новогодние праздники количество бегунов в парках значительно увеличивается. Кто-то быстро забивает на бег, а кто-то задерживается надолго, начинает увеличивать беговые объёмы и улучшать качество беговых тренировок в надежде однажды пробежать

Сколько пальцев я показываю?
Впереди маячила фигура в белом халате с поднятой рукой. Вероятность угадать всего 17%, и лучше я честно признаюсь, что не вижу.
Сможешь сам вернуться в палату?
Сегодня уже смогу: контуры дверных проемов вижу, а номера не нужны расположение помню, а остальное на ощу

Продолжая цикл заметок про реальные проблемы в Data Science, мы сегодня разберемся с живой задачей и посмотрим, каки

Я тут решил поделиться своими выводами относительно курсов обучения онлайн.

Примерно пару лет назад я решил сменить вид деятельности. И, так как со школы мне нравилась математика, информатика и всё такое, то я решил пойти в разработчики. Тогда я не понимал, что это, имел только приблизительные представления. Но твердо решил, что буду делать что-нибудь, что связано с "сайтостроением".

В сети я нашел пару бесплатных кур

Приглашаем Вас принять участие в онлайн мероприятии Технический Mарафон Microsoft Dynamics 365, где вы и ваши коллеги познакомитесь с ключевыми сценариями использования платформы, а также с новыми предложениями, направленными на успешное внедрение и использование Dynamics 365.

Когда: 8 декабря
Язык: русский

	Русский
	English

Заметки Дата Саентиста как измерить время забега марафона лежа на диване

Сбор данных

С чем тут пришлось повозиться

Анализ времени и результатов

Изучаем улучшения участников 2018 2019

Выводы

Сейчас читают

Блог компании ruvds.com

Чем кальциевые аккумуляторы отличаются от гибридных?

Миниатюрный датчик качества воздуха на батарейке с e-ink экраном

Перевод Оптимизация веб-графики в 2021 году

Перевод Мы стоим на пороге кризиса Фальшивой науки

Перевод Почему я всё ещё люблю C, но при этом терпеть не могу C?

Перевод Практический взгляд на Raspberry Pi Pico с точки зрения STM32

Python

Автоматизация машинного обучения

Перевод Ищем уязвимости в Python-коде с помощью open source инструмента Bandit

JetBrains Academy платформенные обновления, любимые проекты пользователей и годовая подписка

Управляем звуком ПК от активности пользователя с помощью Python

Настройка программного обеспечения

Обучение с подкреплением в Super Mario Bros. Сравнение алгоритмов DQN и Dueling DQN

Jupyter в Visual Studio Code июньский релиз

Data mining

Проблемы мониторинга дата-пайплайнов и как я их решал

Гугл финанс перестал транслировать данные российских акций что делать?

Маленький и быстрый BERT для русского языка

Простыми словами о простых линейных функциях

Несколько мыслей про ранжирование

1. Вступление

Оценка кредитного портфеля на R

Лайфхаки для гиков

Перевод Как подружиться со своей интернет-зависимостью практическое руководство

Релокейт-дайджест ОАЭ, Таиланд, Европа. 5 стран, куда можно переехать IT-специалисту

Перевод Как попасть в состояние потока?

Перевод Алюминиевый профиль как универсальный ресурс для сборки чего угодно. Часть 2

Wi-Fi Интернет в соседнюю комнату

Как оценить надежность банка 5 работающих способов

Data engineering

Что нам стоит загрузить JSON в Data Platform

Проблемы мониторинга дата-пайплайнов и как я их решал

Запросить 100 серверов нельзя оптимизировать код. Ставим запятую

Чтобы потолка не стало, а крышу не снесло о чем новый подкаст ВТБ

Простыми словами о простых линейных функциях

Перевод Как Apache Spark 3.0 увеличивает производительность ваших SQL рабочих нагрузок

Data science

RamblerMeetupampUsermodel

Как мы построили Computer Vision из подручных материалов, чтобы сделать гифки

Запросить 100 серверов нельзя оптимизировать код. Ставим запятую

Перевод Линейная алгебра для исследователей данных

Как я предсказал LGD на хакатоне и устроился на работу

Перевод Прогнозирование временных рядов на JS анализ данных для самых маленьких фронтендеров

В чем суть?

Сбор данных

Проблемы мониторинга дата-пайплайнов и как я их решал

Какие Антивирусы собирают ваши пользовательские данные, и как этого избежать?

Разработка инфраструктуры вождения автомобилей высокой автономности (HAD)

Перевод Как я воровал данные с пользовательских аккаунтов в Google

Подводя итоги 2020 года

Перевод Детектор плагиата на базе ИИ в патенте Spotify на самом деле метод сбора данных?

Спорт

Деловой, спортивный, какой захотите обзор рюкзака Flex Gym Bag от XD Design

Портфолио в 200 сайтов. Как я, будучи студентом, создал IT-компанию с десятками сотрудников

Cloud Sport как наши сотрудники стали больше заниматься спортом

Перевод Учимся подтягиваться на одной руке по программе Пола Уэйда

Вступление

Как не сдаться, начать карьеру в IT и продолжать лечение даже после 15 лет болезни (история инвалида)

Recovery mode Байесовская модель для принятия очень прикладного решения в американском футболе

Бег

Начинаем бегать правильно самодельный беговой метроном

Про-зрение и про технологии

Заметки Дата Саентиста как измерить время забега марафона лежа на диване

Марафон

Про курсы, марафоны и ожидании

Технический марафон Microsoft Dynamics 365

Заметки Дата Саентиста как измерить время забега марафона лежа на диване

Категории

Последние комментарии