Нужно больше датасетов. Музыка, IT-скилы и котики

Блог компании skillfactory

Перевод Наглядно о том, почему трансформеры работают настолько хорошо

Трансформеры за последние несколько лет штурмом захватили мир NLP, а сегодня они с успехом применяются в выходящих за рамки NLP приложениях. Они обладают такими возможностями благодаря модулю внимания, который схватывает отношения между всеми словами последовательностей. Но са
Перевод Оптимизация платежей в Dropbox при помощи машинного обучения

Представьте ситуацию: вам нужно воспользоваться оплаченным (как вы думаете) сервисом и вдруг оказывается, что он отключен за неуплату. Такая неприятность портит впечатление от бренда, снижая поток прибыли, а внезапно отключенный клиент может не вернуться к сервису. К старту ку
Перевод Как Airbnb скрывает кошмары при помощи тайной команды чистильщиков

Примечание переводчика: перед началом чтения этого лонгрида налейте себе кружку любимого напитка, потому что чтиво будет непростым и, возможно, навсегда изменит ваше отношение к сервису.

Наверняка вам приходилось слышать о нелёгкой работе мод
DIY регистратор молний

Автор: Alex Wulff (из-за глюков хабраредактора не получилось оформить как перевод)

К старту курса о
Перевод Быстрое обнаружение Covid-19 на рентгеновских снимках с помощью Raspberry Pi

Системы обнаружения Covid-19 на рентгеновских снимках выдают быстрые результаты, в частности информацию о том, насколько серьёзно лёгкие поражены вирусом Covid-19. Традиционные системы обнаружения Covid-19 обладают тем недостатком, что для формирования отчётов им требуется дов
Перевод Оптимизация при помощи линейного поиска на Python

Линейный поиск это алгоритм оптимизации, который может использоваться для целевых функций с одной или несколькими переменными. Он предоставляет возможность использовать алгоритм одномерной оптимизации, например поиск методом деления пополам (бисекции) для многомерной целевой

Data mining

Проблемы мониторинга дата-пайплайнов и как я их решал

Последние несколько лет я занимаюсь дата-инженерингом: строю пайплайны разного уровня сложности, добываю данные, нужные бизнесу, преобразую их и сохраняю, в общем, строю классические ETL.

В этом деле проблем можно ждать откуда угодно и на каждом шаге: источник данных прилег, данные пришли битые, источник без объявления войны поменял формат данных или доступ к ним, хранилище тупит, данных внезапно стало меньше или больше и мн
Гугл финанс перестал транслировать данные российских акций что делать?

С 5 июня 2021 года сайт гугла, и самое главное гугл таблицы - перестали отдавать данные с Московской биржи.

При попытке получить котировки с префиксом MCX, например для Сбербанка, формулой из гугл таблиц =GOOGLEFINANCE("MCX:SBER") теперь всегда возвращается результат #N/A.

А при поиске любой российской бумаги
Маленький и быстрый BERT для русского языка

BERT нейросеть, способная весьма неплохо понимать смысл текстов на человеческом языке. Впервые появивишись в 2018 году, эта модель совершила переворот в компьютерной лингвистике. Базовая версия модели долго предобучается, читая миллионы текстов и постепенно осваивая язык, а потом её можно дообучить на собственной
Простыми словами о простых линейных функциях

Эта маленькая заметка предназначена для начинающих разработчиков, которые хотят понять как линейные функции устроены под капотом. Для опытных специалистов в моей заметки нет ничего нового. И так. Линейные функции применяются очень часто
Несколько мыслей про ранжирование

1. Вступление

В самых различных проектах разработчику приходится сталкиваться с задачами ранжирования. Список подобных задач весьма обширен: от банальной сортировки новостей по дате публикации до сложных рейтингов на основе поведенческих факторов.
Оценка кредитного портфеля на R

В ходе обсуждений возникла маленькая задачка построить динамику структуры кредитного портфеля (динамика кредитной карты, например). В качестве важной специфики необходимо применять метод FIFO для погашения займов. Т.е. при погашении первыми должны гаситься самые ранние займы. Это накладывает определенные требования на расчет статуса каждого отдельного займа и определения его даты погашения.

Ниже приведе

Big data

Стоит ли смотреть в сторону Data science?

Очень много людей с самым разным бэкграундом, и не всегда даже техническим, в последнее время пытаются перейти в data science. И такой ажиотажный интерес - проблема для всех, кто рассматривает переквалификацию в эту сферу. Потому что рынок труда может оказаться наводнён соискателям без опыта.

С точки зрения потенциального работодателя: вы скорее возьмёте выпускника технического вуза, или человека за 40, без профильного опыта
Как мы весь интернет сканировали

Всем привет! Меня зовут Александр и я пишу код для 2ip.ru. За добрую половину сервисов можно пинать меня, готов отбиваться. Cегодня я хочу немного рассказать про переделку одного нашего старого сервиса. Это конечно не "big data", но всё равно довольно большие объемы информации, поэтому думаю будет интересно.

Речь пойдет про
RamblerMeetupampUsermodel

Мы долго шли к этому и вот наконец! Наш внутренний RamblerMeetup&Usermodel выходит в свет! Уже 30 июня эксперты поделятся своими кейсами в области ML и Big Data.

Митап пройдет в онлайн-формате, начало в 19:00. Обязательна предварительная
Что нам стоит загрузить JSON в Data Platform

Всем привет!

В недавней статье мы рассказали, как мы шли к построению нашей Data Platform. Сегодня хотелось бы глубже погрузиться в желудок нашей платформы и попутно рассказать вам о том, как мы решали одну из задач, которая возникла в связи с ростом разнообразия интегрируемых источников данных.

То есть, если возвращаться к финальной картинке из упомянутой выше статьи (специально дублирую ее, чтобы уважаемым чи
Запросить 100 серверов нельзя оптимизировать код. Ставим запятую

Можно выделить ряд алгоритмов, которые являются базовыми и лежат в основе практически каждой строчки программ, написанных на языках высокого уровня. Хорошо иметь под руками классический многотомный труд Дональда Кнута "The Art of Computer Programming", там детально разобраны многие ба
Перевод Линейная алгебра для исследователей данных

Иллюстрация: UCI

Наша [Ирвинга Капланского и Пола Халмоша] общая философия в отношении линейной алгебры такова: мы думаем в безбазисных терминах, пишем в безбазисных терминах, но когда доходит до серьезно

Хакатоны

Recovery mode Правильное распределение ролей в проекте половина успеха!

Авторы кейса для хакатона рассказали, как стать победителем IT-конкурса.

Уже завтра Нижний Новгород превратится в столицу цифровой экономики. Здесь проведут сразу два хакатона: первое в России IT-соревнование по искусственному интеллекту и полуфинал Всероссийского к
Рояль, азот и котик как это было

Если кто-то пропустил, то с 24 по 28 мая мы реализовали проект под кодовым названием Рояль, азот и котик. И настало время рассказать о том, как мы всё организовали,
Recovery mode Как поднять боевой дух команды на удаленке?

Если коротко, то дать сотрудникам возможность отвлечься и поиграть. Мы как команда это то, что мы делаем. Поэтому нужно делать что-то интересное вместе. Удаленка не приговор и не помеха.

Эта статья от том, как я организовал Хакатон для IT компании в Малайзии в самые пер
Digital-мероприятия в Москве c 14 по 20 июня

Подборка мероприятий на неделю

Blockchain Z-Days 2021
Как я предсказал LGD на хакатоне и устроился на работу

Всем привет! Меня зовут Андрей, недавно яприсоединился ккоманде VSRobotics изанимаюсь проектом автопостроителя сценариев диалогов робота-оператора. Вэтом посте хочу поделиться историей своего трудоустройства ирешением задачи LGD prediction, которое мне вэтом очень помогло. Не
Подведены итоги Tech Monsters Night

4 июня 2021 года состоялась битва Java-разработчиков Tech Monsters Night от М.Видео-Эльдорадо.
Почти три сотни разработчиков не спали в ночь с 4 на 5 июня. Участникам хакатона представился шанс обнулить цены на топовую технику.

Data engineering

Что нам стоит загрузить JSON в Data Platform

Всем привет!

В недавней статье мы рассказали, как мы шли к построению нашей Data Platform. Сегодня хотелось бы глубже погрузиться в желудок нашей платформы и попутно рассказать вам о том, как мы решали одну из задач, которая возникла в связи с ростом разнообразия интегрируемых источников данных.

То есть, если возвращаться к финальной картинке из упомянутой выше статьи (специально дублирую ее, чтобы уважаемым чи
Проблемы мониторинга дата-пайплайнов и как я их решал

Последние несколько лет я занимаюсь дата-инженерингом: строю пайплайны разного уровня сложности, добываю данные, нужные бизнесу, преобразую их и сохраняю, в общем, строю классические ETL.

В этом деле проблем можно ждать откуда угодно и на каждом шаге: источник данных прилег, данные пришли битые, источник без объявления войны поменял формат данных или доступ к ним, хранилище тупит, данных внезапно стало меньше или больше и мн
Запросить 100 серверов нельзя оптимизировать код. Ставим запятую

Можно выделить ряд алгоритмов, которые являются базовыми и лежат в основе практически каждой строчки программ, написанных на языках высокого уровня. Хорошо иметь под руками классический многотомный труд Дональда Кнута "The Art of Computer Programming", там детально разобраны многие ба
Чтобы потолка не стало, а крышу не снесло о чем новый подкаст ВТБ

Привет, Хабр! Команда ВТБ запустила серию подкастов о передовых решениях финтеха Деньги любят техно. Журналист, технологический обозреватель Марина Эфендиева будет обсуждать с экспертами банка, рынка, учеными и бизнесменами перспективы и сложности финтеха: внедрения техноло
Простыми словами о простых линейных функциях

Эта маленькая заметка предназначена для начинающих разработчиков, которые хотят понять как линейные функции устроены под капотом. Для опытных специалистов в моей заметки нет ничего нового. И так. Линейные функции применяются очень часто
Перевод Как Apache Spark 3.0 увеличивает производительность ваших SQL рабочих нагрузок

Практически в каждом секторе, работающем со сложными данными, Spark "де-факто" быстро стал средой распределенных вычислений для команд на всех этапах жизненного цикла данных и аналитики. Одна из наиболее ожидаемых функций Spark 3.0 - это новая платформа Adaptive Query Executi

Skillfactory

Перевод Наглядно о том, почему трансформеры работают настолько хорошо

Трансформеры за последние несколько лет штурмом захватили мир NLP, а сегодня они с успехом применяются в выходящих за рамки NLP приложениях. Они обладают такими возможностями благодаря модулю внимания, который схватывает отношения между всеми словами последовательностей. Но са
Перевод Оптимизация платежей в Dropbox при помощи машинного обучения

Представьте ситуацию: вам нужно воспользоваться оплаченным (как вы думаете) сервисом и вдруг оказывается, что он отключен за неуплату. Такая неприятность портит впечатление от бренда, снижая поток прибыли, а внезапно отключенный клиент может не вернуться к сервису. К старту ку
Перевод Как Airbnb скрывает кошмары при помощи тайной команды чистильщиков

Примечание переводчика: перед началом чтения этого лонгрида налейте себе кружку любимого напитка, потому что чтиво будет непростым и, возможно, навсегда изменит ваше отношение к сервису.

Наверняка вам приходилось слышать о нелёгкой работе мод
DIY регистратор молний

Автор: Alex Wulff (из-за глюков хабраредактора не получилось оформить как перевод)

К старту курса о
Перевод Быстрое обнаружение Covid-19 на рентгеновских снимках с помощью Raspberry Pi

Системы обнаружения Covid-19 на рентгеновских снимках выдают быстрые результаты, в частности информацию о том, насколько серьёзно лёгкие поражены вирусом Covid-19. Традиционные системы обнаружения Covid-19 обладают тем недостатком, что для формирования отчётов им требуется дов
Перевод Оптимизация при помощи линейного поиска на Python

Линейный поиск это алгоритм оптимизации, который может использоваться для целевых функций с одной или несколькими переменными. Он предоставляет возможность использовать алгоритм одномерной оптимизации, например поиск методом деления пополам (бисекции) для многомерной целевой

Датасет

Датасет о мобильных приложениях

Вступление

Моя основная работа связана с мобильной рекламой, и время от времени мне приходится работать с данными о мобильных приложениях. Я решил сделать некоторые данные общедоступными для тех, кто хочет попрактиковаться в построении моделей или получить представление о данных, которые можно собрать из открытых источников. Я считаю, что открытые наборы данных всегда полезны сообществу. Сбор данных часто бывает сложной и
Нужно больше датасетов. Музыка, IT-скилы и котики

Привет, Хабр! Совсем недавно мы писали про открытый датасет, собранный командой студентов магистратуры Наука о данных НИТУ МИСиС и Zavtra.Online (подразделение SkillFactory по работе с университетами) в рамках первого учебного Дататона. А сегодня представим вам цел
Как собрать датасет за неделю опыт студентов магистратуры Наука о данных

Привет, Хабр! Сегодня хотим представить вам некоммерческий открытый датасет, собранный командой студентов магистратуры Наука о данных НИТУ МИСиС и Zavtra.Online (подразделении SkillFactory по работе с вузами) в рамках первого учебного Дататона. Мероприятие проходило как один из форматов командной практики. Данная работа заняла первое место из 18 команд.

Датасет содержит полный список объектов торговли и услуг
Ресурсы для получения датасетов изображений, о которых вы могли не знать

Привет, Хабр! Как известно, топливом для машинного обучения являются наборы данных. В качестве источников для получения датасетов, которыми люди обычно пользуются и которые у всех на слуху, являются такие сайты как Kaggle, ImageNet, Google Dataset Search и Visual Genom, но довол

Биг дата

Нужно больше датасетов. Музыка, IT-скилы и котики

Привет, Хабр! Совсем недавно мы писали про открытый датасет, собранный командой студентов магистратуры Наука о данных НИТУ МИСиС и Zavtra.Online (подразделение SkillFactory по работе с университетами) в рамках первого учебного Дататона. А сегодня представим вам цел
Как собрать датасет за неделю опыт студентов магистратуры Наука о данных

Привет, Хабр! Сегодня хотим представить вам некоммерческий открытый датасет, собранный командой студентов магистратуры Наука о данных НИТУ МИСиС и Zavtra.Online (подразделении SkillFactory по работе с вузами) в рамках первого учебного Дататона. Мероприятие проходило как один из форматов командной практики. Данная работа заняла первое место из 18 команд.

Датасет содержит полный список объектов торговли и услуг

Хакатон

Головоломки Tech Monsters Night

Совсем недавно М.Видео-Эльдорадо в рамках хакатона Tech Monsters Night предложили всем желающим стать участниками интеллектуальной битвы, решив серию головоломок.

Итоги состязания известны, победители получили свои заслуженные пр
Первые фото с Марса

Сегодня третий день полётов на дронах уникального эко-технологического проекта Drone EcoZone от М.Видео-Эльдорадо! Сотни QA, Java и Analyst, решившие задачи на сайте ecodron.ru получили возможно
Digital-мероприятия в Москве c 14 по 20 июня

Подборка мероприятий на неделю

Blockchain Z-Days 2021
Recovery mode Рецепты счастья как поддерживать корпоративный дух в непростое время

О том, что такое счастье, спорили раньше, спорят и сейчас. Но если взять частный случай, получение удовольствия от работы в компании, то ответ на этот вопрос не так и сложен. Чувствовать себя счастливым можно, если в компании все хорошо, работа интересная, коллектив дружелюбный и сплоченный. Конечно, в спокойное время поддерживать эту сплоченность не так и сложно. А вот в наше непростое время это непростой челлендж. О том, как подд
Digital-мероприятия в Москве c 7 по 13 июня
Подборка мероприятий на неделю

ML Party
- 08 июня (вторник)
Digital-мероприятия в Москве c 31 мая по 6 июня
Подборка мероприятий на неделю

Tech Week 2021
- 01 июня (вторник) 03 июня (четверг)
- Технопарк Сколково
- от 27 000 р.
- Как

Данные

Перевод Система хранения данных на основе ДНК реально ли это и как работает?

Системы хранения данных, основанные на ДНК, могут стать выходом для человечества, которое генерирует все большие объемы информации. По сравнению со всеми прочими носителями у ДНК просто феноменальная плотность записи данных. Еще одно преимущество
Открытые данные в России в 2021 году
Открытые данные в России, официально существуют уже 8 лет, 10 июня 2013 года был мой пост на хабре о принятии соответствующего закона.

Что изменилось за эти годы? Стало ли лучше или хуже? Работают ли порталы открытых данных? Публикуются ли данные?

Для тех кто интересуется состоянием открытых данных в России, я решил актуализировать цифры и собрать в виде набора фактов:
- за 2020 год на федерально
Обновляемся на новую версию API Android по наставлению Google

Скоро выходит Android 12, но в этом августе уже с 11-й версии разработчикам придётся использовать новые стандарты доступа приложений к внешним файлам. Если раньше можно было просто поставить флаг, что ваше приложение не поддерживает нововведения, то скоро они станут обязател
KotlinDL 0.2 Functional API, зоопарк моделей c ResNet и MobileNet, DSL для обработки изображений

Представляем вам версию 0.2 библиотеки глубокого обучения KotlinDL.

KotlinDL 0.2 теперь доступен на Maven Central (до этого он лежал на bintray, но закатилось солнышко земли опенсорсной). Появилось столько всего нового: нов
Перевод Как создавать интерактивные линейные графики на Pandas и Altair

Линейный график является неотъемлемой частью анализа данных. Он даёт нам представление о том, как величина изменяется при последовательных измерениях. В случае работы с временными рядами важность линейных графиков становится решающей. Тренд [направление], сезонность и корреля
Будущее без пластика как данные помогают экологии

В нашем блоге мы неоднократно подчеркивали важность данных для бизнеса и отдельных пользователей. Не зря данные называют новой нефтью. Нет такой сферы, где современные технологии получения, обработки и анализа данных не привели бы к революционным изменениям. И сегодня мы поговорим об экологии, вернее, о пластиковых отходах, из которых формируются целые острова мусора в океане. Данные изменили многие подходы к вопросам экологии, и в

Открытые данные

OrganicMaps релиз форка Maps.me с открытым кодом

На днях состоялся первый релиз OrganicMaps open-source форка Maps.me, который команда добровольцев готовила больше чем полгода. В этой небольшой заметке мне бы хотелось поделиться краткой ис
Открытые данные в России в 2021 году
Открытые данные в России, официально существуют уже 8 лет, 10 июня 2013 года был мой пост на хабре о принятии соответствующего закона.

Что изменилось за эти годы? Стало ли лучше или хуже? Работают ли порталы открытых данных? Публикуются ли данные?

Для тех кто интересуется состоянием открытых данных в России, я решил актуализировать цифры и собрать в виде набора фактов:
- за 2020 год на федерально
Датасет о мобильных приложениях

Вступление

Моя основная работа связана с мобильной рекламой, и время от времени мне приходится работать с данными о мобильных приложениях. Я решил сделать некоторые данные общедоступными для тех, кто хочет попрактиковаться в построении моделей или получить представление о данных, которые можно собрать из открытых источников. Я считаю, что открытые наборы данных всегда полезны сообществу. Сбор данных часто бывает сложной и
Recovery mode Как свободное программное обеспечение может ускорить цифровизацию

Софт с открытым кодом незаменим при внедрении технологий искусственного интеллекта и больших данных. IT-стартапы уже не используют проприетарные решения. От государства проектам Open Source Software (OSS) нужна грантовая поддержка, универсальная платформа и грамотная политика в сфере подготовки кадров. В России вопросы развития этого направления в 2021 году включены во второй пакет мер поддержки IT-отрасли.
Demhack 2 пришел, напрогал, победил

20 и 21 марта 2021 года прошел хакатон проектов в сфере приватности и открытости информации DemHack 2, организованный Роскомсвободой и Privacy Accelerator. Хакатон собрал интересные идеи и талантливых разработчиков, выявил несколько по-настоящему перспективных проектов и наградил два из них! Некоторые решения были высоко оценены жюри и менторами, что дает им отличные ша
Аналитика возраста воздушного флота российских авиакомпаний

Сегодня вашему вниманию представлена исследование(аналитика) возраста воздушного флота российских авиакомпаний, представленных на российском рынке для осуществления коммерческих перевозок. Полный список можно посмотреть тут.

Магистратура

Личный опыт подготовка к магистратуре JetBrains в Университете ИТМО и первые впечатления

Всем привет! На связи Антон Клочков, студент первого курса корпоративной магистратуры JetBrains Разработка программного обеспечения на базе Университета ИТМО. Я хочу рассказать, как выбирал программу, и главное оправдались ли мои ожидания.
Научное программирование в МФТИ

Привет, это Александр Нозик, и этот пост посвящен еще одной "интересной" магистерской программе (на этот раз на физтехе, совместно с JetBrains, Таврида Электрик и целым списком научных организаций). Про интересность вы решите сами, но программа в этот раз действительно уникальная (по
Как победить букмекеров с помощью ИИ опыт студентов магистратуры Наука о данных

Привет, Хабр! Сегодня хотим представить вам проект студентов магистратуры Наука о данных НИТУ МИСиС и Zavtra.Online (подразделении SkillFactory по работе с университетами) созданный на внутреннем хакатоне, который прошел в марте. Команда поделится решением выбранной задачи пр
LLM в области Legal Tech топ 5 самых интересных магистерских программ для обучения в Германии

Legal Tech набирает обороты и становится все более популярным направлением не только для исследований, но и работы. В России пока не разработано магистерских программ под Legal Tech: отдельные направления включают в себя правовую информатику поскольку-постольку (например, "Юри
Из студентов в преподаватели интервью с выпускниками магистерской программы JetBrains ИТМО. Часть 2

Продолжаем знакомить вас с выпускниками магистратуры JetBrains и ИТМО Разработка программного обеспечения, которые по завершении обучения пополнили преподавательский состав программы. Во второй части интервью ребята рассказывают подробнее о своих задачах, подходах к преподаванию и дают советы абитуриентам. Первая часть интервью.
Нужно больше датасетов. Музыка, IT-скилы и котики

Привет, Хабр! Совсем недавно мы писали про открытый датасет, собранный командой студентов магистратуры Наука о данных НИТУ МИСиС и Zavtra.Online (подразделение SkillFactory по работе с университетами) в рамках первого учебного Дататона. А сегодня представим вам цел

Мисис

Как победить букмекеров с помощью ИИ опыт студентов магистратуры Наука о данных

Привет, Хабр! Сегодня хотим представить вам проект студентов магистратуры Наука о данных НИТУ МИСиС и Zavtra.Online (подразделении SkillFactory по работе с университетами) созданный на внутреннем хакатоне, который прошел в марте. Команда поделится решением выбранной задачи пр
Транслируем искусство через робототехнику

Мы, студенты столичного университета, очень страдаем от недостатка внимания нашего руководства кафедры. Проблему необходимо было решать кардинально и бесповоротно. Внутривузовские проекты не дали бы необходимого эффекта, поэтому на собрании сообщества было принято решение уст
Нужно больше датасетов. Музыка, IT-скилы и котики

Привет, Хабр! Совсем недавно мы писали про открытый датасет, собранный командой студентов магистратуры Наука о данных НИТУ МИСиС и Zavtra.Online (подразделение SkillFactory по работе с университетами) в рамках первого учебного Дататона. А сегодня представим вам цел
Как собрать датасет за неделю опыт студентов магистратуры Наука о данных

Привет, Хабр! Сегодня хотим представить вам некоммерческий открытый датасет, собранный командой студентов магистратуры Наука о данных НИТУ МИСиС и Zavtra.Online (подразделении SkillFactory по работе с вузами) в рамках первого учебного Дататона. Мероприятие проходило как один из форматов командной практики. Данная работа заняла первое место из 18 команд.

Датасет содержит полный список объектов торговли и услуг
Топ-наука. Медийная десятка мая отчаяние аквариумных рыбок, голоса психических расстройств и много раз COVID

И вновь мы рассказываем о самых медийных исследованиях российских университетских учёных, получивших наибольший резонанс в СМИ. Сегодня у нас ТОП-10 самых нашумевших научных разработок мая.

По традиции сначала о том, о чем мы вам не расскажем. В горячую десятк

Data science

RamblerMeetupampUsermodel

Мы долго шли к этому и вот наконец! Наш внутренний RamblerMeetup&Usermodel выходит в свет! Уже 30 июня эксперты поделятся своими кейсами в области ML и Big Data.

Митап пройдет в онлайн-формате, начало в 19:00. Обязательна предварительная
Как мы построили Computer Vision из подручных материалов, чтобы сделать гифки

Меня зовут Денис Власов, я Data Scientist в Учи.ру. С помощью моделей машинного обучения из записей онлайн-уроков мы сделали гифки последовательность из нескольких кадров с наиболее яркими эмоциями учеников. Эти гифки получили их родители в e-mail-рассылке. Вместе с Data Scientist @DariaV Дашей Васюковой расскажем, как без экспертизы в Computer Vision, а только с помощью открытых библиотек и готовых моделей сделать MVP, в ос
Запросить 100 серверов нельзя оптимизировать код. Ставим запятую

Можно выделить ряд алгоритмов, которые являются базовыми и лежат в основе практически каждой строчки программ, написанных на языках высокого уровня. Хорошо иметь под руками классический многотомный труд Дональда Кнута "The Art of Computer Programming", там детально разобраны многие ба
Перевод Линейная алгебра для исследователей данных

Иллюстрация: UCI

Наша [Ирвинга Капланского и Пола Халмоша] общая философия в отношении линейной алгебры такова: мы думаем в безбазисных терминах, пишем в безбазисных терминах, но когда доходит до серьезно
Как я предсказал LGD на хакатоне и устроился на работу

Всем привет! Меня зовут Андрей, недавно яприсоединился ккоманде VSRobotics изанимаюсь проектом автопостроителя сценариев диалогов робота-оператора. Вэтом посте хочу поделиться историей своего трудоустройства ирешением задачи LGD prediction, которое мне вэтом очень помогло. Не
Перевод Прогнозирование временных рядов на JS анализ данных для самых маленьких фронтендеров

В этой статье я расскажу о том, почему нормально иногда делать анализ данных в браузере.

В чем суть?

На своей работе в качестве React Front-end разработчика я обычно работаю с дашбордами и различными видами данных. В какой-то момент нам понадобилось добавить предсказания по метрикам, а в команде не было специалистов по анализу данных, которые могли бы этим заняться.

Data scientist

Recovery mode Правильное распределение ролей в проекте половина успеха!

Авторы кейса для хакатона рассказали, как стать победителем IT-конкурса.

Уже завтра Нижний Новгород превратится в столицу цифровой экономики. Здесь проведут сразу два хакатона: первое в России IT-соревнование по искусственному интеллекту и полуфинал Всероссийского к
Switchback-эксперименты в Ситимобил Часть 1. Зачем это нужно
Содержание
Нужно больше датасетов. Музыка, IT-скилы и котики

Привет, Хабр! Совсем недавно мы писали про открытый датасет, собранный командой студентов магистратуры Наука о данных НИТУ МИСиС и Zavtra.Online (подразделение SkillFactory по работе с университетами) в рамках первого учебного Дататона. А сегодня представим вам цел
Как собрать датасет за неделю опыт студентов магистратуры Наука о данных

Привет, Хабр! Сегодня хотим представить вам некоммерческий открытый датасет, собранный командой студентов магистратуры Наука о данных НИТУ МИСиС и Zavtra.Online (подразделении SkillFactory по работе с вузами) в рамках первого учебного Дататона. Мероприятие проходило как один из форматов командной практики. Данная работа заняла первое место из 18 команд.

Датасет содержит полный список объектов торговли и услуг
Тренды в Data Science 2020-2021 года

Привет Хабр! Сегодня я расскажу, как развивается сфера Data Science. 2020 год стал переломным не только для мира в целом, сфера данных активно совершенствуется и сегодня можно уже подводить итоги года. Встречайте тренды DS в 2020-2021 году.

Я
Хотите стать учёным по данным? Тогда не начинайте с машинного обучения

Многие люди, когда они впервые слышат термин Data Science, обычно в первую очередь думают о машинном обучении.

Так было и со мной. Мой интерес к data science возник потому, что я впервые столкнулся с идеей машинного обучения, которая показалась мне дей

Hackathon

Нужно больше датасетов. Музыка, IT-скилы и котики

Привет, Хабр! Совсем недавно мы писали про открытый датасет, собранный командой студентов магистратуры Наука о данных НИТУ МИСиС и Zavtra.Online (подразделение SkillFactory по работе с университетами) в рамках первого учебного Дататона. А сегодня представим вам цел
Тривиальная и неправильная облачная компиляция

Введение

Данная статья не история успеха, а скорее руководство как не надо делать. Весной 2020 для поддержания спортивного тонуса участвовал в студенческом хакатоне (спойлер: заняли 2-е место). Удивительно, но задача из полуфинала оказалась более интересной и сложной чем
Как собрать датасет за неделю опыт студентов магистратуры Наука о данных

Привет, Хабр! Сегодня хотим представить вам некоммерческий открытый датасет, собранный командой студентов магистратуры Наука о данных НИТУ МИСиС и Zavtra.Online (подразделении SkillFactory по работе с вузами) в рамках первого учебного Дататона. Мероприятие проходило как один из форматов командной практики. Данная работа заняла первое место из 18 команд.

Датасет содержит полный список объектов торговли и услуг
Serverless шагает по планете. Сравним SberCloud и AWS

Мне с друзьями довелось поучаствовать в хакатоне
SberCloud.Advanced Hacking и пощупать облачные сервисы Сбера. На моем текущем месте работы я каждый день работаю с Serverless
Starline Hackathon 2020

Всем привет, с целью передачи опыта, а также для того, чтобы структурировать и закрепить весь тот объем информации, который пришлось перелопатить, я пишу эту статью. Я не ставлю перед собой целью изложить мануал по созданию нашего решения (ткисходный коди так полностью открыт). Подразумеваю, что основной интерес в т

	Русский
	English

Нужно больше датасетов. Музыка, IT-скилы и котики

Датасет 1: Скользим по музыкальным волнам с Data Surfers

Сбор данных об артистах

Сбор данных о популярных треках

Итоги

Датасет 2: Исследуем рынок вакансий и выявляем ключевые навыки с Ежу понятно

Сбор данных о скилах

Итоги

Датасет 3: Наслаждаемся многообразием котиков с Команда AA

Сбор данных о котиках

Итоги

Послесловие

Сейчас читают

Блог компании skillfactory

Перевод Наглядно о том, почему трансформеры работают настолько хорошо

Перевод Оптимизация платежей в Dropbox при помощи машинного обучения

Перевод Как Airbnb скрывает кошмары при помощи тайной команды чистильщиков

DIY регистратор молний

Перевод Быстрое обнаружение Covid-19 на рентгеновских снимках с помощью Raspberry Pi

Перевод Оптимизация при помощи линейного поиска на Python

Data mining

Проблемы мониторинга дата-пайплайнов и как я их решал

Гугл финанс перестал транслировать данные российских акций что делать?

Маленький и быстрый BERT для русского языка

Простыми словами о простых линейных функциях

Несколько мыслей про ранжирование

1. Вступление

Оценка кредитного портфеля на R

Big data

Стоит ли смотреть в сторону Data science?

Как мы весь интернет сканировали

RamblerMeetupampUsermodel

Что нам стоит загрузить JSON в Data Platform

Запросить 100 серверов нельзя оптимизировать код. Ставим запятую

Перевод Линейная алгебра для исследователей данных

Хакатоны

Recovery mode Правильное распределение ролей в проекте половина успеха!

Авторы кейса для хакатона рассказали, как стать победителем IT-конкурса.

Рояль, азот и котик как это было

Recovery mode Как поднять боевой дух команды на удаленке?

Digital-мероприятия в Москве c 14 по 20 июня

Blockchain Z-Days 2021

Как я предсказал LGD на хакатоне и устроился на работу

Подведены итоги Tech Monsters Night

Data engineering

Что нам стоит загрузить JSON в Data Platform

Проблемы мониторинга дата-пайплайнов и как я их решал

Запросить 100 серверов нельзя оптимизировать код. Ставим запятую

Чтобы потолка не стало, а крышу не снесло о чем новый подкаст ВТБ

Простыми словами о простых линейных функциях

Перевод Как Apache Spark 3.0 увеличивает производительность ваших SQL рабочих нагрузок

Skillfactory

Перевод Наглядно о том, почему трансформеры работают настолько хорошо

Перевод Оптимизация платежей в Dropbox при помощи машинного обучения

Перевод Как Airbnb скрывает кошмары при помощи тайной команды чистильщиков

DIY регистратор молний

Перевод Быстрое обнаружение Covid-19 на рентгеновских снимках с помощью Raspberry Pi

Перевод Оптимизация при помощи линейного поиска на Python

Датасет

Датасет о мобильных приложениях

Вступление

Нужно больше датасетов. Музыка, IT-скилы и котики

Как собрать датасет за неделю опыт студентов магистратуры Наука о данных

Ресурсы для получения датасетов изображений, о которых вы могли не знать

Биг дата

Нужно больше датасетов. Музыка, IT-скилы и котики

Как собрать датасет за неделю опыт студентов магистратуры Наука о данных

Хакатон

Головоломки Tech Monsters Night

Первые фото с Марса

Digital-мероприятия в Москве c 14 по 20 июня

Blockchain Z-Days 2021

Recovery mode Рецепты счастья как поддерживать корпоративный дух в непростое время

Digital-мероприятия в Москве c 7 по 13 июня

ML Party

Digital-мероприятия в Москве c 31 мая по 6 июня

Данные

Перевод Система хранения данных на основе ДНК реально ли это и как работает?

Открытые данные в России в 2021 году

Обновляемся на новую версию API Android по наставлению Google