Русский
Русский
English
Статистика
Реклама

Data scientist

Recovery mode Правильное распределение ролей в проекте половина успеха!

17.06.2021 20:21:19 | Автор: admin

Авторы кейса для хакатона рассказали, как стать победителем IT-конкурса.

Уже завтра Нижний Новгород превратится в столицу цифровой экономики. Здесь проведут сразу два хакатона: первое в России IT-соревнование по искусственному интеллекту и полуфинал Всероссийского конкурса разработчиков Цифровой прорыв Медицина, здравоохранение, наука. Для последнего EPAM вместе с ННГУ им. Лобачевского подготовили кейс CardioSpike. На основе полученных учеными данных нужно разработать детектор ковидных аномалий в ритме сердца. Пять сотрудников EPAM практики Data Science, которые участвовали в создании датасета, войдут в состав жюри. Они рассказали, как правильно подготовиться к хакатону.

Павел Шашкин, Data Science, EPAM: Каждый набор данных особенный по-своему, и не всегда перенос опыта из других задач даёт хорошие результаты. Начинайте с максимально простого решения, постепенно эмпирически проверяя новые гипотезы и наращивая сложность. Важно отдавать себе отчёт, что, независимо от уровня ваших навыков, с ростом количества разнообразной логики в решении растёт и вероятность допустить в одном из шагов ошибку.

Даниил Гусев, Data Scientist, EPAM: Каждый хакатон это вызов вам, вашим знаниям и умениям решать проблему здесь и сейчас. Для победы нужно придумывать новые подходы, экспериментировать, но это не касается инструментов, которые вы будете использовать. У вас не будет времени на освоение новых библиотек и фреймворков. Используйте только те инструменты, которыми вам уже хорошо знакомы.

Павел Смирнов, Data Science, EPAM: Распределите роли в команде. Кто занимается внешним видом и UX? Кто занимается архитектурой и масштабирование? Кто отвечает за МЛ часть? Кто готовит презентацию? Кто питчит финальное решение перед жюри? Перечитайте постановку задачи несколько раз. Очень важно не забыть в конце, какую задачу вы решаете. Поставьте библиотеки для работы с данными (numpy, pandas и т.д. ). Познакомьтесь с целевой метрикой - https://scikit-learn.org/stable/modules/generated/sklearn.metrics.f1_score.html)/. Посмотрите на описание и документацию к классическим алгоритмам, которые можно применить для решения задачи - https://scikit-learn.org/stable/supervised_learning.html.

Михаил Терпелец, Data Science, EPAM: Всем участникам я бы посоветовал избегать процедурного спагетти и не забывать следовать DRY, KISS, YAGNI. Ну и, конечно, дважды проверять код перед запуском, чтобы в ограниченное время не допускать ошибок по невнимательности. Обученных вам моделей и оптимальных гиперпараметров!

Всеволод Мицкевич, Data Science, EPAM: Так как и задача, и состав команды известны заранее, стоит побеспокоиться о том, чтобы правильным образом делегировать задачи. Каждый из инженеров обладает сильными и слабыми сторонами в разработке. Следует поближе познакомиться между собой и выяснить, какой опыт каждого из участников команды релевантен по отношению к задаче хакатона. Кому-то стоит заняться подготовкой данных, кто-то лучше пишет код, а у кого-то обширнее теоретические знания. Правильное распределение ролей в проекте половина успеха!

Подробнее..

Перевод Знакомство с Decision Intelligence

15.06.2020 18:18:41 | Автор: admin

Новая дисциплина в борьбе за лидерство в эпоху искусственного интеллекта


image

Знаете, что общего между защитным поведением при встрече со львами в саванне, ответственным подходом к управлению ИИ и проблемами проектирования хранилищ данных? Добро пожаловать в decision intelligence!

Decision intelligence новая научная дисциплина, рассматривающая все аспекты теории принятия решения. Она объединяет лучшее из прикладного направления data science, социальных наук и науки управления в единую область, призванную помочь людям повысить качество жизни, усовершенствовать бизнес и улучшить окружающий мир, используя данные. Это важнейшая наука эры искусственного интеллекта, включающая в себя навыки грамотного управления проектами, стратегического планирования целей, определение оптимальной метрики и систем безопасности для широкомасштабной автоматизации.

Decision intelligence дисциплина, позволяющая превратить информацию в лучшее практическое действие любого масштаба.

Давайте немного разберемся с основной терминологией и концепциями. Следующие абзацы можно просмотреть бегло (или совсем пропустить, если информация покажется вам чересчур занудной).

Что значит decision (решение)


Данные прекрасны, но важны именно решения. Именно наши решения наши действия влияют на мир, окружающий нас.

Под decision мы понимаем любой выбор между вариантами любого субъекта, так что разговор куда обширнее, нежели типичная дилемма в духе MBA (вроде: открывать филиал своего бизнеса в Лондоне или пока не стоит).

Именно наши решения наши действия влияют на мир, окружающий нас.

Исходя из этой формулировки, присвоение фотографии пользователя ярлыка со значением, к примеру, кошка или не-кошка, это решение, которое выполняет компьютерная система. Но решение запускать ли эту систему, обдумывает и принимает руководитель-человек (я надеюсь!), ответственный за проект.

Кто такой decision-maker (лицо, принимающее решение)


В нашем понимании, decision-maker это не заинтересованное лицо или инвестор, который вмешивается в процесс, чтобы наложить вето на деятельность проектной команды, а человек, ответственный за архитектуру решений и формирование контекста. Другими словами, это создатель тщательно сформулированных целей, а не их разрушитель.

Что значит decision-making (принятие решений)


Decision-making словосочетание, которое разные дисциплины используют по-разному. И означать оно может:

  • принятие мер при наличии альтернативных вариантов (в этом смысле принимать решение может как компьютер, так и ящерица);
  • выполнение обязанности (человека) по принятию решений, и несение за них ответственности. Даже если компьютерная система может принимать решение, она не может быть названа лицом, принимающим решения. Система не несет ответственности за полученные результаты эта ответственность всецело ложится на плечи людей, которые ее создали.


Делать расчеты vs. принимать решения


Не все мероприятия/предложения являются решениями. Согласно терминологии анализа решений, решение принимается лишь раз, и полученные изменения нельзя откатить назад. Если можно вернуть изменения без лишних затрат, значит решение еще не было принято.

Систематика decision intelligence


Один из способов приблизиться к изучению decision intelligence разбить её по традиционным направлениям на количественные аспекты (в основном пересекающиеся с прикладной data science) и качественные (разрабатываемые преимущественно исследователями в области социальных и управленческих наук).

Качественная сторона: наука о принятии решений


Дисциплины, попадающие в группу качественных аспектов, традиционно называются науками о принятии решений хотела бы я, чтобы все целиком так и называлось (увы, мы не всегда имеем, что хотим).

Наука о принятии решений занимается такими вопросами, как:

  • Как правильно настроить критерии принятия решений и рассчитать метрики? (Все дисциплины)
  • Является ли выбранный вами параметр мотивационно совместимым? (Экономика)
  • Решения какого качества вы должны принимать, и сколько вы должны отдать за точную информацию?" (Анализ решений)
  • Как эмоции, эвристика и предубеждения влияют на принятие решений? (Психология)
  • Как биологические факторы, к примеру, уровень кортизола, могут сказаться на принятии решений? (Нейроэкономика)
  • Как изменения в представлении информации влияют на принимаемые решения? (Поведенческая экономика)
  • Как вы осуществляете оптимизацию своих результатов при принятии решений в контексте группы? (Экспериментальная теория игр)
  • Как сбалансировать многочисленные ограничения и многоступенчатые цели при разработке контекста решения? (Проектирование)
  • Кого коснутся последствия решения, и как различные группы воспримут этот опыт? (Исследования опыта взаимодействия)
  • Является ли это решение объективным и этичным? (Философия)


Это лишь малая частьговорить еще можно о многом! И конечно это еще не полный список задействованных дисциплин. Рассмотрите науку о принятии решений с точки зрения того, что настройка параметров решений и обработка информации протекают в не совсем четкой форме хранения (в человеческом мозгу), а не исходя из того, что нечто, называемое данными, аккуратно занесено в почти постоянное хранилище (записано на бумагу или в электронном виде).

Ошибки вашего мозга


В прошлом столетии было модно восхвалять любого, кто сумел сунуть огромный клубок математики в какое-нибудь невинное человеческое предприятие. Количественный подход, конечно, лучше бездумного хаоса, но есть способ сделать все гораздо лучше.

Стратегии, основанные на чисто математической рациональности, относительно наивны и, как правило, недостаточно эффективны.

Стратегии, основанные на чистой математической рациональности без качественного понимания процесса принятия решений и человеческого поведения, выглядят довольно наивно. Более того, как правило, они менее эффективны в сравнении со стратегиями, основанными на объединении количественной и качественной сторон. (Следите за новостями в блогах по истории рациональности в социальных науках, а также за примерами из теории поведенческих игр, где психология превосходит математику.)

Люди не оптимизаторы, мы ублажатели. Звучит особенно причудливо для людей, которые ищут легкий путь.


Люди не оптимизаторы, мы ублажатели (Satisficing), что звучит причудливо для людей, которые предпочитают легкий путь и довольствуются хорошим, а не совершенным. (Это концепция настолько шокировала высокомерие нашего вида нанесла удар по лицу человека разумного, богоподобного и безупречного что удостоилась Нобелевской премии.)

На самом деле мы, люди, обращаемся к когнитивной эвристики, чтобы сэкономить время и усилия. Часто это бывает полезным; пока мы будем думать над идеальным планом побега от льва в саванне, нас съедят прежде, чем мы вообще успеем приступить к расчетам. Удовлетворенность снижает калорийность жизни, что также хорошо, ведь наш мозг до смешного крайне энергоемкий девайс. Пятая часть энергетических затрат организма уходит именно на него, хоть он и весит всего-то около 1,4 кг. (Спорим, в общей сложности вы точно весите больше 7 кг?)

Некоторые решения срезать углы ведут к предсказуемо не оптимальным результатам.

Теперь мы уже не проводим свои дни, спасаясь бегством ото львов, и часто с удовольствием срезаем углы, что приводит нас к дрянным результатам. Наш мозг еще не до конца, эм, ну что ли оптимизирован для современной среды. Понимание того, как наш вид превращает информацию в действие, позволяет использовать процессы принятия решений для защиты себя от несовершенств собственного мозга (а также от тех, кто намеренно играет на наших инстинктах). Это также помогает создавать инструменты, которые увеличивают производительность и адаптируют вашу среду к вашему же мозгу.

Если думаете, что ИИ выводит человека из уравнения, подумайте еще раз!

К слову, если вы вдруг подумали, что искусственный интеллект выводит человека из уравнения, подумайте еще раз! Все технологии являются отражением своих создателей, а все полномасштабные системы могут усиливать человеческие недостатки, что является одной из причин, почему развитие навыков принятия решений так необходимо для ответственного управления ИИ.

Возможно, вы не принимаете решение


Иногда тщательное обдумывание критериев принятия решения приводит к осознанию того, что нет такого факта в мире, который смог бы изменить ваше мнение вы уже решили, как будете действовать и теперь просто ищете оправдание. Это полезное осознание оно предотвращает потерю времени и помогает справиться с эмоциональным дискомфортом, пока вы делаете то, что и собирались, невзирая на проклятые данные.

Он использует статистику, как пьяный человек использует фонарные столбы для поддержки собственного равновесия, а не для освещения дороги.
Эндрю Лэнг


Не получится добиться решения, если не реагировать и не предпринимать ответные действия на различные, временно неизвестные факторы хотя иногда обучение анализу решений помогает вам увидеть ситуацию более ясно.

Принимать решения на основе точной информации


Теперь представьте, что вы очень тщательно подходите к настройке параметров решения, которые чутко реагируют на факты. Вы просто щелкаете пальцами и получаете фактическую информацию, необходимую для выполнения вашего решения. Зачем вам тогда data science? Не зачем.

Сперва нужно выяснить, как мы хотим реагировать на факты.


Нет лучше состояния, чем уверенность, что вы что-то знаете наверняка (да, я понимаю, что здесь зияет огромная релятивистская кроличья нора, опустим этот момент) поэтому мы всегда предпочтем принимать решения на основе имеющихся фактов. Вот почему первым делом мы должны решить, как мы будем работать с фактами. Какой из ниже перечисленных вариантов вы бы выбрали для работы с информацией?

image

Что можно сделать с фактами


  • Можно использовать факты для принятия единственно важного предварительного решения. Если перед вами стоит серьезный выбор, скорее всего вам придется опираться на качественную сторону вещей, чтобы мудро сформулировать решение. Психологи знают, что если попасть в засаду из-за неожиданно открывшейся информации, то придется так вертеться, как совсем того не хотелось бы. Поэтому психологи (и не только) многое могут рассказать о том, как подойти к выбору информации, которой вы собираетесь оперировать заранее.
  • Используя факты, можно прийти к особому типу заранее сформированных решений действенным или, по-другому, причинно-обусловленным. Если ваше решение должно быть обусловлено тем, что надо что-то сделать, чтобы что-то произошло, то, соответственно, вы работаете с фактами, отражающими причинно-следственные связи, и принимаете решение. В данном случае факты о последствиях бесполезны (например, люди выздоравливают), если нет фактов о причине (например, благодаря антибиотикам). Чтобы получить информацию о причинах и следствиях, можно провести контролируемый эксперимент. С другой стороны, эксперимент не нужен, если вы принимаете решение об исполнении чего-либо как ответную реакцию на некий не-причинный факт (когда на счету у меня будет хотя бы x сумма, то я побалую себя новыми туфлями).
  • Можно использовать факты, чтобы укрепиться во мнении (Я думаю, что погода солнечная превращается в Я знаю, что погода солнечная).
  • Можно использовать факты, чтобы принять единственно важное решение, обусловленное реальным существованием. Решение на основе реально существующих факторов (Я сейчас узнал, что рядом зафиксирован случай заражения вирусом Эбола, поэтому я немедленно сваливаю отсюда...) это решения, принятые в условиях возникновения ранее неизвестных переменных, которые так сильно подрывают фундамент ваших суждений, что задним числом вы понимаете: контекст для обдумывания решения был сформулирован некорректно.
  • Можно использовать факты, чтобы автоматизировать процесс принятия большого количества решений. В традиционном программировании человек прописывает серию команд для преобразования вводимых данных в соответствующие действия, возможно, используя что-то вроде поисковой таблицы.
  • Можно использовать факты, чтобы определить, какими будут решения по автоматизации. Зная факты о системе, можно написать код на их основе. Так подходить к традиционному программированию гораздо лучше, нежели сидеть и напряженно придумывать структуру решения, не имея какой-либо информации. Например, если вы не знаете, как перевести градус Цельсия в градус Фаренгейта, вы можете, используя набор данных, выполнить поиск по записям градусов Фаренгейта, которые идут вместе с градусами Цельсия но если проанализировать саму таблицу поиска, вы обнаружите формулу, которая их связывает. Тогда вы сможете просто закодировать эту формулу (модель), чтобы избавиться от нежелательной работы и забыть про дурацкую таблицу.
  • Можно использовать факты, чтобы сгенерировать оптимальное решение проблемы автоматизации, которая может быть полностью разрешена. Это традиционная оптимизация. Вы найдете много примеров в области исследования операций, которая кроме всего прочего занимается вопросом: как устранять препятствия, чтобы добиться идеального результата, например, наилучшего порядка выполнения ряда задач.
  • Можно использовать факты, чтобы обдумать возможный подход к принятию будущих важных решений. Это часть аналитики, которая также относится к разделу частичной информации. Запомните эту мысль! (еще пригодится)
  • Вы можете использовать факты, чтобы подвести итоги того, с чем имеете дело. Это поможет вам понять, какие виды входных данных вы можете использовать для принятия решений в будущем и разработать способы более эффективной работы с информацией. Если вы только что унаследовали большое, темное хранилище (данных), наполненное непонятными компонентами, вы не будете знать, что внутри, пока кто-то туда не заглянет. К счастью, у вашего аналитика есть фонарик и ролики.
  • Можно небрежно использовать факты, чтобы принимать решения вне контекста. Это эффективно, когда нет высоких ставок и не требуется излишних усилий или осторожности, например: что я буду сегодня на обед? Стремление все время строго подходить к планированию решений дает неоптимальные долгосрочные / пожизненные результаты и попадает в категорию бессмысленного перфекционизма. Приберегите усилия для действительно ответственных ситуаций, но, пожалуйста, помните, что даже если эффективно использовать некачественный подход с малой затратой усилий, оптимальный подход к принятию решений все равно получится низкого качества. Вы не должны бить себя в грудь или быть слишком самоуверенными, если это ваш метод Если вы срезаете углы, то вы скорее всего идете по тонкому льду. Бывают ситуации, когда и шаткие доказательства вдруг прокатывают, но это не значит, что ваше умозаключение надежно. Не надейтесь на него. Если хотите принимать качественные решения, вам нужно придерживаться более строгого подхода.


Обучаясь науке принятия решений, вы научитесь экономить усилия, необходимые для принятия строгих решений, основанных на фактах. Это позволит в течение того же объема работы принимать более качественные решения по любому предмету. Ценный навык, но чтобы его отшлифовать, придется проявить усердие. Например, у студентов, изучающих поведенческую экономику, формируется привычка устанавливать критерии принятия решений заранее, до получения информации. Те из нас, кому пришлось несладко из-за достаточно требовательных программ обучения науке принятия решений, не могут не задаться вопросом, к примеру, сколько максимально мы заплатим за билет, ДО того, как узнаем его подлинную стоимость.

Сбор данных и инженерия данных


Будь у нас факты, мы бы уже все сделали. Увы, но мы живем в реальном мире и зачастую вынуждены работать, чтобы заполучить заветную информацию. Инженерия данных это сложная дисциплина, ориентированная на обеспечение надежного доступа к информации в широких масштабах. Подобно тому, как легко выйти в магазин за мороженным, легко и обработать данные, если вся доступная релевантная информация есть в электронной таблице.

Ситуация осложняется, когда вам нужно доставить 2 миллиона тонн мороженого в такое место, где оно точно не растает! Все становится еще сложнее, если вам требуется спроектировать и построить огромный склад, а затем еще заняться его обслуживаем. И вы даже не знаете, что в будущем вас попросят в нем хранить может пару тонн рыбы, а может и плутоний ну, удачи вам!

Сложно соорудить склад, когда вы знать не знаете, о чем вас попросят на следующей неделе может, передержать несколько тонн рыбы, а может и плутония ну, удачи вам!


Хотя инженерия данных и является родственной наукой и основным компонентом decision intelligence, наука о принятии решений охватывает опыт и специальные знания, связанные с консультированием при разработке проекта и сборе фактов.

Количественная сторона: Data science


Когда вы сформулировали свое решение и занялись поиском необходимых фактов, заручившись поддержкой поисковой системы или аналитика (исполняющего для вас роль человеческой системы поиска), все, что от вас теперь требуется привести свое решение в действие. И готово! Никакой мудреной data science и не нужно.

Что, если, после всей этой работы, беготни и технического джиу-джитсу полученные факты в итоге оказались не теми идеальными фактами, которые так необходимы для решения? Что, если это неполноценные факты? Что, если вам нужны завтрашние факты, но имеете вы только вчерашние. (Так бесит, когда не можешь вспомнить будущее.) Возможно вы хотите знать, что потенциальные клиенты думают о вашем продукте, но опросить вы можете лишь сто человек. Вы столкнулись с неопределенностью! То, что вы знаете совсем не то, что хотелось бы знать. Пустите в дело data science!

Data science приобретает интерес, когда вы совершаете скачки и выходите за пределы data но будьте осторожны, чтобы не упасть подобно Икару!

Разумеется, ваш подход меняется, раз вы располагаете не теми фактами, что надо. Может быть, в ваших руках кусочек пазла от большой мозаики (как в примере с выборкой из большого числа потребителей). А может, ваш пазл неправилен, но, во всяком случае, лучший из имеющихся (как с использованием прошлого для предсказание будущего). Data science приобретает интерес, когда вы совершаете скачки и выходите за пределы data но будьте осторожны, чтобы не шлепнуться подобно Икару!

  • Можно брать неполные факты и, делая некоторые допущения, принимать единственно важное предварительное решение со статистическим выводом, чтобы понимать, потребуется ли менять алгоритм действий или нет. Это частотная (классическая) статистика. Если вы принимаете действенное решение (сформулированное с точки зрения того, чтобы что-то произошло, например, вам бы хотелось изменить цвет логотипа на оранжевый, но только если это изменение привлечет больше посетителей на сайт), то лучше использовать данные рандомизированного контролируемого эксперимента. Если вы принимаете решение об исполнении (например, вы бы хотели изменить цвет логотипа на оранжевый, но только в том случае, если по крайней мере 25% пользователей сайта считают оранжевый своим любимым цветом), то достаточно будет провести опрос или исследование методом наблюдения.
  • Можно использовать неполные факты как обоснование, чтобы поменять мнение ввиду новых обстоятельств (но все равно ваши суждения будут неполноценными и субъективными). Это байесовская статистика. Если мнение основывается на причинно-следственных связях, то лучше тогда брать данные контролируемого рандомизированного эксперимента.
  • Может так оказаться, что ваши неполные факты содержат информацию о реально происходящих событиях, что означает, что вы можете использовать их задним числом для принятия решений на основе реально существующих факторов (см. выше)
  • Можно использовать факты, чтобы автоматизировать процесс принятия большого количества решений. Это традиционное программирование, использующее что-то вроде поисковой таблицы, где вы конвертируете что-то, чего раньше не знали, в самое близкое, что у вас есть, а затем продолжаете как обычно. (Это то, что алгоритм k-NN делает в двух словах но обычно все работает лучше, когда за двумя словами стоит куда более сложный механизм.)
  • Можно использовать неполные факты, чтобы обдумать, в каком направлении принимать решения по автоматизации. Зная неполные факты о системе и основываясь на них, вы все еще можете кодить. Здесь работает аналитика.
  • Можно использовать неполные факты, чтобы сгенерировать решение проблемы автоматизации, которая не имеет полного решения. Так что вам не придется придумывать решатель самостоятельно. Этим займется машинное обучение и ИИ.
  • Вы можете использовать факты, чтобы проанализировать, с чем вы имеете дело (см. выше) и ускорить работу над решением проблемы автоматизации, используя углубленный анализ данных, например, путем поиска новых способов объединения информации для создания полезных входных данных для модели (если использовать терминологию, то имеется в виду конструирование признаков), или путем поиска новых методов для использования в проекте ИИ.
  • Можно небрежно использовать неполные факты, чтобы принимать решения вне контекста, но имейте ввиду, что качество будет еще ниже, чем при некорректном использовании фактов, потому что то, что вы действительно знаете, находится в шаге от того, что вы хотели бы знать.

Для всех перечисленных вариантов есть способы интегрировать полезные элементы из множества ранее разрозненных дисциплин, чтобы сформировать более эффективный подход к принятию решений. Вот о чем decision intelligence! Она объединяет различные точки зрения на принятие решений, которые вместе приносят на большую пользу, дает им новый голос, свободный от традиционных ограничений в их родных областях изучения.

image

Вспомним аналогию между кухней и ИИ. Если исследовательский ИИ создает микроволны, а прикладной ИИ их использует, то decision intelligence использует микроволны безопасно, чтобы выполнить вашу задачу, а в случае, когда вам не требуется микроволновая печь, воспользуется чем-нибудь другим. Цель (задача) всегда будет отправной точкой для decision intelligence.

image

Узнайте подробности, как получить востребованную профессию с нуля или Level Up по навыкам и зарплате, пройдя платные онлайн-курсы SkillFactory:



Читать еще


Подробнее..

Перевод Data Science для гуманитариев что такое data

15.06.2020 20:17:21 | Автор: admin

Размышления об информации, памяти, аналитике и распределениях


Все, что воспринимают наши чувства, это данные, хотя их хранение в наших черепушках оставляет желать лучшего. Записать это немного надежнее, особенно когда мы записываем это на компьютере. Когда эти записи хорошо организованы, мы называем их данными хотя я видел, как некоторые ужасно организованные электронные каракули получают то же имя. Я не уверен, почему некоторые люди произносят слово data так, как будто оно имеет заглавную букву D.

Почему мы произносим data с большой буквы?

Нам нужно научиться быть непочтительно прагматичными в отношении данных, поэтому эта статья поможет новичкам заглянуть за кулисы и помочь практикующим объяснить основы новичкам, у которых проявляются симптомы поклонения данным.

Смысл и смыслы


Если вы начнете свое путешествие с покупки наборов данных в Интернете, вы рискуете забыть, откуда они берутся. Я начну с нуля, чтобы показать вам, что вы можете делать данные в любое время и в любом месте.

Вот несколько постоянных обитателей моей кладовой, расставленных на полу.

image

Эта фотография представляет собой данные она хранится как информация, которую ваше устройство использует для отображения красивых цветов.

Давайте разберемся в том, на что мы смотрим. У нас есть бесконечные варианты того, на что обращать внимание и помнить. Вот что я вижу, когда смотрю на продукты.

image

Если вы закрываете глаза, вы помните каждую деталь того, что вы только что видели? Нет? И я нет. Вот почему мы собираем данные. Если бы мы могли помнить и обрабатывать это безупречно в наших головах, в этом не было бы необходимости. Интернет мог быть одним отшельником в пещере, рассказывая обо всех твитах человечества и прекрасно передавая каждую из наших миллиардов фотографий кошек.

Письмо и долговечность


Поскольку человеческая память это дырявое ведро, было бы лучше записать информацию так, как мы делали это раньше, когда я училась в школе статистики, еще в далекие года. Вот именно, друзья мои, у меня все еще где-то здесь есть бумага! Давайте запишем эти 27 данных.

image

Что хорошего в этой версии относительно того, что находится в моем гиппокампе или на моем полу то, что она более долговечна и надежна.

Человеческая память дырявое ведро.

Мы считаем революцию памяти само собой разумеющейся, так как она началась тысячелетия назад с торговцев, нуждающихся в надежном учете того, кто кому продал, сколько бушелей чего. Потратьте немного времени, чтобы понять, как прекрасно иметь универсальную систему письма, которая хранит цифры лучше, чем наш мозг. Когда мы записываем данные, мы производим неверное искажение наших богато воспринимаемых реалий, но после этого мы можем передавать нетленные копии результата другим представителям нашего вида с идеальной точностью. Писать потрясающе! Маленькие кусочки ума и памяти, которые живут вне нашего тела.

Когда мы анализируем данные, мы получаем доступ к чужим воспоминаниям.

Беспокоитесь о машинах, превосходящих наш мозг? Даже бумага может сделать это! Эти 27 маленьких цифр большой объем для вашего мозга, но долговечность гарантирована, если у вас есть пишущий инструмент под рукой.

Хотя это и выигрыш в долговечности, но работа с бумагой раздражает. Например, что, если мне вдруг взбредет в голову переставить их от большего к меньшему? Абракадабра, бумага, покажи мне лучший порядок! Нет? Черт.

Компьютеры и магические заклинания


Вы знаете, что удивительного в программном обеспечении? Абракадабра на самом деле работает! Итак, давайте перейдем с бумаги на компьютер.

image

Электронные таблицы оставляют меня равнодушным. Они очень ограничены по сравнению с современными инструментами обработки данных. Я предпочитаю колебаться между R и Python, так что давайте на этот раз возьмем R. Вы можете повторять за мной в вашем браузере с помощью Jupyter: выберите вкладку with R, затем несколько раз нажмите значок ножниц, пока все не будет удалено. Поздравляю, это заняло 5 секунд, и вы готовы вставить мои фрагменты кода и запустить его [Shift + Enter].

weight <- c(50, 946, 454, 454, 110, 100, 340, 454, 200, 148, 355, 907, 454, 822, 127, 750, 255, 500, 500, 500, 8, 125, 284, 118, 227, 148, 125)
weight <- weight[order(weight, decreasing = TRUE)]
print(weight)


Вы заметите, что абракадабра R для сортировки ваших данных не очевидна, если вы новичок в этом.

Ну, это верно для самого слова абракадабра, а также для меню в программном обеспечении электронных таблиц. Вы знаете эти вещи только потому, что были подвержены им, а не потому, что они являются универсальными законами. Чтобы что-то сделать с компьютером, вам нужно попросить своего местного мудреца о волшебных словах/жестах, а затем попрактиковаться в их использовании. Мой любимый мудрец называется Интернет и знает все на свете.

image

Чтобы ускорить обучение, не просто вставляйте волшебные слова попробуйте изменить их и посмотреть, что произойдет. Например, что изменится, если вы превратите TRUE в FALSE во фрагменте выше?

Разве не удивительно, как быстро вы получаете ответ? Одна из причин, по которой я люблю программирование, заключается в том, что это нечто среднее между магическими заклинаниями и LEGO.

Если вы когда-нибудь хотели, чтобы вы могли творить чудеса, просто научитесь писать код.

Вот вкратце о программировании: спросите Интернет, как сделать что-то, возьмите волшебные слова, которые вы только что выучили, посмотрите, что произойдет, когда вы их отрегулируете, а затем соедините их вместе, как блоки LEGO, чтобы выполнить ваш код.

Аналитика и обобщение


Проблема с этими 27 числами состоит в том, что даже если они отсортированы, они мало что значат для нас. Читая их, мы забываем то, что читали секунду назад. Это человеческий мозг для вас; попросите нас прочитать отсортированный список из миллиона номеров, и в лучшем случае мы запомним последние несколько. Нам нужен быстрый способ сортировки и суммирования, чтобы мы могли понять, на что мы смотрим.

Вот для чего нужна аналитика!

median(weight)

При правильном заклинании мы можем мгновенно узнать, каков средний вес. (Медиана означает среднее.)

Оказывается, ответ 284г. Кто не любит мгновенного удовлетворения? Существуют всевозможные варианты сводки: min(), max(), mean(), median(), mode(), variance() попробуйте все! Или попробуйте это волшебное слово, чтобы узнать, что происходит.

summary(weight)

Кстати, эти вещи называются статистикой. Статистика это любой способ собрать ваши данные. Это не то, что представляет собой область статистики вот 8-минутное введение в академическую дисциплину.

image

Построение и визуализация


Этот раздел не о типе заговора, который включает мировое господство (следите за новостями этой статьи). Речь идет о суммировании данных с помощью изображений. Оказывается, картинка может быть информативнее тысячи слов.

image

Если мы хотим знать, как распределяются веса в наших данных например, есть ли еще пункты между 0 и 200 г или между 600 и 800 г? гистограмма наш лучший друг.

image

Гистограммы являются одним из способов (среди многих) суммирования и отображения наших выборочных данных. Более высокие блоки для более популярных значений данных.

Думайте о гистограммах как о конкурсах популярности.

Чтобы создать приложение для работы с электронными таблицами, волшебное заклинание представляет собой долгий ряд нажатий на различные меню. В R это быстрее:

Вот что мы получили с помощью одной строки:

hist(weight)

image

На что мы смотрим?

На горизонтальной оси у нас есть столбцы. По умолчанию они установлены с шагом 200г, но мы изменим это через мгновение. На вертикальной оси находятся отсчеты: сколько раз мы видели вес от 0 до 200 г? График говорит 11. Как насчет между 600 г и 800 г? Только один (это поваренная соль, если память не изменяет).

Мы можем выбрать размер наших столбцов по умолчанию, которую мы получили без возни с кодом, 200 г, но, возможно, мы хотим использовать 100 г, вместо этого. Нет проблем! Маги в процессе обучения могут переделать мое заклинание, чтобы узнать, как оно работает.

hist(weight, col = "salmon2", breaks = seq(0, 1000, 100))

Вот результат:

image

Теперь мы можем ясно видеть, что двумя наиболее распространенными категориями являются 100200 и 400500. Кому-нибудь интересно? Возможно нет. Мы сделали это только потому, что могли. Настоящий аналитик, с другой стороны, преуспевает в науке быстрого просмотра данных и искусстве смотреть, где лежат интересные самородки. Если они хороши в своем ремесле, они на вес золота.

Что такое распределение


Если эти 27 пунктов это все, что нас волнует, то приведенная мною выборочная гистограмма также отражает распределение совокупности.

Это почти то же самое, что и распределение: это гистограмма, которую вы получили бы, если бы применили Hist() ко всей совокупности (ко всей информации, которая вас интересует), а не только к выборке (данным, которые у вас есть под рукой). Есть несколько сносок, например, шкала по оси Y, но мы оставим их для другого поста в блоге пожалуйста, не бейте меня, математики!

image

Если бы наше население когда-либо упаковывало все продукты питания, распределение было бы в форме гистограммы всех их весов. Такое распределение существует только в нашем воображении как теоретическая идея некоторые упакованные продукты питания теряются в глубине веков. Мы не можем сделать этот набор данных, даже если бы захотели, поэтому лучшее, что мы можем сделать, это угадать, используя хороший пример.

Что такое Data Science


Существует множество мнений, но я предпочитаю следующее определение: Наука о данных это дисциплина, которая делает данные полезными. Три ее подраздела включают анализ большого количества информации для поиска инсайтов (аналитика), разумное принятие решений на основе ограниченной информации (статистика) и использование шаблонов в данных для автоматизации задач (ML/AI).

Вся наука о данных сводится к следующему: знание это сила.

Вселенная полна информации, ожидающей сбора и использования. Хотя наш мозг прекрасно разбирается в наших реалиях, он не так хорош в хранении и обработке некоторых видов очень полезной информации.

Вот почему человечество обратилось сначала к глиняным табличкам, затем к бумаге и, в конечном итоге, к кремнию за помощью. Мы разработали программное обеспечение для быстрого просмотра информации, и в наши дни люди, которые знают, как ее использовать, называют себя учеными или аналитиками данных. Настоящие герои это те, кто создает инструменты, которые позволяют этим практикующим лучше и быстрее овладеть информацией. Кстати, даже интернет это аналитический инструмент мы просто редко думаем об этом, потому что даже дети могут проводить такой анализ данных.

image

Апгрейд памяти для всех


Все, что мы воспринимаем, хранится где-то, по крайней мере, временно. В данных нет ничего волшебного, кроме того, что они записаны более надежно, чем мозг. Некоторая информация полезна, часть вводит в заблуждение, остальное посередине. То же самое касается данных.

Мы все аналитики данных и всегда ими были.

Мы принимаем наши удивительные биологические возможности как должное и преувеличиваем разницу между нашей врожденной обработкой информации и автоматическим разнообразием. Разница заключается в долговечности, скорости и масштабе но в обоих случаях применяются одни и те же правила здравого смысла. Почему эти правила выходят в окно при первом знаке уравнения?

Я рада, что мы называем информацию топливом для прогресса, но поклоняться данным как чему-то мистическому для меня не имеет смысла. Лучше просто говорить о данных, так как мы все аналитики данных, и так было всегда. Давайте дадим возможность каждому увидеть себя такими.

image

Узнайте подробности, как получить востребованную профессию с нуля или Level Up по навыкам и зарплате, пройдя платные онлайн-курсы SkillFactory:



Читать еще


Подробнее..

Аналитика для хантинга аналитиков продуктовых, data scientists, маркетинговых

22.06.2020 12:13:23 | Автор: admin


Аналитика рынка аналитиков:


  • Сколько денег хотят аналитики, которые не ищут работу и как можно повлиять на их мотивацию. Отдельно рассказали про продуктовых аналитиков, маркетинговых и data scientists.
  • Основные компетенции аналитиков разного уровня, от junior до head of analytics. Какие типовые задачи решают аналитики разных специализаций и какими инструментами пользуются.
  • Критичные факторы, которые могут снижать стоимость аналитика без учета его специализации, а также, что может повышать ценность аналитика разной специализации.
  • 7 причин, с помощью которых вы можете заинтересовать опытного эксперта, и факторы, снижающие привлекательность вашей вакансии.
  • Могут ли кандидаты стоить для вас дешевле. Что делать, если у вас проблемы с наймом. Как кризис и пандемия повлияли на хантинг. Общие рекомендации современного хантинга.


Мы в New.HR подготовили очередную Аналитику для хантинга. В этот раз она получилась настолько объемной, что мы решили разделить ее на три статьи: про продакт менеджеров, про аналитиков (продуктовых, маркетинговых и data science) и про разработчиков.

Если хотите прочитать сразу всю, полную аналитику для хантинга, по всем профессиям сразу, скачивайте нашу презентацию (осторожнее, там 83 слайда!)

Про каких аналитиков мы тут говорим:


  • Большинство аналитиков, про которых мы расскажем ниже, работает в средних, крупных или известных проектах, а также в успешных стартапах из IT и Диджитал-отрасли.
  • Для этого обзора мы не оценивали кандидатов, которые сейчас работают в банках или крупных финансовых организациях. Отчасти потому что зарплаты в таких компаниях могут быть выше, чем в среднем в интернет-отрасли, и будут сильно смещать вилки. Также мы не учитывали аналитиков, работающих в не-дидижитал индустриях, несмотря на то что там могут быть уже сформированные крупные аналитические практики (промышленность, нефтедобыча, логистика, фарма, производство и т.д.).
  • Мы не учитывали данные по аналитикам из маленьких проектов или стартапов, где такой специалист один и часто выполняет задачи из разных направлений аналитики. Либо, бывает, что функция аналитики размазана по другим профессиям/должностям.
  • В основном мы оцениваем кандидатов из Москвы, либо тех, кто работает удаленно на московские компании.
  • Наши респонденты готовы рассматривать предложения преимущественно в российских проектах.
  • Большинство опытных аналитиков, которых мы оценивали, не находятся в активном поиске работы, но готовы рассмотреть интересные предложения. Такие кандидаты обычно готовы к работе, интересной с точки зрения профессионального роста и других перспектив.
  • Мы не включали в нашу оценку тех кандидатов, которые ищут работу срочно, а значит, потенциально готовы соглашаться на то, что предлагает рынок, а не ждать действительно интересного им предложения.










Что может влиять на стоимость аналитика


Мы считаем, что невозможно оценить стоимость аналитика в отрыве от конкретного проекта, так как это будет похоже на оценку сферического коня в вакууме. Каждый кандидат оценивается индивидуально, с той точки зрения, насколько его скиллы и бэкграунд подходят потребностям конкретной компании. Поэтому стоит учитывать одно правило: чем больше ваш опыт и бэкграунд соответствует критичной потребности бизнеса, тем дороже вы будете стоить для этого конкретного бизнеса.

Несмотря на то что каждый кейс стоит оценивать отдельно, мы попробовали выделить несколько типичных паттернов, которые могут влиять на вашу стоимость для определённых компаний.

3 ключевых причины, которые могут снижать стоимость аналитика вне зависимости от специализации


  1. Если основной результат работы аналитика отчёты ради отчётов, а не ради развития продукта или бизнеса.
  2. Большая часть работы аналитика не привязана к конкретным бизнес-метрикам, например, к деньгам, пользователям и проч.
  3. Невладение критичным инструментарием. Когда незнание той или иной технологии, либо инструмента становится барьером для решения задачи.


4 фактора, которые могут повышать ценность аналитика вне зависимости от специализации


  1. Общая универсальность специалиста. Например, аналитик владеет большим арсеналом аналитических инструментов, может решать широкий спектр задач, понимает их на уровне пользы для бизнеса.
  2. Личный бренд. Статус эксперта в сообществе, преподавание, выступление на конференциях, хакатонах, профильные статьи.
  3. Дополнительную ценность аналитикам может дать опыт работы в собственном стартапе. Такой опыт дает чёткий фокус на бизнес-целях, учит видеть физический смысл за цифрами, а не просто делать отчёты.
  4. Способность генерить множество гипотез, в том числе неочевидных. Умение оперировать не только аналитическими факторами, но и экономическими, логистическими, политическими, эмоциональными и прочими. Некоторые руководители оценивают умение генерить гипотезы на собеседовании. Пример вопроса, который проверяет вашу способность генерить неочевидные гипотезы: Не работает интернет. Назовите все возможные причины, почему это случилось. Другой пример вопроса: Придумаете продуктовую метрику, объясните, чем она хороша. А теперь, расскажите, чем она плоха.


Специализации аналитиков и факторы, повышающие их ценность




Что может повышать ценность продуктового аналитика


  • Опыт работы с продуктами, где есть большое количество юзеров, где есть высокая нагрузка
  • Наличие кейсов, которые влияли на ключевые показатели бизнеса
  • Опыт прогнозирования результатов и последствий от внедрения продуктовых фич




Что может повышать ценность data scientists


  • Опыт применения или уверенное знание классических алгоритмов машинного обучения (например: Линейная регрессия, Логистическая регрессия, LDA, Деревья решений, Бустинг, Байес, KNN и т.д.)
  • Опыт работы с нейросетями
  • Узкая специализация. Например, аналитик специализируется на применении NLP для оптимизации работы колл-центров или на построении рекомендательных систем и т.п.
  • Способность выполнять роль Data Engineer для решения задачи. Например, самостоятельно собрать, очистить и подготовить данные для дальнейшей работы. А также опыт выкатки моделей в продакшен.
  • Высокие результаты в профессиональных соревнованиях.




Что может повышать ценность маркетингового аналитика


  • Опыт работы с мобайлом и, как следствие, знание систем мобильной аналитики (например: Mixpanel, Amplitude, Flurry)
  • Знание математики, статистики, SQL
  • Опыт проведения АБ тестов
  • Наличие технического образования часто оценивается как плюс




Что может повышать ценность руководителя аналитики


  • Наличие в портфолио завершённых проектов, которые принесли очевидную пользу для бизнеса.
  • Опыт управления командами (от 15-30 человек и более).
  • Управление различными направлениями аналитики (продуктовая, бизнес, операционная и проч.).
  • Умение напрямую монетизировать данные. Например, продавать собственную аналитику сторонним компаниям. А также выстраивать партнёрские проекты с другими компаниями с использованием собственной аналитики. В этом случае мотивация руководителя может состоять не только из фиксированной части, но и иметь переменную часть (опционы, проценты от прибыли, бонусы и проч.).
  • Известность руководителя в экспертном сообществе. Это даёт возможность проще и быстрее нанимать аналитиков в команду к такому руководителю.


Как схантить опытного аналитика?


Мы расскажем, что может повысить или снизить ваши шансы найма. Особенно, в случае, если вы ищите опытного аналитика, с хорошим бэкграундом. Чаще всего такие кандидаты не находятся в активном поиске работы и требуют более персонализированного подхода.

Если вы хотите заинтересовать опытного и востребованного аналитика, мы рекомендуем учитывать его личную мотивацию. Ниже мы постарались перечислить те основные факторы, на которые чаще всего обращают внимание кандидаты.

Факторы, снижающие привлекательность вакансии


  1. Noname компания, которая может и делает классный продукт, но об этом мало кто знает.
  2. Отсутствие амбициозных планов по развитию и/или сформулированной бизнес-стратегии.
  3. Микроменеджмент руководителя/фаундера. Например, может прийти и воткнуть в роадмап свои хотелки без аргументов и объяснений.
  4. Отсутствие профессионального окружения, не у кого учиться.
  5. Устаревший стек технологий и отсутствие возможности внедрения актуального стека.
  6. Аналитика в компании не влияет на принятие бизнес-решений.
  7. Отсутствие возможности вертикального и/или профессионального роста.
  8. Отсутствие ресурсов, а также возможности их получить.


7 причин, которые повышают интерес опытного аналитика к вашей вакансии


  1. HR-бренд компании/продукта. Хорошо, если ваша компания известна на рынке своей аналитической культурой, дата-дривен подходом, вы рассказываете о том, как аналитика в вашей компании влияет на бизнес-решения и т.д.
  2. Сфера применения вашего продукта. Многие аналитики сейчас ориентированы на социально-значимые и/или наукоёмкие проекты. Часть аналитиков даже готова снижать свои зарплатные ожидания, если есть возможность поучаствовать в проекте, оказывающим реальное влияние на жизнь людей. Например, это могут быть проекты, связанные с медициной, биотехнологиями, агротехом, обучением.
  3. Возможность профессионального роста. Есть общее правило: вам может быть непросто заинтересовать опытного профессионала, если вы предлагаете те же задачи, которые он успешно решает прямо сейчас. Поэтому мы рекомендуем рассматривать кандидатов из другого продукта или сферы, а также тех кандидатов, для которых ваши задачи будут вызовом и профессиональным ростом.
  4. Международный проект. Работа на других рынках интересна многим кандидатам, так как даёт возможность получить уникальный опыт.
  5. Работа в команде опытных и/или известных рынку аналитиков. Для многих аналитиков важна работа в профессиональной среде, возможность учиться у команды. Поэтому если у вас есть в команде опытные аналитики, обязательно рассказывайте про них кандидату. Большим плюсом будет наличие в команде аналитиков-амбассадоров, известных на рынке персоналий, чьим именем легко нанимать людей в команду.
  6. Удалённая работа. Мы видим растущий интерес к удалённой работе. Уже сейчас на рынке есть кандидаты, которые готовы рассматривать только remote-предложения.
  7. Деньги. Важно отметить, что этот фактор практически никогда не является первоочерёдным критерием выбора нового места. Аналитики предпочитают выбирать новые проекты по совокупности вышеперечисленных причин. Но деньги это гигиенический фактор. И если ваш бюджет ниже рынка, то, скорее всего, вы не сможете заинтересовать опытных и востребованных профессионалов.




Что у нас есть еще интересного?




Откуда мы берем данные?


Мы рассказываем только о том, в чём сами хорошо разбираемся:


  • New.HR хантинговое агентство, мы работаем на узком рынке: только IT и Интернет-компании.
  • Наша специализация: поиск специалистов конкретных профессий разработчики, тестировщики, девопсы, продакты, проджекты, аналитики, дата сайнтисты, перфоманс маркетологи и продуктовые дизайнеры
  • Такой узкий фокус позволяет нам постоянно работать с кандидатами из конкретных профессий, а значит, во всех подробностях знать, чего они хотят, сколько стоят, и какие тренды появляются в каждой из специальностей.
  • Каждый год мы готовим Аналитику для хантинга, основываясь на тех данных, которые мы напрямую получаем у кандидатов, с которыми работаем.

Какие-то цифры могут вас удивить. Возможно при поиске и найме таких специалистов, у вас был немного другой опыт, но это нормально. В этом материале мы постарались описать, что может влиять на стоимость экспертов и как вы можете повлиять на конкурентность вашей вакансии.

Какую информацию мы используем


  • Обобщенные данные. Для этого материала мы обобщали данные, которые напрямую получили от кандидатов из разных компаний. Да, они все работают в IT и в Диджитал проектах. Большая часть продактов работает в Москве или на московские компании. Но мы не сегментировали наших респондентов по отраслям или, например, по размеру компании. Если вам хочется получить больше конкретики для своей сферы, мы можем помочь вам собрать данные, которые наиболее релевантны именно вашему запросу. Пишите: contact@new.hr
  • Кандидаты не в активном поиске работы. Мы основывали наш анализ на оценке тех респондентов, которые либо совсем не ищут работу, либо ищут, но пассивно. Такие кандидаты, как правило, не готовы снижать свои ЗП ожидания, а ищут проект, который будет интересен не только уровнем дохода, но и другими критериями, например, задачами.
  • Бэкграунд. В основном мы оценивали кандидатов с бэкграундом из приличных продуктовых компаний, с хорошим опытом и подтверждённым трекшеном проектов. И не учитывали тех, кто работает в не в продуктовых IT и интернет-компаниях.
  • Постоянство. Мы не брали в расчёт прыгунов, которые работают менее 1 года на одном месте.
  • Российские проекты. Учтены ЗП ожидания только тех кандидатов, которые готовы рассматривать работу в российских проектах, а не нацелены на релокейт.
  • Также мы не учитывали зарплатные ожидания тех кандидатов, которые активно и срочно ищут работу, а значит, потенциально готовы соглашаться на то, что предлагает рынок, а не ждать действительно интересного им предложения.


Могут ли кандидаты стоить для вас дешевле?


Важные факторы, из-за которого наши цифры для вас могут быть неактуальны:


  • У вас классный и прокачанный HR-бренд
  • Ваш продукт крут и активно развивается
  • В команде есть известные эксперты
  • Вы предлагаете хорошие рыночные условия
  • У вас выстроена адекватная система оценки
  • Вы готовы нанимать на вырост
  • Вы быстро принимаете решения о найме
  • Даёте качественный фидбек при отказе
  • Делаете много хорошего для сотрудников
  • И много полезного для рынка
  • Хорошо расстаётесь с теми, кого увольняете

При всех этих вводных можно предположить, что ЗП пожелания у кандидатов для вас могут быть ниже, указанных в нашей аналитике.

Почему мне столько не платят?


Если вы смотрите на наши цифры, и думаете: Почему я получаю меньше? специально для вас мы описали, что именно может повысить вашу стоимость. Несмотря на то что каждый кейс стоит оценивать отдельно, мы попробовали выделить несколько типичных паттернов: что ценится в опыте, а что может снижать ценность.

Хантинг в период кризиса и пандемии


  • Компании собираются выжить после карантина, а делать это лучше всего с сильной командой, поэтому опытные и крутые эксперты под сокращения не попадают.
  • Кандидатов на рынке стало больше в основном за счёт джунов и миддлов.
  • Удалёнка больше не конкурентный фактор. Сейчас на удалёнку перешли не только российские IT-компании, но и международные. А значит в ближайшее время рынок может ждать увеличение конкуренции за кандидатов.
  • Никто не готов снижать свои зарплатные ожидания, и в будущем ждать этого не стоит. Есть предположение, что после пандемии конкуренция за опытных и сильных кандидатов только возрастёт (смотри предыдущий пункт).
  • Пассивных кандидатов хантить стало труднее (это те, кто готовы рассмотреть вакансию, но только если она действительно им интересна). Некоторые кандидаты отказываются рассматривать новые предложения в общей ситуации неопределенности и не готовы рисковать переходом на новое место, если в текущей компании все хорошо.
  • Часть кандидатов не готова рисковать и переходить в потенциально менее стабильные проекты. Так что если у вас стартап без подтверждённого финансирования, вам может потребоваться больше времени и сил, чтобы заинтересовать опытного кандидата.
  • Если у вас серая зарплата, если вы оформляете по ИП или выплачиваете небольшой фиксированный оклад, а всё остальное оформляете премией, привлечь зрелых кандидатов вам будет сложнее. Они хотят работать с гарантией, что их не уволят в любой момент или перестанут платить часть денег.
  • Сильно вырос интерес к релокейту по сравнению с прошлым годом. Опытные кандидаты все чаще интересуются возможностью поработать с зарубежными проектами. Все больше иностранных компаний предлагают удаленку, а часть релокейт после открытия границ. На рынке существует достаточно большое количество кандидатов, которые готовы рассматривать предложения только с учетом международного проекта и заработной платы в валюте.


Что делать, если у вас есть проблемы с наймом?


  • Отталкивайтесь от предложений рынка, перестаньте мечтать об идеальном кандидате.
  • Обязательно пробуйте смотреть кандидатов с экспертизой ниже, чем вы хотите в идеале. Очень сложно привлечь кандидата, который не ищет работу и занимается тем же, что вы ему предлагаете. Обычно такие люди интересуются профессиональным ростом, поэтому всегда имеет смысл подумать, чем ваша задача привлекательна для конкретного кандидата. Далее мы рассказываем общие вещи, которые могут заинтересовать специалистов, но лучше всего отталкиваться от личности и мотивации каждого конкретного человека.
  • Удалёнка маст хэв для всё большего количества кандидатов. Многие IT и Интернет-бизнесы уже научились работать удалённо (спасибо, самоизоляция), а некоторые даже выстроили эффективный асинхронный процесс работы. Так что если у вас нет удалёнки, велик риск, что вы сможете привлечь значительно меньшее количество заинтересованных кандидатов.
  • Учитесь нанимать джунов. Их приток в индустрию растёт (здесь спасибо буму онлайн-образования). К сожалению, многие работодатели всё ещё скептически относятся к найму джунов. Кстати, мы в New.HR планируем в июле серию лекций на тему "Как нанимать джунов и не облажаться". Спикерами будут нанимающие менеджеры, которые видят ценность в найме джунов, они расскажут про свой опыт и ответят на вопросы. Приходите!
  • При работе с кандидатом в активном поиске крайне важна скорость принятия решения. Опытные и адекватные специалисты весьма востребованы, и если они начинают активно искать работу, то уходят быстрее, чем вы скажете Мы вам перезвоним. Так что если хотите отложить кандидата на недельку, а потом к нему вернуться, есть риск, что возвращаться уже будет не к кому, ведь он получит несколько интересных офферов.
  • Сокращайте этапы оценки (постарайтесь уложиться в 2-3 этапа).
  • Если вы претендуете на опытных экспертов, постарайтесь обойтись без тестового (особенно при найме опытных кандидатов senior уровня). Мотивация делать тестовое есть только у junior или тех, кто мечтает о работе в вашей компании.
  • Учитесь быстро принимать решения о кандидате. Идеальный срок не более суток. Терпимо 2-3 суток. Особенно важна скорость, если кандидат рассматривает и другие предложения, кроме вашего.
  • Постарайтесь формулировать развернутый фидбек. Это выделит вас на фоне множества собеседований, где кандидат не получил никакого фидбека вовсе.
  • Анализируйте причины отказов на всех этапах. Обращайте внимание на типичные паттерны в отказах и корректируйтесь, корректируйтесь, корректируйтесь.
  • Помните, что ваша задача решить задачу бизнеса с помощью найма подходящего кандидата, а не провести месяцы и годы в поиске того самого, идеально подходящего по всем фронтам единорога.


Общие рекомендации современного хантинга


  • Из-за высокого спроса опытные кандидаты практически не успевают выходить на открытый рынок и большинство экспертов в лучшем случае находятся в пассивном поиске.
  • Стоит быть готовым к долгим срокам закрытия вакансии, а также к долгому процессу найма.
  • В случае если кандидат не находится в активном поиске, стоит быть готовым к тому, что вашу вакансию будут рассматривать долго. Уже на этапе знакомства вам потребуется снабжать кандидата большим количеством разноплановой информации о вас, вашем проекте, задачах и перспективах. Словом, всем тем, что может вам помочь заинтересовать пассивного кандидата.
  • Востребованные эксперты, скорее всего, будут смотреть и другие предложения для оценки привлекательности вашего оффера.
  • Также стоит учитывать потенциально длительный срок перехода на новое место. Например, кандидату может потребоваться время для передачи дел или завершения начатого проекта.


Дисклеймер


Эта статья часть большой аналитики для хантинга продактов, аналитиков (продуктовых, маркетинговых и data scientists), разработчиков и CTO.

Вы можете скачать полный файл исследования по ссылке.

Или прочитать еще две статьи:


Подробнее..

Как собрать датасет за неделю опыт студентов магистратуры Наука о данных

24.12.2020 14:22:40 | Автор: admin
Привет, Хабр! Сегодня хотим представить вам некоммерческий открытый датасет, собранный командой студентов магистратуры Наука о данных НИТУ МИСиС и Zavtra.Online (подразделении SkillFactory по работе с вузами) в рамках первого учебного Дататона. Мероприятие проходило как один из форматов командной практики. Данная работа заняла первое место из 18 команд.

Датасет содержит полный список объектов торговли и услуг в Москве с транспортными, экономическими и географическими метаданными. Исходная гипотеза состоит в том, что близость объекта к транспортным узлам является одним из важнейших показателей и ключевым фактором экономического успеха. Мы попросили команду детально описать свой опыт сбора такого датасета, и вот что получилось.

TLTR: Ближе к концу статьи вы найдёте информативные графики, карты и ссылки.




Немного про сам Дататон


Программа магистратуры Наука о данных НИТУ МИСиС и Zavtra.Online рассчитана на два года т.е четыре семестра и раз в семестр для студентов будет проводиться хакатон, делая обучение больше ориентированным на решение практических задач. Первый хакатон был посвящен сбору датасета, поэтому и назвали его соответственно Дататон.

Всего в Дататоне приняло участие 90 студентов. Перед ними поставили задачу собрать датасет, который может использоваться в продукте, основанном на Data Science.

Идею для сбора датасета предлагали сами студенты, с оглядкой на потребности общества или бизнеса так что актуальность стала одним из главных критериев оценки и выбора победителей.

Оценивать команды позвали менторов практикующих специалистов по Data Science высокого уровня из таких компаний как: Align Technology, Intellivision, Wrike, Мерлин АИ, Лаборатория Касперского, Auriga, Huawei, SkillFactory.

Начало работы над датасетом


При выборе темы для нашего датасета мы руководствовались известным принципом предвидеть значит управлять. Поиск новых гипотез не самая простая задача, особенно когда одними из критериев выступают практичность и ориентация на потребности гипотетического заказчика. Трудно найти неразмеченную область, используя только лишь открытые данные.

Основная работа по сбору и обработке была проделана за 5 дней, остальное время до публикации мы исправляли недостатки, незначительно обогащали датасет и оптимизировали его структуру.

Фундаментальной идеей нашего датасета является гипотеза, что окрестности перспективных транспортно-пересадочных узлов Москвы (далее ТПУ) станут хорошими зонами для развития бизнеса. Что вообще представляет из себя концепция ТПУ?


Источник: stroi.mos.ru

Какие проблемы решает датасет?


Основная гипотеза тривиальна и лежит на поверхности. Больший интерес представляют уточняющие вопросы от потенциального предпринимателя, которые можно задать, основываясь на ней. Например:

  • Я хочу открыть новую торговую точку по адресу X, сколько прямых конкурентов будет вокруг?
  • В окрестностях какого из строящихся ТПУ будут самые благоприятные условия для развития торговой точки?
  • В каких условиях сейчас работают мои непосредственные конкуренты?
  • Будет ли моя торговая точка входить в зону охвата уже существующего или строящегося ТПУ?
  • Мои клиенты используют автомобили, где лучше разместиться, чтобы им было удобнее посещать мой магазин?

Таких вопросов может быть множество. Более того, часть из них порождает целое дерево уточняющих вопросов, которые играют важную роль при создании нового бизнеса или расширении действующего.

Наш датасет может служить основой для аналитики и обучения линейных или логистических регрессий, задач классификации или кластеризации. Он подходит для наглядной визуальной демонстрации действующих объектов торговли и услуг в Москве с привязкой к крупным транспортным узлам города. Мы уверены, что он содержит множество скрытых данных, которые ждут, когда их обнаружат.

1. Описание источников


1.1 Источники


В датасете были использованы следующие данные с сайта Портал открытых данных правительства города Москвы:


Другие источники:


1.2 Структура датасета


Основу структуры данных составляют уникальные объекты торговли и услуг, каждому из которых соответствует набор метаданных, включающих в себя такие сведения, как:

  • Информация о ближайшем ТПУ.
  • Информация о районе размещения.
  • График работы и транспортная доступность.
  • Данные о стоимости коммерческой недвижимости в районе.
  • Данные о зоне охвата и размере объекта.

Часть данных представлена в виде словарей, что связано с вложенностью отдельных признаков. Например, ряд ТПУ представляет собой комплекс из отдельных объектов наземного и подземного транспорта, и рассматривать их по отдельности нелогично. Но при необходимости эти вложенные объекты легко могут быть извлечены, что мы и выполняем при визуализации объектов на карте.

Для сложных вложенных объектов мы использовали списки и словари, поскольку организованный доступ к такой структуре значительно проще, нежели парсинг строковых объектов. В целом датасет содержит большое разнообразие типов данных.


Это пример не только объединения, но и неточности отдельных полей, о чем будет следующий раздел

1.3 Качество данных и проблемы при их сборе


Качество исходных данных в целом оказалось удовлетворительным, но недостаточным для реализации всех наших амбиций. В ходе проверки мы обнаружили, что Москва значительно уступает по этому показателю ряду мировых столиц. Также мы заметили некоторые ошибки и неточности, которые пришлось обрабатывать как отдельные выбросы или оставлять на совести авторов источников.

  • Сведения по статусу и срокам сдачи отдельных ТПУ можно считать устаревшими.
  • Обнаружилась путаница в единичных случаях указаниях широты и долготы, из-за чего некоторые объекты убегали в другие страны.
  • Данные о пассажиропотоке опубликованы с неточностями в форматировании, отдельные записи явно сильно завышены. Яркий пример данные по пассажиропотоку на станции Авиамоторная. Цифра в 400 000 пассажиров в сутки кажется явно завышенной, впрочем, как и в ряде других случаев. Беглый поиск показал, что реальная цифра может быть в разы меньше. Исправить такие артефакты крайне сложно.
  • Данные о ценах на коммерческую недвижимость пришлось собирать в ручном режиме.


Пример спорных данных

2. Обработка данных


2.1 Данные об объектах


После предварительной оценки имеющихся в распоряжении первичных данных (а это были данные об объектах торговли, услуг и ТПУ на территории Москвы) мы поняли, что ключевым элементом нашего датасета будут уникальные объекты торговли и услуг, которые мы объединили в единый центральный датасет. Всего мы получили более 78 000 записей, для которых помимо уникального ID и названия имеются сведения о:

  • Времени работы.
  • Типе объекта.
  • Принадлежности к сетевым объектам.
  • Адресе и координатах расположения.
  • Административной принадлежности.

2.2 Данные об административном делении


Эту информацию, в том числе географические и демографические параметры, мы обнаружили на Википедии в относительно актуальном состоянии на начало 2020 года. Мы автоматизировали процесс выгрузки сведений путём написания собственной функции для парсинга html-страниц. Незначительными трудностями, с которыми мы столкнулись, стали:

  • Использование специальных символов для сносок.
  • Необходимость приведения всех данных к общим единицам измерения.

В дальнейшем мы нашли геоданные о границах районов. Эта информация оказалась очень полезна при визуальном отображении слоев на карте.

2.3 Данные о зонах охвата


Зоны охвата являются не объективной оценкой, а лишь одной из теоретических методик оценки эффективности того или иного объекта торговли. Мы обнаружили методику оценки, которая разделяет объекты на 4 группы. В нашем случае достаточно было ввести лишь 3 из них маленькие, средние и большие. Разделение мы осуществляли путем анализа типов и названий объектов. Например, приставка Гипер- с большой долей вероятности соответствует большому объекту. Исходя из размера мы определили зону, в радиусе которой торговый объект является привлекательным для клиентов.

2.4 Данные о ТПУ


В имеющемся датасете под ТПУ подразумевается любой транспортный объект, которых на территории Москвы более 250. Поэтому нам пришлось объединять их в комплексы, исходя из названий и расстояний между ними. Сведения об объектах включают в себя такие данные, как:

  • Административные данные и географическое расположение.
  • Типы транспорта.
  • Год сдачи и статус объекта (от проекта до завершения).
  • Ближашая станция.

В теории они легко объединяются в кластеры, но на практике обнаружился ТПУ Планерная, который рушил всю систему. Одна станция находится в районе метро Речной вокзал, а вторая за Химками. Расстояние между ними составляет около 6 км, и очевидно, что учитывать их как единый комплекс при расчёте транспортной доступности нельзя. Подобные отклонения вносят шум в данные и вынуждают создавать сложные алгоритмы обработки.

Каждый полученный комплекс центрирован относительно всех включенных объектов, при этом мы сохранили все данные об исходных ТПУ они хранятся внутри в виде словарей, где ключами выступают оригинальные ID ТПУ.

2.5 Данные о стоимости аренды и покупки коммерческой недвижимости


Этот раздел стал одним из самых сложных, поскольку всё, что связано с недвижимостью, сильно монетизировано и является ценной информацией. В открытом виде актуальные сведения по каждому району получить очень трудно. Риэлторские агентства и торговые площадки не предоставляют бесплатные API, а парсинг торговых площадок был слишком ресурсозатратным в условиях ограничений срока проекта.

Поэтому мы не стали изобретать велосипед, а просто нашли наиболее удобный ресурс и вручную сохранили статистические сведения о стоимости продажи и аренды коммерческой недвижимости для торговых объектов, отдельно стоящих зданий и объектов общего назначения за 2020 год.

Несмотря на значительное количество пропусков и отдельные неточности, эти данные отражают ситуацию на рынке недвижимости и строятся на реальных объявлениях.

2.6 Данные о пассажиропотоке на станциях метро


Эта секция тоже оказалась достаточно проблемной, поскольку изначально идея найти такие сведения в актуальном виде показалась нереальной, а официальные ответы оказалось ждать очень долго (и не факт, что они были бы положительными). Долгое время эта задача оставалось нерешённой, и нам пришлось повторно рассматривать буквально каждую крупицу информации, даже явно устаревшей.

Иронично, что обнаруженная ошибка в старом источнике позволила обнаружить подходящие данные. После повторной проверки мы поняли, что в одном из источников использованы данные за 2019 год, при этом подпись содержит указание на 2016 год. Эта подпись и сбила нас при первой оценке. Актуальность подтвердилась наличием данных по построенным в 2019 году объектам метро.

Впрочем, сами данные тоже оказались не оптимизированы для парсинга. Мы столкнулись с дублями и артефактами типа 100000 тыс. тыс. чел в сутки, которые пришлось отыскивать и приводить к общему виду. Тем не менее, как уже упомянуто в разделе о качестве данных, отдельные показатели по станциям явно завышены и ошибочны. И эту проблему можно решить только уточнением из первоисточника.

2.7 Новые признаки и данные


Собрать числовые или строковые данные мало. Эти данные важно уметь трактовать и выделять на их основе новые параметры или свойства. Поскольку наша гипотеза строилась на принадлежности объекта к ближайшему ТПУ, мы написали алгоритм поиска ближайших объектов и для каждого уникального объекта сопоставили:

  • Параметры ближайшего ТПУ.
  • Расстояние до ТПУ.
  • Радиус охвата объекта.
  • Входит ли ТПУ в зону охвата?
  • К какому классу относится объект?


Небольшой кусок датасета с бинарными признаками

2.8 Итоговый датасет


В результате объединения мы получили датасет размерностью 44 столбца и 78086 строк. В формате Pandas он занимает около 25,9+ MB. Если разбить столбцы на тематические сегменты, то в нём содержатся данные о:

  • Объекте.
  • Близлежащем ТПУ и его составе.
  • Районе объекта.
  • Стоимости покупки и аренды площадей.

2.9 Корреляционная матрица




Что можно сказать по полученной корреляционной матрице?

  • Данные по стоимости коммерческой недвижимости заметно более коррелированы, а значит, использовать их стоит осторожно.
  • Первая идея, которая приходит в голову, создание на их основе новых индексов оценки.
  • Демографические признаки также ожидаемо имеют выраженную положительную корреляцию.
  • Большой отрицательный сдвиг наблюдается между стоимостью коммерческой недвижимости и демографическими признаками районов, что в целом логично.

Остальные взаимосвязи между параметрами не столь явные, и трудно сделать по ним однозначные выводы.

3. Немного визуализаций


3.1 Датасет на карте Москвы


Наконец-то мы дошли до самой интересной части любого датасета, своеобразный момент истины! Апогеем сбора является визуализация данных, где можно не только оценить качество данных, но и найти коллизии, ошибки и выбросы.

Для визуализации мы написали свою функцию, которая использует библиотеку Folium. Метод удобен тем, что достаточно гибко визуализирует практически любые выборки из общего датасета. Параметры функции позволяют гибко настраивать визуальные признаки объектов. Поскольку каждый объект в нашем случае слой, мешающие группы объектов легко отключить и оставить лишь необходимые.

Для большей наглядности на карте реализованы слои в виде административного деления по районам. В нашем случае за стандартное отображение мы приняли плотность объектов на каждый район города.


Пример отображения районов по плотности размещения объектов


Транспортная схема Москвы: здесь отображаются только ТПУ


Пример отображения с объектами в данной выборке всего 10000 объектов из более чем 78 000


Пример отображения объектов по выделенному адресу описание сформировано в виде HTML-кода

3.2 (Не)много графиков


Графики отличный инструмент для анализа. В качестве демонстрации мы подготовили ряд графиков, чтобы наглядно продемонстрировать статистику по наиболее интересным параметрам датасета.

Вот, например, 20 крупнейших торговых сетей Москвы:



А если посмотреть, какие типы объектов самые популярные?



По типам услуг всё не так интересно, зато понятно, сколько всего объектов каждого типа есть в городе.



Теперь чуть более интересные цифры количество объектов при ТПУ.



Руки чешутся посмотреть на самый верхний ТПУ Профсоюзная. Почему бы и да? На этом скриншоте размещаются больше 2000 объектов, для которых этот ТПУ ближайший.



Хорошо, как насчёт того, чтобы узнать, сколько из объектов в городе являются сетевыми? Получается красивый пирог с почти идеальной четвертью. Занятно. Пусть 1 и 0 вас не пугают, это как раз и есть пример бинарного признака, где 1 означает, что объект входит в какую-либо крупную сеть.



Раз уж мы решили строить топы, почему бы не узнать адрес, по которому располагается большее число объектов? Легко!



Найти его не так уж сложно. Список впечатляет:



И напоследок немного более сложной экономической статистики. Что если поделить все ТПУ на группы от проектируемых до уже сданных в эксплуатацию? Какое стандартное отклонение (сигма), в рублях, за аренду торговых площадей или, скажем, при приобретении отдельно стоящих зданий будет в этих группах?



Судя по графикам, разброс цен на аренду и покупку недвижимости около уже построенных ТПУ заметно больше, рынок недвижимости стабильнее в районах со строящимися или проектируемыми ТПУ. Это можно использовать для оценки эффективности инвестиций в недвижимость.

Представленные графики лишь малая часть потенциала датасета, который может быть расширен в дальнейшем.

4. Заключение


4.1 Варианты применения


Наш датасет включает в себя большое количество демографических, географических, экономических и описательных данных, которые расширяют представление об имеющихся объектах торговли и услуг.

Спектр применения этих данных очень широк. Они могут быть сегментированы или объединены в новые признаки, на основе которых можно строить модели машинного обучения. Наиболее очевидные варианты применения:

  • Визуализация объектов и ТПУ по определённым критериям. Например: отобразить на карте новые объекты, которые будут сданы в 2022 году.
  • Анализ типов объектов и условий их работы. Например: составить статистику о графиках работы ближайших конкурентов и проанализировать результаты.
  • Проверка известных гипотез на имеющихся практических данных. Например: добавить в датасет известные данные по обороту торговой сети и сопоставить с данными по пассажиропотоку и пешей доступности.

4.2 Целевая аудитория


Датасет может быть интересен:

  • Девелоперам,
  • Инвесторам,
  • Бизнесу (торговля и услуги),
  • Риэлторам и консультантам,
  • Частным исследователям и урбанистам.

4.3 Достоинства и недостатки


Недостатки нашего датасета обусловлены объективными причинами многие информационные источники содержат неточные или неполные сведения, что невозможно нивелировать постобработкой. Часть сведений вообще невозможно найти в открытом доступе. Однако мы создали все условия, чтобы на практике данные можно было легко обновить или добавить новые.

При использовании датасета стоит учитывать наиболее проблемные участки, которые могут создать заметные шумы. Особое внимание стоит обратить на следующие нюансы:

  • Статус и год ввода в эксплуатацию некоторых ТПУ сомнителен данные требуют проверки и актуализации.
  • Значения пассажиропотока требуют уточнения, особенно самые большие.
  • Размер отдельных крупных и средних объектов требует уточнения, поскольку в датасете могут быть ошибки, связанные с ограничениями методики классификации. Например, по использованию Торговый дом в названии алгоритм может неверно присвоить класс, что повлияет на дальнейшие выборки.

Весь процесс обработки закомментирован и может быть воспроизведён, в том числе при изменении данных в оригинальных источниках. Мы подумали об удобстве дальнейшего использования и постарались минимизировать необходимость дальнейшей предобработки для использования в обучении моделей путем:

  • Преобразования некоторых данных к бинарному представлению 1/0.
  • Приведения всех отсутствующих данных к единой форме NaN.
  • Создания служебных колонок, описывающих длину вложенных словарей.
  • Разбиения столбцов на логические секции и с детальными именами.
  • Опоры на источники. Все данные могут быть получены путём непосредственного доступа к первоисточнику.
  • Упрощения визуализации. Она организована удобными функциями, которые принимают на вход много служебных параметров и сводят отображение нужных данных к паре строк кода.

4.4 Вместо резюме


Надеемся, что наши наработки не останутся без внимания и их будут использовать для обучения моделей и поиска инсайтов как в учебных целях, так и для решения проблем реального бизнеса.

GitHub и сайт датасета.

Узнать больше про магистратуру можно на сайте data.misis.ru и в Telegram канале.

Участники команды Data SkyScrapers


Артем Филиппенко Тимлид / Программирование / Автор статьи
Юлия Компаниец Программирование / Алгоритмизация / Визуализация
Егор Петров Программирование / Парсинг / Поддержка репозитория
Вячеслав Кандыбин Парсинг / Поиск источников
Ильдар Габитов Координация / Анализ
Сергей Гильдт Помощь в составлении статьи

Мы хотели бы выразить благодарность кураторам, преподавателям и экспертам за организацию Дататона. Это был отличный опыт и возможность самостоятельно проявить себя в решении практических задач, а также получить развернутую оценку от профессиональных Дата-сайентистов.



Ну и конечно не магистратурой единой! Хотите узнать больше про машинное и глубокое обучение заглядывайте к нам на соответствующий курс, будет непросто, но увлекательно. А промокод HABR поможет в стремлении освоить новое, добавив 10% к скидке на баннере.
image



Подробнее..

Нужно больше датасетов. Музыка, IT-скилы и котики

11.02.2021 18:04:31 | Автор: admin

Привет, Хабр! Совсем недавно мы писали про открытый датасет, собранный командой студентов магистратуры Наука о данных НИТУ МИСиС и Zavtra.Online (подразделение SkillFactory по работе с университетами) в рамках первого учебного Дататона. А сегодня представим вам целых 3 датасета от команд, которые также вышли в финал.

Все они разные: кто-то исследовал музыкальный рынок, кто-то рынок труда IT-специалистов, а кто-то и вовсе домашних кошек. Каждый из этих проектов актуален в своей сфере и может быть использован для того, чтобы что-то усовершенствовать в привычном ходе работы. Датасет с котиками, например, поможет судьям на выставках. Датасеты, которые необходимо было собрать студентам, должны были представлять собой MVP (таблица, json или структура каталогов), данные должны быть очищены и проанализированы. Посмотрим же, что у них получилось.



Датасет 1: Скользим по музыкальным волнам с Data Surfers


Состав команды:

  • Плотников Кирилл project manager, разработка, документация.
  • Тарасов Дмитрий разработка, сбор данных, документация.
  • Шадрин Ярослав разработка, сбор данных.
  • Мерзликин Артём product manager, презентация.
  • Колесниченко Ксения предварительный анализ данных.

В рамках участия в хакатоне участниками команды было предложено несколько различных интересных идей, но мы решили остановиться на сборе данных о российских музыкальных исполнителях и их лучших треках с ресурсов Spotify и MusicBrainz.

Spotify музыкальная платформа, пришедшая в Россию не так давно, но уже активно захватывающая популярность на рынке. Кроме того, с точки зрения анализа данных, Spotify предоставляет очень удобное API с возможностью запроса большого количества данных, в том числе их собственных метрик, например таких, как danceability показатель от 0 до 1, описывающий, насколько трек подходит для танцев.

MusicBrainz это музыкальная энциклопедия, содержащая максимально полную информацию о существующих и существовавших музыкальных коллективах. Своего рода музыкальная википедия. Данные с этого ресурса нам были необходимы для того, чтобы получить список всех исполнителей из России.

Сбор данных об артистах


Мы собрали целую таблицу, содержащую 14363 уникальных записи о различных исполнителях. Чтобы в ней было удобно ориентироваться под спойлером описание полей таблицы.

Описание полей таблицы
artist имя артиста или название группы;
musicbrainz_id уникальный идентификатор артиста в музыкальной базе данных Musicbrainz;
spotify_id уникальный идентификатор артиста в стриминговом сервисе Spotify, если он там представлен;
type тип исполнителя, может принимать значения Person, Group, Other, Orchestra, Choir или Character;
followers количество подписчиков артиста на Spotify;
genres музыкальные жанры артиста;
popularity индекс популярности артиста на Spotify от 0 до 100, который рассчитывается на основе популярности всех треков артиста.


Пример записи

Поля artist, musicbrainz_id и type извлекаем из музыкальной базы данных Musicbrainz, так как там есть возможность получить список артистов, связанных с одной страной. Извлечь эти данные можно двумя способами:

  1. Постранично парсить раздел Artists на странице с информацией о России.
  2. Достать данные через API.
    Документация MusicBrainz API
    Документация MusicBrainz API Search
    Пример запроса GET на musicbrainz.org

В ходе работы выяснилось, что API MusicBrainz не совсем корректно отвечает на запрос с параметром Area:Russia, скрывая от нас тех исполнителей, у кого в поле Area указано, например, Izhevsk или Moskva. Поэтому данные с MusicBrainz были взяты парсером непосредственно с сайта. Ниже пример страницы, откуда парсились данные.


Полученные данные об артистах из Musicbrainz.

Остальные поля получаем в результате GET запросов к эндпоинту.При отправке запроса в значении параметра q указываем имя артиста, а в значении параметра type указываем artist.

Сбор данных о популярных треках


Таблица содержит 44473 записи о самых популярных треках российских артистов, представленных в таблице выше. Под спойлером описание полей таблицы.

Описание полей таблицы
artist имя артиста или название группы;
artist_spotify_id уникальный идентификатор артиста в стриминговом сервисе Spotify (по нему можно будет джойнить таблицы, так как это spotify_id из таблицы с артистами);
name название трека;
spotify_id уникальный идентификатор трека в стриминговом сервисе Spotify;
duration_ms длительность трека в миллисекундах;
explicit содержит ли текст трека нецензурные выражения, может принимать значения true или false;
popularity индекс популярности трека на Spotify *;
album_type тип альбома, может принимать значения album, single или compilation;
album_name название альбома;
album_spotify_id уникальный идентификатор альбома в стриминговом сервисе Spotify;
release_date дата выхода альбома;
album_popularity индекс популярности альбома на Spotify.

Особенности аудио
key предполагаемая общая тональность трека, целые числа накладываются на нотацию звуковысотных классов, 0 = C, 1 = C/D, 2 = D и т.д.;
mode указывает модальность трека, мажор 1, минор 0;
time_signature предполагаемый общий тактовый размер композиции;
acousticness мера достоверности от 0,0 до 1,0 того, является ли трек акустическим;
danceability описывает, насколько трек подходит для танцев от 0,0 до 1,0;
energy представляет собой перцептивную меру интенсивности и активности от 0,0 до 1,0;
instrumentalness определяет, содержит ли трек вокал, принимает значения от 0,0 до 1.0;
liveness определяет присутствие аудитории при записи, принимает значения от 0,0 до 1,0;
loudness общая громкость трека в децибелах, типичный диапазон значений от -60 до 0 дБ;
speechiness определяет наличие произнесённых слов в треке, принимает значения от 0,0 до 1,0;
valence описывает музыкальную позитивность, передаваемую треком, принимает значения от 0,0 до 1,0;
tempo предполагаемый общий темп трека в ударах в минуту.

Подробно о каждом параметре можно прочитать здесь.


Пример записи

Поля name, spotify_id, duration_ms, explicit, popularity, album_type, album_name, album_spotify_id, release_date получаем с помощью GET запроса на https://api.spotify.com/v1//v1/artists/{id}/top-tracks , указывая в качестве значения параметра id Spotify ID артиста, который мы получили ранее, а в значении параметра market указываем RU. Документация.

Поле album_popularity можно получить, сделав GET запрос на https://api.spotify.com/v1/albums/{id}, указав album_spotify_id, полученный ранее, в качестве значения для параметра id. Документация.

В результате получаем данные о лучших треках артистов из Spotify. Теперь задача получить особенности аудио. Сделать это можно двумя способами:

  1. Для получения данных об одном треке нужно сделать GET-запрос на https://api.spotify.com/v1/audio-features/{id}, указав его Spotify ID как значение параметра id. Документация.
  2. Чтобы получить данные о нескольких треках сразу, следует отправить GET запрос на https://api.spotify.com/v1/audio-features, передавая Spotify ID этих треков через запятую как значение для параметра ids. Документация.

Все скрипты находятся в репозитории по этой ссылке.

После сбора данных мы провели предварительный анализ, визуализация которого представлена ниже.



Итоги


В результате у нас получилось собрать данные по 14363 артистам и 44473 трекам. Объединив данные из MusicBrainz и Spotify, мы получили наиболее полный на текущий момент набор данных о всех российских музыкальных исполнителях, представленных на платформе Spotify.

Такой датасет позволит создавать B2B и B2C продукты в музыкальной сфере. Например, системы рекомендаций промоутерам исполнителей, концерт которых можно организовать, или системы помощи молодым исполнителям в написании треков, которые с большей вероятностью станут популярными. Также при регулярном пополнении датасета свежими данными можно анализировать различные тенденции в музыкальной индустрии, такие как формирование и рост популярности определённых трендов в музыке, либо проводить анализ отдельных исполнителей. Сам датасет можно посмотреть на GitHub.

Датасет 2: Исследуем рынок вакансий и выявляем ключевые навыки с Ежу понятно


Состав команды:

  • Пшеничный Андрей сбор и обработка данных, написание аналитической записки о датасете.
  • Кондратёнок Павел Product Manager, сбор данных и описание его процесса, GitHub.
  • Щербакова Светлана сбор и обработка данных.
  • Евсеева Оксана подготовка итоговой презентации проекта.
  • Елфимова Анна Project Manager.

Для своего датасета мы выбрали идею сбора данных о вакансиях в России из сферы IT и Телеком с сайта hh.ru за октябрь 2020 года.

Сбор данных о скилах


Самым важным показателем для всех категорий пользователей являются ключевые навыки. Однако при их анализе у нас возникли трудности: эйчары при заполнении данных о вакансии выбирают ключевые навыки из списка, а также могут вносить их вручную, а следовательно, в наш датасет попало большое количество дублирующих навыков и некорректных навыков (например, мы столкнулись с названием ключевого навыка 0,4 Кb). Есть ещё одна трудность, которая доставила проблем при анализе получившегося датасета, только около половины вакансий содержат данные о заработной плате, но мы можем использовать средние показатели о заработной плате с другого ресурса (например, с ресурсов Мой круг или Хабр.Карьера).

Начали с получения данных и их глубинного анализа. Далее мы произвели выборку данных, то есть отобрали признаки (features или, иначе, предикторы) и объекты с учетом их релевантности для целей Data Mining, качества и технических ограничений (объема и типа).

Здесь нам помог анализ частоты упоминания навыков в тегах требуемых навыков в описании вакансии, какие характеристики вакансии влияют на предлагаемое вознаграждение. При этом было выявлено 8915 ключевых навыков. Ниже представлена диаграмма с 10 наиболее популярными ключевыми навыками и частотой их упоминания.


Наиболее часто встречающиеся ключевые навыки в вакансиях из сферы IT, Телеком

Данные получили с сайта hh.ru с помощью их API. Код для выгрузки данных можно найти тут. Вручную выбрали признаки, которые нам необходимы для датасета. Структуру и тип собираемых данных можно увидеть в описании документации к датасету.

После этих манипуляций мы получили Dataset размером 34 513 строк. Образец собранных данных вы можете увидеть ниже, а также найти по ссылке.


Образец собранных данных

Итоги


В результате получился датасет, с помощью которого можно узнать, какие навыки являются самыми востребованными среди IT специалистов по разным направлениям, и он может быть полезен для соискателей (как для начинающих, так и для опытных), работодателей, hr-специалистов, образовательных организаций и организаторов конференций. В процессе сбора данных были и трудности: слишком много признаков и они написаны на низкоформализируемом языке (описание навыков для кандидата), половина вакансий не имеет открытых данных о заработной плате. Сам датасет можно глянуть на GitHub.

Датасет 3: Наслаждаемся многообразием котиков с Команда AA


Состав команды:

  • Евгений Иванов разработка веб-скрапера.
  • Сергей Гурылёв product manager, описание процесса разработки, GitHub.
  • Юлия Черганова подготовка презентации проекта, анализ данных.
  • Елена Терещенко подготовка данных, анализ данных.
  • Юрий Котеленко project manager, документация, презентация проекта.

Датасет, посвящённый котам? Да почему бы и нет, подумали мы. Наш котосет содержит образцы изображений, на которых сфотографированы кошки различных пород.

Сбор данных о котиках


Изначально для сбора данных мы выбрали сайт catfishes.ru, он обладает всеми нужными нам преимуществами: это свободный источник с простой структурой HTML и качественными изображениями. Несмотря на преимущества этого сайта, он имел существенный недостаток малое количество фотографий в целом (около 500 по всем породам) и малое количество изображений каждой породы. Поэтому мы выбрали другой сайт lapkins.ru.




Из-за чуть более сложной структуры HTML скрапить второй сайт было несколько сложнее первого, но разобраться в структуре HTML было легко. В итоге нам удалось собрать со второго сайта уже 2600 фотографий всех пород.
Нам не потребовалось даже фильтровать данные, так как фотографии кошек на сайте хорошего качества и соответствуют породам.

Для сбора изображений с сайта нами был написан веб-скрапер. Сайт содержит страницу lapkins.ru/cat со списком всех пород. Сделав парсинг этой страницы, мы получили названия всех пород и ссылки на страницу каждой породы. Итеративно пройдя в цикле по каждой из пород, мы получили все изображения и сложили их в соответствующие папки. Код скрапера был реализован на Python с использованием следующих библиотек:

  • urllib: функции для работы с URL;
  • html: функции для обработки XML и HTML;
  • Shutil: функции высокого уровня для обработки файлов, групп файлов и папок;
  • OS: функции для работы с операционной системой.

Для работы с тегами мы использовали XPath.



Каталог Cats_lapkins содержит папки, названия которых соответствуют названиям пород кошек. Репозиторий содержит 64 каталога для каждой породы. Всего в датасете содержатся 2600 изображений. Все изображения представлены в формате .jpg. Формат названия файлов: например Абиссинская кошка 2.jpg, вначале идёт название породы, затем число порядковый номер образца.



Итоги


Такой датасет может, например, использоваться для обучения моделей, классифицирующих домашних кошек по породам. Собранные данные могут быть использованы для следующих целей: определение особенностей по уходу за котом, подбор подходящего рациона для кошек определённых пород, а также оптимизация первичной идентификации породы на выставках и при судействе. Также котосет может использоваться и бизнесом ветеринарными клиниками и производителями кормов. Сам котосет находится в свободном доступе на GitHub.

Послесловие


По итогам дататона наши студенты получили первый кейс в своё портфолио дата-сайентиста и обратную связь по работе от менторов из таких компаний, как Huawei, Лаборатория Касперского, Align Technology, Auriga, Intellivision, Wrike, Мерлин АИ. Дататон был полезен ещё и тем, что прокачал сразу и профильные хард- и софт-скилы, которые понадобятся будущим дата-сайентистам, когда они будут работать уже в реальных командах. Также это хорошая возможность для взаимного обмена знаниями, так как у каждого студента разный бэкграунд и, соответственно, свой взгляд на задачу и её возможное решение. Можно с уверенностью сказать, что без подобных практических работ, похожих на какие-то уже существующие бизнес-задачи, подготовка специалистов в современном мире просто немыслима.

Узнать больше про нашу магистратуру можно на сайте data.misis.ru и в Telegram канале.

Ну, и, конечно, не магистратурой единой! Хотите узнать больше про Data Science, машинное и глубокое обучение заглядывайте к нам на соответствующие курсы, будет непросто, но увлекательно. А промокод HABR поможет в стремлении освоить новое, добавив 10 % к скидке на баннере.



image



Подробнее..

Хотите стать учёным по данным? Тогда не начинайте с машинного обучения

06.12.2020 02:07:34 | Автор: admin

Многие люди, когда они впервые слышат термин Data Science, обычно в первую очередь думают о машинном обучении.

Так было и со мной. Мой интерес к data science возник потому, что я впервые столкнулся с идеей машинного обучения, которая показалась мне действительно крутой. Поэтому когда я начал искать место, где можно бы начать узнавать о data science, не трудно догадаться, откуда я начал. (Подсказка: оно рифмуется с bean churning.)

Это было моей самой большой ошибкой, которая привела меня к этой мысли:

Если вы хотите изучать data science, не начинайте с машинного обучения.

Просто поймите. Понятное дело, чтобы стать "полноценным" data scientist, когда-то придётся узнать о концептах машинного обучения. Но вы удивитесь, как далеко вы сможете продвинуться без него.

Так почему бы не начать с машинного обучения?

1. Машинное обучение - это только одна (и очень небольшая) часть data scientist'а

Иллюстрация оригинального автораИллюстрация оригинального автора

Data science и машинное обучение - это как квадрат и прямоугольник. Машинное обучение - (часть) науки о данных, но наука о данных не обязательно является машинным обучением, подобно тому, как квадрат является прямоугольником, но прямоугольник не обязательно является квадратом.

На самом деле, я бы сказал, что моделирование машинного обучения составляет только 510% работы data scientist'а, тогда как большая часть времени тратится в другом месте, о котором я расскажу позже.

Вкратце: сосредоточившись в первую очередь на машинном обучении, вы потратите много времени и энергии и мало получите взамен.

2. Для полного понимания машинного обучения сначала необходимы предварительные знания по нескольким другим предметам

По своей сути машинное обучение построено на статистике, математике и вероятности. Точно так же, как вы сначала изучаете грамматику, образный язык и т.д. Чтобы написать хорошее эссе, вы должны иметь эти высеченные в камне строительные блоки, прежде чем вы сможете изучать машинное обучение.

Приведу несколько примеров:

  • Линейная регрессия, первый алгоритм машинного обучения, которому в первую очередь обучают большинство учебных курсов, на самом деле являетсястатистическимметодом.

  • Метод главных компонент возможен только с идеями матриц и собственных векторов (линейная алгебра)

  • Наивный байесовский классификатор - это модель машинного обучения, полностью основанная на теореме Байеса (вероятность).

Так что, я закончу двумя вещами:

  1. Изучение основ облегчит изучение более продвинутых тем.

  2. Изучив основы, вы усвоите несколько концепций машинного обучения.

3. Машинное обучение - не ответ на каждую проблему data scientist'а

Многие data scientist'ы (в том числе и я) борются с этим. Возвращаясь к моей первоначальной мысли, многие data scientist'ы думают, что data science и машинное обучение идут бок о бок. Так что, когда они сталкиваются с проблемой, первое решение, которое они рассматривают - это модель машинного обучения.

Но не для каждой проблемы в data science требуется модель машинного обучения.

В некоторых случаях анализа с помощью Excel или Pandas вполне достаточно, чтобы решить возникшую проблему.

В остальных же случаях проблема не будет связана с машинным обучением. Вам может понадобиться очистить и управлять данными с помощью скриптов, построить конвейеры данных или создать интерактивные информационные панели, все из которых не требуют машинного обучения.

Так что мне тогда делать?

Если вы читали мою статью "Как изучить data science, если пришлось начать сначала", вы, возможно, могли заметить, что я предлагал изучить математику, статистику и основы программирования. Я всё ещё придерживаюсь этого мнения.

Как я уже говорил ранее, изучение основ облегчит изучение более продвинутых тем, а изучив основы, вы усвоите несколько концепций машинного обучения.

Я знаю, что вы можете себя чувствовать, будто вы не совершенствуетесь, чтобы стать data scientist, изучая математику, статистику или основы программирования, но изучив эти основы вы только ускорите ваше обучение в будущем.

Вы должны научиться ходить, прежде чем сможете бегать.

Если вы хотите начать с каких-то осязаемых следующих шагов, то вот вам несколько идей:

  1. Начните со статистики. Я считаю, что из трех строительных блоков наиболее важным из них является статистика. И если вы боитесь её, то data science, вероятно, не для вас. Я бы посмотрел курс Технологического института Джорджии "Статистические методы", или серию видео от Khan Academy.

  2. Изучите Python и SQL. Чем лучше вы будете знать Python и SQL, тем легче будет ваша жизнь, когда дело дойдет до сбора, обработки и реализации данных. Я также был бы знаком с библиотеками Python, такими как Pandas, NumPy и Scikit-learn.Я также рекомендую вам изучить двоичные деревья, поскольку они служат основой для многих сложных алгоритмов машинного обучения, таких как XGBoost.

  3. Изучите основы линейной алгебры. Линейная алгебра становится экстремально важной, когда вы работаете с чем-то связанным с матрицами. Она часто встречается в рекомендательных системах и приложениях глубокого обучения. Если вам кажется, что вы хотите изучить эти вещи в будущем, то не пропускайте этот шаг.

  4. Изучите обработку данных. Она занимает до половины работы data scientist'а. В частности, узнайте больше о проектировании функций, исследовательском анализе данных и подготовке данных.


Спасибо за прочтение!

В этой статье я высказал своё личное мнение, так что берите от неё всё, что хотите. Общий совет заключается в том, что машинное обучение не должно быть в центре внимания ваших исследований, потому что это не очень полезное использование времени, и мало что поможет вам стать успешным dat scientist'ом в рабочем мире.

С учетом всего сказанного, желаю удачи в ваших начинаниях!

Автор фото обложки: Will Porada

Подробнее..

Лучшие data-продукты рождаются в полях

08.07.2020 16:06:56 | Автор: admin

Большинство наших интернет-заказов собираются сторговых залов магазинов, анесоскладов. Это приводит кошибкам между тем, что показывается насайте, итем, что мыможем реально собрать винтернет-заказ.
Из-за высокой скорости оборота товаров вмагазинах исложности систем управления стоком возникают ошибки, которые можно обнаруживать автоматически. Опираясь нанаши знания систем ииспользуя социальный инжиниринг, мыпредложили решение, которое позволялобы автоматически находить проблемные товары икорректировать ихсток перед публикацией насайте.



image

Меня зовут Марина Калабина, яруководитель проектов вЛеруа Мерлен. Пришла вкомпанию в2011 году. Первые пять лет открывала магазины (когда япришла, ихбыло 13, сейчас 107), потом работала вмагазине вкачестве руководителя торгового сектора ивот уже полтора года занимаюсь тем, что спозиции Data-продакта помогаю магазинам организовывать операции.


Леруализмы


Поскольку ядавно работаю вкомпании, торечь моя наполнена специфическими терминами, которые яназываю леруализмы. Чтобы мыговорили свами наодном языке, привожу некоторые изних.


  • Сток запас товаров вмагазине.
  • Доступный для продажи сток количество товара, свободное отблокировок ирезервов для клиента.
  • Экспо витринный образец.
  • Артикулы товары.
  • Оперативная инвентаризация ежедневный пересчет 5 артикулов вкаждом отделе каждого магазина.

Гарантированный сток


Возможно, вынезнаете, нокогда выоформляете заказ вЛеруа Мерлен, в98% случаев онприходит вмагазин исобирается изторгового зала.


Представьте себе огромные 8000 кв. ммагазина, 40000 артикулов изадачу собрать заказ. Что может произойти сартикулами вашего заказа, которые ищет сборщик? Товар может быть уже вкорзине клиента, который ходит поторговому залу, или даже может быть продан между тем моментом, когда выего заказали, итем, когда сборщик пошел заним. Насайте товар есть, авдействительности онлибо где-то спрятан, либо его уже нет, каким-нибудь батарейкам приделали ноги. Бывает иобратная ситуация, когда товар вмагазине есть, анасайте покаким-то причинам неотображается.


Из-за этого мынеможем собрать заказ, теряем товарооборот страдает наша репутация ипоявляются недовольные клиенты.


Для того чтобы бороться сразными проблемами, ивтом числе сэтой, впрошлом году вкомпании было запущено подразделение Data Accelerator. Его миссия привить data-культуру, чтобы принимаемые вкомпании решения были data-driven. ВData Accelerator было заявлено 126 идей, изних было выбрано 5 иодна изэтих идей это тот продукт Гарантированный сток, окотором ябуду рассказывать.


Суть продукта втом, что перед публикацией стока товара насайте мыпроверяем, можемли собрать этот артикул клиенту, гарантируемли ему это. Чаще всего это достигается чуть меньшим количеством стока, который мыпубликуем насайте.


Унас была классная команда: Data Scientist, Data Engineer, Data Analysis, Product Owner иScrum-мастер.


Целями нашего продукта были:


  • сократить количество несобранных заказов, при этом неповредив количеству заказов впринципе (чтобы оно несократилось);
  • сохранить товарооборот вeCom, поскольку мыбудем меньше показывать товаров насайте.

Вобщем, при прочих равных сделать лучше.


Бюро расследований


Когда проект стартовал, мыпоехали вмагазины, клюдям, которые каждый день работают сэтим: мысами пошли собирать заказы. Оказалось, что наш продукт настолько интересен инужен магазинам, что нас попросили запуститься нечерез 3месяца, как было запланировано вначале, авдва раза быстрее, тоесть через 6 недель. Это, мягко говоря, было стрессом, нотем неменее


Мысобрали гипотезы отэкспертов ипошли искать, какиеже унас впринципе есть источники данных. Это был отдельный квест. Фактически бюро расследований показало, что унас имеются такие товары, укоторых обязательно есть витринный образец.


Например, смеситель утаких товаров всегда есть образец взале. Более того, мынеимеем права продать экспо, потому что онможет быть уже поврежден игарантия нанего нераспространяется. Мынаходили такие товары, укоторых непроставлен витринный образец, адоступный сток для продажи показан 1. Но, скорее всего, это тот самый экспо, который мынесможем продать. Аклиент может его заказать. Это одна изпроблем.


image

Следующая история обратная. Мыобнаружили, что иногда утоваров бывает слишком большое количество витринных образцов. Скорее всего, либо произошел сбой системы, либо вмешался человеческий фактор. Вместо того чтобы насайте показывать 2500 установочных коробок, мыможем показать только 43, потому что унас сбой всистеме. Имынаучили наши алгоритмы находить втом числе итакие косяки.


image

Валидация


Поисследовав данные, мысобирали excel-ки, отправляли коллегам вмагазины, иуже они сэтими excel-ками ходили ипроверяли: уэтого артикула должен быть витринный образец или нет, этого артикула действительно такое количество вмагазине или нет. Это была очень крутая обратная связь отнаших магазинов, спасибо имбольшое, при всей огромной текучке, которая уних есть, они нашли время, чтобы нам помочь провалидировать наши гипотезы.


Что касается примеров, когда мынаходили слишком большое количество витринных образцов, практически в60% случаев мыбыли правы, предполагая ошибку. Акогда мыискали недостаточное количество экспо или ихотсутствие, тобыли правы в81%, что, вобщем-то, очень хорошие показатели.


Запуск MVP. Первый этап


Поскольку нам надо было уложиться в6 недель, мызапускали proof ofconcept вот стаким линейным алгоритмом, который находил аномальные значения, делал поправку наэти значения перед тем, как публиковать насайт. Иунас было два магазина, вдвух разных регионах, чтобы мымогли сравнить эффект.
Кроме того, был сделан дашборд, где, содной стороны, мымониторили технические параметры, асдругой показывали нашим заказчикам, посути магазинам, как отрабатывают наши алгоритмы. Тоесть мысравнивали, как они работали дозапуска икак стали работать после, показывали, сколько денег позволяет заработать использование этих алгоритмов.


Правило -1. Второй этап


Эффект отработы продукта быстро стал заметен, инас стали спрашивать, почему мыобрабатываем такое маленькое количество артикулов: Давайте возьмем весь сток магазина, изкаждого артикула вычтем одну штуку, и, может быть, это нам позволит решить проблему глобально. Кэтому моменту мыуже начали работать над моделью машинного обучения, нам казалось, что подобная ковровая бомбардировка может навредить, новозможность такого эксперимента упускать нехотелось. Имызапустили тест на4магазинах для того, чтобы проверить эту гипотезу.


Когда через месяц мыпосмотрели нарезультаты, товыяснили два важных обстоятельства. Во-первых, когда мывычитаем одну штуку, чаще всего это влияет надорогие артикулы, какие-нибудь камины, тепловые пушки, которых мало. Так ихнемогли продавать насайте, потому что поэтому алгоритму мымогли ихзапас скрывать полностью. Во-вторых, оказалось, что натовары сосредним ибольшим запасом это никак невлияет. Таким образом, этот подход себя неоправдал, имыперешли креализации модели машинного обучения.


ML-модель. Третий этап


Итак, мысделали ML-модель, запустили еевпрод в6магазинах. Какая унас получилась ML-модель?


  • Модель реализована спомощью градиентного бустинга наCatboost, иэто дает предсказание вероятности того, что сток товара вданном магазине вданный момент является некорректным.
  • Модель была обучена нарезультатах оперативной иежегодной инвентаризаций, ивтом числе наданных поотмененным заказам.
  • Вкачестве косвенных указаний навозможность некорректного стока использовались такие признаки, как данные опоследних движениях постоку данного товара, опродажах, возвратах изаказах, одоступном для продажи стоке, ономенклатуре, онекоторых характеристиках товара ипрочем.
  • Всего вмодели использовано около 70 фичей.
  • Среди всех признаков были отобраны важные сиспользованием различных подходов коценки важности, втом числе Permutation Importance иподходов, реализованных вбиблиотеке Catboost.
  • Чтобы проверить качество иподобрать гиперпараметры модели, данные были разбиты натестовую ивалидационную выборки всоотношении 80/20.
  • Модель была обучена наболее старых данных, апроверялась наболее новых.
  • Финальная модель, которая витоге пошла впрод, была обучена наполном датасете сиспользованием гиперпараметров, подобранных спомощью разбиения наtrain/valid-части.
  • Модель иданные для обучения модели версионируются спомощью DVC, версии модели идатасетов хранятся наS3.

Итоговые метрики полученной модели навалидационном наборе данных:


  • ROC-AUC: 0.68
  • Recall: 0.77

Архитектура


Немного про архитектуру как это унас реализуется впроде. Для обучения модели используются реплики операционных ипродуктовых систем компании, консолидированные ведином DataLake наплатформе GreenPlum. Наоснове реплик рассчитываются фичи, хранящиеся вMongoDB, что позволяет организовать горячий доступ кним. Оркестрация расчета фичей иинтеграция GreenPlum иMongoDB реализована сиспользованием opensource-стекаApache-инструментами Apache AirFlow иApache NiFi.


Модель машинного обучения представляет собой контейнеризованное Python-приложение, развернутое вKubernetes. Приложение работает наоснове информации отекущем состоянии стока, поступающей изразличных бизнес-систем враспределенный брокер сообщений Apache Kafka, данные изкоторого модель считывает, корректирует иотправляет насайт компании сиспользованием шины набазе Apache Kafka.


image

Результаты


Унас было 6магазинов ирезультаты показали, что изплановых 15% мысмогли сократить количество несобранных заказов на12%, при этом унас выросли товарооборот E-com иколичество заказов. Так что, мыненавредили, акак раз улучшили качество сборки заказов.


Наданный момент, обученная нами модель используется нетолько для редактирования стока перед публикацией насайте, ноидля улучшения алгоритмов оперативной инвентаризации. Какие артикулы нужно сегодня посчитать именно вэтом отделе, именно вэтом магазине такие, закоторыми придут клиенты, икоторые хорошо былобы проверить. Вобщем модель оказалась еще имультифункциональной ипереиспользуется вкомпании вдругих подразделениях.


p.s.Статья написана по выступлению на митапе Avito.Tech, посмотреть видео можно по ссылке.

Подробнее..

Switchback-эксперименты в Ситимобил Часть 1. Зачем это нужно

03.06.2021 20:19:56 | Автор: admin

Содержание

  1. Введение

  2. Про эксперименты

  3. Что такое сетевой эффект?

  4. Почему switchback помогает?

  5. Зачем так сложно, может, у вас нет сетевого эффекта?

  6. Убедили, как подобрать окно переключения по расстоянию и времени?

  7. Слабые стороны Switchback

  8. О следующей статье

Введение

Сегодняс вами на связи отдел динамического ценообразования Ситимобил. И мы начинаем серию статей о том, как мы проводим и оцениваем ценовые эксперименты внутри нашего маркетплейса.

Наша основная задача балансировка объёмов спроса и предложения в городе с помощью выставления определенной цены поездки. Если говорить проще, то нам необходимо подобрать такую цену, чтобы поддерживать хороший уровень сервиса, как для водителей, так и для пассажиров: водители могли не сталкиваться с большим холостым ходом и не простаивать в ожидании заказа, а пассажиры уезжать за короткое время и по приемлемым ценам. Подробнее об алгоритме и его необходимости мы уже писали, и если вы не читали, то приглашаем сюда.

Разработка алгоритма это творческий процесс, поэтому в своей работе мы генерируем и проверяем много гипотез, часть из которых потом-таки попадают в продовую версию алгоритма. Каждая такая идея проходит путь от аналитики и dry-mode (так мы называем что-то вроде backtesting'а) до экспериментов на реальных городах и, в лучшем случае, раскатки на всю Россию.

Про эксперименты

Мы стремимся максимизировать счастье водителей и пассажиров,поэтому гипотезы, которые мы проверяем, могут быть совершенно разными, от измерения влияния на баланс маркетплейса в определенной географической области до длительной проверки реакции пользователей, выраженной, например, через retention.

До середины 2019 года чаще всего мы проводили рандомизированные A/B-тесты сосплитованием по hash (id), реже W2W (week-to-week, то есть когда производится сравнение выборок за одно время и один день недели, но в разные периоды), или diff-in-diff (подробнее см. здесь) эксперименты. Но все эти подходы для наших задач имеют ряд больших недостатков.

В W2W и diff-in-diff оценках может быть сложно обеспечить сопоставимые условия в тестовой и контрольной группах. Как-то мы хотели провести W2W-оценку, а в нашем тестовом городе на второй неделе была песчаная буря.

Кроме этого, в diff-in-diff сезонность часто оказывает большой эффект, и не всегда его возможно точно оценить и компенсировать, что может повлиять на выводы. В таких случаях изменения в алгоритме не всегда настолько велики, чтобы их качественно оценить.

С рандомизированными A/B-тестами проблемы не такие очевидные. Когда вы запускаете рандомизированный А/В-тест в двух-трёх-n-стороннем маркетплейсе, то у вас может возникнуть сетевой эффект (не бойтесь, об этом термине поговорим в следующем разделе), который ставит под вопрос валидность теста в целом.

В итоге мы пришли к использованию геохроносплитования (в переводе со сложного означает разбиение районов города на экспериментальные группы, с перемешиванием каждые n минут), а затем обнаружили, что этот подход популярен, и называется этот загадочный зверь switchback. К нему мы ещё вернёмся.

Что такое сетевой эффект?

Главное условие валидности А/В-теста stable unit treatment value assumption (SUTVA), которое говорит, что измененные условия воздействуют только на группу, к которой они были применены, и не воздействуют на пользователей из других групп.

В нашем случае пассажиры и водители активно взаимодействуют между собой, и водитель из одной группы может повлиять на пассажира, изменить его поведение, а тот своим измененным поведением будет влиять на других водителей и сдвинет результаты теста.

Слишком сложная схема, давайте на примере:

Пусть Миша с Колей живут в соседних домах напротив друг друга и каждое утро примерно в одно время едут на такси до метро. Наша команда динамического ценообразования начала эксперимент, и так получилось, что Миша и Коля оказались в разных группах. Для Коли цена будет рассчитываться старым алгоритмом, а для Миши новым, который по каким-то причинам снизил утром на 5 % цену поездки до метро. Наступает очередное утро, и Миша с Колей заказывают такси примерно в одно время. Цена у Миши ниже обычного, и он принимает решение о заказе такси быстрее, тем самым отнимая водителя у Коли. Коля оказывается без машины, и мы вынуждены изменить для него цену, чтобы он отказался от поездки, так как свободных машин в округе больше нет. Получается, что конверсия Коли занижена из-за Миши, то есть измененные условия повлияли не только на решение Миши, но и на Колю, и SUTVA не выполняется.

Это и есть сетевой эффект. Если формулировать более научно, то:

Сетевой эффект это ситуация в экспериментах, когда поведение одного потребителя услуги или товара может влиять на характеристики или даже возможность предоставления услуги/товара для другого потребителя. Этот эффект особенно актуален для двустороннего маркетплейса, потому что предположение об отсутствии влияния (SUTVA) здесь не может быть принято.

Спасительный Switchback

SUTVA не выполняется, рандомизированный А/В-тест под угрозой. Как же нам теперь проводить честные эксперименты?

Здесь нам на помощь приходит тип эксперимента, который называется Switchback.

Switchback метод геохроносплитования контрольных и тестовых групп с гиперпараметрами в виде длительности применения группы на все наблюдения и площади применения группы.

Суть метода Switchback заключается в следующем:

  1. Имеющиеся районы разбивают на контрольные и экспериментальные группы. К экспериментальным применяется тестируемый алгоритм.

  2. Через короткий промежуток времени районы случайно изменяются (мы считаем районами группы гексагонов, используем гексагональную сетку от Uber; подробнее читайте здесь). Затем они снова меняются, и так далее. Процесс перестановки продолжается в течение всего эксперимента.

  3. Показатели за время, когда алгоритм действовал и бездействовал, считаются в разные корзины.

  4. Показатели из двух корзин сравниваются, что позволяет оценить влияние алгоритма на различные ситуации.

Теперь Миша и Коля с бОльшей вероятностью оказались бы в одной группе, так как они близко друг к другу по расстоянию и времени. Решение они принимали бы в одинаковых условиях, и SUTVA не нарушилось бы.

Почему Switchback помогает?

В какой ситуации сетевой эффект максимален? Когда пассажиры могут забирать друг у друга машины, то есть близки друг к другу по времени и расстоянию. А теперь попробуем визуализировать сетевой эффект и посмотрим, что делает Switchback. Обозначим взаимное влияние между пассажирами через линию. Она есть, если пассажиры относятся к разным группам то есть влияют своим измененным поведением на неизменных участников; и линии нет, если пассажиры относятся к одной группе. В первом случае пользователи разбились на группы случайно, и внутри одной геозоны есть пользователи из разных групп; во втором случае вся геозона полностью относится к одной группе. Как видите, во втором случае количество взаимодействия (сиреневых линий) резко сократилось, это и есть главный эффект Switchback.

Мы даже можем оценить сокращение взаимодействия численно!

Немного математики для бесстрашных

Взаимное влияние пассажиров друг на друга

Пусть пассажир определяется вектором:

r = \begin{bmatrix} t \\ latitude \\ longitude \end{bmatrix}, \\

где

  • t время, в которое клиент зашел в приложение;

  • latitude долгота точки заказа;

  • longtitude широта точки заказа.

Тогда взаимное влияние пассажиров друг на друга interaction введем следующим образом: как будто L_2 и мы считаем расстояние между точками, только одну из координат заменили на время:

interaction = \frac{1}{\beta}, \\ \beta = \sqrt{\alpha_1^2(t_1-t_2)^2 + \alpha_2^2(\Delta d)^2} \\ \Delta d = f(lat_1, lat_2, lon_1, lon_2)Почему interaction это дробь?

Interaction обратно пропорционален расстоянию между клиентами и временем между калькуляциями, то есть чем "дальше" друг от друга клиенты по расстоянию или времени, тем меньше они влияют друг на друга.

Поэтому подходящие виды зависимостей для определения interaction могут быть следующие:

y = \frac{1}{x^{\alpha}}, \alpha \geq 1 \\ y = e^{-x}

Для определения interaction в данном примере была выбрана зависимость \frac{1}{x} так как она убывает медленнее всего, значит позволит учитывать с бОльшим весом влияние между клиентами, которые находятся друг от друга далеко по времени или расстоянию, по сравнению с другими функциями. Интуитивно, кажется, что даже "далекие" к друг другу клиенты всё равно влияют на друг друга, поэтому мы и выбрали самую медленно убывающую функцию.

Зачем нужны веса?

Для того, чтобы время и расстояние вносили одинаковый вклад в метрику, необходимо их перевзвесить.

В обычных метриках, например, L_2 , мы сравниваем между собой координаты x и y , эти величины имеют одинаковый масштаб. В нашем случае мы сравниваем метры и секунды. Поэтому чтобы они вносили одинаковый вклад их необходимо привести к одному масштабу. Здесь мы поступили очень просто и посмотрели на наших реальных данных отношение среднего времени между заходами клиентов в приложение, к среднему расстоянию между ними, и получили 1:16. Это соотношение и подставим в наши \alpha_1, \alpha_2 при расчетах.

Эта метрика не существует в нуле, но на наших данных и не было таких случаев, когда числитель был нулевым. Иначе можно было бы прибавить в знаменателе 1.

Сравним, как пассажиры влияют друг на друга в рандомизированном А/В и Switchback.

Теперь поступим так же, как в примере с кругами. Если пользователи относятся к разным группам, то взаимное влияние между ними есть, и мы его считаем по формуле для interaction выше. Если к разным, то считаем, что его нет. По сути, мы проставляем веса на черные линии из картинки выше и суммируем их для некоторого промежутка времени. Стоит отметить, что также для упрощения и ускорения подсчетов мы ограничили дельту между клиентами, когда учитываем их взаимное влияние, 6 минутами и 3 км, их также получили на реальных данных.

Если такое проделать на Москве в течение одного дня и сравнить уровень взаимодействия для рандомизированного эксперимента и Switchback, то Switchback снижает сетевой эффект более чем на 70%.

Конечно, сетевой эффект можно снижать не только с помощью Switchback,нам подходит любая разбивка, которая уменьшает уровень взаимодействия между клиентами количество черных линий. Например, для социальных сетей удобно проводить А/В-тест на кластерах клиентов, но в таких случаях сложнее добиться сходимости между группами, да и не для всех бизнесов они подходят, собственно, как и Switchback.

Зачем так сложно, может, у вас нет сетевого эффекта?

Может, действительно нет, потому что мы не проверяли этого честным экспериментом (но, скорее всего, есть). В ближайшее время мы хотим оценить наличие у нас сетевого эффекта способом, предложенным вот в этой статье.

Краткая идея статьи

Авторы предлагают такой подход, который одновременно позволит выяснить, соблюдается ли для нашего эксперимента SUTVA и позволит правильно оценить его результаты в обоих случаях: когда SUTVA соблюдается и когда нет. А еще авторы предлагают свой статистический тест для проверки результатов эксперимента.

Идея следующая:

  • запускаем эксперимент в двух сетапах параллельно, первый сетап классический, полностью рандомизированный, второй для уменьшения сетевого эффекта, например, на кластеризованных группах.

  • измеряем разницу между группами по статистическому тесту, предложенному авторами. Если разница статистически значима, то сетевой эффект присутствует и оценивать результаты эксперимента можно только по второму сетапу. Если разницы нет, то эффект оценивается по совокупным данным.

Убедили, как подобрать окно переключения по расстоянию и времени?

При определении длины временного промежутка и размера географической зоны основной вопрос заключается в качестве данных, которые мы соберем с выделенного кусочка. Глобально идея заключается в том, что нам необходимо найти компромисс между смещением данных (Bias) и предельной погрешностью выборки (Margin). Подробнее об этом можно почитать вот тут, но давайте кратко обсудим идею.

Сформулируем, что есть Bias, а что Margin of Error.

Разница в средних между нашими группами при семплирования назовем Bias смещение. Например, когда мы делаем АА-тест нам бы очень хотелось, чтобы разница в средних между группами А1 и А2 не было, иначе мы не сможем запустить наш тест. Имеется в виду, конечно, что не будет статистически значимой разницы.

Margin of Error (предельная погрешность выборки) - насколько наше среднее в выборке будет отличаться от среднего в генеральной совокупности. Если уйти от точных определений и сказать простыми словами, то Margin of Error показывает, насколько широким мы получим доверительный интервал для оцениваемой величины. Здесь нам бы очень хотелось, чтобы коридор для среднего был узким, и мы как можно точнее оценили наше среднее.

Теперь опустимся на практику и поговорим про параметры сплитования, и как они связаны с Bias и Margin. Для более удобных формулировок введем понятие Unit. Unit кусочек времени и пространства, который отсекается определенным промежутком времени и геозоной.

Теперь обсудим связь размера Unit'a c Bias. Когда мы уменьшаем географическую зону и промежуток переключения групп, выборка уменьшается, и мы с большей вероятностью соберем нерепрезентативные смещенные данные. Представим ситуацию, где мы хотим протестировать два алгоритма, один из которых обрабатывает заказы по мере поступления, а другой - обрабатывает сначала короткие поездки, а уже потом все остальные. Тогда при слишком быстром переключении мы можем получить ситуацию, при которой один алгоритм будет обрабатывать только короткие поездки, а другой будет пытаться исправить ситуацию после выбора другого алгоритма. При этом сделать какие-то обобщающие выводы мы не сможем, так как в данных по поездкам будет заложено смещение, которое возникло из-за слишком частой смены групп. То есть при уменьшении размера Unit'a (уменьшаем окно сплитования, например, было 20 минут стало 10, и уменьшении геозоны стали работать с более маленькими гексагонами) растет Bias.

С Margin капельку сложнее, но мы справимся. Margin зависит от двух вещей от разброса данных, с которыми мы работаем и от их количества (снова см. подробнее тут).

 Margin \sim \sqrt{\frac{D}{n}},

где D дисперсия выборки, а n сколько Unit'ов у нас есть. При уменьшении периода переключения или работе с более мелкими геозонами растет количество Unit'ов, с которых мы собираем наблюдения. Но при этом растет и дисперсия нашей выборки маленькие Unit'ы менее похожи друг на друга и содержат больше выбросов. При увеличении сплита и, как следствие, объема данных внутри него эти выбросы сглаживаются, дисперсия снижается.

Зависимость, конечно, не однозначная, но на практике всё-таки дисперсия растёт не так быстро, как количество зон, потому что города ведут себя относительно стабильно, за исключением, каких-то особых периодов, например, дождя или вечера 31-го декабря. Поэтому в целом можно сказать, что при уменьшении размера Unit'а Margin падает. Но важно иметь ввиду, что природа этой зависимости на ваших данных может оказаться другой.

Получается вот такая сложная зависимость, с которой нам нужно как-то жить, если хотим запустить Switchback):

Как же жить с такой сложной зависимостью на практике:

Можно провести АА-тест на исторических данных и посмотреть, за какое время он сходится и какой разброс в метриках мы получаем, чтобы сделать выводы о том, насколько вас это устраивает.

CookBook для запуска первого в вашей жизни Switchback-теста такой (такие вводные работают для нас):

  • держим тест около 2 недель в зависимости от объема рынка;

  • проводим сплитование по гексагонам размером 6 (то есть по районам площадью 36 кв. км.);

  • переключение происходит раз в 20 минут.

Выглядит это примерно так:

Теперь самое время пойти и запустить с первыми вводными AA-тест в Switchback на исторических данных для своего маркетплейса!

Слабые стороны Switchback

Конечно, Switchback не безгрешен и имеет несколько особенностей, с которыми стоит быть внимательными.

Сохранение сетевого эффекта

Сетевой эффект выше среди пользователей, которые находятся друг к другу близко по времени и расстоянию. И если мы вернемся к картинке 2 (с кругами), то увидим, что в случае со Switchback у нас всё равно сохранилось взаимодействие между пользователями из разных групп несколько черных линий. То есть на самом деле Switchback не убирает сетевой эффект полностью, а сокращает его, но очень сильно. То есть сетевой эффект сохраняется на границе групп по расстоянию как на картинке, или по времени, в момент переключения групп.

С таким сетевым эффектом можно бороться уже очисткой данных после эксперимента. Например, убирать из общей выборки граничащие по расстоянию и времени наблюдения из разных групп, либо вносить технические корректировки в алгоритм сплитования.

Осторожно, вы в эксперименте

Также есть вероятность, что участники эксперимента заметят закономерности эксперимента и изменят свое поведение из-за этого. Например, пассажир окажется на границе геозон или будет совершать заказ в начале часа или в конце часа и заметит, что цена сильно изменилась. И примет решение не на основе самой цены, а на основе ее изменения, то есть изменит свою конверсию.

Бороться с этим можно такой же очисткой данных, как и в предыдущем случае.

Мощность ниже

Чистка может негативно повлиять на мощность эксперимента. Кроме этого, на мощность switchback негативно влияет и единица рандомайза пара регион+время.

Сложность экспериментов с визуальными изменениями

Представим, что вы тестируете два пользовательских интерфейса в Switchback. Если пользователь зайдет в момент, близкий к переключению групп в гексагоне, и увидит и тестовую, и контрольную визуализацию интерфейса, то это может стать для него неожиданностью, также как и эффект от его действий в вашем приложении. В оценке эксперимента можно удалить этих пользователей, но возможны денежные потери, выраженные в снижении конверсии этих пользователей из-за таких неожиданностей.

Долгосрочный эффект

Когда мы обсуждали тут сетевой эффект то подразумевали только эффект в моменте. Но существует еще и долгосрочное влияние пользователей друг на друга. Например, когда пассажир отнимает водителя сейчас в одной геозоне это приводит к тому, что водитель не имеет шанса доехать до близкой геозоны другой группы, и это влияет на возможность его назначения в другой группе. Кроме того, если пользователь сегодня видел маленькие экспериментальные цены, а через неделю увидит большие цены по модели из группы Б, то это также отразится на его конверсиях. Тут мы эти вопросы не рассматриваем.

Сходимость групп

АА-тест стоит использовать не только для подбора окна или геозоны агрегации, но даже если вы уже проводили тест на городе и точно знаете, какие периоды переключения вас устраивают. Не стоит пренебрегать АА-тестом для проверки равномерности разбиения на группы.

Почему так? На практике города часто бывают неравномерны по объёмам спроса и предложения, есть разные особые точки или области, например, большие спальные районы или точки с многочисленными офисами, которые по стечению обстоятельств могли попасть в одну из групп больше раз и сместить выборки.

Завести А/А-тест в дизайн вашего эксперимента можно двумя путями. Если вы уверены, что ваш маркетплейс стабилен во времени, то можно подержать А/А-тест перед А/В-тестом и убедиться, что разбиение на группы равномерное. Если же такой уверенности нет, то можно сразу провести А/А/В-тест. Но здесь хорошо бы проверить, что вам хватит данных, чтобы честно сравнить группы А1 и А2 между собой.

Если всё-таки ваш выбор пал на А/А/В-тест, то распределение по группам лучше держать 25 %/25 %/50 %, так в теории мощность вашего теста будет выше (по сравнению с менее сбалансированными группами), подробнее об этом можно почитать вот тут.

О следующей статье

А теперь самое важное. В этой статье мы обсудили теорию о сетевом эффекте и Switchback и почти не касались математики и практического применения описанных идей. Например, какие есть способы оценки А/В-теста, запущенного в Switchback, или какой конвейер подготовки и проверки эксперимента стоит пройти. Ответы на эти вопросы мы дадим в нашей следующей статье, которая будет уже совсем скоро!

В подготовке статьи участвовали Артём Солоухин, Ксения Мензорова, Николай Ишмаметьев. Также выражаем благодарность за помощь в подготовке статьи ребятам из expf.ru, Искандеру Мирмахмадову и Виталию Черемисинову.

Подробнее..

Recovery mode Быстрый старт и низкий потолок. Что ждет молодых Data Science-специалистов на рынке труда

03.08.2020 12:13:23 | Автор: admin
По исследованиям HeadHunter и Mail.ru спрос на специалистов в области Data Science превышает предложение, но даже так молодым специалистам не всегда удается найти работу. Рассказываем, чего не хватает выпускникам курсов и где учиться тем, кто планирует большую карьеру в Data Science.

Они приходят и думают, что сейчас будут зарабатывать 500к в секунду, потому что знают названия фреймворков и как из них запустить модель в две строчки
,

Эмиль Магеррамов руководит группой сервисов вычислительной химии в компании biocad и на собеседованиях сталкивается с тем, что у кандидатов нет системного понимания профессии. Они заканчивают курсы, приходят с хорошо прокачанными Python и SQL, могут за 2 секунды поднять Hadoop или Spark, выполнить задачу по четкому ТЗ. Но при этом шаг в сторону уже нет. Хотя именно гибкости решений работодатели ждут от своих специалистов в области Data Science.

Что происходит на рынке Data Science



Компетенции молодых специалистов отражают положение на рынке труда. Здесь спрос существенно превышает предложение, поэтому отчаявшиеся работодатели часто действительно готовы брать на работу совсем зеленых специалистов и доращивать их под себя. Вариант рабочий, но подходит лишь в том случае, если в команде уже есть опытный тимлид, который возьмет на себя обучение джуниора.

По исследованию HeadHunter и Mail.ru, специалисты по анализу данных одни из самых востребованных на рынке:

  • В 2019 году вакансий в области анализа данных стало больше в 9,6 раза, а в области машинного обучения в 7,2 раза, чем в 2015 году.
  • По сравнению с 2018 годом количество вакансий специалистов по анализу данных увеличилось в 1,4 раза, по машинному обучению в 1,3 раза.
  • 38% открытых вакансий приходится на ИТ-компании, 29% компании из финансового сектора, 9% сфера услуг для бизнеса.


Ситуацию подогревают многочисленные онлайн-школы, которые готовят тех самых джуниоров. В основном обучение идет от трех до шести месяцев, за которые ученики успевают на базовом уровне освоить главные инструменты: Python, SQL, анализ данных, Git и Linux. На выходе получается классический джуниор: может решить конкретную задачу, а понять проблему и самостоятельно сформулировать задачу еще не может. Однако высокий спрос на специалистов и хайп вокруг профессии часто рождает высокие амбиции и требования к зарплате.

К сожалению, собеседование по Data Science сейчас обычно выглядит так: кандидат рассказывает, что попробовал применять пару-тройку библиотек, на вопросы о том, как именно работают алгоритмы, ответить не может, затем просит 200, 300, 400 тысяч рублей в месяц на руки.

Из-за большого количества рекламных лозунгов вроде стать аналитиком данных может каждый, освой машинное обучение за три месяца и начни получать кучу денег и жажды быстрой наживы, в нашу область хлынул огромный поток поверхностных кандидатов совершенно без системной подготовки.

Виктор Кантор
Chief Data Scientist в МТС


Кого ждут работодатели



Любой работодатель хотел бы, чтобы его джуниоры работали без постоянного контроля и могли развиваться под руководством тимлида. Для этого новичок должен сразу владеть нужными инструментами, чтобы решать текущие задачи, и обладать достаточной теоретической базой, чтобы постепенно предлагать собственные решения и подступаться к более сложным задачам.

С инструментами у новичков на рынке все достаточно хорошо. Краткосрочные курсы позволяют быстро освоить их и приступить к работе.

По исследованию HeadHunter и Mail.ru, самый востребованный навык владение Python. Оно упоминается в 45% вакансий специалистов по анализу данных и в 51% вакансий в области машинного обучения.

Также работодатели хотят, чтобы специалисты по анализу данных знали SQL (23%), владели интеллектуальным анализом данных (DataMining) (19%), математической статистикой (11%) и умели работать с большими данными (10%).

Работодатели, которые ищут специалистов по машинному обучению, наряду со знанием Python ожидают, что кандидат будет владеть C++ (18%), SQL (15%), алгоритмами машинного обучения (13%) и Linux (11%).

Но если с инструментами у джуниоров все хорошо, то дальше их руководители сталкиваются с другой проблемой. У большинства выпускников курсов нет глубокого понимания профессии, поэтому новичку сложно прогрессировать.

Я сейчас ищу специалистов по машинному обучению себе в команду. При этом вижу, что зачастую кандидаты освоили отдельные инструменты Data Science, но у них недостаточно глубокое понимание теоретических основ, чтобы создавать новые решения.

Эмиль Магеррамов
Руководитель группы сервисов вычислительной химии, Biocad


Сама структура и продолжительность курсов не позволяет углубиться на необходимый уровень. Выпускникам зачастую не хватает тех самых soft skills, которые обычно пропускаются при чтении вакансии. Ну правда, кто из нас скажет, что у него нет системного мышления или желания развиваться. Однако применительно к специалисту Data Science речь о более глубокой истории. Здесь, чтобы развиваться, нужен достаточно сильный уклон в теорию и науку, который возможен только на продолжительном обучении, например, в университете.

Многое зависит от человека: если трехмесячный интенсив от сильных преподавателей с опытом тимлидов в топовых компаниях проходит слушатель с хорошей базой в математике и программировании, вникает во все материалы курса и впитывает как губка, как говорили в школе, то проблем с таким сотрудником потом нет. Но 90-95% людей, чтобы что-то усвоить навсегда, нужно выучить в десять раз больше и делать это систематично несколько лет подряд. И это делает магистерские программы по анализу данных великолепным вариантом получить хороший фундамент знаний, с которым и на собеседовании не придется краснеть, и работу делать будет сильно проще.

Виктор Кантор
Chief Data Scientist в МТС


Где учиться, чтобы найти работу в Data Science



На рынке много хороших курсов по Data Science и получить первоначальное образование не проблема. Но важно понимать направленность этого образования. Если у кандидата уже есть мощный технический бэкграунд, то интенсивные курсы то что надо. Человек освоит инструменты, придет на место и быстро вработается, потому что уже умеет думать как математик, видеть проблему и формулировать задачи. Если такого бэкграунда нет, то после курса будет хороший исполнитель, но с ограниченными возможностями для роста.

Если перед вами стоит краткосрочная задача смены профессии или поиска работы в этой специальности, то тогда вам подходят какие-то систематические курсы, которые короткие и быстро дают минимальный набор технических навыков, чтобы вы смогли претендовать на начальную позицию в этой области.

Иван Ямщиков
Академический директор онлайн-магистратуры Наука о данных


Проблема курсов именно в том, что они дают быстрый, но минимальный разгон. Человек буквально влетает в профессию и быстро достигает потолка. Чтобы прийти в профессию надолго, нужно сразу заложить хорошую основу в виде более долгосрочной программы, например, в магистратуре.

Высшее образование подходит, когда вы понимаете, что эта область интересна вам долгосрочно. Вы не стремитесь выйти на работу как можно скорее. И не хотите, чтобы у вас был карьерный потолок, также не хотите столкнуться с проблемой недостатка знаний, навыков, недостатка понимания общей экосистемы, с помощью которой развиваются инновационные продукты. Для этого нужно именно высшее образование, которое формирует не только необходимый набор технических навыков, но и структурирует по-другому ваше мышление и помогает сформировать некоторое видение вашей карьеры на более долгосрочную перспективу.

Иван Ямщиков
Академический директор онлайн-магистратуры Наука о данных


Отсутствие карьерного потолка главное преимущество магистерской программы. За два года специалист получает мощную теоретическую базу. Вот так выглядит уже первый семестр в программе Data Science НИТУ МИСиС:

  • Введение в Data Science. 2 недели.
  • Основы анализа данных. Обработка данных. 2 недели
  • Машинное обучение. Предобработка данных. 2 недели
  • EDA. Разведывательный анализ данных. 3 недели
  • Основные алгоритмы машинного обучения. Ч1 + Ч2 (6 недель)


При этом можно параллельно получать и практический опыт на работе. Ничто не мешает устроиться на позицию джуниора, как только студент освоит нужные инструменты. Вот только, в отличие от выпускника курсов, магистр не останавливает на этом свое обучение, а продолжает углубляться в профессию. В будущем это позволяет развиваться в Data Science без ограничений.

На сайте университета науки и технологий МИСиС проходят Дни открытых дверей и вебинары для тех, кто хочет работать в Data Science. Представители НИТУ МИСиС, SkillFactory, HeadHunter, Facebook, Mail.ru Group и Яндекс, рассказываю про самое важное:

  • Как найти свое место в Data Science?,
  • Можно ли стать data scientist с нуля?,
  • Сохранится ли необходимость в data scientist-ах через 2-5 лет?,
  • Над какими задачами работают специалисты data science?,
  • Как построить карьеру в Data Science?

Обучение онлайн, диплом государственного образования. Заявки на программу принимаются до 10 августа.
Подробнее..

Перевод Как распознать шарлатана от Data Science?

14.10.2020 12:12:47 | Автор: admin

Возможно, вы слышали об аналитиках, специалистах по машинному обучению и искусственному интеллекту, но слышали ли вы о тех, кому незаслуженно переплачивают? Встречайте шарлатана данных! Эти хитрецы, которых манит прибыльная работа, создают плохую репутацию настоящим специалистам по обработке данных. В материале разбираемся, как выводить таких людей на чистую воду.



Шарлатаны данных повсюду


Шарлатаны данных настолько хорошо умеют скрываться на виду, что вы можете быть одним из них, даже не осознавая этого. Скорее всего, ваша организация годами укрывала этих хитрецов, но есть хорошая новость: их легко идентифицировать, если вы знаете, что искать.
Первый предупреждающий знак непонимание того, что аналитика и статистика очень разные дисциплины. Далее я поясню это.

Разные дисциплины


Статистики обучены делать выводы о том, что выходит за рамки их данных, аналитики обучены изучать содержание набора данных. Другими словами, аналитики делают выводы о том, что содержится в их данных, а статистики делают выводы о том, чего в данных нет. Аналитики помогают задавать хорошие вопросы (выдвигать гипотезы), а статистики помогают получать хорошие ответы (проверять гипотезы).

Есть также причудливые гибридные роли, когда человек пытается усидеть на двух стульях Почему бы нет? Основной принцип науки о данных: если вы имеете дело с неопределенностью, нельзя использовать одну и ту же точку данных для гипотез и проверки. Когда данные ограничены, неопределенность заставляет выбирать между статистикой или аналитикой. Объяснение здесь.

Без статистики вы застрянете и не сможете понять, выдерживает ли критику только что сформулированное суждение, а без анализа вы двигаетесь вслепую, имея мало шансов приручить неизвестное. Это трудный выбор.

Выход шарлатана из этой передряги игнорировать ее, а затем притворяться удивленным тому, что вдруг обнаруживается. Логика проверки статистических гипотез сводится к вопросу: достаточно ли данные удивляют нас, чтобы изменить наше мнение. Как мы можем быть удивлены данными, если мы их уже видели?

Всякий раз, когда шарлатаны находят паттерн, они вдохновляются, затем проверяют те же данные для того же паттерна, чтобы опубликовать результат с легитимным p-значением или двумя, рядом с их теорией. Тем самым они лгут вам (а, возможно, и себе тоже). Такое p-значение не играет роли, если вы не придерживаетесь своей гипотезы до того, как просмотрели свои данные. Шарлатаны имитируют действия аналитиков и статистиков без понимания причин. В результате у всей области науки о данных складывается плохая репутация.

Истинные статистики всегда делают свои выводы


Благодаря почти мистической репутации специалистов по статистике, занимающихся строгими рассуждениями, количество фейковой информации в Data Science рекордно высокое. Легко обмануть и не попасться, особенно если ничего не подозревающая жертва думает, что все дело в уравнениях и данных. Набор данных это набор данных, верно? Нет. Имеет значение как вы его используете.

К счастью, вам нужна только одна подсказка, чтобы поймать шарлатанов: они открывают Америку задним числом. Заново открывая явления, которые, как им уже известно, присутствуют в данных.

В отличие от шарлатанов, хорошие аналитики не имеют предубеждений и понимают, что вдохновляющие идеи могут иметь много разных объяснений. В то же время, хорошие статистики тщательно определяют свои выводы, прежде чем они их сделают.

Аналитики освобождены от ответственности пока они не выходят за рамки своих данных. Если у них возникает соблазн заявить о том, чего они не видели, это совсем другая работа. Им следует снять обувь аналитика и переобуться в обувь статистика. В конце концов, каким бы ни было официальное название должности, не существует правила, согласно которому вы не можете изучать обе профессии, если хотите. Только не путайте их.

Если вы хорошо разбираетесь в статистике, это не значит, что вы хорошо разбираетесь в аналитике, и наоборот. Если кто-то пытается сказать вам обратное, стоит насторожиться. Если этот человек сообщает вам, что разрешено делать статистический вывод на данных, которые вы уже изучили, это повод насторожиться вдвойне.

Причудливые объяснения


Наблюдая за шарлатанами данных в дикой природе, вы заметите, что они любят сочинять фантастические истории, чтобы объяснить наблюдаемые данные. Чем академичнее, тем лучше. Неважно, что эти истории подгоняются задним числом.

Когда шарлатаны так поступают позвольте мне не скупиться на слова они лгут. Никакое количество уравнений или красивые понятия не компенсирует того, что они предложили нулевое доказательство своих версий. Не удивляйтесь тому, насколько необычны их объяснения.

Это то же самое, что продемонстрировать свои экстрасенсорные способности, сначала взглянув на карты в руках, а затем предсказать, что вы держите то, что держите. Это предвзятость ретроспективного взгляда, и профессия дата-сайентиста нафарширована этим по горло.



Аналитики говорят: Вы только что пошли с бубновой королевы. Статистики говорят: Я записал свои гипотезы на этом клочке бумаги до того, как мы начали. Давай поиграем, посмотрим некоторые данные и посмотрим, прав ли я . Шарлатаны говорят: Я знал, что вы собираетесь пойти этой бубновой королевой, потому что

Разделение данных это быстрое решение проблемы, в котором нуждается каждый.

Когда данных не так много, приходится выбирать между статистикой и аналитикой, но когда данных с лихвой, есть прекрасная возможность без обмана воспользоваться аналитикой и статистикой. У вас есть идеальная защита от шарлатанов это разделение данных и, на мой взгляд, это самая мощная идея в Data Science.

Чтобы защитить себя от шарлатанов, все, что вам нужно сделать убедиться, что вы храните некоторые тестовые данные вне досягаемости их любопытных глаз, а затем относиться ко всему остальному как к аналитике. Когда вы сталкиваетесь с теорией, которую рискуете принять, используйте ее, чтобы оценить ситуацию, а затем откройте свои секретные тестовые данные, чтобы проверить, что теория не чепуха. Это же так просто!


Убедитесь, что никому не позволено просматривать тестовые данные на этапе исследования. Для этого придерживайтесь исследовательских данных. Тестовые данные не должны использоваться для анализа.

Это большой шаг вперед по сравнению с тем, к чему люди привыкли в эпоху малых данных, когда вам нужно объяснять, откуда вы знаете то, что знаете, чтобы наконец убедить людей, что вы действительно что-то знаете.

Применяем те же правила к ML/AI


Некоторых шарлатанов, выдающих себя за экспертов в области ML/AI, тоже легко обнаружить. Вы поймаете их так же, как поймали бы любого другого плохого инженера: решения, которые они пытаются построить, постоянно терпят неудачу. Ранний предупреждающий знак отсутствие опыта работы со стандартными отраслевыми языками и библиотеками программирования.

Но как насчет людей, создающих системы, которые кажутся работоспособными? Как узнать, что происходит нечто подозрительное? Применяется то же правило! Шарлатан зловещий персонаж, который показывает вам, насколько хорошо модель работала на тех же данных, которые они использовали для создания модели.

Если вы создали безумно сложную систему машинного обучения, как узнать, насколько она хороша? Вы не узнаете, пока не покажете, что она работает с новыми данными, которых раньше не видела.

Когда вы видели данные до прогнозирования вряд ли это предсказывание.

Когда у вас достаточно данных для разделения, вам не нужно ссылаться на красоту ваших формул, чтобы оправдать проект (старая модная привычка, которую я вижу везде, не только в науке). Вы можете сказать: Я знаю, что это работает, потому что могу взять набор данных, которого раньше не видел, и точно предсказать, что там произойдет и буду прав. Снова и снова.

Проверка вашей модели/теории на новых данных лучшая основа для доверия.

Я не терплю шарлатанов данных. Мне все равно, опирается ли ваше мнение на разные фишки. Меня не впечатляет красота объяснений. Покажите мне, что ваша теория / модель работает (и продолжает работать) на целом ряде новых данных, которых вы никогда раньше не видели. Это и есть настоящая проверка стойкости вашего мнения.

Обращение к специалистам в области Data Science


Если вы хотите, чтобы к вам серьезно относились все, кто понимает этот юмор, перестаньте прятаться за причудливыми уравнениями, чтобы поддерживать личные предубеждения. Покажите, что у вас есть. Если хотите, чтобы те, кто понял, рассматривали вашу теорию/модель как нечто большее, чем просто вдохновляющую поэзию, имейте смелость устроить грандиозное представление того, насколько хорошо она работает на совершенно новом наборе данных при свидетелях!

Обращение к руководителям


Отказывайтесь принимать всерьез любые идеи о данных, пока они не проверены на новых данных. Не хочется прикладывать усилия? Придерживайтесь аналитики, но не полагайтесь на эти идеи они ненадежны и не были проверены на надежность. Кроме того, когда у организации есть данные в изобилии, нет никакого недостатка в том, чтобы сделать разделение основой в науке и поддерживать его на уровне инфраструктуры, контролируя доступ к тестовым данным для статистики. Это отличный способ пресечь попытки вас надурить!

Если вы хотите увидеть больше примеров шарлатанов, замышляющих что-то нехорошее вот чудесный тред в Twitter.

Итоги


Когда данных слишком мало для разделения, только шарлатан пытается строго следовать вдохновению, открывая Америку ретроспективно, математически переоткрывая явления, о которых уже известно, что они есть в данных, и называя удивление статистически значимым. Это отличает их от непредубежденного аналитика, имеющего дело с вдохновением, и дотошного статистика, предлагающего доказательства при прогнозировании.

Когда данных много, заведите привычку разделять данные, так вы сможете иметь лучшее из обоих миров! Обязательно делайте аналитику и статистику отдельно по отдельным подмножествам исходного нагромождения данных.

  • Аналитики предлагают вам вдохновение и широту взглядов.
  • Статистики предлагают вам строгое тестирование.
  • Шарлатаны предлагают вам извращенный ретроспективный взгляд, который притворяется аналитикой плюс статистикой.


Возможно, после прочтениястатьи, у васпоявится мысль а не шарлатан ли я? Это нормально. Прогнать эту мысль можно двумя способами: во-первых, оглянуться, посмотреть,что вами сделано, принесла ли ваша работа с данными практическую пользу. А во-вторых, можно еще поработать над своей квалификацией (что уж точно лишним не будет), тем более своим студентам мы даем практические навыки и знания, которые позволяют им стать настоящими дата-сайентистами.

image




Читать еще


Подробнее..

Тренды в Data Science 2020-2021 года

11.12.2020 16:14:18 | Автор: admin
Привет Хабр! Сегодня я расскажу, как развивается сфера Data Science. 2020 год стал переломным не только для мира в целом, сфера данных активно совершенствуется и сегодня можно уже подводить итоги года. Встречайте тренды DS в 2020-2021 году.

Я сделал КДПВ, а потом обработал с помощью нейросети. Кто узнал фильм тот молодец! :-)


ИИ и нейросети


Искусственный интеллект хоть всё ещё испытывает трудности с тестом Тьюринга, но успехи на этом поприще есть.

В мае 2020 года команда OpenAI выпустила новый алгоритм обработки естественного языка GPT-3. Сегодня это, без сомнения, лучший существующий алгоритм для данной цели.

Улучшения системы по сравнению с прошлой версией GPT-2 просто колоссальные. Количество параметров алгоритма увеличилось более чем в 100 раз. GPT-3 использует 175 млрд. параметров, когда GPT-2 использовал только 1,5 млрд.



И если раньше нейросеть могла генерировать текст, который только приблизительно напоминал человеческий, то сейчас её возможности куда шире.

Один студент в своём аккаунте Apolos публиковал статьи, написанные GPT-3. Не очень сложные, в стиле мотивационного тренера. И только один из десятков тысяч читателей заподозрил, что статьи написаны не человеком.



Собственно, поэтому OpenAI не выпускают алгоритм в свободный доступ с его помощью можно просто похоронить Интернет под лавинами фейковых новостей.

Потенциальная польза в GPT-3 просто огромна. От создания нового поколения голосовых помощников до разработки адаптивных игровых механик, которые выведут RPG на абсолютно новый уровень.

Кстати, вы уже пробовали AI Dungeon, текстовую игру, которую ведет GPT-3? Если вдруг нет, попробуйте, это очень интересный опыт. Вот в этой статье описан один из таких опытов.

Decision intelligence


Наука о принятии решений довольно свежая дисциплина, которая изучает научные теории о принятии решений. Чтобы решения принимались не по субъективному опыту или ощущениям ЛПРа, а с помощью анализа и сопоставления данных.

DI позволяет автоматизировать принятие рутинных и операционных решений, разгружая человека, принимающего решение.

Медицинская система InferVision, основанная на алгоритме Alpha Go, была запущена в 2015 году, а именно в 2020 она показала всю свою мощь. В Китае многократно выросло число людей, проходящих компьютерную томографию. Специалисты просто не справлялись с обработкой результатов. Ведь на анализ одного КТ медику нужно от 10 до 30 минут.

На помощь пришла InferVision, которая анализировала КТ за 5 секунд. Это позволило сразу отсеивать здоровых людей, у которых нет патологических изменений в легких. А у людей с патологиями система сразу же выдавала предполагаемый диагноз. Естественно, всё это проводилось под контролем специалиста, и решения принимал именно он, но это позволило сократить время на обработку одного анализа в несколько раз.

Decision intelligence основывается на AI и глубоком обучении. InferVision, к примеру, обучали на 100 тыс. кейсов.

Конечно, при текущем развитии технологии AI ещё не может принимать объективно лучшие решения в системах со множественными вариантами. Ему просто не хватает мощностей и исходных данных для анализа. Но во многих моментах он позволяет исключить импульсивность человека, его ангажированность и банальные ошибки мышления. А ещё автоматизировать рутинные процессы принятия решений и сохранить время специалиста для решения сложных задач.

Облачная аналитика


Облачные системы аналитики существовали и раньше, но в 2020 году динамика их развития сильно увеличилась.

Облачная аналитика позволяет упростить процесс использования больших массивов данных, которые часто обновляются. Единая система аналитики для всех подразделения компании помогает актуализировать результаты аналитики и ускорить их использование.

Аналитика в реальном времени это следующий этап, к которому стремятся многие компании. Лучше оперировать горячими результатами анализа, который сделан несколько секунд назад. Ведь анализ, сделанный вчера, уже может оказаться неточным.

Облачная аналитика это перспективный инструмент для гигантов бизнеса, которые имеют отделы аналитики в каждом филиале. Поэтому крупные компании типа IBM сегодня плотно занимаются разработкой таких систем.

Маркетплейсы данных


Связанное с облачной аналитикой, но при этом самостоятельное явление.

Качество данных для анализа критично. Если у стартапа нет возможности провести глобальное маркетинговое исследование, то он рискует двигаться вслепую, не зная реальных потребностей ЦА.

Но сейчас аналитику можно купить. Маркетплейсы данных это полноценные рынки информации. Известная Statista один из первых подобных маркетплейсов, но сейчас отрасль растёт колоссальными темпами.

Естественно, персональными данными никто не торгует (по крайней мере легально). Имена и фамилии, адреса проживания, номера телефонов и email защищены законом. Но вот обезличенные данные продавать можно. А там очень много полезного для бизнеса. Возраст и пол, социальное положение, предпочтения, сфера работы, хобби, национальность и сотни других параметров, которые вы оставляете в сети, вплоть до выбора гаджетов на iOS или Android. Вспоминаем старую истину если что-то в сети бесплатно, то возможно оплатой являетесь вы сами.

Рынок Big Data в 2020 году составляет 138,9 млрд. долларов. Эксперты прогнозируют, что к 2025 он вырастет до 229,4 млрд. Это колоссальные масштабы, в которых львиную долю будет занимать именно продажа информации, а не её майнинг.

Блокчейн в аналитике


Хайп по поводу блокчейна уже немного прошёл. Это в 2017 году только ленивый не хотел запустить свою криптовалюту, а в 2020 блокчейн используют в более прагматичных целях.

Комбинацию блокчейн и big data называют идеальным союзом. Блокчейн сосредоточен на вычленении и записи достоверных данных, data science анализирует большие массивы данных, чтобы находить паттерны развития и делать прогнозы.

Big data это количество, а блокчейн качество.
Потенциальных преимуществ от интеграции блокчейна в анализ big data просто куча:

  • Улучшение безопасности данных и результатов аналитики.
  • Сохранение максимальной целостности данных.
  • Предотвращение использования неправдивых данных.
  • Аналитика в реальном времени.
  • Улучшение качества big data.

Блокчейн для KYC (know your customers). Технология используется банками и государственными организациями. Но так как между разными организациями нет общего хранилища данных, в каждой из них проходить идентификацию нужно отдельно. Блокчейн решает эту проблему.

Платформа Samsung Nexleger, которую запустили в Корее, упрощает эту схему. Теперь достаточно пройти полную процедуру идентификации только в одном банке или организации. Если нужно будет создать аккаунт в банке, который входит в систему проекта, то сделать это можно за несколько минут. Теперь все круги бюрократического ада нужно пройти только один раз и все.

Графовые базы данных


Не самый популярный и распространённый тип СУБД. Он разработан специально для хранения топологий, которые включают в себя узлы и их взаимосвязи. Это не просто набор данных в классическом формате таблицы. Сама их суть отличается.

В основе графов именно связи между сущностями, а не сами сущности.



И это просто клондайк для маркетинга. Ведь анализ графовых БД можно использовать для анализа лидеров мнений и инфлуенсеров в соцсетях, персонификации рекламы, программ лояльности, анализа вирусных кампаний, усиления SEO и много другого.

Графы позволяют анализировать сложные иерархические структуры, которые с помощью реляционных БД моделировать было бы проблематично.

В 2020 году графовый анализ активно использовали для трекинга распространения вируса в Китае и за его пределами. Исследование основано на динамических данных 200 стран, что позволяет прогнозировать дальнейшее развитие ситуации в мире и принять меры, чтобы смягчить последствия. Если интересно, полное исследование здесь.

В 2020 году значительно увеличился интерес к графовым СУБД. Их используют Ebay, Airbnb, IBM, Adobe, NBC News и десятки других крупных компаний. И специалисты, которые умеют хорошо работать с графовыми БД, ценятся на вес золота.

Python в Data Science


Python продолжает захватывать мировой рынок аналитики и разработки. И его позиции только укрепляются. Вот в этой статье можно почитать подробнее.

В рейтинге PYPL, Python, который анализирует Google Trends уверенно лидирует.

В рейтинге GitHub по количеству пулреквестов Python занимает второе место: 15,9% от общего числа всех пулреквестов. Для сравнения: язык R, с которым Python всегда соперничает в аналитике, находится аж на 33-м месте, и на его долю приходится только 0,09% пулреквестов.

Специалисты с владением Python в аналитике нужны больше. Мы не так давно анализировали рынок вакансий Data Science в России и обнаружили, что владение Python нужно в 81% вакансия, а вот R (без Python) требуют только в 3% случаев.

R остается хорошим языком для аналитики, но Python практически полностью захватил рынок. Если в 2012 году они находились примерно в равном положении, то сейчас лидерство Python неоспоримо. И с этим нужно считаться.

2020 год принёс в Data Science много нового, ведь сама сфера аналитики больших данных сейчас активно развивается. Безусловно, это далеко не все тренды, о которых стоит упомянуть. И отдельный вопрос дата-сайентистам а какие профессиональные тренды повлияли на вашу работу в этом году больше всего? Нам очень интересно услышать.


image

Как обычно, промокод HABR добавит 10% к скидке на обучение, отраженной на баннере.


Подробнее..

Data Analyst или Data Scientist кем бы вам хотелось быть?

10.07.2020 16:05:35 | Автор: admin
Каково находиться в каждой из этих ролей, рассказывает Matt Przybyla, автор статьи, опубликованной в блоге towardsdatascience.com. Предлагаем вам ее перевод.


Фото с сайта Unsplash. Автор: Christina @ wocintechchat.com

Мне довелось поработать и профессиональным аналитиком данных (Data Analyst), и исследователем данных (Data Scientist). Думаю, было бы полезно поделиться опытом по каждой должности, указывая ключевые различия в повседневных задачах. Я надеюсь, что моя статья поможет определиться, что подходит именно вам. А тем, кто уже работает, возможно, после прочтения захочется изменить свою должность. Некоторые начинают аналитиками данных, а затем переходят в исследователи. Не так популярен, но не менее интересен путь от исследователя на невысоких позициях до аналитика на позиции сеньора. Обе должности имеют свои особенности и требуют определенных умений, о которых необходимо знать, прежде чем сделать следующий большой шаг в профессиональном развитии.

Ниже я, опираясь на свой опыт, расскажу, что такое быть аналитиком данных и исследователем данных, и подробно отвечу на наиболее частые вопросы о каждой позиции.

Data Analyst


Если вы хотите описывать данные за прошедший период или текущий момент и презентовать стейкхолдерам ключевые результаты поиска, полную визуализацию изменений и тенденций, значит, вам подходит позиция аналитика данных. У упомянутых должностей есть общие черты, которые я описывал в другой статье, охватывающей сходства и различия между необходимыми для этих позиций навыками. Сейчас же я хочу показать, как роль аналитика данных в сравнении с ролью исследователя данных ощущается. Очень важно понимать, чего ждать этим специалистам в их повседневной работе. Аналитик будет взаимодействовать с разными людьми, много общаться и поддерживать высокий темп выполнения задач выше, чем требуется от исследователя данных.

Поэтому впечатления, получаемые на каждой из должностей, могут сильно различаться.

Ниже вы найдете ответы на самые частые вопросы о том, с чем сталкиваются аналитики данных.

  • С кем придется работать?

В основном со стейкхолдерами компании, которые запрашивают обобщение данных, визуализацию выводов и отчеты по результатам. Общение, как правило, устное или через цифровые каналы: электронную почту, Slack и Jira. По моему опыту, вам предстоит тесно взаимодействовать с человеческой и аналитической составляющими бизнеса, а не инженерной и производственной.

  • Кому предоставляются результаты?

Вероятнее всего, вышеупомянутым стейкхолдерам. Однако если у вас есть менеджер, вы отчитываетесь перед ним, а он уже передает данные стейкхолдерам. Не исключен и вариант, когда вы собираете пул запросов, составляете по ним отчет и презентуете стейкхолдерам. Для составления отчетов у вас могут быть такие инструменты, как Tableau, Google Data Studio, Power BI и Salesforce, которые обеспечивают легкий доступ к данным, например к файлам CSV. Другие инструменты требуют больше технических усилий составления расширенных запросов к базам данных с помощью SQL.

  • Какими будут темпы работы над проектом?

Значительно выше, чем у исследователей данных. Вы можете подготавливать несколько пулов данных (запросов) или отчетов ежедневно и крупные презентации с выводами еженедельно. Поскольку вы не строите модели и не составляете прогнозы (обычно), а результаты скорее описательные и ситуативные, работа идет быстрее.

Data Scientist


Исследователи данных довольно сильно отличаются от аналитиков данных. Они могут использовать одинаковые инструменты и языки, но исследователю приходится работать с другими людьми, над более крупными проектами (такими как создание и внедрение модели машинного обучения) и тратить на это больше времени. Аналитики данных обычно работают над своими проектами самостоятельно: например, использовать панель Tableau для презентации результатов может и один человек. Исследователи данных вправе привлекать нескольких инженеров и менеджеров по продукту для эффективного выполнения бизнес-задач с использованием правильных инструментов и качественных решений.

  • С кем придется работать?

В отличие от аналитика данных, вам предстоит взаимодействовать со стейкхолдерами только по некоторым вопросам, по другим же, связанным с моделями и результатами их использования вопросам вы будете обращаться к инженерам данных, инженерам по программному обеспечению и менеджерам по продукту.

  • Кому предоставляются результаты?

Вы можете делиться ими со стейкхолдерами, а также с инженерами, которым важно иметь представление о готовом продукте, чтобы, например, разработать UI (пользовательский интерфейс) в соответствии с вашими прогнозами.

  • Какими будут темпы работы над проектом?

Вероятно, самая большая разница в восприятии и функционировании этих должностей заключается в количестве времени на каждый проект. Скорость работы аналитиков данных довольно высока, а исследователям данных могут потребоваться недели или даже месяцы для завершения проекта. Разработка моделей и подготовка проектов исследователя данных это долгие процессы, поскольку они включают сбор данных, разведочный анализ данных, создание основной модели, итерирование, настройку модели и извлечение результатов.

Заключение



Фото с сайта Unsplash. Автор: Markus Winkler

Аналитики и исследователи данных пользуются одинаковыми инструментами, такими как Tableau, SQL и даже Python, но профессиональные задачи у них могут быть очень разными. Повседневная деятельность аналитика данных включает больше собраний и личного взаимодействия, требует прокачанных софт-скиллов и быстрого выполнения проектов. Работа исследователя предполагает более долгие процессы, общение с инженерами и менеджерами по продуктам, а также построение прогностических моделей, осмысляющих новые данные или явления в их развитии, тогда как аналитики фокусируются на прошлом и текущем состоянии.

Надеюсь, статья была интересной и полезной. Спасибо за внимание!
Подробнее..

Категории

Последние комментарии

  • Имя: Макс
    24.08.2022 | 11:28
    Я разраб в IT компании, работаю на арбитражную команду. Мы работаем с приламы и сайтами, при работе замечаются постоянные баны и лаги. Пацаны посоветовали сервис по анализу исходного кода,https://app Подробнее..
  • Имя: 9055410337
    20.08.2022 | 17:41
    поможем пишите в телеграм Подробнее..
  • Имя: sabbat
    17.08.2022 | 20:42
    Охренеть.. это просто шикарная статья, феноменально круто. Большое спасибо за разбор! Надеюсь как-нибудь с тобой связаться для обсуждений чего-либо) Подробнее..
  • Имя: Мария
    09.08.2022 | 14:44
    Добрый день. Если обладаете такой информацией, то подскажите, пожалуйста, где можно найти много-много материала по Yggdrasil и его уязвимостях для написания диплома? Благодарю. Подробнее..
© 2006-2024, personeltest.ru