Data analyst

Перевод Знакомство с Decision Intelligence

15.06.2020 18:18:41 |

Автор: admin

Новая дисциплина в борьбе за лидерство в эпоху искусственного интеллекта

Знаете, что общего между защитным поведением при встрече со львами в саванне, ответственным подходом к управлению ИИ и проблемами проектирования хранилищ данных? Добро пожаловать в decision intelligence!

Decision intelligence новая научная дисциплина, рассматривающая все аспекты теории принятия решения. Она объединяет лучшее из прикладного направления data science, социальных наук и науки управления в единую область, призванную помочь людям повысить качество жизни, усовершенствовать бизнес и улучшить окружающий мир, используя данные. Это важнейшая наука эры искусственного интеллекта, включающая в себя навыки грамотного управления проектами, стратегического планирования целей, определение оптимальной метрики и систем безопасности для широкомасштабной автоматизации.

Decision intelligence дисциплина, позволяющая превратить информацию в лучшее практическое действие любого масштаба.

Давайте немного разберемся с основной терминологией и концепциями. Следующие абзацы можно просмотреть бегло (или совсем пропустить, если информация покажется вам чересчур занудной).

Что значит decision (решение)

Данные прекрасны, но важны именно решения. Именно наши решения наши действия влияют на мир, окружающий нас.

Под decision мы понимаем любой выбор между вариантами любого субъекта, так что разговор куда обширнее, нежели типичная дилемма в духе MBA (вроде: открывать филиал своего бизнеса в Лондоне или пока не стоит).

Именно наши решения наши действия влияют на мир, окружающий нас.

Исходя из этой формулировки, присвоение фотографии пользователя ярлыка со значением, к примеру, кошка или не-кошка, это решение, которое выполняет компьютерная система. Но решение запускать ли эту систему, обдумывает и принимает руководитель-человек (я надеюсь!), ответственный за проект.

Кто такой decision-maker (лицо, принимающее решение)

В нашем понимании, decision-maker это не заинтересованное лицо или инвестор, который вмешивается в процесс, чтобы наложить вето на деятельность проектной команды, а человек, ответственный за архитектуру решений и формирование контекста. Другими словами, это создатель тщательно сформулированных целей, а не их разрушитель.

Что значит decision-making (принятие решений)

Decision-making словосочетание, которое разные дисциплины используют по-разному. И означать оно может:

принятие мер при наличии альтернативных вариантов (в этом смысле принимать решение может как компьютер, так и ящерица);
выполнение обязанности (человека) по принятию решений, и несение за них ответственности. Даже если компьютерная система может принимать решение, она не может быть названа лицом, принимающим решения. Система не несет ответственности за полученные результаты эта ответственность всецело ложится на плечи людей, которые ее создали.

Делать расчеты vs. принимать решения

Не все мероприятия/предложения являются решениями. Согласно терминологии анализа решений, решение принимается лишь раз, и полученные изменения нельзя откатить назад. Если можно вернуть изменения без лишних затрат, значит решение еще не было принято.

Систематика decision intelligence

Один из способов приблизиться к изучению decision intelligence разбить её по традиционным направлениям на количественные аспекты (в основном пересекающиеся с прикладной data science) и качественные (разрабатываемые преимущественно исследователями в области социальных и управленческих наук).

Качественная сторона: наука о принятии решений

Дисциплины, попадающие в группу качественных аспектов, традиционно называются науками о принятии решений хотела бы я, чтобы все целиком так и называлось (увы, мы не всегда имеем, что хотим).

Наука о принятии решений занимается такими вопросами, как:

Как правильно настроить критерии принятия решений и рассчитать метрики? (Все дисциплины)
Является ли выбранный вами параметр мотивационно совместимым? (Экономика)
Решения какого качества вы должны принимать, и сколько вы должны отдать за точную информацию?" (Анализ решений)
Как эмоции, эвристика и предубеждения влияют на принятие решений? (Психология)
Как биологические факторы, к примеру, уровень кортизола, могут сказаться на принятии решений? (Нейроэкономика)
Как изменения в представлении информации влияют на принимаемые решения? (Поведенческая экономика)
Как вы осуществляете оптимизацию своих результатов при принятии решений в контексте группы? (Экспериментальная теория игр)
Как сбалансировать многочисленные ограничения и многоступенчатые цели при разработке контекста решения? (Проектирование)
Кого коснутся последствия решения, и как различные группы воспримут этот опыт? (Исследования опыта взаимодействия)
Является ли это решение объективным и этичным? (Философия)

Это лишь малая частьговорить еще можно о многом! И конечно это еще не полный список задействованных дисциплин. Рассмотрите науку о принятии решений с точки зрения того, что настройка параметров решений и обработка информации протекают в не совсем четкой форме хранения (в человеческом мозгу), а не исходя из того, что нечто, называемое данными, аккуратно занесено в почти постоянное хранилище (записано на бумагу или в электронном виде).

Ошибки вашего мозга

В прошлом столетии было модно восхвалять любого, кто сумел сунуть огромный клубок математики в какое-нибудь невинное человеческое предприятие. Количественный подход, конечно, лучше бездумного хаоса, но есть способ сделать все гораздо лучше.

Стратегии, основанные на чисто математической рациональности, относительно наивны и, как правило, недостаточно эффективны.

Стратегии, основанные на чистой математической рациональности без качественного понимания процесса принятия решений и человеческого поведения, выглядят довольно наивно. Более того, как правило, они менее эффективны в сравнении со стратегиями, основанными на объединении количественной и качественной сторон. (Следите за новостями в блогах по истории рациональности в социальных науках, а также за примерами из теории поведенческих игр, где психология превосходит математику.)

Люди не оптимизаторы, мы ублажатели. Звучит особенно причудливо для людей, которые ищут легкий путь.

Люди не оптимизаторы, мы ублажатели (Satisficing), что звучит причудливо для людей, которые предпочитают легкий путь и довольствуются хорошим, а не совершенным. (Это концепция настолько шокировала высокомерие нашего вида нанесла удар по лицу человека разумного, богоподобного и безупречного что удостоилась Нобелевской премии.)

На самом деле мы, люди, обращаемся к когнитивной эвристики, чтобы сэкономить время и усилия. Часто это бывает полезным; пока мы будем думать над идеальным планом побега от льва в саванне, нас съедят прежде, чем мы вообще успеем приступить к расчетам. Удовлетворенность снижает калорийность жизни, что также хорошо, ведь наш мозг до смешного крайне энергоемкий девайс. Пятая часть энергетических затрат организма уходит именно на него, хоть он и весит всего-то около 1,4 кг. (Спорим, в общей сложности вы точно весите больше 7 кг?)

Некоторые решения срезать углы ведут к предсказуемо не оптимальным результатам.

Теперь мы уже не проводим свои дни, спасаясь бегством ото львов, и часто с удовольствием срезаем углы, что приводит нас к дрянным результатам. Наш мозг еще не до конца, эм, ну что ли оптимизирован для современной среды. Понимание того, как наш вид превращает информацию в действие, позволяет использовать процессы принятия решений для защиты себя от несовершенств собственного мозга (а также от тех, кто намеренно играет на наших инстинктах). Это также помогает создавать инструменты, которые увеличивают производительность и адаптируют вашу среду к вашему же мозгу.

Если думаете, что ИИ выводит человека из уравнения, подумайте еще раз!

К слову, если вы вдруг подумали, что искусственный интеллект выводит человека из уравнения, подумайте еще раз! Все технологии являются отражением своих создателей, а все полномасштабные системы могут усиливать человеческие недостатки, что является одной из причин, почему развитие навыков принятия решений так необходимо для ответственного управления ИИ.

Возможно, вы не принимаете решение

Иногда тщательное обдумывание критериев принятия решения приводит к осознанию того, что нет такого факта в мире, который смог бы изменить ваше мнение вы уже решили, как будете действовать и теперь просто ищете оправдание. Это полезное осознание оно предотвращает потерю времени и помогает справиться с эмоциональным дискомфортом, пока вы делаете то, что и собирались, невзирая на проклятые данные.

Он использует статистику, как пьяный человек использует фонарные столбы для поддержки собственного равновесия, а не для освещения дороги.
Эндрю Лэнг

Не получится добиться решения, если не реагировать и не предпринимать ответные действия на различные, временно неизвестные факторы хотя иногда обучение анализу решений помогает вам увидеть ситуацию более ясно.

Принимать решения на основе точной информации

Теперь представьте, что вы очень тщательно подходите к настройке параметров решения, которые чутко реагируют на факты. Вы просто щелкаете пальцами и получаете фактическую информацию, необходимую для выполнения вашего решения. Зачем вам тогда data science? Не зачем.

Сперва нужно выяснить, как мы хотим реагировать на факты.

Нет лучше состояния, чем уверенность, что вы что-то знаете наверняка (да, я понимаю, что здесь зияет огромная релятивистская кроличья нора, опустим этот момент) поэтому мы всегда предпочтем принимать решения на основе имеющихся фактов. Вот почему первым делом мы должны решить, как мы будем работать с фактами. Какой из ниже перечисленных вариантов вы бы выбрали для работы с информацией?

Что можно сделать с фактами

Можно использовать факты для принятия единственно важного предварительного решения. Если перед вами стоит серьезный выбор, скорее всего вам придется опираться на качественную сторону вещей, чтобы мудро сформулировать решение. Психологи знают, что если попасть в засаду из-за неожиданно открывшейся информации, то придется так вертеться, как совсем того не хотелось бы. Поэтому психологи (и не только) многое могут рассказать о том, как подойти к выбору информации, которой вы собираетесь оперировать заранее.
Используя факты, можно прийти к особому типу заранее сформированных решений действенным или, по-другому, причинно-обусловленным. Если ваше решение должно быть обусловлено тем, что надо что-то сделать, чтобы что-то произошло, то, соответственно, вы работаете с фактами, отражающими причинно-следственные связи, и принимаете решение. В данном случае факты о последствиях бесполезны (например, люди выздоравливают), если нет фактов о причине (например, благодаря антибиотикам). Чтобы получить информацию о причинах и следствиях, можно провести контролируемый эксперимент. С другой стороны, эксперимент не нужен, если вы принимаете решение об исполнении чего-либо как ответную реакцию на некий не-причинный факт (когда на счету у меня будет хотя бы x сумма, то я побалую себя новыми туфлями).
Можно использовать факты, чтобы укрепиться во мнении (Я думаю, что погода солнечная превращается в Я знаю, что погода солнечная).
Можно использовать факты, чтобы принять единственно важное решение, обусловленное реальным существованием. Решение на основе реально существующих факторов (Я сейчас узнал, что рядом зафиксирован случай заражения вирусом Эбола, поэтому я немедленно сваливаю отсюда...) это решения, принятые в условиях возникновения ранее неизвестных переменных, которые так сильно подрывают фундамент ваших суждений, что задним числом вы понимаете: контекст для обдумывания решения был сформулирован некорректно.
Можно использовать факты, чтобы автоматизировать процесс принятия большого количества решений. В традиционном программировании человек прописывает серию команд для преобразования вводимых данных в соответствующие действия, возможно, используя что-то вроде поисковой таблицы.
Можно использовать факты, чтобы определить, какими будут решения по автоматизации. Зная факты о системе, можно написать код на их основе. Так подходить к традиционному программированию гораздо лучше, нежели сидеть и напряженно придумывать структуру решения, не имея какой-либо информации. Например, если вы не знаете, как перевести градус Цельсия в градус Фаренгейта, вы можете, используя набор данных, выполнить поиск по записям градусов Фаренгейта, которые идут вместе с градусами Цельсия но если проанализировать саму таблицу поиска, вы обнаружите формулу, которая их связывает. Тогда вы сможете просто закодировать эту формулу (модель), чтобы избавиться от нежелательной работы и забыть про дурацкую таблицу.
Можно использовать факты, чтобы сгенерировать оптимальное решение проблемы автоматизации, которая может быть полностью разрешена. Это традиционная оптимизация. Вы найдете много примеров в области исследования операций, которая кроме всего прочего занимается вопросом: как устранять препятствия, чтобы добиться идеального результата, например, наилучшего порядка выполнения ряда задач.
Можно использовать факты, чтобы обдумать возможный подход к принятию будущих важных решений. Это часть аналитики, которая также относится к разделу частичной информации. Запомните эту мысль! (еще пригодится)
Вы можете использовать факты, чтобы подвести итоги того, с чем имеете дело. Это поможет вам понять, какие виды входных данных вы можете использовать для принятия решений в будущем и разработать способы более эффективной работы с информацией. Если вы только что унаследовали большое, темное хранилище (данных), наполненное непонятными компонентами, вы не будете знать, что внутри, пока кто-то туда не заглянет. К счастью, у вашего аналитика есть фонарик и ролики.
Можно небрежно использовать факты, чтобы принимать решения вне контекста. Это эффективно, когда нет высоких ставок и не требуется излишних усилий или осторожности, например: что я буду сегодня на обед? Стремление все время строго подходить к планированию решений дает неоптимальные долгосрочные / пожизненные результаты и попадает в категорию бессмысленного перфекционизма. Приберегите усилия для действительно ответственных ситуаций, но, пожалуйста, помните, что даже если эффективно использовать некачественный подход с малой затратой усилий, оптимальный подход к принятию решений все равно получится низкого качества. Вы не должны бить себя в грудь или быть слишком самоуверенными, если это ваш метод Если вы срезаете углы, то вы скорее всего идете по тонкому льду. Бывают ситуации, когда и шаткие доказательства вдруг прокатывают, но это не значит, что ваше умозаключение надежно. Не надейтесь на него. Если хотите принимать качественные решения, вам нужно придерживаться более строгого подхода.

Обучаясь науке принятия решений, вы научитесь экономить усилия, необходимые для принятия строгих решений, основанных на фактах. Это позволит в течение того же объема работы принимать более качественные решения по любому предмету. Ценный навык, но чтобы его отшлифовать, придется проявить усердие. Например, у студентов, изучающих поведенческую экономику, формируется привычка устанавливать критерии принятия решений заранее, до получения информации. Те из нас, кому пришлось несладко из-за достаточно требовательных программ обучения науке принятия решений, не могут не задаться вопросом, к примеру, сколько максимально мы заплатим за билет, ДО того, как узнаем его подлинную стоимость.

Сбор данных и инженерия данных

Будь у нас факты, мы бы уже все сделали. Увы, но мы живем в реальном мире и зачастую вынуждены работать, чтобы заполучить заветную информацию. Инженерия данных это сложная дисциплина, ориентированная на обеспечение надежного доступа к информации в широких масштабах. Подобно тому, как легко выйти в магазин за мороженным, легко и обработать данные, если вся доступная релевантная информация есть в электронной таблице.

Ситуация осложняется, когда вам нужно доставить 2 миллиона тонн мороженого в такое место, где оно точно не растает! Все становится еще сложнее, если вам требуется спроектировать и построить огромный склад, а затем еще заняться его обслуживаем. И вы даже не знаете, что в будущем вас попросят в нем хранить может пару тонн рыбы, а может и плутоний ну, удачи вам!

Сложно соорудить склад, когда вы знать не знаете, о чем вас попросят на следующей неделе может, передержать несколько тонн рыбы, а может и плутония ну, удачи вам!

Хотя инженерия данных и является родственной наукой и основным компонентом decision intelligence, наука о принятии решений охватывает опыт и специальные знания, связанные с консультированием при разработке проекта и сборе фактов.

Количественная сторона: Data science

Когда вы сформулировали свое решение и занялись поиском необходимых фактов, заручившись поддержкой поисковой системы или аналитика (исполняющего для вас роль человеческой системы поиска), все, что от вас теперь требуется привести свое решение в действие. И готово! Никакой мудреной data science и не нужно.

Что, если, после всей этой работы, беготни и технического джиу-джитсу полученные факты в итоге оказались не теми идеальными фактами, которые так необходимы для решения? Что, если это неполноценные факты? Что, если вам нужны завтрашние факты, но имеете вы только вчерашние. (Так бесит, когда не можешь вспомнить будущее.) Возможно вы хотите знать, что потенциальные клиенты думают о вашем продукте, но опросить вы можете лишь сто человек. Вы столкнулись с неопределенностью! То, что вы знаете совсем не то, что хотелось бы знать. Пустите в дело data science!

Data science приобретает интерес, когда вы совершаете скачки и выходите за пределы data но будьте осторожны, чтобы не упасть подобно Икару!

Разумеется, ваш подход меняется, раз вы располагаете не теми фактами, что надо. Может быть, в ваших руках кусочек пазла от большой мозаики (как в примере с выборкой из большого числа потребителей). А может, ваш пазл неправилен, но, во всяком случае, лучший из имеющихся (как с использованием прошлого для предсказание будущего). Data science приобретает интерес, когда вы совершаете скачки и выходите за пределы data но будьте осторожны, чтобы не шлепнуться подобно Икару!

Можно брать неполные факты и, делая некоторые допущения, принимать единственно важное предварительное решение со статистическим выводом, чтобы понимать, потребуется ли менять алгоритм действий или нет. Это частотная (классическая) статистика. Если вы принимаете действенное решение (сформулированное с точки зрения того, чтобы что-то произошло, например, вам бы хотелось изменить цвет логотипа на оранжевый, но только если это изменение привлечет больше посетителей на сайт), то лучше использовать данные рандомизированного контролируемого эксперимента. Если вы принимаете решение об исполнении (например, вы бы хотели изменить цвет логотипа на оранжевый, но только в том случае, если по крайней мере 25% пользователей сайта считают оранжевый своим любимым цветом), то достаточно будет провести опрос или исследование методом наблюдения.
Можно использовать неполные факты как обоснование, чтобы поменять мнение ввиду новых обстоятельств (но все равно ваши суждения будут неполноценными и субъективными). Это байесовская статистика. Если мнение основывается на причинно-следственных связях, то лучше тогда брать данные контролируемого рандомизированного эксперимента.
Может так оказаться, что ваши неполные факты содержат информацию о реально происходящих событиях, что означает, что вы можете использовать их задним числом для принятия решений на основе реально существующих факторов (см. выше)
Можно использовать факты, чтобы автоматизировать процесс принятия большого количества решений. Это традиционное программирование, использующее что-то вроде поисковой таблицы, где вы конвертируете что-то, чего раньше не знали, в самое близкое, что у вас есть, а затем продолжаете как обычно. (Это то, что алгоритм k-NN делает в двух словах но обычно все работает лучше, когда за двумя словами стоит куда более сложный механизм.)
Можно использовать неполные факты, чтобы обдумать, в каком направлении принимать решения по автоматизации. Зная неполные факты о системе и основываясь на них, вы все еще можете кодить. Здесь работает аналитика.
Можно использовать неполные факты, чтобы сгенерировать решение проблемы автоматизации, которая не имеет полного решения. Так что вам не придется придумывать решатель самостоятельно. Этим займется машинное обучение и ИИ.
Вы можете использовать факты, чтобы проанализировать, с чем вы имеете дело (см. выше) и ускорить работу над решением проблемы автоматизации, используя углубленный анализ данных, например, путем поиска новых способов объединения информации для создания полезных входных данных для модели (если использовать терминологию, то имеется в виду конструирование признаков), или путем поиска новых методов для использования в проекте ИИ.
Можно небрежно использовать неполные факты, чтобы принимать решения вне контекста, но имейте ввиду, что качество будет еще ниже, чем при некорректном использовании фактов, потому что то, что вы действительно знаете, находится в шаге от того, что вы хотели бы знать.

Для всех перечисленных вариантов есть способы интегрировать полезные элементы из множества ранее разрозненных дисциплин, чтобы сформировать более эффективный подход к принятию решений. Вот о чем decision intelligence! Она объединяет различные точки зрения на принятие решений, которые вместе приносят на большую пользу, дает им новый голос, свободный от традиционных ограничений в их родных областях изучения.

Вспомним аналогию между кухней и ИИ. Если исследовательский ИИ создает микроволны, а прикладной ИИ их использует, то decision intelligence использует микроволны безопасно, чтобы выполнить вашу задачу, а в случае, когда вам не требуется микроволновая печь, воспользуется чем-нибудь другим. Цель (задача) всегда будет отправной точкой для decision intelligence.

Узнайте подробности, как получить востребованную профессию с нуля или Level Up по навыкам и зарплате, пройдя платные онлайн-курсы SkillFactory:

Курс по Machine Learning (12 недель)
Курс Профессия Data Scientist (24 месяца)
Курс Профессия Data Analyst (18 месяцев)
Курс Python для веб-разработки (9 месяцев)

Читать еще

450 бесплатных курсов от Лиги Плюща
Бесплатные курсы по Data Science от Harvard University
65 бесплатных курсов по Machine Learning от ведущих университетов мира
30 лайфхаков чтобы пройти онлайн-курс до конца
Самый успешный и самый скандальный Data Science проект: Cambridge Analytica

Подробнее..

Категории: Научно-популярное , Машинное обучение , Data science , Big data , Блог компании skillfactory , Учебный процесс в it , Decision intelligence , Data mining , Data scientist , Data analysis , Data analyst

Перевод Data Science для гуманитариев что такое data

15.06.2020 20:17:21 |

Автор: admin

Размышления об информации, памяти, аналитике и распределениях

Все, что воспринимают наши чувства, это данные, хотя их хранение в наших черепушках оставляет желать лучшего. Записать это немного надежнее, особенно когда мы записываем это на компьютере. Когда эти записи хорошо организованы, мы называем их данными хотя я видел, как некоторые ужасно организованные электронные каракули получают то же имя. Я не уверен, почему некоторые люди произносят слово data так, как будто оно имеет заглавную букву D.

Почему мы произносим data с большой буквы?

Нам нужно научиться быть непочтительно прагматичными в отношении данных, поэтому эта статья поможет новичкам заглянуть за кулисы и помочь практикующим объяснить основы новичкам, у которых проявляются симптомы поклонения данным.

Смысл и смыслы

Если вы начнете свое путешествие с покупки наборов данных в Интернете, вы рискуете забыть, откуда они берутся. Я начну с нуля, чтобы показать вам, что вы можете делать данные в любое время и в любом месте.

Вот несколько постоянных обитателей моей кладовой, расставленных на полу.

Эта фотография представляет собой данные она хранится как информация, которую ваше устройство использует для отображения красивых цветов.

Давайте разберемся в том, на что мы смотрим. У нас есть бесконечные варианты того, на что обращать внимание и помнить. Вот что я вижу, когда смотрю на продукты.

Если вы закрываете глаза, вы помните каждую деталь того, что вы только что видели? Нет? И я нет. Вот почему мы собираем данные. Если бы мы могли помнить и обрабатывать это безупречно в наших головах, в этом не было бы необходимости. Интернет мог быть одним отшельником в пещере, рассказывая обо всех твитах человечества и прекрасно передавая каждую из наших миллиардов фотографий кошек.

Письмо и долговечность

Поскольку человеческая память это дырявое ведро, было бы лучше записать информацию так, как мы делали это раньше, когда я училась в школе статистики, еще в далекие года. Вот именно, друзья мои, у меня все еще где-то здесь есть бумага! Давайте запишем эти 27 данных.

Что хорошего в этой версии относительно того, что находится в моем гиппокампе или на моем полу то, что она более долговечна и надежна.

Человеческая память дырявое ведро.

Мы считаем революцию памяти само собой разумеющейся, так как она началась тысячелетия назад с торговцев, нуждающихся в надежном учете того, кто кому продал, сколько бушелей чего. Потратьте немного времени, чтобы понять, как прекрасно иметь универсальную систему письма, которая хранит цифры лучше, чем наш мозг. Когда мы записываем данные, мы производим неверное искажение наших богато воспринимаемых реалий, но после этого мы можем передавать нетленные копии результата другим представителям нашего вида с идеальной точностью. Писать потрясающе! Маленькие кусочки ума и памяти, которые живут вне нашего тела.

Когда мы анализируем данные, мы получаем доступ к чужим воспоминаниям.

Беспокоитесь о машинах, превосходящих наш мозг? Даже бумага может сделать это! Эти 27 маленьких цифр большой объем для вашего мозга, но долговечность гарантирована, если у вас есть пишущий инструмент под рукой.

Хотя это и выигрыш в долговечности, но работа с бумагой раздражает. Например, что, если мне вдруг взбредет в голову переставить их от большего к меньшему? Абракадабра, бумага, покажи мне лучший порядок! Нет? Черт.

Компьютеры и магические заклинания

Вы знаете, что удивительного в программном обеспечении? Абракадабра на самом деле работает! Итак, давайте перейдем с бумаги на компьютер.

Электронные таблицы оставляют меня равнодушным. Они очень ограничены по сравнению с современными инструментами обработки данных. Я предпочитаю колебаться между R и Python, так что давайте на этот раз возьмем R. Вы можете повторять за мной в вашем браузере с помощью Jupyter: выберите вкладку with R, затем несколько раз нажмите значок ножниц, пока все не будет удалено. Поздравляю, это заняло 5 секунд, и вы готовы вставить мои фрагменты кода и запустить его [Shift + Enter].

weight <- c(50, 946, 454, 454, 110, 100, 340, 454, 200,
148, 355, 907, 454, 822, 127, 750, 255, 500, 500, 500, 8, 125, 284,
118, 227, 148, 125)

weight <- weight[order(weight, decreasing = TRUE)]

print(weight)

Вы заметите, что абракадабра R для сортировки ваших данных не очевидна, если вы новичок в этом.

Ну, это верно для самого слова абракадабра, а также для меню в программном обеспечении электронных таблиц. Вы знаете эти вещи только потому, что были подвержены им, а не потому, что они являются универсальными законами. Чтобы что-то сделать с компьютером, вам нужно попросить своего местного мудреца о волшебных словах/жестах, а затем попрактиковаться в их использовании. Мой любимый мудрец называется Интернет и знает все на свете.

Чтобы ускорить обучение, не просто вставляйте волшебные слова попробуйте изменить их и посмотреть, что произойдет. Например, что изменится, если вы превратите TRUE в FALSE во фрагменте выше?

Разве не удивительно, как быстро вы получаете ответ? Одна из причин, по которой я люблю программирование, заключается в том, что это нечто среднее между магическими заклинаниями и LEGO.

Если вы когда-нибудь хотели, чтобы вы могли творить чудеса, просто научитесь писать код.

Вот вкратце о программировании: спросите Интернет, как сделать что-то, возьмите волшебные слова, которые вы только что выучили, посмотрите, что произойдет, когда вы их отрегулируете, а затем соедините их вместе, как блоки LEGO, чтобы выполнить ваш код.

Аналитика и обобщение

Проблема с этими 27 числами состоит в том, что даже если они отсортированы, они мало что значат для нас. Читая их, мы забываем то, что читали секунду назад. Это человеческий мозг для вас; попросите нас прочитать отсортированный список из миллиона номеров, и в лучшем случае мы запомним последние несколько. Нам нужен быстрый способ сортировки и суммирования, чтобы мы могли понять, на что мы смотрим.

Вот для чего нужна аналитика!

median(weight)

При правильном заклинании мы можем мгновенно узнать, каков средний вес. (Медиана означает среднее.)

Оказывается, ответ 284г. Кто не любит мгновенного удовлетворения? Существуют всевозможные варианты сводки: min(), max(), mean(), median(), mode(), variance() попробуйте все! Или попробуйте это волшебное слово, чтобы узнать, что происходит.

summary(weight)

Кстати, эти вещи называются статистикой. Статистика это любой способ собрать ваши данные. Это не то, что представляет собой область статистики вот 8-минутное введение в академическую дисциплину.

Построение и визуализация

Этот раздел не о типе заговора, который включает мировое господство (следите за новостями этой статьи). Речь идет о суммировании данных с помощью изображений. Оказывается, картинка может быть информативнее тысячи слов.

Если мы хотим знать, как распределяются веса в наших данных например, есть ли еще пункты между 0 и 200 г или между 600 и 800 г? гистограмма наш лучший друг.

Гистограммы являются одним из способов (среди многих) суммирования и отображения наших выборочных данных. Более высокие блоки для более популярных значений данных.

Думайте о гистограммах как о конкурсах популярности.

Чтобы создать приложение для работы с электронными таблицами, волшебное заклинание представляет собой долгий ряд нажатий на различные меню. В R это быстрее:

Вот что мы получили с помощью одной строки:

hist(weight)

На что мы смотрим?

На горизонтальной оси у нас есть столбцы. По умолчанию они установлены с шагом 200г, но мы изменим это через мгновение. На вертикальной оси находятся отсчеты: сколько раз мы видели вес от 0 до 200 г? График говорит 11. Как насчет между 600 г и 800 г? Только один (это поваренная соль, если память не изменяет).

Мы можем выбрать размер наших столбцов по умолчанию, которую мы получили без возни с кодом, 200 г, но, возможно, мы хотим использовать 100 г, вместо этого. Нет проблем! Маги в процессе обучения могут переделать мое заклинание, чтобы узнать, как оно работает.

hist(weight, col = "salmon2", breaks = seq(0, 1000,
100))

Вот результат:

Теперь мы можем ясно видеть, что двумя наиболее распространенными категориями являются 100200 и 400500. Кому-нибудь интересно? Возможно нет. Мы сделали это только потому, что могли. Настоящий аналитик, с другой стороны, преуспевает в науке быстрого просмотра данных и искусстве смотреть, где лежат интересные самородки. Если они хороши в своем ремесле, они на вес золота.

Что такое распределение

Если эти 27 пунктов это все, что нас волнует, то приведенная мною выборочная гистограмма также отражает распределение совокупности.

Это почти то же самое, что и распределение: это гистограмма, которую вы получили бы, если бы применили Hist() ко всей совокупности (ко всей информации, которая вас интересует), а не только к выборке (данным, которые у вас есть под рукой). Есть несколько сносок, например, шкала по оси Y, но мы оставим их для другого поста в блоге пожалуйста, не бейте меня, математики!

Если бы наше население когда-либо упаковывало все продукты питания, распределение было бы в форме гистограммы всех их весов. Такое распределение существует только в нашем воображении как теоретическая идея некоторые упакованные продукты питания теряются в глубине веков. Мы не можем сделать этот набор данных, даже если бы захотели, поэтому лучшее, что мы можем сделать, это угадать, используя хороший пример.

Что такое Data Science

Существует множество мнений, но я предпочитаю следующее определение: Наука о данных это дисциплина, которая делает данные полезными. Три ее подраздела включают анализ большого количества информации для поиска инсайтов (аналитика), разумное принятие решений на основе ограниченной информации (статистика) и использование шаблонов в данных для автоматизации задач (ML/AI).

Вся наука о данных сводится к следующему: знание это сила.

Вселенная полна информации, ожидающей сбора и использования. Хотя наш мозг прекрасно разбирается в наших реалиях, он не так хорош в хранении и обработке некоторых видов очень полезной информации.

Вот почему человечество обратилось сначала к глиняным табличкам, затем к бумаге и, в конечном итоге, к кремнию за помощью. Мы разработали программное обеспечение для быстрого просмотра информации, и в наши дни люди, которые знают, как ее использовать, называют себя учеными или аналитиками данных. Настоящие герои это те, кто создает инструменты, которые позволяют этим практикующим лучше и быстрее овладеть информацией. Кстати, даже интернет это аналитический инструмент мы просто редко думаем об этом, потому что даже дети могут проводить такой анализ данных.

Апгрейд памяти для всех

Все, что мы воспринимаем, хранится где-то, по крайней мере, временно. В данных нет ничего волшебного, кроме того, что они записаны более надежно, чем мозг. Некоторая информация полезна, часть вводит в заблуждение, остальное посередине. То же самое касается данных.

Мы все аналитики данных и всегда ими были.

Мы принимаем наши удивительные биологические возможности как должное и преувеличиваем разницу между нашей врожденной обработкой информации и автоматическим разнообразием. Разница заключается в долговечности, скорости и масштабе но в обоих случаях применяются одни и те же правила здравого смысла. Почему эти правила выходят в окно при первом знаке уравнения?

Я рада, что мы называем информацию топливом для прогресса, но поклоняться данным как чему-то мистическому для меня не имеет смысла. Лучше просто говорить о данных, так как мы все аналитики данных, и так было всегда. Давайте дадим возможность каждому увидеть себя такими.

Курс по Machine Learning (12 недель)
Курс Профессия Data Scientist (24 месяца)
Курс Профессия Data Analyst (18 месяцев)
Курс Python для веб-разработки (9 месяцев)

Читать еще

450 бесплатных курсов от Лиги Плюща
Бесплатные курсы по Data Science от Harvard University
65 бесплатных курсов по Machine Learning от ведущих университетов мира
30 лайфхаков чтобы пройти онлайн-курс до конца
Самый успешный и самый скандальный Data Science проект: Cambridge Analytica

Подробнее..

Категории: Научно-популярное , Машинное обучение , Data science , Big data , Блог компании skillfactory , Учебный процесс в it , Data mining , Data scientist , Data analysis , Data analyst

4 месяца борьбы за место DS джуна (перекатиться в 37 лет)

03.01.2021 20:22:24 |

Автор: admin

Делюсь собственным опытом, т.к., наверняка, это будет интересно таким же как я, но может и не только. Заранее предупрежу, многие термины и сокращения будут понятны только тем, кто имеет базовые знания и какой-то опыт в Data Science и Машинном обучении.

Итак, в наличии на август 2020:

8-летний бэкграунд в интернет-торговле и таргетированной рекламе
4 курса известной в ds-тусовке Machine Learning специализации Яндекса на курсере
пара курсов по нейронным сетям на "стэпике"
слегкавзъерошенный в памяти вышмат
пара сертификатов по питону

Вот с таким багажом начал подбирать подходящие вакансии и готовиться отбиваться от предложений.

1. Поизучал резюме коллег по поискам, закинул пару тем и само резюме в ветку карьеры в slack Open Data Science (ODS) - получил обратную связь и вердикт, что такой джун никому не нужен. Поправил резюме, стало хотя бы визуально приятно. Но явное отсутствие практики бьет прямо в сердце.. Откликнулся на несколько стажерских вакансий. Тишина, один отказ.

Тем не менее, легкий самопиар не проходит даром. Где-то упомянул, что проанализировал частоты упоминания необходимых технологий в текстах вакансий из ветки jobs в том же слаке ODS. Местный рекрутер просит скинуть резюме. Есть nlp вакансия в Гомеле. А там как раз повсеместные протесты и винтилово, видимо нормальные кандидаты ехать не хотят я бы поехал, "но у меня нет знаний в nlp, даже вид сделать не могу". Мимо.Получил рекомендации по содержанию резюме.

2. То было время датафеста ODS и стажерского чемпионата от Мегафона на каггле. Это мой шанс

Абстрактный, как мне показалось, рукотворный набор данных, 3 несбалансированных класса и метрика f1-макро. Идея: отбор фич по корреляциям с учетом множественной проверки гипотез, рандом форест и максимум внимания пропускам. На каждой фиче с пропусками своя регрессия, которая эти пропуски заполняет. Кажется я в топ-10

3. Заглянув в телеграм чат DS в своем городе, обнаружил намечающуюся через неделю тусовку. И, о чудо, один всем известный в ODS человек как раз едет к нам и просит оказать ему услуги гида по городу. Ну т.е. просил 2 дня назад но мы ж все интроверты тут) пишу - я готов, если никого не нашел. Конечно, не нашел.

Через неделю забираю его от гостиницы, полдня катаемся по городу, общаемся, а вечером - в кальян бар, принадлежащий, кстати, на правах хобби ds-тимлиду местного банка. Все, естественно, пьют и в какой то момент начинают обсуждать судьбы джунов в моем конкретно взятом лице. Таня печалится, что джуны сбегают после первой же запиленной модели, хотя компания комфортная и вполне известная в узких кругах. "Я не сбегу - честно)".

4. Обьявлены результаты в Мегафоне. 14е место из около 100. Обидно. К тому же еще и днем сдачи ошибся. Думал что день еще есть. Пара часов экспериментов - усреднил 10 сидов своего же "леса" и обошел на привате победителя с каким то диким стекингом. Ну хотя бы так. Выложил итоговый ноутбук с указанием скора. Добавил в резюме и 14е место и наличие решения топ1.

5. Внезапно приходит приглашение на собес в Мегафон. Готовлюсь. Мой первый собес по специальности. За день перебираю все изученное ранее. В голове конечно же каша. Беседа на 1 час. Свяжемся с вами. Всю неделю гоняю в голове свои ответы. Статистика, p-value, гипотезы - вроде все ок. ROC AUC "а что если она меньше 0.5?" - как же я затупил! Позорище про регрессию пропусков почему то не рассказал ладно. Приходит ответ: в 2х словах, иди еще поучись.

6. Пошел поучиться. Вписался в Deep Learning School МФТИ. Вдруг пишет Таня: "пришли резюме и немного о себе в свободной форме. Только учти, у нас решения долго принимают, к тому же в явном виде вакансий нет, нужно под тебя найти задачу. А кстати, не хочешь с нами в хакатоне поучаствовать?"

Конечно, хочу!

Начинается неделя подготовки к региональному этапу "Цифрового прорыва". Выбираем наиболее интересную задачу из имеющихся. Гео-ML. Таня вспоминает, что похожие задачи решались в соревновании на площадке "бустерс". Ушел искать. Отлично, есть видео с разбора топ-3 решений по поиску мест для банкоматов. Все законспектировал. Разобрался с библиотекой парсинга beautiful soup ис пакетным геокодированием, нашел бесплатный сервис для разработчтков, api, примеры. Качество чуть похуже Яндекса, зато бесплатно, быстро и много (100тыс точек за пару минут - изи).

7. Хакатон. 48 часов решаем задачу для Почты России. Спим по 3 часа. Определить наилучшие места для размещения постаматов в Хабаровске, лучшие места для отделений почты, что еще можно продавать в отделениях. На выбор. Есть база всех строений города с координатами, с приписанным населением и типами организаций/обьектов в этом строении (магазины, банки, тюрьмы, библиотеки и тп). Критериев успешного решения нет. Каких либо финансовых данных для трейна нет. Придумайте сами Прикольно.

Делаем ставку на максимально простое, но работающее и интерпретируемое решение. Интерактивная карта. Рекомендации по местам. Визуализация, какие соседние обьекты влияют на рейтинг каждого места. Все работает. На мне - обработка данных и банальная KNN модель. Спотыкаюсь на каждом шагу... работа с json форматами, парсинг, генерация фич с KNN - ощущаю себя невероятно тупым. Cтранно, но что-то в итоге получилось.

Смотрим презентации. Единственные, у кого все работает - мы. У соперников работают лишь презентации, как "космические корабли будут бороздить Большой театр". 5 место из 7 и приглашение во всероссийский финал. Очень странно, ну да ладно.

8. Улеглись страсти по хакатону, а я сел допиливать решение для Почты. Просто чтоб было и чтобы не чувствовать себя тупым, если снова встречусь с чем-то похожим. Разобрался со всем, где споткнулся. Json, knn, генерация фич, регулярки, github, catboost. Через неделю готова нормальная модель, прогнозирующая вероятности успешного размещения постаматов исходя из размещений постоматов конкурентов и всех прочих данных в наличии. Красивая карта с плавно перетекающими цветовыми оттенками вероятностей. Не стыдно показать. Заливаю на github. Добавляю в резюме.

9. Скидываю полюбоваться команде и на след. день получаю приглашение на собес в Танину компанию. Общаемся: я, Таня, ее босс и hr. "Обьясни как работают сверточные нейросети обычному человеку". Объясняю на примере красной кофточки hr. Hr смущённо улыбается. Остается впечатлить босса. Но его что-то смущает. Забавно, но вакансия опять в nlp. Морально я уже готов вливаться, чуть ли не на любых условиях, но виду не показываю. Ответим через неделю. Пишу Тане: "все плохо?". "Нет, наоборот. Но все зависит от решения босса."

Через неделю босс решил, что человек на данную позицию в принципе не требуется.

10. Новый виток. Учусь в DLS МФТИ, прошел курс по основам linux, поставил себе kubuntu и напрочь забыл про винду, посмотрел о чем там вобще git. Разослал свежее резюме по всем джуновским вакансиям из ветки jobs за последний месяц, включая data аналитиков.

Собес в известном банке, построение риск моделей. В письме любезно указывают имена интервьюеров. Нахожу своего возможного начальника на ютубе с выступлением на 3хчасовой конфе о валидации риск моделей в банках. Узнаю, что "валидация" в банке имеет совсем другой смысл, и что в качестве метрики все используют Джинни, причем исключительно на регрессионнных моделях, потому что в случае отказа кому-либо надо уметь пояснить центробанку причины этого отказа. И модель худо-бедно должна их давать.

Собес. Аж 5 начальников. Самая главная начальница спрашивает исключительно о прошлом опыте в бизнесе. Изредка прилетают вопросы, типа "какие метрики качества ты знаешь?". В конце самая главная начальница заключает, что скорее всего мне у них будет скучно, но они подумают. Если через неделю ответа не будет, то не будет никогда. "Вы уж извините." Прикольно)

11. Видимо мое резюме доросло до какого-то стартового предела и начался движ. Откликаюсь на аналитика и на ds. Везде свое резюме и сопроводительное письмо. Закинул резюме на hh. Мне начали писать HRы. Сами.

Тестовое задание по абстарктным временным рядам из Питера. Разобрал, попробовал и отбросил Ариму, побольше статистики и критериев, анализ остатков регрессии, базовое осознание гомоскедастичности. Накосячил со стратегией валидации. 2 часа технического интервью вместо запланированного часа. Лажанул на элементарных понятиях тервера. Проходил курс месяца 4 назад - уже повыветривалось. Отказ, есть более подходящий кандидат.

Собес и тестовое из известной IT компании на продуктового аналитика. Дана гиговая SQL база. Нужен отчет и прогноз продаж продукта на год. 3 дня на освоение sql. Максимум статистики. Куча графиков. Регрессия на восстановленные признаки. Вышло хорошо, говорят впечатлил.

- "А откуда вы знаете такие техники?"

- "А как думаете, нужны такие статистические расчеты в реальном бизнесе?"

- "А вы готовы работать в режиме многозадачности, когда времени ни на что не хватает? А как?"

Пара дней ожидания. "Вам у нас будет скучно". Дежавю. Скучно! Ну ок

Тестовое на data scientist в местную сеть магазинов косметики и парфюмерии. Несмотря на неожиданное место, задачи вполне боевые и интересные. Тестовое - аналогичноe задаче M5 на kaggle от Wallmart. Разбираю, осознаю. Много предобратотки данных. Параллельно идет предыдущее тестовое на прод. аналитика. Успеваю сделать приличный препроцессинг и eda, но не хватает времени на нормальную модель. Делаю минимум, чтоб работало, описываю как космические корабли будут бороздить местный оперный театр, если применить хитрую метрику из М5 и доработать модель. Отказ. Есть более подходящий кандидат.

Еще пара приглашений совсем мимо специальности. Снова в Мегафон, только уже аналитик в экселе. И даже местный Водоканал. А я еще шутил, что пойду трубоукладчиком, если с data science не выйдет.

12. На этот момент ощутил, что надо перевести дух и за неделю до НГ ушел на отдых в осмысление произошедшего. Хэппи энда пока нет. Но динамика положительная. Погружаюсь в практику, резюме дописывается, еще бы платили

Считаю, главное - идти вперед и не торопиться. Все будет.

Продолжение следует

Подробнее..

Категории: Data science , Big data , Карьера в it-индустрии , Data analyst , Собеседования , Data engineering , Карьера в it , Смена профессии

Из таксиста в дата саентисты (перекатиться в 37 лет). Часть 2

12.05.2021 14:11:23 |

Автор: admin

Часть 1. "4 месяца борьбы за место DS джуна" - тут: http://personeltest.ru/aways/habr.com/ru/post/536014/

ТАКСИ

- "А у вас тоже свой бизнес, а такси так, для души?" - пошутил пассажир на заднем сидении.

До Нового 2020 года оставалось три часа. Праздновать я собирался за рулем, принимая заказы. Никто еще не слышал ни про какую Ухань. А если ты чихнул, не прикрывшись, людей вокруг это совершенно не волновало.

На голове - новогодние оленьи рога, в бардачке - конфеты. Но девять из десяти заказов - это замученные последним рабочим днем люди, и мои конфеты были им абсолютно не интересны.

- "Нет, к счастью, никакого бизнеса у меня нет."

На самом деле, историй из прошлого про бизнес у меня более, чем достаточно. Но это закрытая страница. Мог бы завести разговор, что не так давно решил рискнуть и начал учиться Data Science. Но не стал. За время поездки я вряд ли объясню обычному человеку, что значат эти два слова. Да, честно говоря, тогда и сам еще не до конца понимал.

Желание это было еще не до конца оформлено и существовало только в виде тетрадки (которую я завел несколько лет назад, понятия не имея ни про какой "машин лёрнинг") с размытыми идеями о том, как бы я разрабатывал свой искусственный интеллект, если бы делал его с нуля.

К этому времени уже 4 месяца я сидел за рулем одновременно в Яндекс.такси и Убере, катаясь по 12-14 часов в сутки 5-6 дней в неделю.

- "Такси, как наркотик. Я вот 12 лет назад пришел подработать, и до сих пор здесь", - сказал как-то управляющий моего первого таксопарка. Очень обнадеживающе.

Прогрессивная шкала. Ежедневная погоня за максимальной ставкой. Абсолютно бесполезная техподдержка. Пьяные, надменные, иногда вончие пассажиры. Бесконечные пробки. Говорили, что кто-то умудрялся даже по 50-60т.р. в месяц зарабатывать. Но это - один перерыв на 15 минут за 12 часов, педаль в пол, постоянные нарушения. И дежурная чекушка для снятия стресса, как только сдал ключи сменщику.

Сдавая машину в конце смены, я вглядывался в лица этих простых водил. В них не было ничего. Разведенные, понурые, уставшие люди, у которых в жизни больше ничего не осталось, кроме таксометра на смартфоне.

До сих пор с уважением отношусь к их работе, но не вижу никаких причин, по которым надо в ней оставаться на тех скотских условиях, которые сформировали такси-агрегаторы, захватив рынок.

Было, конечно, в этой работе и что-то хорошее. Иногда попадались интересные люди: вертолетчик-ликвидатор пожара на ЧАЭС, директор областной школы для детей с задержкой в развитии с амбициями регионального депутата, участник команды Уральские пельмени, техник-водитель в арктической экспедиции.

Можно было даже представить, что это тоже бизнес. Практически сам себе хозяин. Захотел - включил таксометр, захотел - выключил. Никаких начальников, просто отдавай часть денег в парк и все. Считай доходы-расходы-прибыль. Сколько накатал, столько и заработал.

В ту новогоднюю ночь я заработал, как в самую обычную смену. Все встало на свои места. Такси начало затягивать меня в трясину, выбраться из которой через год-два я уже не смогу. Можно считать, с этого момента началось мое полноценное обучение.

Для начала я пересел на свою машину. На парковой или арендной первые 6-8 часов ты, по сути, отбиваешь аренду, потом уже работаешь на себя. На своей можно хоть что-то заработать даже за 4 часа. Время важнее. Число смен сократил до 3-4х в неделю, чтоб оставался необходимый минимум денег на жизнь. Если ответственно относиться к бюджету и отложить на неопределенный срок все, что не горит, вполне можно прожить и на 20т.р. в месяц. Если есть ради чего (должен отметить, что без поддержки близких было бы куда тяжелее). Остальное время - учеба.

Тут наверно многие скажут:

- "Ага, ага, как же. Что за развод? Какой-то тупой таксист затащил вышмат и залез в технологичную сферу, рассказывай..."

Ок, я не платные курсы, поэтому не буду убеждать, что так может каждый. Вероятно, не каждый. Тут уж надо себя адекватно оценивать. Тем более, если сейчас ты - таксист :)

Вообще, я учился в одной из лучших физ-мат школ Екатеринбурга, потом поступил на мат-мех. На 3м курсе пошёл на вторую вышку. Еще через год вместе с братом открыл компанию, став партнером СКБ Контура. И вобщем-то неплохо развернулся, продавая и обслуживая контуровский софт. Даже немного поруководил партнерской сетью Контура в Москве. Так что IT для меня - это не дальний космос. Да и софт скилы какие-никакие есть.

Но в жизни всякое бывает. Случилась долгая черная полоса (хотя это совсем другая история). А мат-мех был 15 лет назад, опыта в разработке - ноль, и мне уже стукнуло 37. Успех мероприятия был совсем не очевиден.

С марта 2020 началась самоизоляциия, и из такси я ушел в учебу на 100%, самоизолировавшись в саду, где регулярно поливал морковку, редис и даже вырастил полную теплицу огурцов, чтобы было чем отвлечься в перерывах.

- "Куда уходишь то?" - поинтересовался управляющий моего последнего таксопарка.

- "Учиться делать беспилотное такси", - подколол я.

- "Надо бы сломать тебе пальцы, пока не поздно", - задумчиво парировал он.

На том и попрощались.

Когда на меня нападает прокрастинация, я вспоминаю это "прекрасное" время и понимаю, что не хочу больше в него возвращаться НИКОГДА. И сразу хочется учиться и работать.

УЧЕБА

В первой части меня спрашивали, где и как конкретно я учился. Отвечаю.

Платил по 5т.р. в месяц только за специализацию на coursera.org, да и то оказалось, что можно было написать письмо на фин. помощь и учиться бесплатно. Говорят, никому не отказывали, по крайней мере раньше.

1. STEPIK

Программирование на Python: https://stepik.org/course/67

Введение в Linux: https://stepik.org/course/73

Нейронные сети: https://stepik.org/course/401

Нейронные сети и компьютерное зрение: https://stepik.org/course/50352

Практикум по математике и Python: https://stepik.org/course/3356

Линейная алгебра: https://stepik.org/course/2461

Python: основы и применение: https://stepik.org/course/512

Теория вероятностей: https://stepik.org/course/3089

Что-то пройдено полностью, что-то в достаточном для понимания объеме.

2. COURSERA

Легендарная специализация "Машинное обучение и анализ данных": https://www.coursera.org/specializations/machine-learning-data-analysis

Первые 4 курса - must have любому, кто хочет вкатиться в тему. 5й и 6й курс - тут уже по желанию. На мой взгляд, за практикой лучше сразу идти на kaggle.com и/или на собесы, решать тестовые задания.

3. ODS

Открытый курс машинного обучения: http://personeltest.ru/aways/habr.com/ru/company/ods/blog/322626/

Это как конспект с подробными лекциями. Как только нужно копнуть поглубже или освежить какую-то тему - иду сюда.

4. Ну и какой-нибудь из известных онлайн-транажеров по SQL.

Я тут занимался: https://learndb.ru

5. Вся моя практика - это 1я часть истории, с сентября 2020 до января 2021: http://personeltest.ru/aways/habr.com/ru/post/536014/

JUNIOR DATA SCIENTIST

Три недели назад я узнал, что успешно прошел испытательный срок в питерской компании ADRIVER (группа компаний Internest). Собственно, этого момента и ждал, чтобы написать продолжение. А то было бы забавно... "Всем привет. Я стал дата саентистом, но не вытащил"...

Думаю, AdRiver это лучший вариант куда я мог попасть, с учетом моего прошлого опыта и пути развития.

За три месяца работы я уже успел поработать над несколькими задачами.

Основной продукт, в котором я участвую - это система управления баннерной рекламой. На пальцах все просто - кто-то в интернете заходит на один из десятков миллионов площадок, где мы можем показать рекламу. Получаем запрос, хотим ли показать этому человеку какой-то из десятков тысяч баннеров наших клиентов и сколько готовы за это заплатить.

Задача - оценить вероятность клика в каждом конкретном случае и, исходя из прогноза, предложить свою максимальную ставку. Короче говоря, то же, что я делал руками, настраивая тергетированную рекламу ВКонтакте, только теперь Data Science, Big Data и вот это вот всё.

Компания существует много лет, команда отличная (в этом я уже убедился, даже пожаловаться не на что), клиенты - в плюсе. Даже странно, что до работы здесь я никогда про нее не слышал, хотя наши технологии используют серьезные бренды и рекламные агентства, вроде Ламоды, МВидео, Digital BBDO и т.д.

Но есть одно маленькое "но".

В скором времени все известные браузеры закроют возможность передачи "кук" 3й стороны, а это значит, что мы, как и все остальные участники этого рынка, заметно потеряем в качестве прогноза, т.к. информации о том, кому показывать баннер теперь будет меньше. С этим надо что-то делать.

Собственно, я и делаю. И тут уже такой простор для творчества, что можно только позавидовать самому себе. Штатно в задачах "click prediction" используется градиентный бустинг.

Пришлось погрузиться в тонкости XGBOOST, CatBoost, форматы данных libsvm, написание скриптов для сбора статистик из файлов на 30-80млн. строк и фильтрации 400тыс. признаков, формирования всяких выборок и т.д. Погонять модели, поискать гиперпараметры для обновленных моделей. (А тут, знаете, модель в полном фарше может и сутки учиться). Короче, реальный Data Science - это вам не Титаник на Kaggle).

Сейчас начал изучать Hadoop и Java, чтобы мог сам вытаскивать данные для моделей. Дальше - больше. У нас есть баннеры, площадки, посадочные страницы. Это все кладезь информации, которая должна помочь улучшить модели в условиях надвигающегося дефицита. Здравствуйте, нейронки. Bert для выдергивания фичей из текста. CV-нейросетки. Данных - тьма! Скучно не будет. Что-то уже начал проверять.

Первая моя задача, чтобы влиться в работу, тоже порадовала.

Нужно было разобрать действующий в компании алгоритм визуальных рекомендаций(читай ResNet на Keras, который я в глаза не видел). Разобраться и оценить перспективы модели CLIP, выложенной за неделю до начала моей работы в компании. Если есть смысл - поменять ResNet на CLIP.

Поначалу, конечно - шок, паника, депрессия... Первые пару часов. Но глаза боятся - руки делают. Между делом пришлось обновить код под 3й питон, что, наверное, было самым неприятным. Постоянно вылазили какие-то непонятные баги.

На выходе получилась модель, выдирающая признаки с картинок и их описаний в виде определенного вида векторов. А по этим векторам можно уже и расстояние оценить. Русские части описаний картинок предварительно переводятся на английский другой нейросеткой(CLIP-то на английский заточен). И если кому-то на Ламоде приглянулось модное платье, модель готова предложить 10 похожих по стилю, бренду, цвету и фасону. Визуально выглядит очень круто, как само по себе, так и по сравнению с ResNet50.

Кстати, если вы не пробовали CLIP для классификации картинок, рекомендую срочно это исправить. Фичи с картинок какого-нибудь известного датасета, пропущенные через банальную логистическую регрессию, вас приятно удивят при оценке результата на тестовой выборке.

Подводя итог, все хорошо! Даже не верится. Но потом вспоминаешь, сколько сил и нервов ушло. И тогда вполне верится.

ЧБД (ЧТО БЛО ДАЛЬШЕ?)

В течение недели после публикации первой части я получил 3 оффера (еще до конца новогодних каникул). Один из них был как раз в AdRiver. Еще один в стартап по обработке документов. И еще один в белорусскую компанию, тоже по части NLP. Везде было неплохо, но AdRiver подкупил предстоящей широтой задач, на которых можно учиться новому.

Удивительно, но в отличие от всех прошлых собеседований, до статьи, по каждому из офферов меня совсем никак не гоняли по теории. Просили рассказать о прошлом опыте, о проекте для Почты России с хакатона, в стартапе дали 2 задания на время (пару несложных алгоритмов за 3 часа написать). И никакой теории.

Было еще несколько предложений "поднять data science" в каких-то непонятных проектах, где я так и не понял, что от меня хотят.

И, как последний штрих, собеседование на Аналитика в Сбер. Скажу прямо, такого унижения я не испытывал со времен первого настоящего мат-меховского экзамена.

Гоняли по всем возможным темам и разделам, заставляли "зашэрить" экран и писать код в блокноте, засыпали перекрестными вопросами. Больше половины вопросов жестко слил. Думал - без шансов. Но нет:

- "Все, конечно, на базовом уровне...", - и дали тестовое задание на следующий этап.

Тем не менее пришлось отказаться, т.к. надо было давать ответ по офферам. А гарантий прохождения в Сбер никто не давал. Внутри осталось ощущение, что раз в жизни в Сбере стоит поработать, хотя мнения о работе там очень неоднозначные. Но это уже как-нибудь потом, может быть.

Подробнее..

Категории: Data science , Big data , Карьера в it-индустрии , Data analyst , Собеседования , Data engineering , Карьера в it , Смена профессии , Adriver

Data Analyst или Data Scientist кем бы вам хотелось быть?

10.07.2020 16:05:35 |

Автор: admin

Каково находиться в каждой из этих ролей, рассказывает Matt Przybyla, автор статьи, опубликованной в блоге towardsdatascience.com. Предлагаем вам ее перевод.

Фото с сайта Unsplash. Автор: Christina @ wocintechchat.com

Мне довелось поработать и профессиональным аналитиком данных (Data Analyst), и исследователем данных (Data Scientist). Думаю, было бы полезно поделиться опытом по каждой должности, указывая ключевые различия в повседневных задачах. Я надеюсь, что моя статья поможет определиться, что подходит именно вам. А тем, кто уже работает, возможно, после прочтения захочется изменить свою должность. Некоторые начинают аналитиками данных, а затем переходят в исследователи. Не так популярен, но не менее интересен путь от исследователя на невысоких позициях до аналитика на позиции сеньора. Обе должности имеют свои особенности и требуют определенных умений, о которых необходимо знать, прежде чем сделать следующий большой шаг в профессиональном развитии.

Ниже я, опираясь на свой опыт, расскажу, что такое быть аналитиком данных и исследователем данных, и подробно отвечу на наиболее частые вопросы о каждой позиции.

Data Analyst

Если вы хотите описывать данные за прошедший период или текущий момент и презентовать стейкхолдерам ключевые результаты поиска, полную визуализацию изменений и тенденций, значит, вам подходит позиция аналитика данных. У упомянутых должностей есть общие черты, которые я описывал в другой статье, охватывающей сходства и различия между необходимыми для этих позиций навыками. Сейчас же я хочу показать, как роль аналитика данных в сравнении с ролью исследователя данных ощущается. Очень важно понимать, чего ждать этим специалистам в их повседневной работе. Аналитик будет взаимодействовать с разными людьми, много общаться и поддерживать высокий темп выполнения задач выше, чем требуется от исследователя данных.

Поэтому впечатления, получаемые на каждой из должностей, могут сильно различаться.

Ниже вы найдете ответы на самые частые вопросы о том, с чем сталкиваются аналитики данных.

С кем придется работать?

В основном со стейкхолдерами компании, которые запрашивают обобщение данных, визуализацию выводов и отчеты по результатам. Общение, как правило, устное или через цифровые каналы: электронную почту, Slack и Jira. По моему опыту, вам предстоит тесно взаимодействовать с человеческой и аналитической составляющими бизнеса, а не инженерной и производственной.

Кому предоставляются результаты?

Вероятнее всего, вышеупомянутым стейкхолдерам. Однако если у вас есть менеджер, вы отчитываетесь перед ним, а он уже передает данные стейкхолдерам. Не исключен и вариант, когда вы собираете пул запросов, составляете по ним отчет и презентуете стейкхолдерам. Для составления отчетов у вас могут быть такие инструменты, как Tableau, Google Data Studio, Power BI и Salesforce, которые обеспечивают легкий доступ к данным, например к файлам CSV. Другие инструменты требуют больше технических усилий составления расширенных запросов к базам данных с помощью SQL.

Какими будут темпы работы над проектом?

Значительно выше, чем у исследователей данных. Вы можете подготавливать несколько пулов данных (запросов) или отчетов ежедневно и крупные презентации с выводами еженедельно. Поскольку вы не строите модели и не составляете прогнозы (обычно), а результаты скорее описательные и ситуативные, работа идет быстрее.

Data Scientist

Исследователи данных довольно сильно отличаются от аналитиков данных. Они могут использовать одинаковые инструменты и языки, но исследователю приходится работать с другими людьми, над более крупными проектами (такими как создание и внедрение модели машинного обучения) и тратить на это больше времени. Аналитики данных обычно работают над своими проектами самостоятельно: например, использовать панель Tableau для презентации результатов может и один человек. Исследователи данных вправе привлекать нескольких инженеров и менеджеров по продукту для эффективного выполнения бизнес-задач с использованием правильных инструментов и качественных решений.

С кем придется работать?

В отличие от аналитика данных, вам предстоит взаимодействовать со стейкхолдерами только по некоторым вопросам, по другим же, связанным с моделями и результатами их использования вопросам вы будете обращаться к инженерам данных, инженерам по программному обеспечению и менеджерам по продукту.

Кому предоставляются результаты?

Вы можете делиться ими со стейкхолдерами, а также с инженерами, которым важно иметь представление о готовом продукте, чтобы, например, разработать UI (пользовательский интерфейс) в соответствии с вашими прогнозами.

Какими будут темпы работы над проектом?

Вероятно, самая большая разница в восприятии и функционировании этих должностей заключается в количестве времени на каждый проект. Скорость работы аналитиков данных довольно высока, а исследователям данных могут потребоваться недели или даже месяцы для завершения проекта. Разработка моделей и подготовка проектов исследователя данных это долгие процессы, поскольку они включают сбор данных, разведочный анализ данных, создание основной модели, итерирование, настройку модели и извлечение результатов.

Заключение

Фото с сайта Unsplash. Автор: Markus Winkler

Аналитики и исследователи данных пользуются одинаковыми инструментами, такими как Tableau, SQL и даже Python, но профессиональные задачи у них могут быть очень разными. Повседневная деятельность аналитика данных включает больше собраний и личного взаимодействия, требует прокачанных софт-скиллов и быстрого выполнения проектов. Работа исследователя предполагает более долгие процессы, общение с инженерами и менеджерами по продуктам, а также построение прогностических моделей, осмысляющих новые данные или явления в их развитии, тогда как аналитики фокусируются на прошлом и текущем состоянии.

Надеюсь, статья была интересной и полезной. Спасибо за внимание!

Подробнее..

Категории: Big data , Карьера в it-индустрии , Data mining , Data scientist , Data analyst , Новичкам , Блог компании plarium , Профессии в it , Профессии будущего , Новичкам ит , Профессиональное развитие , Аналитика данных

	Русский
	English

Data analyst

Перевод Знакомство с Decision Intelligence

Новая дисциплина в борьбе за лидерство в эпоху искусственного интеллекта

Что значит decision (решение)

Кто такой decision-maker (лицо, принимающее решение)

Что значит decision-making (принятие решений)

Делать расчеты vs. принимать решения

Систематика decision intelligence

Качественная сторона: наука о принятии решений

Ошибки вашего мозга

Возможно, вы не принимаете решение

Принимать решения на основе точной информации

Что можно сделать с фактами

Сбор данных и инженерия данных

Количественная сторона: Data science

Читать еще

Перевод Data Science для гуманитариев что такое data

Размышления об информации, памяти, аналитике и распределениях

Смысл и смыслы

Письмо и долговечность

Компьютеры и магические заклинания

Аналитика и обобщение

Построение и визуализация

Что такое распределение

Что такое Data Science

Апгрейд памяти для всех

Читать еще

4 месяца борьбы за место DS джуна (перекатиться в 37 лет)

Из таксиста в дата саентисты (перекатиться в 37 лет). Часть 2

Data Analyst или Data Scientist кем бы вам хотелось быть?

Data Analyst

Data Scientist

Заключение

Категории

Последние комментарии