Перевод Как проходить собеседование на дата-сайентиста в Amazon в 2021 году

Я решил написать статью для тех, кто пытается найти актуальные вопросы и ответы для собеседований в Amazon. Я взял несколько вопросов с собеседований, которые задавали в последние месяцы, и попытался дать краткие и понятные ответы на них. Есть вопросы сложные, есть простые, но в любом случае могут пригодиться и те, и другие.

В: У пары есть двое детей, и пара знает, что один из детей мальчик. Какова вероятность того, что другой ребенок будет мальчиком?

Здесь нет подвоха. Вероятность того, что один ребенок будет мальчиком, не зависит от другого, поэтому она равна 50%. Вы можете запутаться из-за вопроса Леонарда Млодинова, где ответ одна треть, но это совершенно другой вопрос, не относящийся к нашему.

В: Объясните, что такое p-значение.

Если вы погуглите, что такое p-значение, то получите такой ответ: Это вероятность получить для данной вероятностной модели распределения значений случайной величины такое же или более экстремальное значение статистики (среднего арифметического, медианы и др.), по сравнению с ранее наблюдаемым, при условии, что нулевая гипотеза верна.

Многословный ответ, по той причине, что значение p очень специфично по значению и часто понимается неправильно.

Более простое определение p-значения: Это вероятность того, что наблюдаемая статистика возникнет случайно, с учетом распределения выборки.

Альфа устанавливает стандарт того, насколько экстремальными должны быть значения, прежде чем нулевая гипотеза может быть отклонена. Значение p указывает на крайность данных.

В: Есть 4 красных и 2 синих шара, какова вероятность того, что они будут одинаковыми в двух выборах?

Ответ равен вероятности того, что оба красные, плюс вероятность того, что оба синие. Предположим, что этот вопрос без замены.

Вероятность 2 красных = (4/6) * (3/6) = 1/3 или 33%
Вероятность 2 синих = (2/6) * (1/6) = 1/18 или 5,6%

Следовательно, вероятность того, что шары будут одинаковыми, составляет примерно 38,6%.

Q: Опишите дерево, SVM и случайный лес. Расскажите об их преимуществах и недостатках.

Деревья решений: древовидная модель, используемая для моделирования решений на основе одного или нескольких условий.

Плюсы: легко реализовать, интуитивно понятно, обрабатывает пропущенные значения.
Минусы: высокая дисперсия, неточность

Плюсы: точность при большой размерности
Минусы: склонность к чрезмерной подгонке, не дает напрямую оценок вероятности

Плюсы: может достигать более высокой точности, обрабатывать отсутствующие значения, масштабирование функции не требуется, может определять важность функции.
Минусы: черный ящик, интенсивные вычисления.

Снижение размерности это процесс уменьшения количества функций в наборе данных. Это важно в основном в том случае, когда вы хотите уменьшить дисперсию своей модели (переобучение).

В Википедии говорится о четырех преимуществах уменьшения размерности:

Сокращает необходимое время и место для хранения.
Удаление мультиколлинеарности улучшает интерпретацию параметров модели машинного обучения.
Становится легче визуализировать данные при уменьшении до очень малых размеров, таких как 2D или 3D.
Избегает проклятия размерности.

Нам нужно сделать некоторые предположения по этому вопросу, прежде чем мы сможем на него ответить. Предположим, что есть два возможных места для покупки определенного товара на Amazon, и вероятность найти его в месте A составляет 0,6, а B 0,8. Вероятность найти товар на Amazon можно объяснить так:

Мы можем переформулировать вышеизложенное как P (A) = 0,6 и P (B) = 0,8. Кроме того, давайте предположим, что это независимые события, а это означает, что вероятность одного события не зависит от другого. Затем мы можем использовать формулу

P (A или B) = P (A) + P (B) P (A и B)
P (A или B) = 0,6 + 0,8 (0,6 * 0,8)
P (A или B) = 0,92

В: Если есть 8 шариков равного веса и 1 шарик, который весит немного больше (всего 9 шариков), сколько взвешиваний необходимо, чтобы определить, какой шарик самый тяжелый?

Потребуются два взвешивания (см. Части A и B выше):

Вы должны разделить девять шариков на три группы по три и взвесить две группы. Если весы уравновешиваются (вариант 1), вы знаете, что тяжелый шарик относится к третьей группе шариков. В противном случае вы возьмете группу с большим весом (вариант 2).
Затем вы выполните тот же шаг, но у вас будет три группы по одному шарику вместо трех групп по три.

Q: Что такое переобучение?

Переобучение это ошибка, когда модель слишком хорошо подходит к данным, что приводит к модели с высокой дисперсией и низким смещением. Как следствие, модель с переобучением будет неточно предсказывать новые точки данных, даже если она имеет высокую точность данных обучения.

Q: У нас есть две модели: одна с точностью 85%, другая 82%. Какой ты выберешь?

Если нам важна лишь точность модели, то ответ 85%. Но если бы об этом спросил интервьюер, вероятно, стоит узнать, в каком контексте задан вопрос, т.е. что модель пробует предсказать. Это даст нам лучшее представление о том, действительно ли метрикой оценки должна быть точность или другая метрика, такая как recall или оценка f1.

Q: Что такое наивный байесовский алгоритм?

Наивный байесовский классификатор популярный классификатор, используемый в Data Science. Идея, лежащая в основе этого, основана на теореме Байеса:

Говоря простым языком, это уравнение используется для ответа на следующий вопрос. Какова вероятность y (моей выходной переменной) при X (моих входных переменных)? И из-за наивного предположения, что переменные независимы для данного класса, вы можете сказать, что:

Кроме того, убрав знаменатель, мы можем сказать, что P (y | X) пропорционально правой части.

Поэтому цель найти класс с максимальной пропорциональной вероятностью.

Q: Как изменение основного членского взноса повлияет на рынок?

Я не уверен на 100% в ответе на этот вопрос, но постараюсь сделать все возможное!

Давайте возьмем пример увеличения основного членского взноса в нем участвуют две стороны: покупатели и продавцы.

Для покупателей влияние увеличения основного членского взноса в конечном итоге зависит от эластичности спроса по цене для покупателей. Если эластичность цены высока, то данное повышение цены приведет к значительному падению спроса и наоборот. Покупатели, которые продолжают покупать членские взносы, вероятно, являются самыми лояльными и активными клиентами Amazon они также, вероятно, будут уделять больше внимания продуктам с премией.

Продавцы пострадают, так как теперь стоимость покупки корзины продуктов Amazon выше. При этом некоторые продукты пострадают сильнее, в то время как другие могут не пострадать. Вполне вероятно, что продукты премиум-класса, которые покупают самые лояльные клиенты Amazon, пострадают не так сильно, как электроника.

Спасибо за внимание!

Что мне нравится в этих собеседованиях и рассматриваемых на них проблемах, так это две вещи:

Они помогают вам изучить новые концепции, с которыми вы до этого не были знакомы.
Они открывают концепции, которые вы знаете, с новой стороны.

Надеюсь, все это поможет вам в подготовке к вашему путешествию в мир Data Science!

Комментарий к статье Вячеслава Архипова, специалиста в области Data Science AR-стартапа Banuba и консультанта по учебной программе онлайн-университета Skillbox.

Подборка вопросов охватывает широкий спектр тем, в которых должен ориентироваться дата-сайентист: теория вероятностей, статистика, машинное обучение и даже экономика. Правильные ответы на вопросы и умение рассуждать покажут ширину знаний соискателя.

Но среди этих вопросов нет ни одного со звездочкой. На этот стандартный набор вопрос ответит практически любой выпускник ВУЗа. Если бы я проводил собеседование, то добавил бы парочку вопросов, вскрывающих знание не только стандартных определений, но и тонких нюансов.

Ну например:
1) Как можно получить случайную величину с заданным распределением, имея в наличие реализацию нормальной СВ?
2) Что такое корреляция случайных величин и какова ее геометрическая интерпретация?
3) Как можно бороться с переобучением?
4) В чем преимущество метода главных компонент по сравнению, например, с процессом Грама-Шмидта?
5) Как можно улучшить классификацию, имея набор слабых классификаторов?

А так же у меня возник бы вопрос к соискателю, почему он приводит в качестве источника информации именно Википедию и по каким материалам еще он учился.

За последние несколько лет машинное обучение, data science и связанные с этими направлениями отрасли очень сильно шагнули вперед. Все больше компаний и просто разработчиков используют Python и JavaScript для работы с данными.

И вот здесь-то нам как раз и нужн

При поиске по ключевой фразе машинное обучение (речь идет об англоязычном ключе machine learning прим. перев.) я нашел 246632 репозиториев по машинному обучению. Поскольку все они имеют отношение к этой отрасли, я ожидал, что их владельцы являются экспертами или хотя бы достаточно компетентны в машинном обучении. Поэтому я ре

Git удобная, но довольно сложная система. Сложность, прежде всего, в том, что по невнимательности можно допустить ошибку, которую затем сложно или вообще невозможно исправить. Документация Git предоставляет описание множества команд, которые дают возможность исправить

В этой статье мы поговорим о полезных приемах и командах при работе с SSH. А именно:

Как использовать двухфакторную аутентификацию для SSH-подключений.
Безопасное использование проброса ключа (agent forwarding).
Завершение зависшей сессии

28 сентября приглашаем на онлайн-лекцию о развитии карьеры в IT.

Как и в любой другой индустрии, строить карьеру в IT непросто. Таланта и техниче

Василий Прокофьев разработчик Usetech в Рязани. На Java Meeting Point он расскажет о своем опыте использования реактивного программирования.

В этом интервью Василий поделился некоторыми деталями доклада и объяснил, почему подход, о котором пойдет речь, заслуживает вним

Дмитрий Александров инженер Oracle, Java Champion, участник и организатор многих IT-мероприятий. На Java Meeting Point 23 июня он расскажет про преимущества фреймворка Helidon, над которым работает.

Мы поговорили с Дмитрием и узнали, чем он поделится с участниками Java

Python-девелопер и писатель Рики Уайт взял интервью у Себастьяна Рамиреса, разработчика из Explosion AI. Но Себастьян не просто разработчик, это заметная фигура в open source сообществе, создатель популярных фреймворков FastAPI и Typer. В основном речь шла про широкие

Паша Финкельштейн разработчик, серийный спикер, автор и ведущий нескольких подкастов. На конференции Java Meeting Point он сделает доклад Spark: let's touch it, на котором познакомит участников с миром бо

Да, тема избита, но из благих побуждений хочется поделиться своими эмоциями, которые пережил я, самоучка в ИТ, проходя бессчетные собеседования в поисках нормальной конторы. Также опишу пару примеров собеседований, чтобы рекрутеры и те, кто проводит собеседования, поняли, как это выглядит со стороны, и какие вещи делать ни в коем случае не стоит.

Знаете, есть такие особые признаки, известные всем, когда точно понимаешь, что

Возможно, вы знаете про Vivid, где-то слышали или же видите впервые. Мы делаем один из самых быстрорастущих и многообещающих финансовых сервисов в Европе. Чтобы не быть голословным, вот некоторые из наших показателей:

Скачивания и активные пользователи в Германии с 03.21 по 06.21

Десять лет назад Марк Андриссен написал для Wall Street Journal статью под названием "Софт пожирает мир", в которой говорит о фундаментальном сдвиге ро

Магазин приложений Amazon Appstore снизил комиссию для разработчиков, получающих доход менее $1 млн в год. Также 10 % от дохода будут конвертироваться в бонусы, которые разработчики смогут потратить на облачный сервис Amazon.

15 июня этого года Amazon

В юности я думал, что для того, чтобы быть счастливым на работе, достаточно трех вещей: интересных задач, достойной зарплаты и свободы творчества.

Но все оказалось куда сложнее. Что только не может отравить даже любимую работу: стыд за политику компании, токс

Всем привет!

Я давно хотел поделиться советами и своим опытом к прохождению интервью и развития карьеры. Пока думал про заголовок, вспомнилась книга из детства - "Вредные советы". Но в Отличие от Григория Остера, мои советы могут вам пригодится.

У меня за плечам

Лоббирование своих интересов, уничтожение перспективных стартапов, огромные комиссионные сборы и полный контроль интернет-трафика. Все чаще подобные обвинения выдвигаются сторону крупных IT-компаний или Big Tech. Недовольство пользователей порой перерастает в фобию перед

Алгоритмы не работают без качественных данных. Общественность может использовать их, чтобы требовать перемен.

Каждый день вы оставляете за собой след из цифровых хлебных крошек, по которому крупные технологические компании следят за каждым вашим шагом. Вы от

Доброго времени суток, Хабровчане!

Спустя аж три года с момента написания первой части статьи Возможные неопределенности в карьере программиста решил, что, возможно, будет интересно а кому то, я надеюсь, даже полезно (в первую очередь начинающим программистам) узнать продолжение истории. Что начал делать Ваня чтобы повысить свои навыки? Как прошел интервью в новую компанию? Обо вс

Часть 1. "4 месяца борьбы за место DS джуна" - тут: http://personeltest.ru/aways/habr.com/ru/post/536014/

ТАКСИ

- "А у вас тоже свой бизнес, а такси так, для души?" - пошутил пассажир на заднем сидении.

До Нового 2020 года оставалось три часа. Праздновать я собирался за рулем, принимая заказы. Никто еще не слышал ни про какую Ухань. А если ты чихнул, не прикрывшись, лю

Всем привет!

Занимаюсь усовершенствованием процесса найма Java специалистов. Для улучшения процесса интервью составил свод правил и рекомендаций по проведению интервью. Хочу поделиться своими разработками с комьюнити. Возможно, кому-то пригодится =) И так, погнали!

Каких целей я пытался добиться:

Сделать интервью менее стрессовым мероприятием как для кандидата, так и для интервьювера.

Профессионально заниматься программированием я начал шесть лет назад, успел поработать со многими технологиями, создавая мобильные приложения и бэкенд-сервисы. Я неплохо разбираюсь в микросервисах и архитектуре, ориентированной на события. Мои рабочие обязанности состояли в том, чтобы устранять проблемы че

На первый взгляд может показаться, что эта статья очередная из ряда "Выворачивайся наизнанку, чтобы тебя взяли!". Но это не так. Её скрытый, истинный смысл в том, чтобы напомнить, что любая работа в сущности искусство, о том, что очень важно любить свои инструменты и свою р

Привет! Продолжаем разворачивать тему осмысленного подхода к началу своего профессионального пути. Про базовые настройки мы поговорили в предыдущем посте, а теперь перейдем от мышления к действиям, связанным с процессом собеседований: как готовиться, как себя вести, как проходить техническое интервью, а также формировать себе перспективу вне зависимости от исхода.

Доброго времени суток, друзья!

Предлагаю Вашему вниманию небольшой интерактив своего рода викторину по JavaScript, на данный момент состоящую из 50 вопросов.

Перевод Как проходить собеседование на дата-сайентиста в Amazon в 2021 году

Сейчас читают

Блог компании skillbox

Перевод Регулярные выражения Python для новичков что это, зачем и для чего

Перевод Я спарсил больше 1000 топовых Github-профилей по машинному обучению и вот что я узнал

Перевод Как проходить собеседование на дата-сайентиста в Amazon в 2021 году

Перевод Git, я хочу все отменить! Команды исправления допущенных ошибок

Перевод 5 приемов и хитростей для работы с SSH и кое-что еще

Онлайн-лекция Какие навыки нужны разработчику для карьерного роста

Интервью

Реактивное программирование из первых рук

Дмитрий Александров Мы не знали, во что ввязываемся

Перевод Разработчик популярного веб-фреймворка FastAPI об истории его создания и перспективах аннотаций типов Python

Паша Финкельштейн о Big Data, Apache Spark и DevRel

Хождения по собеседованиям, или Как полтора года искать работу в ИТ самоучке

IOS интервью в Vivid

Amazon

Перевод Перерасти ПО код это современное электричество

Вслед за Apple и Google комиссию магазина приложений снизила Amazon

Перевод Три письма об увольнении почему люди уходят с любимой работы

Amazon, Microsoft, Facebook, Tesla, Lyft история поиска работы мечты или вредные советы для карьерного развития

Карты, деньги, две соцсети как IT-гиганты захватили интернет и пару вещей в придачу

Перевод Как саботировать данные, которые технологические гиганты используют для слежки за вами

Собеседования

Возможные неопределенности в карьере программиста. Часть 2

Из таксиста в дата саентисты (перекатиться в 37 лет). Часть 2

Правила хорошего интервью

Перевод Проваленное собеседование, которое дало мне больше, чем три удачных

Перевод Как отвечать на собеседовании, чтобы побудить нанять вас

О стажировках для тех, кто еще не ) Эпизод 2

Вопросы

Перевод Как проходить собеседование на дата-сайентиста в Amazon в 2021 году

Изучаем React 300 вопросов для подготовки к собеседованию

50200 вопросов по JavaScript

Категории

Последние комментарии

	Русский
	English