Эконометрика

Как сменить профессию и стать крутым аналитиком?

09.07.2020 12:23:49 |

Автор: admin

Зачем нужна аналитика? На что обратить внимание при поиске первой работы и как подготовиться к собеседованию? Сменить профессию бывает непросто, но в нашей статье мы постарались развеять все ваши сомнения и ответить на самые интересующие вопросы!

Недавно мы вместе с Юрием Тростиным, Head of Analytics and Data Science в Worki, проводили вебинар Как сменить профессию и стать крутым аналитиком?. Смотрите запись этого онлайн-интенсива

Зачем нужна аналитика?

Цель любого бизнеса это извлечение прибыли. Прибыль это выручка минус издержки. Прибыль должна быть максимизирована в долгосрочной перспективе. Как же здесь помогает аналитика?

Есть три больших направления, в которых аналитика добавляет ценности:

1. Формирование бизнес-процессов.

Куда бизнес движется, в правильном ли направлении, как чувствуют себя ключевые сегменты клиентов и бизнеса? Обладая этими данными, аналитик может подсказать решение тех или иных проблем. Допустим, в бизнесе что-то идёт не так, и, в условиях быстро ускоряющегося мира, время это реально самый ценный ресурс. Необходимо решать проблемы и выводить на рынок новые гипотезы быстрее конкурентов, и здесь-то вам поможет аналитика.

2. Принятие взвешенных решений на основе данных.

Здесь уже не только про алертинг, но и про формирование ключевых решений. Ведение любого бизнеса сопровождается неопределенностью и всю полноту информации получить никак нельзя. Если бы информация была всегда полной, доступной и равномерно распределенной между участниками рынка, то аналитика как таковая была бы не нужна. Но и сверхприбыли у бизнеса тоже бы не было. Если у вас есть релевантные данные для принятия решения и понимание, как из них извлечь информацию, то автоматически вы выигрываете у тех, у кого данных и этого понимания нет. Конечно, в бизнесе нельзя всегда принимать правильные решения, но, например, с помощью data-driven подхода можно минимизировать долю неверных решений. Разумеется, для этого вам нужны спецы, которые могут для вас эти данные проанализировать, чтобы они были полные и консистентные, то есть согласованные. Тогда в долгосрочной перспективе из этого можно извлекать пользу.

3. Новые идеи для бизнеса, для развития и экспериментов.

В своей основе это прежде всего какая-то идея, и она может либо зайти на рынок, либо нет. Чем больше релевантных идей и чем больше экспериментов генерируется, тем больше прибыли вы можете в перспективе получить. Прелесть IT-продуктов в том, что исследуя паттерны поведения внутри сервиса, можно понимать инсайты, которые казалось бы изначально неочевидные, но которые говорят о том, как пользователю будет лучше за счет аналитики и данных. Кроме того, в этом же направлении лежат и накопление данных о том, что вы просматривали, чтобы сгенерировать для вас более релевантный контент. Например, это делает YouTube, Netflix, ВКонтакте и др. компании, где очень широко развита рекомендательная система.

Ключевой вопрос для любого анализа, во время и после него: so what?

Что от этого всего бизнесу? Вы каким-то образом улучшаете понимание того, что происходит в бизнесе на данный момент? Вы генерируете больше идей и экспериментов за счет анализа? Вы принимаете более правильные и свежие решения?

Если хотя бы один ответ на три этих вопроса да, то значит аналитик не зря делает свою работу. Аналитика это не просто цифры и числа, это мощный инструмент, который позволяет вести качественный бизнес. Компании, понимающие это, готовы серьёзно вкладываться в аналитику, ибо знают, что несмотря на затратность процесса, от этого можно получить гораздо больше.

На что важно обратить внимание при поиске первой работы?

Если вы для себя решили, что аналитика это то, что вам нужно, то при поиске первой работы вам необходимо найти место, где вы сможете лучше всего прокачаться. Под прокачкой имеются ввиду не только хард скиллы и использование инструментов, но и то, как подходить к проблемам, как и какие данные использовать.

На что стоит обратить внимание при поиске первой работы?

Пункты пойдут по убыванию важности, от наиболее важным к наименее:

1. Самое главное это команда и руководитель.

Это те люди, у которых вы будете ближайшие полгода, год или два учиться. Перед тем, как зайти на борт, спросите себя: хотите ли вы у них черпать знания, вдохновляют ли они вас, круты ли они в том, чем занимаются?

Постарайтесь про них выяснить как можно больше: посмотрите в интернете их выступления, ведут ли они какие-то блоги или каналы, может быть, они пишут тексты в профильных сообществах. Если хотя бы один человек в команде что-то из этого делает, то это хороший знак.

На интервью подробно расспросите, что ожидается от джуна, какой в компании формат взаимодействия в коллективе. Помните, что ваша основная цель это прокачаться и уйти оттуда с полным знаний и опыта багажом.

2. Сама компания.

Это не про офис и условия труда это, конечно, неплохо, но это не долгосрочная мотивация. Это про посыл, которая сама компания транслирует.

Качественный личностный рост может быть только вместе с мотивацией. Если мотивации нет, то нельзя классно прокачаться. Если ваш вайб резонирует с вайбом компании, то только тогда вы сможете эффективно усовершенствовать свои навыки. Лучше сразу найти себе какое-то место по душе. Аналитика сейчас нужна везде: в e-commerce, classified, foodtech, gametech, HR, медиа, логистика и т.д. Реально везде есть данные и с ними нужно работать, чтобы эффективно управлять бизнесом.

3. Стэк технологий, которые компания использует.

Как джун вы можете в них не разбираться, от вас это по большому счету никто и не ждёт, но если ребята пользуются Excel и у них база одна MySQL, то вам стоит насторожиться. Да, Excel это супер мощный инструмент, но если у компании классный cтэк по работе с данными, то это значит, что она понимает их важность и готова в них вкладываться. И, скорее всего, у бизнеса есть классная команда, а это значит, что вы можете круче прокачаться.

Что вы можете предложить при поиске первой работы аналитиком?

1. Знание SQL.

Если вы не сможете достать нужные данные, то вы не сможете сделать анализ. Достать данные вы можете с помощью SQL. У Юрия Тростина была куча реджектов из-за того, что он не знал SQL. Потом, конечно, ему пришлось его выучить.

SQL бывает разный:

Стандартный SQL, который сформировался в 80-е годы. Именно его надо учить изначально. Стандартный SQL Юрий учил с помощью сайта sql-ex.ru. Это сборник задач по SQL, где есть различные виды баз данных и там можно попробовать поотвечать на аналитические вопросы.
В российской IT-индустрии популярен другой диалект SQL, с которым работает ClickHouse. ClickHouse это колоночная аналитическая СУБД с открытым кодом, позволяющая выполнять аналитические запросы в режиме реального времени на структурированных больших данных, разрабатываемая компанией Яндекс.

ClickHouse сейчас используют повсеместно все, например, Mail.ru Group, Авито, Яндекс. Его синтаксис не сильно отличается от основного, хотя, конечно же, есть различия, которые делают его более функциональным в работе с ClickHouse. Его задачи заточены именно на анализ, на лиды, а не только на извлечение данных.

2. Python.

Это стандарт индустрии для анализа данных, data science, в нем также можно сразу создавать визуализации. Владение Python позволяет вам проводить определенные операции гораздо быстрее, если вы используете его в связке с SQL, в отличие от того момента, когда у вас есть просто SQL. Знание Python будет супер плюсом для потенциального джуна.

Юрий Тростин отмечает, что Python давался ему куда проще, чем SQL. Он очень много зависал на kaggle.com, делал там competitions. Также там есть очень много различных скриптов по анализу, чистке, визуализации данных в Python. Второй момент это курсы. Например, тот же курс от ProductStar.

3. Системы визуализации данных / BI-системы.

Без визуализации данных ваш анализ не имеет никакого смысла. С помощью BI-системы вы сможете проанализировать данные, визуализировать их, собрать графики в единый дашборд, который будет давать больше представления о том, что происходит в бизнесе, а также из этих данных можно на лету генерить инсайты. Такие продукты, как Tableau, Power BI, QlikView, это все относится к BI-функционалу. Они похожи между собой, поэтому если ознакомиться с каким-то одним из этих продуктов, то вам не будет составлять труда пересесть на что-то другое впоследствии.

4. Специфические продукты, используемые в аналитике.

Не секрет, что есть маркетинговая аналитика, бизнес-аналитика, продуктовая аналитика. В некоторых местах есть стратегическая аналитика, есть аналитика колл-центров, линий поддержки и т.д.

Узкие инструменты для маркетинговой аналитики это Google Analytics и Яндекс.Метрика. Для продуктовой аналитики Amplitude, который нужен для анализа пользовательского поведения в приложениях.

5. Эконометрика, A/B-тестирование, Data science.

На джуниорском уровне это не так важно, но в дальнейшем знание таких инструментов вам точно понадобится, если вы хотите преуспеть в аналитике.

Не нужно переходить к инструментам ниже по списку, если вы сначала не выучили инструменты выше. Если вы еще не знаете SQL, то не стоит начинать учить Python и т.п.

Что еще может помочь при поиске первой работы?

1. Решение бизнес-кейсов.

При решении бизнес-кейсов вы научитесь думать и говорить структурировано, быстро и четко. Вы научитесь выдвигать гипотезы, запрашивать релевантные данные, проводить качественный анализ и делать корректные выводы. Также это научит вас понятно доносить информацию о проделанной работе до разных людей.

2. Представление о том, как работает IT.

Это нужно потому, что обычно аналитик находится между бизнесом и технической командой. Аналитику нужно уметь находить коннект как с бизнесом, так и с технической командой.

3. Знакомства в индустрии.

Это ценно в особенности для тех, кто не имеет технического образования. Через знакомства можно получить рекомендации, это, конечно, не определяющее, но в какой-то момент может помочь.

Есть разные оффлайн и онлайн митапы, где вы можете знакомиться с людьми. Есть также большое Slack-сообщество Open Data Science (ODS), где больше 30 тысяч человек, среди которых вы также можете найти себе людей по интересам.

Чего ждать на интервью?

Типичная схема собеседования:

1. Знакомство;

2. Техническая часть.

Проверка навыков, которые вы указали в резюме;

3. Домашнее задание.

Вам либо предоставляется схема данных, по которой вы должны в итоге прислать не конкретный ответ в виде цифр, а SQL. В другом варианте вам дадут data set, который нужно будет проанализировать с помощью Python или другого языка программирования и далее прислать рекомендации по этому анализу;

4. Мотивационное интервью.

Выясняют, зачем вам нужна именно эта работа.

Что делать джуну на первой работе?

Главное в первой работе это максимальная прокачка.

1. Как можно больше общайтесь с командой.

При решении каких-либо задач всегда советуйтесь со своими коллегами, таким образом вы будете впитывать их опыт и делать более качественную работу.

2. Постарайтесь понять, как именно работает бизнес.

Задавайтесь вопросами:

Что продает ваша компания?
Какова экономика одной продажи?
Какова модель монетизации?
Что получает пользователь, когда пользуется продуктом вашей компании?

Это поможет сформировать вам цельную картину бизнеса, которая в то же время поможет вам при анализе данных и выдвижении гипотез.

3. Общайтесь не только со своей командой.

Общайтесь с самыми разными людьми внутри: разработка, продукт, маркетинг, продажи. Они могут поделиться с вами крутыми инсайтами о бизнесе и рынке.

4. Расширяйте сферы компетенции, не только по части аналитики.

5. Не засиживайтесь на одном месте.

Когда вы поняли, что ваши обязанности начинают повторяться, вы не можете уже взять от этого места столько же, сколько брали до этого, то задумайтесь, возможно, нужно открыться предложениям, которые поступают к вам, чтобы вы могли дальше расти как аналитик.

На что стоит смотреть при формировании команды?

1. Желание и страсть работать с данными.

Если вы любите искать паттерны в данных, если вы понимаете, что за данными стоит физический смысл, если вы можете с помощью данных на что-то влиять, то эта работа точно для вас.

2. Драйв.

Это про желание менять вещи. Классный аналитик должен быть проактивным.

3. Разнообразный опыт.

Когда у человека есть разносторонний опыт, он может добавить свою нестандартную точку зрения на проблему. С такими людьми интереснее работать.

4. Мотивация.

Важно, чтобы человек четко осознавал:

Что он хочет получить в результате этой работы?
Почему человек решил работать с данными?

5. Технические скиллы.

Никуда без них.

Полезные ссылки от Юрия Тростина:

Victor Cheng

Виктор Ченг это икона в сфере консалтинга У него есть классные книги и лекции на ютуб, а также аудиозаписи кейс-интервью. Вы можете их найти и послушать.

Case in Point, Marc Cosentino

Очень распространённая книжка в сфере консалтинга, которая представляет собой сборник бизнес-кейсов. Попробуйте прочитать и самостоятельно порешать кейсы из этой книжки.

Creating data-driven organization, Carl Anderson

Книга рассчитана на большой пласт специалистов, от джунов до профи. Книга хорошо развивает мысль, зачем вообще нужна аналитика. Создает даже некий фреймворк о том, как можно думать про аналитику в компании.

Youtube: CrashCourse / Computer Science

Любимый канал Юрия на ютуб. Там есть много быстрых курсов, в том числе и про Computer Science. С помощью этого курса вы сможете изучить основы Computer Science и понять откуда она зародилась.

Introduction to Networking, Charles Severance

Хорошая книга о том, как работают сети Интернет. Достаточно простая, рекомендую к прочтению.

Product Analytics Playbook, Amplitude

Этот источник позволяет по-новому взглянуть на аналитику, на важность отдельных метрик. В этом гайде есть туториалы, как можно все эти знания использовать в Amplitude.

Как мы делаем data-driven стартап. Worki

Выступление Юрия Тростина в Минске, где он рассказывает, как они делают data-driven стартап Worki.

Также аналитиком можно стать на нашем годовом курсе Профессия: Аналитик (с 0 до PRO) Узнать подробности!

Подробнее..

Категории: Python , Sql , Аналитика мобильных приложений , Data science , Поиск работы , Аналитика , A/b-тестирование , Блог компании productstar , Productstar , Первая работа , Bi-системы , Эконометрика

Мощность статистических тестов на единичный корень

11.12.2020 14:05:39 |

Автор: admin

Цель данной статьи поделиться результатами сравнительного исследования мощности статистических тестов на единичные корни Дики-Фуллера (ADF) и Квятковского, Филлипса, Шмидта и Шина (KPSS): в случае около-нестационарных временных рядов тест ADF часто не способен отклонить нулевую гипотезу нестационарности. Это означает, что у теста ADF высокий риск ошибки второго рода, то есть вероятность не отклонить ложную нулевую гипотезу.

В данной статье мы посмотрим, насколько мощны тесты ADF и KPSS. Сгенерируем случайный процесс $inline$ , у которого нет единичного корня (то есть процесс является стационарным), $\phi < 1$ :

$y_{t} = \phi y_{t-1} + \varepsilon_{t},$

и посмотрим, насколько различные статистические тесты распознают данный процесс как стационарный, а также на каких именно $\phi$ будет фейлиться тест ADF.

План эксперимента

Для различных значений $inline$ мы сгенерируем 1000 процессов $inline$ , $t = 0, \dots, T$ , где $inline$ , и посчитаем количество отвергнутых гипотез.

Тест ADF: Истинной моделью является $y_t = y_{t-1} + \varepsilon_t$ , где $\varepsilon_t \sim i.i.d$ с нулевым средним и конечной дисперсией $\sigma^2$ . Мы оцениваем модель $y_t = \phi y_{t-1} + \varepsilon_t$ . Критические значения для тестовой статистики $S = \frac{\hat{\phi} - 1}{\hat{\sigma}_{\hat{\phi}}}$ , где $inline$ , представлены в таблице ниже.

1%	5%	10%
-2.57	-1.94	-1.62

Тест KPSS: Истинной моделью является $y_t = r_t + \varepsilon_t$ , где $r_t = r_{t-1} + u_t$ , $u_t \sim i.i.d$ с нулевым средним и конечной дисперсией $\sigma^2 = 0$ . Мы оцениваем ту же модель с $\sigma^2 > 0$ . Критические значения для тестовой статистики множителей Лагранжа, где $inline$ , представлены в таблице ниже.

1%	5%	10%
0.74	0.46	0.35

Начальное значение $inline$ влияет на конечное выборочное распределение и в тесте ADF, и в тесте KPSS. На реальном фондовом рынке начальное значение $inline$ может варьироваться достаточно широко, например, от 0.00215 до 204 100 (в абсолютных величинах). В данной статье мы проанализируем мощность тестов ADF и KPSS для малых значений $inline$ .

Генерация случайных процессов

Начнем с генерации нестационарных случайных процессов при $inline$ . Во всех последующих таблицах $inline$ , $\sigma = 1$ , а количество генерируемых случайных процессов равно 1000. Генерировать случайные процессы будем в матлабе.

T = 500;count = 1000;epsilon = zeros(T,count);for set = 1 : count    epsilon(:,set) = randn(T,1);endy = zeros(T,count);y(1,:) = 0;for t = 2 : T    y(t,:) = y(t - 1,:) + epsilon(t,:);endfigureplot(y(:,1))title('Simulated RW Process')

На рисунке ниже представлен 1 из 1000 сгенерированных нестационарных случайных процессов, который следует модели случайного блуждания ( $\phi = 1$ ).

Тестирование на разных уровнях значимости

Затем протестируем каждый из сгенерированных случайных процессов тестами ADF и KPSS на различных уровнях значимости (1%, 5% и 10%).

h = zeros(count,1);for set = 1 : count    h(set,1) = adftest(y(:,set),'alpha',0.01);    h(set,2) = adftest(y(:,set));    h(set,3) = adftest(y(:,set),'alpha',0.1);    h(set,4) = kpsstest(y(:,set),'trend',false,'alpha',0.01);    h(set,5) = kpsstest(y(:,set),'trend',false);    h(set,6) = kpsstest(y(:,set),'trend',false,'alpha',0.1);end

Напомню, что методологический подход теста KPSS полностью отличается от подхода теста ADF, главное различие которого следует понимать в перестановке нулевой и альтернативной гипотезой.

В тесте KPSS нулевая гипотеза утверждает, что временной ряд является стационарным, альтернативная гипотеза утверждает наличие нестационарности. Простыми словами, если тест ADF отвечает 1 (true), значит, процесс стационарный. Если тест KPSS отвечает 1 (true), значит, процесс нестационарный.

Соответственно, для того, чтобы посчитать количество рядов, которые выявлены как стационарные тем или иным тестом, нужно воспользоваться следующим кодом.

nnz(h(:,1))nnz(h(:,2))nnz(h(:,3))nnz(~h(:,4))nnz(~h(:,5))nnz(~h(:,6))

Эксперимент для стационарных процессов

Теперь сгенерируем и протестируем стационарные случайные процессы с теми же начальными условиями, что и нестационарные процессы, сгенерированные и протестированные выше. Начнём с $\phi = 0.1$ .

phi = 0.1;z = zeros(T,count);z(1,:) = 0;for t = 2 : T    z(t,:) = phi * z(t - 1,:) + epsilon(t,:);endfigureplot(z(:,1))title('Simulated AR(1) Process')

На рисунке ниже представлен 1 из 1000 сгенерированных стационарных случайных процессов, который следует авторегрессионной модели первого порядка ( $\phi < 1$ ).

Протестируем каждый из сгенерированных случайных процессов тестами ADF и KPSS на различных уровнях значимости (1%, 5% и 10%).

zh = zeros(count,1);for set = 1 : count    zh(set,1) = adftest(z(:,set),'alpha',0.01);    zh(set,2) = adftest(z(:,set));    zh(set,3) = adftest(z(:,set),'alpha',0.1);    zh(set,4) = kpsstest(z(:,set),'trend',false,'alpha',0.01);    zh(set,5) = kpsstest(z(:,set),'trend',false);    zh(set,6) = kpsstest(z(:,set),'trend',false,'alpha',0.1);end

Затем посчитаем количество рядов, которые были выявлены как стационарные тем или иным тестом.

nnz(zh(:,1))nnz(zh(:,2))nnz(zh(:,3))nnz(~zh(:,4))nnz(~zh(:,5))nnz(~zh(:,6))

Продолжим тестирование для других значений $\phi$ .

Результаты эксперимента

В таблице ниже показано, сколько раз процесс был выявлен как стационарный для различных тестов и различных значений $\phi$ . Для $\phi = 1$ количество найденных стационарных процессов соответствует тому, что мы ожидали. Для около-нестационарных процессов $0.9 < \phi < 1$ мы получаем много ложно-положительных ответов от теста ADF. Для $\phi \leq 0.9$ мы можем получить ложно-отрицательный ответ от теста KPSS.

	Тест ADF			Тест KPSS
$\phi$	1%	5%	10%	1%	5%	10%
0.1	1000	1000	1000	981	924	868
0.2	1000	1000	1000	961	885	812
0.3	1000	1000	1000	938	834	731
0.4	1000	1000	1000	893	758	642
0.5	1000	1000	1000	831	665	512
0.6	1000	1000	1000	733	516	353
0.7	1000	1000	1000	586	339	186
0.8	1000	1000	1000	349	145	66
0.9	1000	1000	1000	68	17	4
0.95	988	1000	1000	2	0	0
0.975	501	886	981	1	0	0
0.99	79	330	536	1	0	0
0.995	34	155	288	0	0	0
1	8	46	95	0	0	0
1.01	1	4	5	0	0	0

Выводы

Как мы видели, тест Дики-Фуллера не способен различить нестационарные и около-нестационарные временные ряды. Это объясняет, почему не выполняется свойство симметричности отношения коинтеграции примерно для 3% пар.

Мной были проанализированы остатки 8 несимметричных пар на Московской бирже за 2019 год: $\phi$ колебалась от 0.9593 до 0.9716, то есть временной ряд остатков был около-нестационарным.

На практике полезно классифицировать переменные с высокой степенью постоянства во времени (незначительный возврат к среднему) как нестационарные, а переменные со значительной склонностью возврата к среднему как стационарные.

Однако важно подчеркнуть, что стационарность/нестационарность или, в качестве альтернативы, порядок интегрирования переменной не является в целом свойством экономической переменной, а представляет собой удобную статистическую аппроксимацию, позволяющую различать краткосрочные, среднесрочные и долгосрочные колебания данных.

Если временной ряд пересекает свой средний уровень, скажем, 10 раз, то эконометрический анализ обнаружит значительный возврат к среднему и, следовательно, сделает вывод о том, что временной ряд является стационарным.

Однако если мы расширим горизонт выборки, то можем получить противоречивые результаты. На более широком временном диапазоне эконометрический анализ может сделать вывод о нестационарности временного ряда.

Существует множество аргументов в пользу рассмотрения единичного корня (стохастического тренда) как удобной эконометрической аппроксимации, а не как глубокого структурного параметра.

Например, если временным аспектом нашего исследования является макроэкономическое поведение в среднесрочной перспективе, то большинство макроэкономических переменных проявляют значительную инерционность, согласующуюся с нестационарным, а не стационарным поведением.

Такой временной ряд не будет статистически отличаться от нестационарного процесса, и его рассмотрение в качестве стационарной переменной (на небольшой выборке), скорее всего, сделает статистический анализ невалидным и, следовательно, приведет к неверным экономическим выводам.

В связи с этим не вижу большого смысла перед исследованием на коинтеграцию проверять временной ряд на стационарность. Во-первых, мы можем получить невалидный результат. Во-вторых, даже если процесс действительно будет стационарным на некотором промежутке времени, скорее всего, выборкой мы просто поймали движение в боковике. Однако если мы расширим горизонт анализа, мы увидим в целом нестационарное поведение временного ряда.