Русский

	Русский
	English

Авторизация

Ip-адрес

Восстановление пароля

Регистрация

Статистика

R в руках маркетолога. Делаем когортный анализ своими руками

В маркетинге очень популярен когортный анализ. Его популярность вызвана, скорее всего, легкостью алгоритма и вычислений. Никаких серьезных математических концепций в основе нет, элементарная математика, выполняемая в excel. С точки зрения получения инсайтов гораздо интереснее анализ дожития.

Тем не менее, считаем, что есть такая задача и ее надо решить. Искать какие-либо пакеты и готовые функции неинтересно математика проста, параметров настройки масса. Ниже возможный пример реализации (без особой фиксации на скорость исполнения), всего кода на пару десятков строк.

Является продолжением серии предыдущих публикаций.

Немного кода

При создании тестового набора мы можем особо не акцентироваться на временнх зонах, все равно данные случайные.

Создание тестового набора

# генерируем данные на 15 недельset.seed(42)events_dt <- tibble(user_id = 1000:9000) %>%  mutate(birthday = Sys.Date() + as.integer(rexp(n(), 1/10))) %>%  rowwise() %>%  mutate(timestamp = list(as_datetime(birthday) + 24*60*60 * (     rexp(10^3, rate = 1/runif(1, 2, 25))))) %>%  ungroup() %>%  unnest(timestamp) %>%  # режем длинные хвосты в прошлом и в будущем  filter(timestamp >= quantile(timestamp, probs = 0.1),         timestamp <= quantile(timestamp, probs = 0.95)) %>%  mutate(date = as_date(timestamp)) %>%  select(user_id, date) %>%  setDT(key = c("user_id", "date")) %>%  # оставим только уникальные по датам события  unique()

Посмотрим на получившееся интегральное распределение

ggplot(events_dt, aes(date)) +  geom_histogram()

Шаг 1. Формируем справочник пользователей

В настоящем примере справочник будет тривиальным и содержит только "дату рождения", т.е. дату, когда мы первый раз встретились с ним. Установка ключей для data.table объекта приводит к физической сортировке данных в порядке появления ключей.

Формируем справочник пользователей

users_dict <- events_dt[, .(birthday = head(date, 1)), by = user_id] %>%  # для последующей сортировки оставим дату начала недели  .[, week_start := floor_date(.BY[[1]], unit = "week"), by = birthday] %>%    # переведем даты рождения в номера когорт  .[, cohort := stri_c(        lubridate::isoyear(.BY[[1]]),         sprintf("%02d", lubridate::isoweek(.BY[[1]])),         sep = "/"), by = week_start]# посмотрим на распределение дат, нам нужен разброс для красивой картинкиas_tibble(janitor::tabyl(users_dict, birthday))

Шаг 2. Подготовим разметку в терминах когортного анализа

Совсем за скоростью пока не гонимся.

Составим справочник когорт. Для сокращения преобразований и обеспечения последующей сортировки.

Строим когортное представление в data.frame

cohort_dict <- unique(users_dict[, .(cohort, week_start)])cohort_tbl <- users_dict[events_dt, on = "user_id"] %>%  # посчитаем удаленность событий от даты рождения в терминах недель  .[, rel_week := floor(as.numeric(difftime(date, birthday, units = "week")))] %>%  # оставим только 10 недель  .[rel_week <= 9] %>%  # редуцируем до уникальных пользователей  unique(by = c("user_id", "cohort", "rel_week")) %>%  # считаем агрегаты в терминах когорт и недель  .[, .N, by = .(cohort, rel_week)] %>%  .[, rate := N/max(N), by = cohort]

Шаг 3. Визуализируем

Вариант 1. `ggplot`

Визуализация ggplot

# вариант ggplotdata_tbl <- cohort_tbl %>%  # вернем числовые показатели когорт для сортировки  left_join(cohort_dict)data_tbl %>%  mutate(cohort_group = forcats::fct_reorder(cohort, week_start, .desc = TRUE)) %>%  ggplot(mapping = aes(x = rel_week, y = cohort_group, fill = rate)) +  geom_tile()  +  geom_text(aes(label = N), colour = "darkgray") +  labs(x = "Недели существования когорты",       y = "Неделя появления когорты",       fill = "Количество\nпользователей",       title = "graph_title") +  scale_fill_viridis_c(option = "inferno") +  scale_x_continuous(breaks = scales::breaks_width(1)) +  theme_minimal() +  theme(panel.grid = element_blank())

Вариант 2. `gt`

Для оформления используем тот факт, что у нас всегда по две строки на когорту и они отсортированы в нужном порядке.

Визуализация gt

# подготовим табличку-подложкуdata_tbl <- cohort_tbl %>%  pivot_longer(cols = c(N, rate)) %>%  pivot_wider(names_from = rel_week, values_from = value) %>%  # вернем числовые показатели когорт для сортировки  left_join(cohort_dict) %>%  arrange(week_start, desc(name))odd_rows <- seq(1, to = nrow(data_tbl), by = 2)even_rows <- seq(2, to = nrow(data_tbl), by = 2)tab <- data_tbl %>%  mutate(cohort = if_else(rep(c(TRUE, FALSE), length.out = nrow(.)),                           cohort, "")) %>%  select(-name, -week_start) %>%  gt(rowname_col = "cohort") %>%  fmt_percent(columns = matches("[0-9]+"),               rows = odd_rows,               decimals = 0, pattern = "<big>{x}</big>") %>%  fmt_missing(columns = everything(),               missing_text = "---") %>%  tab_stubhead(label = "Неделя появления когорты") %>%  tab_spanner(label = "Неделя существования когорты",              columns = everything()) %>%  tab_header(title = "Развертка") %>%  data_color(columns = everything(),             colors = scales::col_numeric(palette = "inferno",                                          domain = c(0, 1),                                           alpha = 0.6,                                          na.color = "lightgray")) %>%  tab_options(    table.font.size = "smaller",    data_row.padding = px(1),    table.width = pct(75)  ) %>%  tab_style(    style = list(      cell_fill(color = "white"),      cell_text(style = "italic"),      cell_borders(sides = "bottom")    ),    locations = cells_body(      columns = everything(),      rows = even_rows)  ) %>%  tab_style(    style = list(      cell_borders(sides = "top")    ),    locations = cells_body(      columns = everything(),      rows = odd_rows)  )tab

Каркас приведен, прочее каждый может модифицировать под себя.

Предыдущая публикация R и работа со временем. Что за кулисами?.

Источник: habr.com

К списку статей

admin

Опубликовано: 02.05.2021 12:15:03

Сейчас читают

Комментариев (0)

Имя

Электронная почта

R

Запросить 100 серверов нельзя оптимизировать код. Ставим запятую

Можно выделить ряд алгоритмов, которые являются базовыми и лежат в основе практически каждой строчки программ, написанных на языках высокого уровня. Хорошо иметь под руками классический многотомный труд Дональда Кнута "The Art of Computer Programming", там детально разобраны многие ба
Extendr вызываем rust из R (и наоборот)

Зачем нужен Rust в R?

Первый вопрос, который должен возникнуть у читателя -- а зачем вообще использовать Rust вместе с R? Ответ довольно прост: Rust -- новый системный язык программирования, спроектированный специально для написания безопасного и легко распараллеливаемого кода. Rust довольно сложен в освоении (в сравнении с другими языками), но при этом предоставляет отли
Модификация EM-алгоритма для решения задачи кластеризации с выбросами

Основной из проблем кластерного анализа практических данных является наличие выбросов. Большинство существующих методов кластеризации не учитывают их существование, из-за этого явно аномальные наблюдения включаются в состав каких-то кластеров, что может серьезно смещать их центры и влиять на качество классификации. Разумеется, можно сначала исходные данные проверить на выбросы, их отсеять и т.д., но тогда задача превратиться в двух
Перевод Clustergram визуализация кластерного анализа на Python

В этой статье, переводом которой мы решили поделиться специально к старту курса о Data Science
Оценка кредитного портфеля на R

В ходе обсуждений возникла маленькая задачка построить динамику структуры кредитного портфеля (динамика кредитной карты, например). В качестве важной специфики необходимо применять метод FIFO для погашения займов. Т.е. при погашении первыми должны гаситься самые ранние займы. Это накладывает определенные требования на расчет статуса каждого отдельного займа и определения его даты погашения.

Ниже приведе
Как создать Trello dashboard, чтобы задачи из 5 досок собирались в одной?

Проблематика

В своей работе я столкнулся с необходимостью организации задач сотрудников департамента аналитики в едином окне и построения прозрачной схемы оценки их загруженности.

Какие есть варианты?

Сравнивая различные инструменты и таскменеджеры, выбор пал на одного из популярных игроков рынка - Trello. Однако, сразу после выбора программы, возникло новое препятствие. В бесплатной версии этого приложения

Визуализация данных

Геопространственное моделирование с применением методов машинного обучения

Всем привет! Меня зовут Константин Измайлов, я руководитель направления Data Science в Delivery Club. Мы работаем над многочисленными интересными и сложными задачами: от формирования классических аналитических отчетов до построения рекомендательных моделей в ленте приложения.

Сегодня я расскажу пр
Автозаказ как сделать так, чтобы нужные продукты сами попадали на полки 17000 магазинов по всей стране

В школе все мы решали задачки вида едет из пункта А в пункт Б. Речь преимущественно шла о скорости и времени как быстро доберётся транспортное средство? Реальность, однако, подбрасывает задачки значительно интереснее: Существует масштабная ритейл-сеть по продаже товаров, которой необходимо, чтобы огромное количество номенклатурных позиций доезжало в каждый из 17000 магазинов, расположенных на половине площади самой большой страны в
Как я пытался придумать новый подход к изучению алгоритмов через интерактивные визуализации

Представьте человека, который изучает алгоритмы. Чтобы понять как они работают, приходится изучать их код и представлять, как компьютер будет его выполнять. Это странно почему мы должны учиться думать как компьютер, вместо того, чтобы заставить его помогать на
Анализируем слона вместе с коллегами

Если ваша жизнь DBA, сопровождающего PostgreSQL, наполнена вопросами "а почему так медленно?" и "как сделать, чтобы запрос не тормозил?", наш сервис анализа и визуализации планов запросовexplain.tensor.ru сделает ее немного легче за счет привлечения коллег и обновленных подсказок.
Перевод Как культура жителей города влияет на дизайн карт метро Нью-Йорк

Что бы вы порекомендовали тому, кто впервые приезжает в Нью-Йорк? Посетить Центральный парк? Посмотреть шоу на Бродвее? Увидеть Статую Свободы?

Я бы первым делом посоветовала скачать офлайн-карту метро. Мне предложили это сделать, когда я впервые оказалась в Нью-Йорке, и это спасало меня множество раз.

Когда я переехала в Нью-Йорк, то почти сразу познакомилась с самой знаковой достопримечательностью г
Перевод 5 разных библиотек Python, которые сэкономят ваше время

В этой подборке, переводом которой мы решили поделиться к старту курса о машинном и глубоком об

Аналитика мобильных приложений

Когортный анализ подписок как понять, что экономика сходится?

Когортный анализ это способ отследить плотность метрики для определенных групп пользователей. В отличие от обычных графиков, когорты показывают именно stickiness пользователей, распределенный во времени.

Звучит сложно, на деле понять проще. Возьмем конкретный пример: попробуем понять как ведет себя база подписчиков
Майним еще больше данных настраиваем сбор рекламной статистики TikTok за день

Привет, меня зовут Маша, я работаю маркетинговым аналитиком в Ozon. Наша команда "питонит" и "эскьюэлит" во все руки и ноги во благо всего маркетинга компании. Одной из моих обязанностей является поддержка аналитики для команды медийной рекламы Ozon.

Медийная реклама Ozon представлена на разных площадках: Facebook, Google, MyTarget, TikTok и другие. Для эффективной работы любой рекламной кампании необходима оперативная анали
Cognitive therapy и мобильные приложения против невротической депрессии

Только примерно 20% больных реальной депрессией ищут медицинскую или психологическую помощь, причем большинство из них обращаются к участковым терапевтам и неврологам. Те, в свою очередь, не всегда готовы к правильной диагностике, вследствие чего лишь около 30% депрессий (из
Подборка 150 ресурсов для управления и работы IT-команды

Привет! На связи компанияKODE. Мы занимаемся разработкой мобильных приложений, голосовых интерфейсов, IoT и других цифровых решений для государства и крупного бизнеса в России и Европе с 2013 года.

Руководители наших отделов собрали полноценную библиотеку IT-компании: сайты, блоги, книги, онлайн-курсы, подкасты, Telegram- и YouTube-каналы. Подборка будет полезна менеджерам, аналитикам, разработчикам, дизайнерам и QA.
Подборка 150 ресурсов для управления и работы ИТ-команды

Привет! На связи компанияKODE. Мы занимаемся разработкой мобильных приложений, голосовых интерфейсов, IoT и других цифровых решений для государства и крупного бизнеса в России и Европе с 2013 года.

Руководители наших отделов собрали полноценную библиотеку IT-компании: сайты, блоги, книги, онлайн-курсы, подкасты, Telegram- и YouTube-каналы. Подборка будет полезна менеджерам, аналитикам, разработчикам, дизайнерам и QA.
Какие ошибки совершает аналитик в первые полгода работы и как их избежать

Хайди хо, Кайл!

Меня зовут Диана и я бизнес-аналитик в компании Surf. В прошлом году я закончила бакалавриат факультета компьютерных наук в ВГУ: это дало мне базовые теоретические знания. Однако теория мало применима без практики: теперь набиваю шишки в настоящих проектах.

Я пришла к вам для того, чтобы поделиться опытом, который получила на своём первом боевом проекте. Мы делали банковское мобильное приложение со сло

Управление продажами

Как устроиться в компанию мечты тренинг-интервью от А до Я

Пандемия коронавирусной инфекции создала серьезный экономический кризис, ударивший по рынку труда, что создало дефицит хороших предложений и ужесточение требований к кандидатам.В этом материале делюсь уникальным тренингом-интервью, который помог управленцу фарм-индустрии стать
Штрих-код

Редкие гуляющие в межсезонье 1948 года по пустынному флоридскому пляжу, которые могли наблюдать невысокого подвижного человека в очках, с очень живым лицом, что-то рисующего на прибрежном песке, и представить себе не могли, что на их глазах творится история.
Лимиты в LinkedIn. Нюансы. Когда 1 не равно 1?

Как работают квоты

В LinkedIn есть счетчики, показывающие, сколько раз каждый пользователь выполнял определенные запросы. Если эти счетчики превышают пороговые значения, LinkedIn может ограничить такие запросы. В случае многократного превышения пороговых значений могут применяться более строгие меры.

Мы отслеживаем количество таких запросов и предотвращаем выполнение задач, выполняющих запросы этого т
Виртуальный учебный день Microsoft Dynamics 365 активизация цифровых продаж

19 мая, на английском с субтитрами на русском
Сегодняшний мир, который становится все более цифровым, требует гибкой стратегии электронной коммерции. Виртуальный учебный
Стартап-гид основы выживания

Вводная лекция

1.Идея

Однажды ко мне обратился знакомый юноша и попросил рассказать ему, как решить вопрос налогообложения, когда донаты отправляют деньги на поддержку твоего мобильного бота в телеграмме? А потом еще поинтересовался: а как защитить свои права на идею, чтобы ее не украли и не использовали без разрешения?

После этого разговора мы еще несколько раз общались с ним и другими ребятами, создающими
R в руках маркетолога. Делаем когортный анализ своими руками

В маркетинге очень популярен когортный анализ. Его популярность вызвана, скорее всего, легкостью алгоритма и вычислений. Никаких серьезных математических концепций в основе нет, элементарная математика, выполняемая в excel. С

Маркетинг

Recovery mode Как заказать услуги по SEO и не потерять

Иван Бабайлов

Сооснователь в ADWAI Digital

Всем привет! Меня зовут Иван Бабайлов и в этом материале я расскажу о том, как
Recovery mode Антирекламный щит рядового пользователя Яндекс без дзена, YouTube без рекламы, Хабр без баннера

Контроль над содержимым web должен принадлежать в т.ч. рядовому пользователю, а не только маркетологам. Web-пользователь сам в состоянии определять, что для него является пагубной рекламой, а что полезным контентом. Если пользователь считает, что новости или дзен Яндекса -
Майним еще больше данных настраиваем сбор рекламной статистики TikTok за день

Привет, меня зовут Маша, я работаю маркетинговым аналитиком в Ozon. Наша команда "питонит" и "эскьюэлит" во все руки и ноги во благо всего маркетинга компании. Одной из моих обязанностей является поддержка аналитики для команды медийной рекламы Ozon.

Медийная реклама Ozon представлена на разных площадках: Facebook, Google, MyTarget, TikTok и другие. Для эффективной работы любой рекламной кампании необходима оперативная анали
Перевод Сервисы с подпиской должны давать своим пользователям уйти

Никто не любит, когда человек бросает все и уходит. Я говорю не (только) о ситуации, когда тренер школьной команды норовит пристыдить спортсмена, который решает её покинуть. Я имею в виду момент, когда пользователь решает перестать пользоваться услугой или сервисом и хочет отменить свою подписку эта модель бизнеса в настоящее время является
Комьюнити менеджмент в GameDev это не про мемы, а про сервис, комфорт и вовлеченность

Когда мы готовили it-конференцию DUMP, то предполагали, что секция о разработке игр вызовет интерес. Но то, что мест в зале не хватит, было неожиданностью. Мы решили продолжить обсуждение трендовых тем и пообщались с представителями игровой индустрии о комьюнити менеджмен
Recovery mode Что такое inbound маркетинг и зачем он нужен вашему бизнесу

Методы маркетинга постоянно идут вперед. Сегодня власть находится в руках цифровых медиа, и маркетинг переключился с традиционных методов к инбаунд-стратегиям, ориентированным на постепенное выстраивание доверительных отношений с клиентами.

Тактика традиционного маркет

Data science

RamblerMeetupampUsermodel

Мы долго шли к этому и вот наконец! Наш внутренний RamblerMeetup&Usermodel выходит в свет! Уже 30 июня эксперты поделятся своими кейсами в области ML и Big Data.

Митап пройдет в онлайн-формате, начало в 19:00. Обязательна предварительная
Как мы построили Computer Vision из подручных материалов, чтобы сделать гифки

Меня зовут Денис Власов, я Data Scientist в Учи.ру. С помощью моделей машинного обучения из записей онлайн-уроков мы сделали гифки последовательность из нескольких кадров с наиболее яркими эмоциями учеников. Эти гифки получили их родители в e-mail-рассылке. Вместе с Data Scientist @DariaV Дашей Васюковой расскажем, как без экспертизы в Computer Vision, а только с помощью открытых библиотек и готовых моделей сделать MVP, в ос
Запросить 100 серверов нельзя оптимизировать код. Ставим запятую

Можно выделить ряд алгоритмов, которые являются базовыми и лежат в основе практически каждой строчки программ, написанных на языках высокого уровня. Хорошо иметь под руками классический многотомный труд Дональда Кнута "The Art of Computer Programming", там детально разобраны многие ба
Перевод Линейная алгебра для исследователей данных

Иллюстрация: UCI

Наша [Ирвинга Капланского и Пола Халмоша] общая философия в отношении линейной алгебры такова: мы думаем в безбазисных терминах, пишем в безбазисных терминах, но когда доходит до серьезно
Как я предсказал LGD на хакатоне и устроился на работу

Всем привет! Меня зовут Андрей, недавно яприсоединился ккоманде VSRobotics изанимаюсь проектом автопостроителя сценариев диалогов робота-оператора. Вэтом посте хочу поделиться историей своего трудоустройства ирешением задачи LGD prediction, которое мне вэтом очень помогло. Не
Перевод Прогнозирование временных рядов на JS анализ данных для самых маленьких фронтендеров

В этой статье я расскажу о том, почему нормально иногда делать анализ данных в браузере.

В чем суть?

На своей работе в качестве React Front-end разработчика я обычно работаю с дашбордами и различными видами данных. В какой-то момент нам понадобилось добавить предсказания по метрикам, а в команде не было специалистов по анализу данных, которые могли бы этим заняться.

Когортный анализ

Когортный анализ подписок как понять, что экономика сходится?

Когортный анализ это способ отследить плотность метрики для определенных групп пользователей. В отличие от обычных графиков, когорты показывают именно stickiness пользователей, распределенный во времени.

Звучит сложно, на деле понять проще. Возьмем конкретный пример: попробуем понять как ведет себя база подписчиков
R в руках маркетолога. Делаем когортный анализ своими руками

В маркетинге очень популярен когортный анализ. Его популярность вызвана, скорее всего, легкостью алгоритма и вычислений. Никаких серьезных математических концепций в основе нет, элементарная математика, выполняемая в excel. С
Когортный анализ в email-маркетинге и других сферах

Чем лучше вы понимаете своих клиентов, тем более эффективные маркетинговые стратегии используете. Чтобы узнать, кто находится в базе контактов, часто применяют сегментацию: по полу, возрасту, купленным товарам. И это хорошо.

Важно только не забывать, что, если пол единствен
Avito Analytics meetup

Привет, Хабр! 30 июня в18:00 поМоскве мы проведём онлайн-митап дляаналитиков. Спикеры расскажут прорегиональные A/B-тесты, управление выдачей товаров винтернет-магазине, предсказание профита отновых фичей и data science вдоставке товаров.

Подкатом, как и

Последние комментарии

Имя: Макс

24.08.2022 | 11:28

Я разраб в IT компании, работаю на арбитражную команду. Мы работаем с приламы и сайтами, при работе замечаются постоянные баны и лаги. Пацаны посоветовали сервис по анализу исходного кода,https://app Подробнее..
Имя: 9055410337

20.08.2022 | 17:41

поможем пишите в телеграм Подробнее..
Имя: sabbat

17.08.2022 | 20:42

Охренеть.. это просто шикарная статья, феноменально круто. Большое спасибо за разбор! Надеюсь как-нибудь с тобой связаться для обсуждений чего-либо) Подробнее..
Имя: Мария

09.08.2022 | 14:44

Добрый день. Если обладаете такой информацией, то подскажите, пожалуйста, где можно найти много-много материала по Yggdrasil и его уязвимостях для написания диплома? Благодарю. Подробнее..

Контакты
Обнаружили ошибку

R в руках маркетолога. Делаем когортный анализ своими руками

Немного кода

Шаг 1. Формируем справочник пользователей

Шаг 2. Подготовим разметку в терминах когортного анализа

Шаг 3. Визуализируем

Вариант 1. ggplot

Вариант 2. gt

Сейчас читают

R

Запросить 100 серверов нельзя оптимизировать код. Ставим запятую

Extendr вызываем rust из R (и наоборот)

Зачем нужен Rust в R?

Модификация EM-алгоритма для решения задачи кластеризации с выбросами

Перевод Clustergram визуализация кластерного анализа на Python

Оценка кредитного портфеля на R

Как создать Trello dashboard, чтобы задачи из 5 досок собирались в одной?

Проблематика

Какие есть варианты?

Визуализация данных

Геопространственное моделирование с применением методов машинного обучения

Автозаказ как сделать так, чтобы нужные продукты сами попадали на полки 17000 магазинов по всей стране

Как я пытался придумать новый подход к изучению алгоритмов через интерактивные визуализации

Анализируем слона вместе с коллегами

Перевод Как культура жителей города влияет на дизайн карт метро Нью-Йорк

Перевод 5 разных библиотек Python, которые сэкономят ваше время

Аналитика мобильных приложений

Когортный анализ подписок как понять, что экономика сходится?

Майним еще больше данных настраиваем сбор рекламной статистики TikTok за день

Cognitive therapy и мобильные приложения против невротической депрессии

Подборка 150 ресурсов для управления и работы IT-команды

Подборка 150 ресурсов для управления и работы ИТ-команды

Какие ошибки совершает аналитик в первые полгода работы и как их избежать

Управление продажами

Как устроиться в компанию мечты тренинг-интервью от А до Я

Штрих-код

Лимиты в LinkedIn. Нюансы. Когда 1 не равно 1?

Виртуальный учебный день Microsoft Dynamics 365 активизация цифровых продаж

Стартап-гид основы выживания

Вводная лекция

1.Идея