Как-то так получилось, что в 2020 году возник всплеск интереса к тематике Process Mining. Не исключено, что новая реальность удаленного режима потребовала более пристальной оценки эффективности технологических и бизнес-процессов. Это же как с кривыми и косыми деревянными рамами. Сквозит из всех щелей, а счетчик накручивает мегаватты на обогрев.

В целом, видны несколько популярных запросов по применению технологии process mining:

хочется что-то улучшить, но кроме модного слова больше ничего не слышали;
получить или сэкономить живые деньги путем оптимизации классического процесса order-to-cash и ему подобных;
системный аудит всего и вся собственной командой аудиторов;
построение операционной аналитики и мониторинга на основе показателей процессов, а не ИТ метрик.

В 99% случаев начинают читать Gartner/Forrester и попадают на 4-ку вендоров (Celonis/Minit/Software AG/UiPath), которые как-то присутствуют в России. И до того, как начать получать какую-либо выгоду, тут же получают немаленький ценник за лицензии и последующую ежегодную поддержку. При этом экономическое обоснование шито белыми нитками.

А действительно ли нужно идти таким путем? Особенно, когда задачи и цели не до конца понятны самим постановщикам. Не стоит забывать, что вендоры требуют специально подготовленный лог событий, а его подготовка может вылиться в головную боль и многие месяцы интеграционной работы в классическом enterprise ландшафте.

Является продолжением предыдущих публикаций.

Преамбула

Так ли уж технологии process mining недоступны простым смертным и все страшно и дорого?
Нет, нет и еще раз нет. 90% задач в продуктиве и 100% задач на исследовательском этапе могут быть закрыты open-source инструментами. Экосистема R позволяет их решать практически в полном объеме. Причем даже аудиторы и сотрудники HR службы могут освоить инструменты и эффективно их применять в своей повседневной деятельности. Что уж говорить о разработчиках и аналитиках.

И когда задача будет ясна, выгода от применения коммерческих инструментов будет обоснована, вот тогда и можно задуматься о приобретении лицензий на коммерческое специализированое ПО. Или же наоборот, об экономии средств и сокращении нецелевых трах.

Ниже несколько аргументов и иллюстраций в стиле беседа в лифте от 1-го до 30-го этажа, как именно используется R для применения технологий process mining во внутренних службах аудита бизнес-процессов.

Весь последующий текст без купюр и с иллюстрациями доступен в виде презентации.

Актуальность

В задачах аудита бизнес-процессов, как правило, требуется выполнение следующих требований:

скорость (= деньги) проведения аудита;
возможность самостоятельного подключения любых источников данных;
возможность самостоятельного проведения любой сложности трансформации данных;
возможность быстрого проведения аналитических итераций;
возможность повторного проведения аналитики с получением идентичных результатов;
представление результатов аудита красивом виде и в различных форматах.

Типичный сценарий проведения аудита процессов выглядит следующим образом:

Задача аудита по своей сути является разовой и уникальной. Новые источники данных, новая постановка задачи, новые инсайты. Практика показала, что использование коробочных process-mining решений для задач аудита не имеет особых преимуществ перед способами анализа процессов средствами data-science стека.

Основные причины кроются в том, что:

решениям требуется лог событий в жестко заданном формате, ETL нужно делать где-нибудь вовне;
парадигма проведения аналитики только мышкой заканчивается на 2-м или 3-м шаге, когда все равно требуется открывать капот и программировать сложные метрики и сложные формулы на встроенном вендоро-зависимом языке;
аналитика мышкой требует проведения стека ручных операций при повторных вычислениях;
лицензии стоят очень дорого.

Альтернативный вариант

Задача process-mining по своей сути ничем не отличается от классических задач анализа данных. Для ее решения можно успешно использовать стек data science инструментов, в частности, стек, построенный open-source на экосистеме R Tidyverse. Сам инструмент обладает широким спектром возможностей, доступ к которым появляется при подключении тех или иных open-source пакетов. Пакетов на настоящий момент существует более 10 тысяч, они активно развиваются. Но, поскольку задача process-mining достаточно ограничена, далее мы будем упоминать только пакеты, которые будут часто использоваться в задачах process mining office (PMO).

Обзор технических возможностей и способов решения типовых операций в контексте PMO будет подкрепляться компактными фрагментами кода. Важно учитывать, что в data science принято придерживаться концепции воспроизводимых вычислений, т.е. применение технологий и методологий по автоматическому (скрипт) получению идентичных результатов, выполняемых на разными людьми на разных машинах в разное время.

Важно то, что в задаче process-mining программирования не избежать в принципе, как бы этого ни хотелось. В случае с data science стеком это совершенно не критично, поскольку для аналитических кейсов PMO конструкции языка общего назначения R и пакетов tidyverse максимально приближены к человеческому языку и набор типовых операций ничуть не сложнее работы в Excel.

Краткое резюме по применению R для задач process mining:

дешево (open-source);
быстро (как время работы аналитика, так и время вычислений);
компактно (данные в 10-100 млн строк можно крутить на обычном ноутбуке);
воспроизводимо (все действия описываются в виде кода, поддерживается методология воспроизводимых вычислений);
функционально (в целом, экосистема R содержит > 10 тыс. пакетов, включая импорт/экспорт, процессинг, алгоритмы, визуализацию, разработку web АРМ, ...).

Импорт данных

Импорт из csv, команда и получаемая таблица:

df <- read_csv("./data/pmo/pmo_sales.csv")df

Импорт из xlsx, команда и получаемая таблица:

df <- read_excel("./data/pmo/pmo_sales.xlsx", sheet = "Данные здесь")df

Импорт данных из БД: MS SQL, PostgreS, Oracle, MySQL, Access, Redis, Clickhouse, Детально можно прочесть "Databases using R" (https://db.rstudio.com/)

Преобразование данных

Самые базовые действия (глаголы) на примере данных о продажах. Детально можно ознакомиться здесь:

Глагол mutate создание колонки.

df <- read_csv("./data/pmo/pmo_sales.csv") %>%  # считаем выручку по позициям  mutate(amount = unitprice * weight)df

Глагол group_by группировка по колонкам, глагол summarise расчет подытога.

# считаем выручку по товарамdf %>%   group_by(item) %>%  summarise(sum(weight), sum(amount))

Глагол select выбор и переименование колонок.

df %>%  select("Дата" = date, "Выручка, руб" = amount, item)

Глагол filter выбор строк по условию.

df %>%  filter(amount > 1000, item == "Арбуз")

Глагол arrange сортировка строк по колонкам.

df %>%  arrange(date, desc(amount))

Пример форматного вывода в отчет

df %>%   group_by(item) %>%  gt(rowname_col = "date")

Посмотрим графически на продажи

gp <- ggplot(df, aes(date, amount, color = item, fill = item)) +  geom_point(size = 4, shape = 19, alpha = 0.7) +  geom_line(lwd = 1.1) +  scale_x_date(date_breaks = "1 day", date_minor_breaks = "1 day", date_labels = "%d") +  scale_y_continuous(breaks = scales::pretty_breaks(10)) +  ggthemes::scale_color_tableau() +  ggthemes::scale_fill_tableau() +  theme_bw()gp

А можно разложить по фасетам

gp + facet_wrap(~item) + geom_area(alpha = 0.3)

Примеры преобразований на основе лога событий

Импорт лога

df <- read_csv("./data/pmo/pmo_school.csv")df

В ходе анализа решили сформировать новое поле активности на основе activity и resourse и посчитать число вхождений

df %>%   mutate(new_activity = glue("{activity} - {resource}")) %>%  count(new_activity, sort = TRUE)

Какая активность была последней и в какой час она происходила?

df %>%  mutate(hr = hour(timestamp), date = as_date(timestamp)) %>%  group_by(date) %>%  # оставляем самое последнее действие  filter(timestamp == max(timestamp)) %>%  ungroup() %>%  select(date, hr, everything(), -timestamp, -part)

Пример построения DWG графа с применением функций пакета bupaR (https://www.bupar.net)

Событийный лог взаимодействия с пациентами.

patients

Карта процесса

patients %>%    process_map()

Метрики производительности процесса

patients %>%    process_map(performance(median, "days"))

P.S.

Приведенные методы являются, естественно, существеным упрощением полной теории. Но это упрощение вызвано простой самих процессов в enterprise. Классический бизнес даже близко не приближается к сложности коллайдера.
Небольшой демонстрационный код по этой тематике был опубликован ранее, Бизнес-процессы в enterprise компаниях: домыслы и реальность. Проливаем свет с помощью R
Для более детального погружения в тематику process mining даю отсылку к отправной точке, труду Wil M. P. van der Aalst Process Mining: Data Science in Action. Лекции, статьи, книги и т.д. можно далее искать самостоятельно, если тема заинтересует.

Предыдущая публикация Пакеты-пакеты-пакеты Насколько эффективно вы используете R?.

Последние несколько лет я занимаюсь дата-инженерингом: строю пайплайны разного уровня сложности, добываю данные, нужные бизнесу, преобразую их и сохраняю, в общем, строю классические ETL.

В этом деле проблем можно ждать откуда угодно и на каждом шаге: источник данных прилег, данные пришли битые, источник без объявления войны поменял формат данных или доступ к ним, хранилище тупит, данных внезапно стало меньше или больше и мн

С 5 июня 2021 года сайт гугла, и самое главное гугл таблицы - перестали отдавать данные с Московской биржи.

При попытке получить котировки с префиксом MCX, например для Сбербанка, формулой из гугл таблиц =GOOGLEFINANCE("MCX:SBER") теперь всегда возвращается результат #N/A.

А при поиске любой российской бумаги

BERT нейросеть, способная весьма неплохо понимать смысл текстов на человеческом языке. Впервые появивишись в 2018 году, эта модель совершила переворот в компьютерной лингвистике. Базовая версия модели долго предобучается, читая миллионы текстов и постепенно осваивая язык, а потом её можно дообучить на собственной

Случайный лес (в буквальном смысле, сфотографировал с телефона)

Эта маленькая заметка предназначена для начинающих разработчиков, которые хотят понять как линейные функции устроены под капотом. Для опытных специалистов в моей заметки нет ничего нового. И так. Линейные функции применяются очень часто

1. Вступление

В самых различных проектах разработчику приходится сталкиваться с задачами ранжирования. Список подобных задач весьма обширен: от банальной сортировки новостей по дате публикации до сложных рейтингов на основе поведенческих факторов.

В ходе обсуждений возникла маленькая задачка построить динамику структуры кредитного портфеля (динамика кредитной карты, например). В качестве важной специфики необходимо применять метод FIFO для погашения займов. Т.е. при погашении первыми должны гаситься самые ранние займы. Это накладывает определенные требования на расчет статуса каждого отдельного займа и определения его даты погашения.

Ниже приведе

Можно выделить ряд алгоритмов, которые являются базовыми и лежат в основе практически каждой строчки программ, написанных на языках высокого уровня. Хорошо иметь под руками классический многотомный труд Дональда Кнута "The Art of Computer Programming", там детально разобраны многие ба

Зачем нужен Rust в R?

Первый вопрос, который должен возникнуть у читателя -- а зачем вообще использовать Rust вместе с R? Ответ довольно прост: Rust -- новый системный язык программирования, спроектированный специально для написания безопасного и легко распараллеливаемого кода. Rust довольно сложен в освоении (в сравнении с другими языками), но при этом предоставляет отли

Основной из проблем кластерного анализа практических данных является наличие выбросов. Большинство существующих методов кластеризации не учитывают их существование, из-за этого явно аномальные наблюдения включаются в состав каких-то кластеров, что может серьезно смещать их центры и влиять на качество классификации. Разумеется, можно сначала исходные данные проверить на выбросы, их отсеять и т.д., но тогда задача превратиться в двух

В этой статье, переводом которой мы решили поделиться специально к старту курса о Data Science

Ниже приведе

Проблематика

В своей работе я столкнулся с необходимостью организации задач сотрудников департамента аналитики в едином окне и построения прозрачной схемы оценки их загруженности.

Какие есть варианты?

Сравнивая различные инструменты и таскменеджеры, выбор пал на одного из популярных игроков рынка - Trello. Однако, сразу после выбора программы, возникло новое препятствие. В бесплатной версии этого приложения

Вступление

Ранее, в предыдущих статьях, я рассказывал о бизнес-процессах, которые можно закрыть различными решениями нашего программного обеспечения, однако настало время рассказать о разработке железа, а именно терминале, который способен служить 2 целям - контролю доступа и учету рабочего времени в связке с нашей системой учета рабочего времени.

Историю можно начать с того, что наш

Почему Курс по стартапам и бизнесу от Стэнфордского Университета, является одним из самых лучших в мире для стартаперов? Дело в том, что лекторами данного курса являются лучшие из лучших стартап-предприниматели, такие как: Сем Альтман президент самого известного венчурного фонда Y Combinator, Дастин Мо

Магазин приложений Amazon Appstore снизил комиссию для разработчиков, получающих доход менее $1 млн в год. Также 10 % от дохода будут конвертироваться в бонусы, которые разработчики смогут потратить на облачный сервис Amazon.

15 июня этого года Amazon

Какую пользу приносят сообщества и как авторы контента на этом зарабатывают.

На дворе 2021 г., и начинает казаться, что каждый первый разработчик делает собственный SaaS-продукт (ПО как услуга). Появилась возможность

Посленеудачного опыта с попыткой открыть сеть крафтовых кафе-мороженыхв Минске, мы искали более стабильную бизнес-модель и решили открывать бар.

Что этот материал делает на Хабре?

Проведя тысячи часов в офисной рутине невольно задумываешься, можно ли применить свои опыт и знания для создания бизнеса в реальном секторе.

Чего стоят тысячи часов офи

"Неужели компании хотят так сильно экономить, что готовы терять в качестве и времени?"

Решил поделиться своим опытом, который достаточно тесно связан с Fullstack-разработчиками, в одном стартап (хотя бьются на рынке с 2016 года).

Сразу прокомментирую, что в этой статье нет цели оклеветать или высказать своё негативное мнение о компаниях. Нет! Я опираюсь только на их опыт и на пол

Мы долго шли к этому и вот наконец! Наш внутренний RamblerMeetup&Usermodel выходит в свет! Уже 30 июня эксперты поделятся своими кейсами в области ML и Big Data.

Митап пройдет в онлайн-формате, начало в 19:00. Обязательна предварительная

Меня зовут Денис Власов, я Data Scientist в Учи.ру. С помощью моделей машинного обучения из записей онлайн-уроков мы сделали гифки последовательность из нескольких кадров с наиболее яркими эмоциями учеников. Эти гифки получили их родители в e-mail-рассылке. Вместе с Data Scientist @DariaV Дашей Васюковой расскажем, как без экспертизы в Computer Vision, а только с помощью открытых библиотек и готовых моделей сделать MVP, в ос

Иллюстрация: UCI

Наша [Ирвинга Капланского и Пола Халмоша] общая философия в отношении линейной алгебры такова: мы думаем в безбазисных терминах, пишем в безбазисных терминах, но когда доходит до серьезно

Всем привет! Меня зовут Андрей, недавно яприсоединился ккоманде VSRobotics изанимаюсь проектом автопостроителя сценариев диалогов робота-оператора. Вэтом посте хочу поделиться историей своего трудоустройства ирешением задачи LGD prediction, которое мне вэтом очень помогло. Не

В этой статье я расскажу о том, почему нормально иногда делать анализ данных в браузере.

В чем суть?

На своей работе в качестве React Front-end разработчика я обычно работаю с дашбордами и различными видами данных. В какой-то момент нам понадобилось добавить предсказания по метрикам, а в команде не было специалистов по анализу данных, которые могли бы этим заняться.

В целом, видны несколько популярных запросов по применению

Process Mining это подход к извлечению, анализу и оптимизации процессов на основе данных из так называемых журналов событий (event logs), доступных в корпоративных ИТ-системах. Являясь своеобразным мостиком между Data Mining и Process Management, он выводит исследование бизнес-процессов на принципиально новый уровень. Подробнее о том, чем полезен такой подход и как мы его применяем вот здесь .

В конце 2

Современные компании активно используют process mining для поиска узких мест в своих бизнес-процессах. У многих из них сформировано понимание ценности этой технологии ее используют для поиска инсайтов в больших массивах информации. Такая аналитика очень актуальна для предприятий, начинающих роботизировать свои процессы. Process mining помогает выявить узкие места автоматизации и связать существующие разрозненные IT-системы в единое

Ключевые тезисы:

Взаимодействие между компонентами напрямую друг с другом может привести к неожиданному поведению, в котором сложно будет разобраться разработчикам, операторам и бизнес-аналитикам.
Чтобы обеспечить устойчивость бизнеса, вам нужно видеть все возникающие в системе

Вызовы цифровой трансформации

Тысячи крупных компаний по всему миру начали процесс цифровой трансформации, но успешно провести его удается единицам. На это закладываются большие бюджеты, но, к сожалению, не всегда удается достичь желаемого результата ввиду отсутствия страте

Очень часто данные необходимо сравнивать. Например, у нас есть несколько рядов данных из какой-то области деятельности человека (промышленности, медицины, государственного управления, ), и мы хотим сравнить, насколько они похожи или, наоборот, чем одни показатели выделяются по сравнению с другими. Для про

В целом, видны несколько популярных запросов по применению те

	Русский
	English

Как в enterprise при помощи R применять технологии process mining?

Преамбула

Актуальность

Альтернативный вариант

Краткое резюме по применению R для задач process mining:

Импорт данных

Преобразование данных

Примеры преобразований на основе лога событий

Сейчас читают

Data mining

Проблемы мониторинга дата-пайплайнов и как я их решал

Гугл финанс перестал транслировать данные российских акций что делать?

Маленький и быстрый BERT для русского языка

Простыми словами о простых линейных функциях

Несколько мыслей про ранжирование

1. Вступление

Оценка кредитного портфеля на R

R

Запросить 100 серверов нельзя оптимизировать код. Ставим запятую

Extendr вызываем rust из R (и наоборот)

Зачем нужен Rust в R?

Модификация EM-алгоритма для решения задачи кластеризации с выбросами

Перевод Clustergram визуализация кластерного анализа на Python

Оценка кредитного портфеля на R

Как создать Trello dashboard, чтобы задачи из 5 досок собирались в одной?

Проблематика

Какие есть варианты?

Бизнес-модели

Создание терминала для СКУД и УРВ

Перевод Перевод Курса по стартапам и бизнесу от Стэнфордского Университета. Лекция 2. Команда и реализация стартапа

Вслед за Apple и Google комиссию магазина приложений снизила Amazon

Перевод Сообщество как услуга. Бизнес-модель XXI века

Из столицы в провинцию. Как мы открывали первый бар. Часть 1

Есть будущее у Fullstack-разработчиков?

Data science

RamblerMeetupampUsermodel

Как мы построили Computer Vision из подручных материалов, чтобы сделать гифки

Запросить 100 серверов нельзя оптимизировать код. Ставим запятую

Перевод Линейная алгебра для исследователей данных

Как я предсказал LGD на хакатоне и устроился на работу

Перевод Прогнозирование временных рядов на JS анализ данных для самых маленьких фронтендеров

В чем суть?

Business process management

Как в enterprise при помощи R применять технологии process mining?

Process mining

Рассказываем про библиотеку для Process Mining теперь SberPM в открытом доступе

Внедрение process mining аудит процессов в два клика

Перевод Мониторинг и управление потоком задач в рамках взаимодействия микросервисов

Как с помощью UiPath внедрить process mining в компании

Вызовы цифровой трансформации

Ящики, усы и скрипки

Как в enterprise при помощи R применять технологии process mining?

Категории

Последние комментарии