Smartdata

SmartData 2020 конференция про data engineering

22.09.2020 14:11:12 |

Автор: admin

Если ваша должность data engineer, то вы могли сталкиваться с обидным информационным перекосом. Тему data science освещают активно, по ней много полезных материалов. А вы работаете в смежной области, где тоже возникает много важных вопросов, но об этих вопросах говорят заметно меньше.

Мы решили, что стоит закрыть этот пробел, поэтому 9-12 декабря проведём конференцию SmartData. Она рассчитана на дата-инженеров и не только: разработчики и data scientists, которые сталкиваются с задачами дата-инженерии или хотят перейти в эту сферу, тоже извлекут пользу.

Кто-то вспомнит, что конференция с таким названием уже была, но тогда её формат отличался. Под катом написали и о том, почему она переродилась, и о том, чего именно ждать от новой.

Предыстория

Старожилы Хабра могут помнить, как в 2017-м мы представили конференцию по большим и умным данным SmartData, а в 2018-м отменили вторую SmartData. И про перспективы возрождения тогда написали: сейчас не станем ничего обещать, но думаем, как можно сделать лучше. Спустя два года сообщаем: подумали!

Когда мы впервые запускали конференцию, пытались объять всё сразу и сделать мероприятие для всех, кто работает с данными. Но оказалось, что такой универсальный формат плохо работает, разным специалистам нужно слишком разное. И после отмены второй конференции, где мы собирались уделить много внимания data science, получили фидбек вроде такого:

Теперь вместо того, чтобы гнаться за двумя зайцами, решили сосредоточиться на конкретном формате, который недополучает внимания. Как раз таком, какой обозначен в этом комментарии: про то, как весь зоопарк технологий запускать и тюнить, какие есть проблемы, с чем лучше работать в каких-то определённых задачах

Темы

Что всё это значит на практике, о каких вещах можно будет услышать на SmartData 2020? Программа пока что в процессе формирования, но очерчен круг тем, которые мы считаем интересными для конференции. И по этому списку можно понять, чего в принципе стоит ждать:

Streaming
Flink
Spark
Kafka

СУБД и хранилища для больших данных
Использование классических реляционных, колоночных, noSQL, SMP/MPP-хранилищ для построения DWH:
Hive, Impala, Presto, Vertica, ClickHouse, Cassandra
Teradata, Redshift, GreenPlum, exadata
MSSQL, PostgreSQL
MongoDB, DynamoDB
S3, ADLS, GCS, HDFS

Архитектура DWH
Моделирование данных
Примеры построения корпоративных хранилищ данных
Оперативная аналитика
Ad-hoc reporting
Hadoop

Data governance
Data security
Data quality
Metadata и catalog management
Master data management
Миграция данных

Технологии построения ETL
Spark
Hadoop MapReduce
Sqoop
Performance analysis and optimization
и так далее

Оркестрация и MLOps
Airflow, NiFi, Luigi, Azkaban, Oozie etc
MLflow
и так далее

Другое
Коробочные облачные решения
Дата-инженерия для тех, кто не data engineer
CI/CD для пайплайнов данных
Тестирование

^{Виталий Худобахшов из программного комитета
SmartData}

Формат

Как и другие наши конференции этого сезона, SmartData пройдёт в онлайне так что подходить на стойку регистрации за бейджиком в этот раз не придётся. А как всё будет выглядеть?

Понятно, что доклады важны, но для нас онлайн-конференция не означает просто видеопоток. Это и чаты для обсуждения конкретных докладов, и видеосозвон после каждого доклада с возможностью задать вопрос спикеру, и активности от партнёров, и общий конференционный чат. Очень рекомендуем всем этим пользоваться: тогда ощущаешь, что ты не просто смотришь видео, а участвуешь в событии.
Чтобы зрителям было как можно удобнее, для проведения конференций мы используем не чужое софтовое решение, а разработали своё собственное. О нём уже писали на Хабре подробно.
Расписание отличается от того, к которому все привыкли по офлайн-конференциям. В офлайне на пару дней выпадаешь из обычной жизни целиком. В онлайне иначе: конференция растянется на четыре дня, но будет идти по 3-4 часа в день. Это позволяет не выпадать полностью из обычной жизни, совмещая конференцию и обычную жизнь.
Но советуем донести до работодателя, что если на офлайн-конференцию он отпускал вас с работы, то и в онлайне эти 3-4 часа в день вам действительно нужны: смотреть хардкорные технические доклады всегда требует сосредоточения. Впрочем, если из-за важного созвона не получилось посмотреть интересный доклад вживую, он сразу же доступен в записи (с офлайн-конференциями так не работает). Если немного опоздал к началу доклада, то с помощью ускоренного воспроизведения записи можно даже успеть догнать других зрителей, чтобы задавать вопросы спикеру вместе со всеми!

Call to action

Что в итоге? Есть три главных вещи:

Если конференция вас заинтересовала стоит перейти на её сайт. Там всегда размещается наиболее актуальная информация (например, будет постепенно появляться список докладов), и там же можно приобрести билет.
Если вы ощущаете, что хотели бы сами выступить с докладом сейчас самое время подавать заявку, это делается тоже на сайте.
А если для вас важны и другие области IT, обратите внимание: у нас есть билеты full pass, дающие доступ и к SmartData, и к 7 другим нашим конференциям нового сезона. Подробнее об этом можно узнать на отдельном сайте.

Увидимся на SmartData!

Подробнее..

Категории: Конференции , Data science , Блог компании jug ru group , Data engineering , Smartdata

Программа SmartData 2020

30.11.2020 20:13:26 |

Автор: admin

Мы уже рассказывали Хабру, что новая SmartData это конференция про data engineering. Но что именно это значит на практике, какие доклады подходят под такое определение? На момент анонса мы могли объяснить только общими словами, а вот теперь программа конференции готова так что показываем всю конкретику. Под катом описания всех докладов.

А в преддверии конференции будет ещё и маленькое бесплатное онлайн-мероприятие о жизни дата-инженеров: 1 декабря на YouTube пройдёт разговорное шоу, где участники программного комитета конференции (Паша asm0dey Финкельштейн, Олег olegchir Чирухин, Дарья Буланова, Сергей Бойцов) обсудят свои проблемы и провалы грубо говоря, как они тратили слишком много времени на решение простой задачи. Увидимся в YouTube-трансляции.

Streaming

Flink + Zeppelin: Streaming data analytics platform, Jeff Zhang

Flink мощный инструмент для потоковой обработки данных, при этом требует много от разработчика. Несмотря на то, что Flink поддерживает SQL, написать и запустить джоб во Flink не так просто. К счастью, Apache Zeppelin упрощает эту ситуацию. Кроме того, на Zeppelin можно выполнять интерактивную потоковую аналитику данных при помощи Flink и создать реалтайм-дашборд, при этом писать HTML/JS-код не нужно.
Джефф в своем докладе расскажет, как использовать Flink на Zeppelin, чтобы построить собственную платформу для потоковой аналитики данных.

Чем хорош спикер: Главный коммитер в Zeppelin
Чем хороша тема: Zeppelin это индустриальный стандарт Exploratory Data Analysis (EDA). Джефф будет рассказывать про новую версию, которой еще нет ни у кого в продакшне.
Кому будет полезно: Всем, кто использует Zeppelin или Flink в продакшне.

По пути из Kafka в NiFi: Как не сломать и не потерять, Роман Коробейников

В докладе рассказывается о построении отказоустойчивой схемы работы кластера Apache NiFi при использовании Apache Kafka в качестве источника входных данных.

Чем хорош спикер: VirtualHealth помогает американской системе здравоохранения решать их задачи. А где, как не там, будет большой поток данных?
Кому будет полезно: Доклад для тех, кто хочет справиться с большими нагрузками на NiFi и интеграцией с Kafka.
Почему здесь и сейчас: В VirtualHealth работают с очень большим потоком данных и знают, как с этим справиться.

Advanced usage patterns of Scala UDF in PySpark, Андрей Титов

При использовании PySpark часто забывают о возможности использования UDF, написанных на Scala/Java. А ведь это отличный способ увеличить производительность приложения.
К сожалению, в официальной документации приводится самый базовый вариант их применения, который имеет ряд ограничений и не раскрывает всех возможностей применения Scala/Java UDF в PySpark.

В этом докладе Андрей расскажет, как:

заставить PySpark автоматически выводить тип данных, возвращаемых в UDF;
создать pyspark.sql.Column на базе UDF вместо использования spark.sql(...);
использовать Singleton Pattern для сохранения данных между вызовами функций и работы с внешними источниками из UDF;
избежать повторного вызова UDF на одних и тех же данных;
настроить логирование с помощью встроенного log4j.

Чем хорош спикер: Последнее время по долгу службы занимается стримингом на Spark и сталкивается с проблемами перфоманса.
Кому будет полезно: Тем, кто работает со Spark, дата-инженерам и разработчикам, которые напрямую взаимодействуют со Spark (Spark-инженеры).
Почему здесь и сейчас: предлагаются их нестандартные решения, о таком пути мало кто знает, очень глубокий взгляд на проблему.

Stateful streaming: Кейсы, паттерны, реализации, Дмитрий Бугайченко

В докладе поговорим о популярном сейчас подходе к обработке данных обработке потоков, уделив особое внимание работе с состоянием. Обсудим, в каких случаях состояние может быть востребовано и какие подходы к реализации функциональности поддержания состояния используют популярные фреймворки. В том числе поговорим о том, как сделать внутреннее состояние потокового обработчика доступным внешним клиентам.

Storage

Kusto (Azure Data Explorer): Интерактивная платформа Big Data Майкрософта, Александр Слуцкий

Kusto это новая и стремительно набирающая обороты платформа для работы с Big Data. Несколько лет назад она завоевала весь Майкрософт, и сейчас Kusto используют буквально все сервисы Azure для анализа данных. Над Kusto также построены все линейки security и log analytics-продукты Майкрософта: Azure Monitor, Azure Sentinel, Microsoft Defender Advanced Threat Protection и многие другие. Вне Майкрософта Kusto существует под именем Azure Data Explorer, и с успехом используется в сферах e-commerce, gaming, manufacturing, automotive и других отраслях.

В докладе Александр расскажет, что отличает Kusto (Azure Data Explorer) от других решений, покажет, как сложная обработка лайв-стримов телеметрии размером в миллиарды строк (терабайты данных) может занимать секунды, и приоткроет занавес архитектуры, на которой построен Kusto.

Чем хорош спикер: Создатель этой базы может отвечать на все вопросы про детали реализации и на любые вопросы по проекту.
Чем хороша тема: Интересный кейс создания с нуля нового распределенного движка базы. Это востребовано в Майкрософте и активно используется в компании.
Кому будет полезно: Тем, кто хочет написать или модифицировать свое хранилище.
Для тех, кто уже в облаке Майкрософта и хочет разобраться в нюансах использования.

Kusto (Azure Data Explorer): Architecture and internals, Евгений Рыжик

Kusto набирает обороты настолько стремительно, что мы решили взять два доклада про эту платформу. Доклад Евгения дополняет предыдущий доклад Александра Слуцкого, углубляя понимание того, как Майкрософт приходит к такому результату.

Это будет рассказ о принципах построения с нуля новой базы данных для работы с логами и телеметрией. Рассмотрим особенности запросов на структурированные и неструктурированные данные, подход и технику масштабирования, оптимизацию запросов, а также оптимальное использование базовых сервисов Azure для реализации нетривиального облачного сервиса.

NeoFS: Хранение объектных данных по своим правилам, Станислав Богатырев

NeoFS опенсорсная система, которая помогает решить проблему хранения фиксированных данных в ненадежной среде в соответствии с заданными пользователем правилами. Теперь можно разместить недорогие компьютеры и организовать на них хранение больших данных в нескольких офисах или даже дома у членов распределенной команды. NeoFS поддерживает протокол AWS S3, так что можно не переписывать любимый софт. А с помощью политики размещения можно хранить данные рядом с обработчиками и экономить время на передаче данных по сети.

Станислав хочет поделиться примером того, как можно заменить централизованный S3 для хранения сырых данных более доступным решением и организовать политики так, чтобы обработка данных стала более эффективной. А также рассказать, зачем нужны мультиграфы, гомоморфная криптография, многоходовые игры, доказательства с нулевым разглашением и прочий матан.

Чем хорош спикер: Разработчик этой системы с нуля.
Чем хороша тема: Интересный подход к построению собственных хранилищ и экосистем.
Кому будет полезно: Тем, кого интересуют внутренности хранилищ или тем, кто хочет собственное хранилище.

Безопасные интерактивные большие данные в банке: Business intelligence на Clickhouse, Павел Якунин

В банке есть множество систем: генерирующих, хранящих и иногда анализирующих различные клиентские и внутренние данные. Часто эти системы слабо связаны между собой и образуют Data Silo. Во многих случаях это происходит из-за сложности правил доступа к данным, определенных регуляторами.

Существование Data Silo мешает использовать данные для поиска новых возможностей бизнеса. В Дойче нашли эффективный путь преодоления этой проблемы и построили безопасный и любимый аналитиками DWH на основе Clickhouse, Kafka и Spark.

В докладе Павел объяснит, чем вызвана фрагментация данных в его организации, и какие типичные сценарии аналитики из-за этого страдают. Он расскажет, каким образом удалось построить безопасный DWH на Clickhouse, способный объединить в себе данные из разных источников, предоставить интерактивный инструмент для исследований и не нарушить существующих регуляций и правил. Слушатель сможет узнать о принятых архитектурных решениях и их причинах, собранных граблях, а также решить для себя, подходит ли Clickhouse в качестве DWH в его организации.

Чем хорош спикер: Прошел всю дорогу создания DWH в компании DE, знает, какие решения там принимались и почему.
Чем хороша тема: ClickHouse актуальная технология, BA на ней строят немногие, тем интереснее об этом послушать.
Кому будет полезно: Тем, кому интересны альтернативные подходы к построению хранилища BI.

The latest and greatest of Delta Lake, Jacek Laskowski

Чем хорош спикер: Знаменитый эксперт в области Spark, автор серии книг Взгляд изнутри об Apache Spark, Delta Lake, Apache Kafka и Kafka Streams.
Чем хороша тема: Тема про то, что рано или поздно все превращается в SQL. DeltaLake это понятная масштабируемая опенсорсная альтернатива для тех, кто использовал реляционные базы данных.
Кому будет полезно: дата-инженерам, которые хотят внедрить DeltaLake.

Обзор технологий хранения больших данных. Плюсы, минусы, кому подойдет, Максим Стаценко

Доклад Максима будет про плюсы и минусы различных решений для хранения данных: облака или bare metal, Hadoop&CO, Vertica, ClickHouse, ExaSol, GreenPlum (ArenaDataDB), RDBMS, Teradata и другие.

Работая в крупных компаниях, спикер попробовал много решений, сравнил их на одинаковых данных и задал вопросы их разработчикам или поставщикам. Итогом стал доклад, в котором Максим поделится опытом и размышлениями, какие решения для каких случаев подходят больше.

Если вы собираетесь построить или перестроить свое хранилище данных, то данный доклад поможет вам сократить список технологий, которые стоит попробовать перед выбором решения, которое подходит именно вам.

Чем хороша тема: Хороших обзоров существует мало, ребята устанавливали решения для хранения своих данных на свои кластера, много чего попробовали в поисках ответа на вопрос.
Кому будет полезно: СТО небольших компаний и те, кто стоит перед проблемой выбора хранилища.

SQL-миграции в Postgres под нагрузкой, Николай Аверин

Как обновить значение атрибута для всех записей таблицы? Как добавить первичный или уникальный ключ в таблицу? Как разбить таблицу на две? Если ваше приложение может быть недоступно какое-то время для проведения миграций, то ответы на эти вопросы не представляют сложности. А что делать, если миграции нужно проводить на горячую не останавливая базу данных и не мешая другим с ней работать? А если при этом таблицы большие (сотни гигабайт), баз данных несколько и серверов приложений тоже несколько?

На эти и другие вопросы, возникающие при проведении миграций схемы и данных в PostgreSQL, Николай постарается дать ответы в виде практических советов.

Чем хорош спикер: У человека глубокая экспертиза в PG, что редкость для тех, кто не работает в профильных компаниях.
Чем хороша тема: Считаем, что миграции под нагрузкой это сложно, нужно уметь делать.
Кому будет полезно: Тем, кому нужно делать миграции в контексте больших данных, те, для кого обычные механизмы миграции уже перестали работать.

Tooling

Пишем гибкие пайплайны для дата-платформ с Dagster, Андрей Кузнецов

На сегодняшний день не так часто говорят про унификацию построения дата-пайплайнов особенно в ситуации, когда приходится вырываться из Java/Scala-мира и строить цепочки из компонентов со смешанными языками и технологиями.

Как подружить Spark + Scala-джобы и Python-приложения? Dagster дает удобные компоненты для написания и отладки таких пайплайнов, при этом имеет большое число интеграций с де-факто стандартами систем оркестрации, вычисления и так далее.

В докладе Андрей расскажет, зачем это нужно и как писать на Dagster пайплайны с переиспользуемыми блоками и гибкой архитектурой.

Чем хорош спикер: 7 лет преподавал, занимается ML и DE в Одноклассниках, продвигает эту идею в своей компании.
Чем хороша тема: Раскрывает альтернативный взгляд на проблему оркестрации дата-платформы.
Кому будет полезно: Всем, кто что-то оркестрирует.

Версионирование структуры баз данных на примере хранилища, Владислав Шишков

Владислав расскажет про версионирование структуры баз данных на примере хранилища в Lamoda:

как ушли от SVN + Python + Jira + cron к Git + Liquibase + Bamboo;
как решали вопросы удобства разработки структур баз данных и какие есть подводные камни;
как поменяли процесс тестирования и деплоя.

Чем хорош спикер: Во время подготовки доклада Владислав обнаружил и исправил проблему в своем решении, добавив об этом информацию в доклад.
Кому будет полезно: Любой разработчик, который работает с любой базой данных, будь это простенький бэкенд апишки или же целое хранилище. После этого доклада участники смогут легко научиться версионировать код для баз данных и быстро с ним работать.

CI/CD для Ml-моделей и датасетов, Михаил Марюфич

В индустрии многим знакома ситуация, когда вы быстро задеплоили модель, сделанную DS на коленке. А через месяц, когда ее нужно переобучить на новых данных или добавить новый признак, оказывается, что DS по каким-то странным причинам не может этого сделать (потерял код или стер данные, на которых создавал модель).

Вывод модели в продакшн это не только ее упаковка в условный контейнер, но и фиксация процесса ее обучения, и дальнейший мониторинг ее работы. Подробное описание того, как модель была получена, позволяет избежать потерь знаний и результатов экспериментов.

Чем хорош спикер: Внедряет культуру MLOps в Одноклассниках.
Кому будет полезно: Дата-инженерам, перед которыми стоит задача продуктизации ML.

Scio data processing at Spotify, Neville Li

Scio опенсорсный Scala API для Apache Beam и Google Cloud Dataflow, созданный Spotify для обработки петабайтов данных, как в режиме батчей, так и в потоковом режиме. Сейчас Scio используют десятки компаний.

Поговорим об эволюции big data в Spotify: от Python, Hadoop, Hive, Storm, Scalding до современного мира облаков и бессерверных вычислений. Рассмотрим, как выглядят классические кейсы использования за кадром, например, Discover Weekly, Wrapped, a также трудности, с которыми пришлось столкнуться команде.

Поговорим и о некоторых фичах, которые выделяют Scio у Spotify из ряда других big data- фреймворков для Scala, включая Algebird, macros, shapeless и magnolia. Эти фичи делают обработку больших объемов данных легче, безопаснее и быстрее.

Industry use-cases

Оцифровка рабочего в режиме реального времени, Алексей Коняев

Цифровой рабочий это система, позволяющая определять местоположение людей и техники как на улице, так и внутри помещений с высокой точностью, а также получать телеметрию с различных датчиков.

В докладе речь пойдет о том, как с помощью Kafka, Clickhouse и Esper данные с носимых устройств доходят до интерфейса системы, где оператор в режиме реального времени может наблюдать за отслеживаемыми объектами, получать предупреждения о внештатных ситуациях и контролировать различные показатели на аналитической панели.

Кому будет полезно: Тем, кому нужно делать комплексную архитектуру или stateful-обработку данных.

Enterprise data platform: Инфраструктура данных как полигон для проверки бизнес-гипотез, Андрей Жуков

Доклад об опыте S7 в построении платформы данных. Андрей расскажет, как соединить между собой прогрессивные технологии, красивые книжки о data governance и суровую реальность авиакомпании с легаси. А еще покажет, как уложить данные, следить за ними, делать их открытыми и нужными для каждого сотрудника компании.

Что S7 используют: Openshift, Minio, Apache Spark, Apache Airflow, Apache Kafka, Python, Scala, Java, Dremio, Alation.

Кому будет полезно: Тем, кому предстоит построить хранилище, чтобы узнать еще какие-то подходы. Всем, кто хочет построить свою платформу данных, но боится все сделать неправильно.

Predictive Maintenance в S7: Как данные помогают сделать ваш полет безопаснее, Валентин Азанов

И еще один доклад от S7. Валентин расскажет об опыте S7 в анализе телеметрии с различных бортов, о способах работы с такими данными, созданных инструментах и крутых инсайтах.

Что S7 использует: Apache Spark, Apache Airflow, Python, R.

Чем хороша тема: Команда S7 решает сложную оптимизационную задачу, связанную с предсказаниями.
Кому будет полезно: Тем, у кого есть задачи с предсказаниями и оптимизациями, DE. Всем, кто хочет знать, как устроена телеметрия с самолетов.

Сегментация: Единое окно для знаний о пользователе, Ольга Макарова, Мария Носарева

Мария и Ольга расскажут, как небольшой прототип, собранный на коленке на сдачу от системы сбора поведенческих данных, превратился в инструмент, позволяющий быстро запускать самые сложные по логике гипотезы.

Это хаб, позволяющий избежать части интеграций между микросервисами, и этим инструментом пользуются для решения совершенно разных задач: выделение аудиторий для коммуникаций, подготовка фич для машинного обучения, аналитики для отчетов и исследований, таргетирование рекламы в плеере и блоках приложения, решение об открытии определенных разделов приложения или применении новых цен.

Технологии в текущей версии: Kafka, Redis, ClickHouse, Quartz, Spring, Flink, ZooKeeper.

Доклад рассчитан на широкую аудиторию и посвящен диалогу бизнеса с технологиями. В нем будут блоки про итеративную постановку задач и технологические решения.

Чем хороша тема: Доклад про то, как на бесплатных инструментах создать инструмент для получения информации о пользователе, которым сможет пользоваться простой бизнес-пользователь.

Architecture

Retable DSL: Строим technology-agnostic data pipelines для современных стеков данных, Евгений Легкий

Retable DataFrame DSL это новый open-source data pipelines DSL. C одной стороны, он сочетает в себе лучшие практики таких распространенных data-фреймворков, как Spark DataFrames и Python Pandas, с другой является backend-agnostic, то есть не зависит от технологий бэкенда и позволяет исполнять data pipelines как поверх data warehouses в режиме ELT, так и в режиме ETL поверх data lakes, таких как Spark.

Евгений расскажет о современных тенденциях Modern Data Stack, о преимуществах и недостатках старого (ETL) и нового (ELT) подходов и причинах, которые привели к созданию своего независимого DSL. Также он поделится опытом, как удалось сочетать типизированный интерфейс для построения декларативных data pipelines, CI/CD-практики, скалируемость и возможность работать поверх любого стека будь то Spark, Snowflake или генерация Pandas Code.

Highly Normalized Hybrid Model, Или как мы внедрили свою модель хранения данных, Евгений Ермаков, Николай Гребенщиков

Общепринятым и проверенным временем подходом к построению DWH является схема Звезда или Снежинка. Такой подход каноничен, фундаментален и совсем не отвечает той гибкости, к которой призывает Agile.

Для того, чтобы сделать структуру DWH гибкой, существуют современные подходы к проектированию: Data Vault и Anchor modeling похожие и разные одновременно. Задавшись вопросом, какую из двух методологий выбрать, Евгений пришел к неожиданному ответу: выбирать надо не между подходами, выбирать надо лучшее из двух подходов.

В своем докладе спикер расскажет:

DV и AM: в чем разница и где точки соприкосновения;
гибридный подход к построению хранилища;
фишки этого подхода, его сильные и слабые стороны;
примеры кода, как это работает;
дальнейший вектор развития модели.

Чем хороша тема: Рассказывают новый интересный подход к построению архитектуры DWH.
Кому будет полезно: Архитекторам хранилищ данных и дата-инженерам, причастным к построению архитектуры DWH.

Подходы к построению современной платформы данных. Проблематика и концепция реализации, Александр Ермаков

Александр расскажет об основных характеристиках современной платформы данных, о различиях в архитектуре DWH, об используемых компонентах и опенсорсном дистрибутиве Hadoop.

Чем хороша тема: Верхнеуровневый обзор возможной архитектуры с исторической частью
Кому будет полезно: Дата-инженерам, которые хотят погрузиться глубже в технические детали Hadoop, разработчикам, которые хотят перейти в data engineering.

Обработка миллиардов событий в день с эволюционирующей схемой, Сергей Иванычев

При динамично развивающемся проекте появляется много новых событий, новых проектов и схожих событий внутри них. Схема событий также часто меняется. Нужно построить DWH, который устойчив к изменению схем событий и добавлению новых событий. Это предоставляет удобный интерфейс для добавления новых схем и их изменения, для доставки событий, а также обратную совместимость со схемами событий и минимизацию издержек на их обработку.

Что будет в докладе:

нюансы потоковой обработки событий;
как построить высоконагруженное хранилище данных, устойчивое к постоянным изменениям бизнес-требований;
как работать с динамически меняющимися схемами.

Применяемые технологии: Apache Kafka, Apache Flink, AWS, S3, EKS, Compression, Spark, Parquet, JSON.

Чем хороша тема: Актуальна и применима: непредсказуемо меняющиеся схемы это больная точка многих пайплайнов обработки данных и в Joom придумали, как это решить.
Кому будет полезно: DE, которые сталкиваются с этой проблемой.
Почему здесь и сейчас: Доклад от компании с огромными объемами данных.

Наше хранилище для веб-аналитики, Артур Хачуян

На примере истории построения хранилища для сервиса расширенной веб-аналитики Артур расскажет, как за последние пять лет эволюционировала система хранения и генерации отчетов в его проекте. Также он расскажет про кластерную файловую систему, железки, MongoDB с надстройками и генераторами дашбордов.

Чем хороша тема: Расскажет про масштабирование от первых кастомеров до больших данных.

Если нашли в обзоре интересные для себя доклады, то ознакомиться с информацией подробнее и купить билет можно на сайте. А мы напоследок напомним, что конференция это не только доклады. И в этот раз мы даже сделали виртуальную площадку, где общение с другими участниками и посещение виртуальных стендов партнёров похоже на двухмерную игру. Ждём вас на SmartData онлайн с 9 по 12 декабря!