Когда появляется необходимость документировать схемы баз данных, разные DBMS предоставляют свои инструменты для подобных задач. И большинство из них поддерживает DESC table_name, в том числе и ClickHouse. Однако, результат этой команды не столь выразителен, как хотелось бы.

DESCRIBE TABLE data_lrname        type      default_type   default_expression   comment   codec_expression   ttl_expressionPath        String                                                  ZSTD(3)Value       Float64                                                 Gorilla, LZ4Time        UInt32                                                  DoubleDelta, LZ4Date        Date                                                    DoubleDelta, LZ4Timestamp   UInt32                                                  DoubleDelta, LZ4

При этом, системные таблицы tables и columns содержат исчерпывающую информацию, объединив которую, можно получить вот такой симпатичный результат:

Вдохновение

Перед тем, как начать заботливо пилить собственное решение, лищённое фатальных недостатков, я поискал доступные варианты. И вот эта работа вдохновила меня начать собственный проект. Некоторые заготовки с благодарностью позаимствованы оттуда, с указанием авторства.

Что такое PlantUML

Несколько слов о том, что это представляет из себя этот продукт. Для наилучшего понимания советую зайти на официальную страницу. Если в двух словах, то это программа, которая преобразует текстовое описание диаграмм, например:

@startumlBob -> Alice : hello@enduml

в изображения

Поддерживаются очень многие форматы, например диаграммы прецедентов, классов, деятельности, компонентов и другие. Имеется плагин для Atlassian Confluence, позволяющий использовать макрос и генерировать изображения прямо на страницах wiki. Плагин для pandoc (и не один), для LaTeX, и многое другое.

Можно даже попробовать прямо на сайте.

Идея

Идея проста: в таблице system.tables содержится общая информация о таблицах, движках, ключах партиционирования, сортировки и сэмплирования, и др. А в другой системной таблице, system.columns, подробные данные о каждой из колонок. Комбинируя эти данные, можно легко сгенерировать часть, которая относится к колонкам и ключам таблиц. Это вторая половина каждой из таблиц на диаграмме.

Реализация

Про таблицы с колонками ясно, но есть ещё одна часть, которой я уделил отдельное внимание. Каждый из движков таблиц имеет параметры, которые необходимо распарсить. Например, ReplacingMergeTree содержит опциональный параметр Version. И параметры определяются исключительно движком. Дополнительные параметры необходимы для создания Replicated*MergeTree. Также для MaterializedView всегда создаётся таблица с данными. Эту таблицу не имеет смысла показывать отдельно, и она отображается как отдельная часть конфига для MV.

Это было одной из самых интересных для меня частей проекта. Пришлось познакомиться с токенами и парсингом текста, хотя записать строки и идентификаторы в массив настроек движка оказалось легко. А уже при помощи них записать пары ключ-значение. И это первая половина таблиц на диаграмме.

Также некоторые таблицы зависят друг от друга. Например, Distributed всегда указывает на локальные таблицы, а Buffer располагается перед *MergeTree таблицами, чтобы принимать мелкие вставки. И для этих таблиц отдельно устанавливаются отношения. На диаграмме они представлены стрелочками.

Результат

Сгенерированная диаграмма и изображение

@startuml' This diagram is generated with https://github.com/Felixoid/clickhouse-plantuml!define Table(x) class x << (T,mistyrose) >>!define View(x) class x << (V,lightblue) >>!define MaterializedView(x) class x << (m,orange) >>!define Distributed(x) class x << (D,violet) >>hide empty methodshide stereotypesskinparam classarrowcolor grayDistributed(graphite.data) {  ENGINE=**Distributed**  ..engine config..  cluster: graphite_data  database: graphite  table: data_lr  sharding_key: cityHash64(Path)  ==columns==  Path: String  Value: Float64  Time: UInt32  Date: Date  Timestamp: UInt32}Table(graphite.data_lr) {  ENGINE=**ReplicatedGraphiteMergeTree**  ..engine config..  rollup_config: graphite_rollup  ..replication..  zoo_path: /clickhouse/tables/graphite.data_lr/{shard}  replica: {replica}  ==columns==  Path: String <size:15><&signal></size>  Value: Float64  Time: UInt32 <size:15><&signal></size>  Date: Date <size:15><&list-rich></size>  Timestamp: UInt32  ..<size:15><&list-rich></size>partition key..  toYYYYMMDD(toStartOfInterval(Date, toIntervalDay(3)))  ..<size:15><&signal></size>sorting key..  Path, Time}Table(graphite.index) {  ENGINE=**ReplicatedReplacingMergeTree**  ..engine config..  version: Version  ..replication..  zoo_path: /clickhouse/tables/graphite.index/1  replica: {replica}  ==columns==  Date: Date <size:15><&list-rich></size> <size:15><&signal></size>  Level: UInt32 <size:15><&signal></size>  Path: String <size:15><&signal></size>  Version: UInt32  ..<size:15><&list-rich></size>partition key..  toYYYYMM(Date)  ..<size:15><&signal></size>sorting key..  Level, Path, Date}Table(graphite.tagged) {  ENGINE=**ReplicatedReplacingMergeTree**  ..engine config..  version: Version  ..replication..  zoo_path: /clickhouse/tables/graphite.tagged/1  replica: {replica}  ==columns==  Date: Date <size:15><&list-rich></size> <size:15><&signal></size>  Tag1: String <size:15><&signal></size>  Path: String <size:15><&signal></size>  Tags: Array(String)  Version: UInt32  ..<size:15><&list-rich></size>partition key..  toYYYYMM(Date)  ..<size:15><&signal></size>sorting key..  Tag1, Path, Date}graphite.data_lr -|> graphite.data@enduml

Ближайшие планы

Добавить тесты, в идеале интеграционные с поддержкой нескольких версий ClickHouse. А также добавить генерацию диаграмм для кластеров ClickHouse. Возможно, кто-то найдёт для себя интересные кейсы и составит issue. Например можно добавить опциональное описание кодеков сжатия, хотя для меня они пока не важны.

Вместо заключения

Я буду рад, если этот маленький проект позволит кому-то сэкономить время и предоставит возможность составить хорошую документацию.

Начать пользоваться можно, просто скачав модуль из pypi:

pip install clickhouse-plantumlclickhouse-plantuml -h

Исходный код находится здесь.

Спасибо, что потратили время на прочтение!

Datascience это не только fit-predict

Представим, что вы начали работать в компании, которая производит однообразные операции с бесконечными таблицами. Например, в крупном ретейлере или у ведущего оператора связи. Ежедневно перед вами ставят задачу вы

Наверное, все разработчики слышали, что нужно писать чистый код. Но не менее важно писать и использовать безопасный код.

Python-разработчики обычно устанавливают модули и сторонние пакеты, чтобы не изобретать велосипеды, а использовать готовые и проверенные решения. Но проблема в том, что они не в

Привет, Хабр!

Cо времен нашего последнего поста в JetBrains Academy изменилось довольно много: мы выпустили важные обновления платформы, опубликовали множество новых проектов и тем, а также ввели годовую подписку! Кроме того, мы проанализировали наши проекты и составили рейтинг лучших из них по мнению наших пользователей. Ниже мы расскажем обо всем этом подробнее.

Настройка программного обеспечения

Без промедления начнём. Нам нужно установить следующее ПО:

Windows 10
Anaconda 3 (Python 3.8)
Visual Studio 2019 (

Этой весной Питерская Вышка и JetBrains впервые провели проектную смену для старшеклассников Школу по практическому программированию и анализу данных. В течение пяти дней 50 участников со всей страны работали над групповыми проектами по машинному обучению, NLP, мобильной и web-разработке.

Первое место заняла команда Deep Q-Mario ребята создали не

Мы рады сообщить, что стал доступен июньский релиз расширения Jupyter для Visual Studio Code. Если вы работаете с Python, мы рекомендуем загрузить расширение Python из Marketplace или установить его прямо из галереи расширений в Visual Studio Code. Если у вас уже установлено расширение Python, вы также можете получить последнее

Я учусь иллюстрировать сложные процессы с помощью комиксов. Нашла себе в копилку крутой кейс: как с помощью комиксов про милых выдр можно ребенку объяснить такую сложную штуку как Apache Kafka,

Описание проблемы

Не раз наша команда в Каруне сталкивались с задачей, связанной с хранением и использованием IP-адресов в базе данных. Предположим, что есть типичная задача: необходимо парсить огромное количество диапазонов адресов (~300k) сизвестного ресурса, а далее определять страну по IP-адресу клиента. Кажется, ничего особенного. Это довольно просто

Если ваша жизнь DBA, сопровождающего PostgreSQL, наполнена вопросами "а почему так медленно?" и "как сделать, чтобы запрос не тормозил?", наш сервис анализа и визуализации планов запросовexplain.tensor.ru сделает ее немного легче за счет привлечения коллег и обновленных подсказок.

Добрый день, коллеги. В этой статье я бы хотел затронуть тему таблиц с типом Row. Этот тип таблиц для многих администраторов баз данных, долгое время оставался наиболее естественным типом, так сказать типом по умолчанию. Таблицы типа COLUMN в основнов встречались в хранилищах данных (Data Warehouse), то есть базах данных с преобладающей нагрузкой типа OLAP.

Основная идея инженеров компании SAP при разработке базы данных HANA

Это вольный перевод поста одного из сильных разработчиков Postgres - Andres Freund. Кроме того что разработчик сильный, так еще и статья довольно интересная и раскрывает детали того как работает ОС Linux.

Довольно часто можно слышать заяв

Данные это один из наиболее важных компонентов геопространственных технологий и, пожалуй, любой другой отрасли. К управлению данными сейчас относятся серьезно во всех отраслях, поэтому знания по этой дисциплине имеют важное значение для карьеры ИТ-специалистов. Этот цикл статей задуман как универсальное руководство, в котором мы рассмотрим тему от и до, начиная с вопроса Что такое данные? и заканчивая изучением и применением геопро

Всем привет! Меня зовут Константин Измайлов, я руководитель направления Data Science в Delivery Club. Мы работаем над многочисленными интересными и сложными задачами: от формирования классических аналитических отчетов до построения рекомендательных моделей в ленте приложения.

Сегодня я расскажу пр

В школе все мы решали задачки вида едет из пункта А в пункт Б. Речь преимущественно шла о скорости и времени как быстро доберётся транспортное средство? Реальность, однако, подбрасывает задачки значительно интереснее: Существует масштабная ритейл-сеть по продаже товаров, которой необходимо, чтобы огромное количество номенклатурных позиций доезжало в каждый из 17000 магазинов, расположенных на половине площади самой большой страны в

Представьте человека, который изучает алгоритмы. Чтобы понять как они работают, приходится изучать их код и представлять, как компьютер будет его выполнять. Это странно почему мы должны учиться думать как компьютер, вместо того, чтобы заставить его помогать на

Что бы вы порекомендовали тому, кто впервые приезжает в Нью-Йорк? Посетить Центральный парк? Посмотреть шоу на Бродвее? Увидеть Статую Свободы?

Я бы первым делом посоветовала скачать офлайн-карту метро. Мне предложили это сделать, когда я впервые оказалась в Нью-Йорке, и это спасало меня множество раз.

Когда я переехала в Нью-Йорк, то почти сразу познакомилась с самой знаковой достопримечательностью г

В этой подборке, переводом которой мы решили поделиться к старту курса о машинном и глубоком об

Несколько лет назад я услышал от одного коллеги историю. Он в то время работал начальником отдела технической документации в IT компании. Дело было на собрании, посвященном знакомству с новым техническим директором. Тот, пожав моему коллеге руку и узнав о его роли, пошутил: Документация? Так ее же не читает никто! Двадцать первый век на дворе.

Вряд ли кому-то из нас было бы приятно оказаться на месте этого человека. Но, колл

Четыре вида документации распределнные по двум осям: практика-теория и обучение-работа.

Недавно вышли два нашумевших поста:

Откровения трезвого инженера
Откровения пьяного старшего инженера

И мног

dmgtlqavf9vvl30g8hbtnyirxjo

Продолжая тему использования Asciidoc (и других аналогичных форматов) для организации процессов непрерывного документирования, хочу рассмотреть тему автоматический генерации технической документации.

Автоматическая генерация документациираспространенный,

Введение

В этой статье хочу рассмотреть возможности Asciidoc в части обеспечения требований соответствия документов требованиям единой системы конструкторской

Сама по себе автоматизация лишь инструмент и как каждый инструмент у нее есть своя область применения, своя техника безопасности внедрения и применения, а так же свои преимущества и негатив. Традиционно бизнес стремится внедряться IT-разработки там, где существуют достаточн

Привет! Я Илья Тананаев. Руковожу отделом первой линии техподдержки в ITSumma. И хочу поделиться опытом, как из поиска решения проблемы пропущенных чатиков с клиентами мы построили кузницу кадров. Успешно успевая при этом обрабатывать 3k+ клиентских обращений в сутки.

Иногда требуется сделать так, чтобы сообщения в Symfony Messenger отправлялись потребителю пакетами, а не поодиночке. Недавно нам потребовалось отправлять через Messenger обновленные строки текста из наших программ поставщику переводческих услуг.

Но из-за жесткого огран

На сегодняшний день базы данных класса Massive Parallel Processing это отраслевой стандарт для хранения Больших Данных и решения разнообразных аналитических задач на их основе.

Сценарии использования mpp-баз разнообразны: они могут быть и рабочей лошадкой корпоративного BI, и инструментом централизации данных из сотен источников в одном DWH, и даже использоваться для горячего взаимодействия с ML-моделями, работа

Алексей Миловидов делает ClickHouse и, конечно, знает его вдоль и поперек. В том числе и о том, как его можно использовать дополнительно к его штатным и всем хорошо известным функциям.

И сегодня расскажет про эти необычные способы его использования и, может быть, даже не для хранения и обработки данных.

Привет, Хабр! Я Алексей Коняев. Последние пару лет участвую в развитии платформы Цифровой рабочий в роли ведущего java-разработчика.

Представьте, что вы приехали на экскурсию на завод. Там огромная территория, и вы вместе с гидом передвигаетесь на машине. Он рассказывает: Посмотрите направо, здесь новое здание литейного цеха, а вот слева старое здание, которое скоро должны снести... Как вдруг через минуту это старое здание в

Алексей Миловидов работал инженером в Яндекс.Метрике, и перед ним стояла непростая задача.

Яндекс.Метрика работала с петабайтами данных это был третий по популярности сервис веб-аналитики в мире. Для него нужна была база данных, которая может обрабатывать огромное кол

Моя команда использует ClickHouse как хранилище для 100 млрд записей страфиком по300 млн всутки ипоиском потаблице. Ярасскажу обустройстве движка таблиц MergeTree. Рассказ буду вести, показывая физические данные, анеабстрактные схемы.

MergeTree это сердце Cl

dmgtlqavf9vvl30g8hbtnyirxjo

Автоматическая генерация документациираспространенный,

DESCRIBE TABLE data_lrname        type      default_type   default_expression   comment

Настройка программного обеспечения

Без промедления начнём. Нам нужно установить следующее ПО:

Windows 10
Anaconda 3 (Python 3.8)
Visual Studio 2019 (

Давеча, с коллегой, на работе поспорили что нельзя написать кэширующий декоратор в 4 строки, я утверждал что можно. Все началось с 4-х строк, закончилось функциональным программированием кучей lambda выражений в одну строку и декоратором в одну строку.

Дисклеймер

Такой код не попадает в мои проекты или проекты моей команды, и все что описано ниже было написано в рамках академического изыскания. Я понимает что важное

Введение

Привет, меня зовут Артём и я работаю бекендером в KTS. Компания уже 3 года проводит летние и зимние курсы по разработке, а в феврале этого года прошла очередная бесплатная

Множество (Set) структура данных, которая позволяет достаточно быстро (в зависимости от реализации) применить операции add, erase и is_in_set. Но иногда этого не достаточно: например, невозможно перебрать все элементы в порядке возрастания, получить сле

Незаметно от всех 12 мая 2021 вышла новая версия известного микрофреймворка Flask. Хотя казалось, что во Flask есть уже все, ну или почти все, что нужно для микрофреймворка.
Предвкушая интерес, а что же нового завезли, оставлю ссылку на Change log.

Из приглянувшихся особенностей новой версии:

Квалификацию надо иногда повышать, и вообще учиться для мозгов полезно. А потому пошел я недавно на курсы - поизучать Python и всякие его фреймворки. На днях вот до Django добрался. И тут мы в ходе обучения коллективно выловили не то чтобы баг, но дивный эффект на стыке Python 3, Sqlite 3, JSON и Win 10. Причем эффект был настолько дивен, что гугль нам не помог - пришлось собираться всей заинтересованной группой вместе с преподават

	Русский
	English

Генератор диаграмм таблиц ClickHouse для PlantUML

Вдохновение

Что такое PlantUML

Идея

Реализация

Результат

Ближайшие планы

Вместо заключения

Спасибо, что потратили время на прочтение!

Сейчас читают

Python

Автоматизация машинного обучения

Перевод Ищем уязвимости в Python-коде с помощью open source инструмента Bandit

JetBrains Academy платформенные обновления, любимые проекты пользователей и годовая подписка

Управляем звуком ПК от активности пользователя с помощью Python

Настройка программного обеспечения

Обучение с подкреплением в Super Mario Bros. Сравнение алгоритмов DQN и Dueling DQN

Jupyter в Visual Studio Code июньский релиз

Администрирование баз данных

Перевод Как объяснить детям, что такое Apache Kafka за 15 минут с картинками и выдрами

Опыт хранения IP-адресов в PostgreSQL

Описание проблемы

Анализируем слона вместе с коллегами

SAP HANA. Таблицы с типом хранения Row

Перевод Измеряем расходы на память у Postgres процессов

Перевод Путеводитель по базам данных в 2021г

Визуализация данных

Геопространственное моделирование с применением методов машинного обучения

Автозаказ как сделать так, чтобы нужные продукты сами попадали на полки 17000 магазинов по всей стране

Как я пытался придумать новый подход к изучению алгоритмов через интерактивные визуализации

Анализируем слона вместе с коллегами

Перевод Как культура жителей города влияет на дизайн карт метро Нью-Йорк

Перевод 5 разных библиотек Python, которые сэкономят ваше время

Подготовка технической документации

Как писать хорошую документацию

Перевод Откровения кофеин-зависимого инженера как писать документацию

Автоматическая генерация технической документации

Asciidoc для ЕСКД

Введение

АнтиBIMing

Наковали кадров как первая линия техподдержки стала одним из главных каналов онбординга

Clickhouse

Перевод Symfony Messenger объединение сообщений в пакеты

Перевод Перспективные архитектуры для современных инфраструктур данных

Как использовать ClickHouse не по его прямому назначению

Аналитика событий на опасном производстве, или зачем Цифровому рабочему Kafka, Esper и Clickhouse

Представь, что ты нашел решение, про которое можешь сказать оно лучшее в мире интервью с создателем ClickHouse

ClickHouse как устроен MergeTree

Plantuml

Автоматическая генерация технической документации

Генератор диаграмм таблиц ClickHouse для PlantUML

Python3

Управляем звуком ПК от активности пользователя с помощью Python

Настройка программного обеспечения

Не практичный pythonпишем декоратор в однустроку

Дисклеймер

Первые шаги в aiohttp

Введение

В поисках упорядоченного множества в Python разбираемся с теорией и выбираем лучшую реализацию

Оно живое! Вышла версия Flask 2.0

Из приглянувшихся особенностей новой версии:

Очередная причуда Win 10 и как с ней бороться

Категории

Последние комментарии