Перевод Высокопроизводительный TSDB benchmark VictoriaMetrics vs TimescaleDB vs InfluxDB

VictoriaMetrics, TimescaleDB и InfluxDB были сравнены в предыдущей статье по набору данных с миллиардом точек данных, принадлежащих 40K уникальным временным рядам.

Несколько лет назад была эпоха Zabbix. Каждый bare metal сервер имел не более нескольких показателей использование процессора, использование оперативной памяти, использование диска и использование сети. Таким образом метрики с тысяч серверов могут поместиться в 40 тысяч уникальных временных рядов, а Zabbix может использовать MySQL в качестве бэкенда для данных временных рядов :)

В настоящее время один node_exporter с конфигурациями по умолчанию предоставляет более 500 метрик на среднем хосте. Существует множество экспортеров для различных баз данных, веб-серверов, аппаратных систем и т. д. Все они предоставляют множество полезных показателей. Все больше и больше приложений начинают выставлять различные показатели на себя. Существует Kubernetes с кластерами и pod-ами, раскрывающими множество метрик. Это приводит к тому, что серверы выставляют тысячи уникальных метрик на хост. Таким образом, уникальный временной ряд 40K больше не является высокой мощностью. Он становится мейнстримом, который должен быть легко обработан любой современной TSDB на одном сервере.

Что такое большое количество уникальных временных рядов на данный момент? Наверное, 400К или 4М? Или 40м? Давайте сравним современные TSDBs с этими цифрами.

Установка бенчмарка

TSBS это отличный инструмент бенчмаркинга для TSDBs. Он позволяет генерировать произвольное количество метрик, передавая необходимое количество временных рядов, разделенных на 10 флаг -scale (бывший -scale-var). 10 это количество измерений (метрик), генерируемых на каждом хосте, сервере. Следующие наборы данных были созданы с помощью TSBS для бенчмарка:

400K уникальный временной ряд, 60 секунд интервал между точками данных, данные охватывают полные 3 дня, ~1.7B общее количество точек данных.
4M уникальный временной ряд, интервал 600 секунд, данные охватывают полные 3 дня, ~1.7B общее количество точек данных.
40M уникальный временной ряд, интервал 1 час, данные охватывают полные 3 дня, ~2.8 B общее количество точек данных.

Клиент и сервер были запущены на выделенных экземплярах n1-standard-16 в облаке Google. Эти экземпляры имели следующие конфигурации:

vCPUs: 16
ОЗУ: 60 ГБ
Хранение: стандартный жесткий диск емкостью 1 ТБ. Он обеспечивает пропускную способность чтения/записи 120 Мбит/с, 750 операций чтения в секунду и 1,5К операций записи в секунду.

TSDBs были извлечены из официальных образов docker и запущены в docker со следующими конфигурациями:

VictoriaMetrics:

docker run -it --rm -v /mnt/disks/storage/vmetrics-data:/victoria-metrics-data -p 8080:8080 valyala/victoria-metrics

Значения InfluxDB (- e необходимы для поддержки высокой мощности. Подробности смотрите в документации):

docker run -it --rm -p 8086:8086 \-e INFLUXDB_DATA_MAX_VALUES_PER_TAG=4000000 \-e INFLUXDB_DATA_CACHE_MAX_MEMORY_SIZE=100g \-e INFLUXDB_DATA_MAX_SERIES_PER_DATABASE=0 \-v /mnt/disks/storage/influx-data:/var/lib/influxdb influxdb

TimescaleDB (конфигурация была принята из этого файла):

MEM=`free -m | grep "Mem" | awk {print $7}`let "SHARED=$MEM/4"let "CACHE=2*$MEM/3"let "WORK=($MEM-$SHARED)/30"let "MAINT=$MEM/16"let "WAL=$MEM/16"docker run -it  rm -p 5432:5432 \--shm-size=${SHARED}MB \-v /mnt/disks/storage/timescaledb-data:/var/lib/postgresql/data \timescale/timescaledb:latest-pg10 postgres \-cmax_wal_size=${WAL}MB \-clog_line_prefix="%m [%p]: [%x] %u@%d" \-clogging_collector=off \-csynchronous_commit=off \-cshared_buffers=${SHARED}MB \-ceffective_cache_size=${CACHE}MB \-cwork_mem=${WORK}MB \-cmaintenance_work_mem=${MAINT}MB \-cmax_files_per_process=100

Загрузчик данных был запущен с 16 параллельными потоками.

Эта статья содержит только результаты для контрольных показателей вставки. Результаты выборочного бенчмарка будут опубликованы в отдельной статье.

400К уникальных временных рядов

Давайте начнем с простых элементов 400К. Результаты бенчмарка:

VictoriaMetrics: 2,6М точек данных в секунду; использование оперативной памяти: 3 ГБ; окончательный размер данных на диске: 965 МБ
InfluxDB: 1.2M точек данных в секунду; использование оперативной памяти: 8.5 GB; окончательный размер данных на диске: 1.6 GB
Timescale: 849K точек данных в секунду; использование оперативной памяти: 2,5 ГБ; окончательный размер данных на диске: 50 ГБ

Как вы можете видеть из приведенных выше результатов, VictoriaMetrics выигрывает в производительности вставки и степени сжатия. Временная шкала выигрывает в использовании оперативной памяти, но она использует много дискового пространства 29 байт на точку данных.

Ниже приведены графики использования процессора (CPU) для каждого из TSDBs во время бенчмарка:

Выше скриншот: VictoriaMetrics Загрузка CPU при тесте вставки для уникальной метрики 400K.

Выше скриншот: InfluxDB Загрузка CPU при тесте вставки для уникальной метрики 400K.

Выше скриншот: TimescaleDB Загрузка CPU при тесте вставки для уникальной метрики 400K.

VictoriaMetrics использует все доступные vCPUs, в то время как InfluxDB недостаточно использует ~2 из 16 vCPUs.

Timescale использует только 3-4 из 16 vCPUs. Высокие доли iowait и system на TimescaleDB графике временных масштабов указывают на узкое место в подсистеме ввода-вывода (I/O). Давайте посмотрим на графики использования пропускной способности диска:

Выше скриншот: VictoriaMetrics Использование пропускной способности диска при тесте вставки для уникальных показателей 400K.

Выше скриншот: InfluxDB Использование пропускной способности диска при тесте вставки для уникальных показателей 400K.

Выше скриншот: TimescaleDB Использование пропускной способности диска при тесте вставки для уникальных показателей 400K.

VictoriaMetrics записывает данные со скоростью 20 Мбит/с с пиками до 45 Мбит/с. Пики соответствуют большим частичным слияниям в дереве LSM.

InfluxDB записывает данные со скоростью 160 МБ/с, в то время как 1 ТБ диск должен быть ограничен пропускной способностью записи 120 МБ/с.

TimescaleDB ограничена пропускной способностью записи 120 Мбит/с, но иногда она нарушает этот предел и достигает 220 Мбит/с в пиковых значениях. Эти пики соответствуют провалам недостаточной загрузки процессора на предыдущем графике.

Давайте посмотрим на графики использования ввода-вывода (I/O):

Выше скриншот: VictoriaMetrics Использование ввода-вывода при тесте вставки для 400K уникальных метрик.

Выше скриншот: InfluxDB Использование ввода-вывода при тесте вставки для 400K уникальных метрик.

Выше скриншот: TimescaleDB Использование ввода-вывода при тесте вставки для 400K уникальных метрик.

Теперь ясно, что TimescaleDB достигает предела ввода-вывода, поэтому он не может использовать оставшиеся 12 vCPUs.

4M уникальные временные ряды

4M временные ряды выглядят немного вызывающе. Но наши конкуренты успешно сдают этот экзамен. Результаты бенчмарка:

VictoriaMetrics: 2,2М точек данных в секунду; использование оперативной памяти: 6 ГБ; окончательный размер данных на диске: 3 ГБ.
InfluxDB: 330К точек данных в секунду; использование оперативной памяти: 20,5 ГБ; окончательный размер данных на диске: 18,4 ГБ.
TimescaleDB: 480K точек данных в секунду; использование оперативной памяти: 2,5 ГБ; окончательный размер данных на диске: 52 ГБ.

Производительность InfluxDB упала с 1,2 млн точек данных в секунду для 400К временного ряда до 330 тыс. точек данных в секунду для 4M временного ряда. Это значительная потеря производительности по сравнению с другими конкурентами. Давайте посмотрим на графики использования процессора, чтобы понять первопричину этой потери:

Выше скриншот: VictoriaMetrics Использование CPU при тесте вставки для уникального временного ряда 4M.

Выше скриншот: InfluxDB Использование CPU при тесте вставки для уникального временного ряда 4M.

Выше скриншот: TimescaleDB Использование CPU при тесте вставки для уникального временного ряда 4M.

VictoriaMetrics использует почти всю мощность процессора (CPU). Снижение в конце соответствует оставшимся LSM слияниям после вставки всех данных.

InfluxDB использует только 8 из 16 vCPUs, в то время как TimsecaleDB использует 4 из 16 vCPUs. Что общего у их графиков? Высокая доля iowait, что, опять же, указывает на узкое место ввода-вывода.

TimescaleDB имеет высокую долю system. Полагаем, что высокая мощность привела ко многим системным вызовам или ко многим minor page faults.

Давайте посмотрим на графики пропускной способности диска:

Выше скриншот: VictoriaMetrics Использование полосы пропускания диска для вставки 4M уникальных метрик.

Выше скриншот: InfluxDB Использование полосы пропускания диска для вставки 4M уникальных метрик.

Выше скриншот: TimescaleDB Использование полосы пропускания диска для вставки 4M уникальных метрик.

VictoriaMetrics достигали предела 120 МБ/с в пик, в то время как средняя скорость записи составляла 40 МБ/с. Вероятно, во время пика было выполнено несколько тяжелых слияний LSM.

InfluxDB снова выжимает среднюю пропускную способность записи 200 МБ/с с пиками до 340 МБ/с на диске с ограничением записи 120 МБ/с :)

TimescaleDB больше не ограничена диском. Похоже, что он ограничен чем-то еще, связанным с высокой долей системной загрузки CPU.

Давайте посмотрим на графики использования IO:

Выше скриншот: VictoriaMetrics Использование ввода-вывода во время теста вставки для уникального временного ряда 4M.

Выше скриншот: InfluxDB Использование ввода-вывода во время теста вставки для уникального временного ряда 4M.

Выше скриншот: TimescaleDB Использование ввода-вывода во время теста вставки для уникального временного ряда 4M.

Графики использования IO повторяют графики использования полосы пропускания диска InfluxDB ограничен IO, в то время как VictoriaMetrics и TimescaleDB имеют запасные ресурсы ввода-вывода IO.

40М уникальные тайм серии

40М уникальные временные ряды были слишком большими для InfluxDB :(

Результаты бечмарка:

VictoriaMetrics: 1,7М точек данных в секунду; использование оперативной памяти: 29 ГБ; использование дискового пространства: 17 ГБ.
InfluxDB: не закончил, потому что для этого требовалось более 60 ГБ оперативной памяти.
TimescaleDB: 330К точек данных в секунду, использование оперативной памяти: 2,5 ГБ; использование дискового пространства: 84GB.

TimescaleDB показывает исключительно низкое и стабильное использование оперативной памяти 2,5 ГБ столько же, сколько и для уникальных метрик 4M и 400K.

VictoriaMetrics медленно увеличивались со скоростью 100 тысяч точек данных в секунду, пока не были обработаны все 40М метрических имен с метками. Затем он достиг устойчивой скорости вставки 1,5-2,0М точек данных в секунду, так что конечный результат составил 1,7М точек данных в секунду.

Графики для 40М уникальных временных рядов аналогичны графикам для 4М уникальных временных рядов, поэтому давайте их пропустим.

Выводы

Современные TSDBs способны обрабатывать вставки для миллионов уникальных временных рядов на одном сервере. В следующей статье мы проверим, насколько хорошо TSDBs выполняет выбор по миллионам уникальных временных рядов.
Недостаточная загрузка процессора обычно указывает на узкое место ввода-вывода. Кроме того, это может указывать на слишком грубую блокировку, когда одновременно может работать только несколько потоков.
Узкое место ввода-вывода действительно существует, особенно в хранилищах без SSD, таких как виртуализированные блочные устройства облачных провайдеров.
VictoriaMetrics обеспечивает наилучшую оптимизацию для медленных хранилищ с низким уровнем ввода-вывода. Он обеспечивает наилучшую скорость и наилучшую степень сжатия.

Загрузите односерверный образ VictoriaMetrics и попробуйте его на своих данных. Соответствующий статический двоичный файл доступен на GitHub.

Подробнее о VictoriaMetrics читайте в этой статье.

Обновление: опубликована статья, сравнивающая производительность вставки VictoriaMetrics с InfluxDB с воспроизводимыми результатами.

Обновление#2: Читайте также статью о вертикальной масштабируемости VictoriaMetrics vs InfluxDB vs TimescaleDB.

Обновление #3: VictoriaMetrics теперь с открытым исходным кодом!

Телеграм чат: https://t.me/VictoriaMetrics_ru1

Отыщи всему начало, и ты многое поймёшь (Козьма Прутков).

Меня зовут Руслан, я релиз-инженер в Badoo и Bumble. Недавно я столкнулся с необходимостью оптимизировать механизм автомерджа в мобильных проектах. Задача оказалась интересно

Листая страницы Хабра, поймал себя на мысли, что я воспринимаю Хабр как новостную ленту в социальной сети. То есть как нечто, что прямого отношения лично ко мне не имеет и касается меня очень косвенным путем. Нечто полуразвлекательное-полупознавательное.

Ну, судите сами. Вот примерный список тем, которые превалируют на Хабре.

Что там новенького у Илона Петровича Маска.
Как с помощью Arduino

TLDR:

Антиманифест методологии разработки ПО

Процесс это не продукт

Руководство, а не менеджмент

Диалог, а не диктат

Вот и всё, остальное вы можете додумать сами, но если хотите, продолжайте ч

В предыдущей статье, мы вспомнили, что такое WebRTC CDN, как эта технология помогает обеспечивать минимальную задержку в WebRTC трансляциях и почему для CDN не лишним будет использовать балансировку нагрузки и автоматическое масштабирование.

Кратко напомним осно

В Kubernetes не так-то просто что-то удалить вы уверены, что удалили объект, но оказывается, что он все еще присутствует в кластере. Вы, конечно, можете выполнять команду kubectl delete в повседневных операциях и надеяться на лучшее, но знание принципов работы

Мы столкнулись с достаточно занятным поведением при работе с Headless-сервисом в Kubernetes. В нашем случае проблема возникла с mongos, но она актуальна для любого Headless-сервиса. Приглашаю вас почитать нашу историю и самим попробовать поиграться с этой проблемой локально.

На одном из проектов мы используем MongoDB и Kubernetes. У MongoDB есть компонент: mongos. Через него выполняются запросы в шардированном MongoDB класте

Большую часть своей жизни я жил и работал в Москве. Занимался тем, что менял здоровье на деньги. Правда, на очень хорошие, поэтому под занавес пятого десятка купил квартиру в тихом приморском городке, далеко от столичной суеты и ежедневной нервотрёпки.

Особой необходимости в работе у меня не было. Дети уже стали самостоятельными настолько, что запросто могут содержать нас с женой. Да и скопить удалось прилично. Однако, были

Представьте ситуацию: вам нужно воспользоваться оплаченным (как вы думаете) сервисом и вдруг оказывается, что он отключен за неуплату. Такая неприятность портит впечатление от бренда, снижая поток прибыли, а внезапно отключенный клиент может не вернуться к сервису. К старту ку

Я как-то видел, когда в команду разработки закинули задачу распилить монолит. И всё. Люди должны были работать в два раза больше это ужасно.

Когда поступает похожий запрос, важно не наворотить дел и понять, как избежать новых трудностей. Об этом рассказал Марсель Ибраев, технический директор Слёрма.

Марсель поделился непростым кейсом из своего опыта, высказал мнение, что всё начинаетс

Что такое single sign-on?

Технология единого входа (Single sign-on SSO) метод аутентификации, который позволяет пользователям безопасно аутентифицироваться сразу в нескольких приложениях и сайтах, используя один набор учетных данных.

Как работает SSO?

SSO базируется на настройке доверительных отношений между приложением, известным как провайдер услуг, и системой управления до

Привет! Меня зовут Мирослав, я инженер-разработчик проекта по реализации BPM-решений для внутренней автоматизации КРОК.

Наш проект не гоняет миллионы строк каждую ночь через фильтры и правила, это не сложная система, которая отвечает за кадровую информацию, бюджетирова

Согласно последнему отчету Yole Developments, внедрение новой памяти DDR5 будет происходить, по меркам сегмента, практически молниеносно. Аналитики компании считают, что уже к 2023 году сумма поставки модулей памяти нового поколения превысят $200 млрд, а к 2026 году новая память займет 90% мирового компьютерного

Всем привет! Меня зовут Константин Измайлов, я руководитель направления Data Science в Delivery Club. Мы работаем над многочисленными интересными и сложными задачами: от формирования классических аналитических отчетов до построения рекомендательных моделей в ленте приложения.

Сегодня я расскажу пр

В школе все мы решали задачки вида едет из пункта А в пункт Б. Речь преимущественно шла о скорости и времени как быстро доберётся транспортное средство? Реальность, однако, подбрасывает задачки значительно интереснее: Существует масштабная ритейл-сеть по продаже товаров, которой необходимо, чтобы огромное количество номенклатурных позиций доезжало в каждый из 17000 магазинов, расположенных на половине площади самой большой страны в

Представьте человека, который изучает алгоритмы. Чтобы понять как они работают, приходится изучать их код и представлять, как компьютер будет его выполнять. Это странно почему мы должны учиться думать как компьютер, вместо того, чтобы заставить его помогать на

Если ваша жизнь DBA, сопровождающего PostgreSQL, наполнена вопросами "а почему так медленно?" и "как сделать, чтобы запрос не тормозил?", наш сервис анализа и визуализации планов запросовexplain.tensor.ru сделает ее немного легче за счет привлечения коллег и обновленных подсказок.

Что бы вы порекомендовали тому, кто впервые приезжает в Нью-Йорк? Посетить Центральный парк? Посмотреть шоу на Бродвее? Увидеть Статую Свободы?

Я бы первым делом посоветовала скачать офлайн-карту метро. Мне предложили это сделать, когда я впервые оказалась в Нью-Йорке, и это спасало меня множество раз.

Когда я переехала в Нью-Йорк, то почти сразу познакомилась с самой знаковой достопримечательностью г

В этой подборке, переводом которой мы решили поделиться к старту курса о машинном и глубоком об

Я учусь иллюстрировать сложные процессы с помощью комиксов. Нашла себе в копилку крутой кейс: как с помощью комиксов про милых выдр можно ребенку объяснить такую сложную штуку как Apache Kafka,

Что такое single sign-on?

Как работает SSO?

Сегодня, в третьей части серии материалов, посвящённых разработке серверов на Go, мы займёмся реализацией нашего REST-сервера с использованием Gin одного из самых популярных веб-фреймворков для Go. Вот

Технология единого входа обладает массой преимуществ по сравнению с классическими методами аутентификации, главное из которых заключается в том, что именно SSO обеспечивает наилучший баланс между удобством пользователя и информационной безопасностью предприятия. Ранее мы уже рассказывали о том, как реализовать SSO в Zimbra OSE при использовании аутентификации в Active Directory с помощью Kerberos. На этот раз мы

Несколько лет назад была эпоха Zabbix. Каждый bare metal сервер имел не более

Всем привет. В этом посте я расскажу про pgSCV - новый экспортер метрик для PostgreSQL (и не только), чем он так хорош и какие проблемы решает.

Наверняка все кто используют Prometheus и PostgreSQL сталкивались и с postgres_exporter. Этот экспортер довольно легко запуститьи начать им пользоваться. Также у него есть возможности для расширения, на основе своего запроса можно описать метрики иснимать их. Если есть хорошие знания

В статье мой коллега Luca Carboni, DevOps Engineer из амстердамского офиса Miro, рассказывает, как выглядит наша инфраструктура для хранения метрик. Все компоненты в ней соответствуют принципам высокой доступности (High Availability) и отказоустойчивости (Fault Tolerance), имеют чёткую специализацию, могут хранить данные долгое время и оптимальны с точки зрения затрат.

Стек, о котором пойдёт речь: Prometheus, Alertmanager, P

Прим. перев.: автор этой статьи ведущий инженер по инфраструктуре в Smarkets, что позиционирует себя как одну из самых прибыльных [по доходам на каждого сотрудника] компаний в Европе. Работая с большой и чувствительной к мониторингу инфраструктурой на базе Kubernetes, инженеры компании нашли своё счастье с VictoriaMetrics, которая помогла им решить проблемы с Prometheus, возникшие после добавления новых K8s-к

Несколько лет назад была эпоха Zabbix. Каждый bare metal сервер имел не более неск

Несколько лет назад была эпоха Zabbix. Каждый bare metal сервер имел не более

	Русский
	English

Перевод Высокопроизводительный TSDB benchmark VictoriaMetrics vs TimescaleDB vs InfluxDB

Сейчас читают

Devops

Ваш безлимит как увеличить пропускную способность автомерджа

Хочу больше годных профстатей, Хабр

Перевод Процесс это не продукт антиманифест методологии разработки ПО

WebRTC CDN на Google Cloud Platform с балансировкой и автоматическим масштабированием

Перевод Контролируем удаление с финализаторами

Kubernetes Headless Service А если Pod исчез?

It-инфраструктура

USB over IP удалённое администрирование

Перевод Оптимизация платежей в Dropbox при помощи машинного обучения

Интервью с Марселем Ибраевым о распиле монолита или Успех распила монолита грамотный менеджмент

Перевод Как работает single sign-on (технология единого входа)?

Что такое single sign-on?

Как работает SSO?

Внутренняя автоматизация почему мы отказались от low-code системы в пользу Camunda

Внедрение DDR5 будет молниеносным к 2026 году новая память займет 90 рынка

Визуализация данных

Геопространственное моделирование с применением методов машинного обучения

Автозаказ как сделать так, чтобы нужные продукты сами попадали на полки 17000 магазинов по всей стране

Как я пытался придумать новый подход к изучению алгоритмов через интерактивные визуализации

Анализируем слона вместе с коллегами

Перевод Как культура жителей города влияет на дизайн карт метро Нью-Йорк

Перевод 5 разных библиотек Python, которые сэкономят ваше время

Системное администрирование

USB over IP удалённое администрирование

Перевод Как объяснить детям, что такое Apache Kafka за 15 минут с картинками и выдрами

Перевод Контролируем удаление с финализаторами

Перевод Как работает single sign-on (технология единого входа)?

Что такое single sign-on?

Как работает SSO?

Перевод Разработка REST-серверов на Go. Часть 3 использование веб-фреймворка Gin

Интеграция SAML в Zimbra OSE

Tsdb