DBA Кто-то слишком много ест!

Тема "распухания" таблиц и индексов из-за реализации MVCC - больная для пользователей и администраторов PostgreSQL.

Однажды я уже поднимал ее в статье "DBA: когда пасует VACUUM чистим таблицу вручную", разобрав на конкретных примерах, насколько драматический эффект для производительности запросов может оказывать невовремя проведенный или бесполезно отработавший из-за конкурентных транзакций VACUUM.

Но, помимо влияния на скорость, есть еще и факт влияния на занятое место. Наверное, вы сильно удивитесь, если таблица с единственной "живой" записью после успешного прохода autovacuum продолжит занимать гигабайты пространства на дорогих SSD.

Сегодня немного поисследуем структуру хранения данных в файлах и копнем pg_catalog - схему с описанием базы PostgreSQL, чтобы понять, как можно определить таблицы, которые явно занимают подозрительно много места.

Как быстро наступить на грабли

Для определенности скажем, что все тесты мы проводим на PostgreSQL 12, потому что с каждой новой версией разработчики стараются снизить сайд-эффекты MVCC.

CREATE TABLE bloat AS SELECT 0 i;CREATE INDEX ON bloat(i);-- вспомогательные функции удобно "прятать" в pg_temp, чтобы не зачищать потом вручнуюCREATE OR REPLACE PROCEDURE pg_temp.upd() AS $$  UPDATE bloat SET i = i + 1;$$ LANGUAGE sql; -- и да, это plainSQL-процедура, а не функцияDO $$DECLARE  i integer;  ts timestamp;BEGIN  FOR i IN 1 .. 1 << 14 LOOP    ts := clock_timestamp();    CALL pg_temp.upd();    RAISE NOTICE '% : %', i, clock_timestamp() - ts;  END LOOP;END;$$ LANGUAGE plpgsql;

В процессе выполнения этого скрипта можно прямо глазами видеть, насколько сильно деградирует среднее время выполнения UPDATE нашей единственной записи. Точно единственной?

TABLE bloat;

  i-----16384

И сколько же все это счастье из единственной записи занимает?

SELECT pg_relation_size('bloat');-- 598016

Оу... больше полумегабайта! Замечу, что при отсутствии индекса фокус не пройдет, и таблица не разрастется благодаря HOT-update. Но и тут нам же должен помочь VACUUM - ведь никаких мешающих транзакций у нас нету!

VACUUM bloat;-- ... и нет!SELECT pg_relation_size('bloat');-- 598016

Хранение данных в таблице

Чтобы понять, почему так произошло, впору вспомнить про организацию физического хранения данных в PostgreSQL, которая в предельно упрощенном виде выглядит так:

каждая таблица - отдельный файл (pg_class.relfilenode)
каждый файл делится на сегменты, не превышающие 1GB
каждый сегмент состоит из последовательности страниц данных по (обычно) 8KB
страница данных содержит непосредственно набор записей

"Обычный" VACUUM (неVACUUM FULL) никак не перемещает сами записи - ни между страницами, ни в рамках самой страницы, поэтому может уменьшить размер файла, только отрезав "хвост" из целиком пустых страниц.

А наша единственная "живая" запись лежит ровно на самой последней странице, потому что все предыдущие были заняты "мертвыми" - потому VACUUM ничего и не срезал.

В недрах pg_catalog

pg_catalog - это системная схема, описывающая все внутреннее мироустройство данной конкретной базы - схемы, таблицы, индексы, поля, статистика, ... Чтобы понять, насколько там всего много, достаточно взглянуть на схему от Joel Jacobson. Но нам сегодня понадобятся всего несколько таблиц, описывающих отдельные аспекты базы:

pg_namespace - схемы (schema)
pg_class - основные объекты - таблицы, индексы, matview, ...
pg_depend - зависимости между объектами, в нашем случае - схем и таблиц
pg_attribute - столбцы таблиц
pg_statistic - статистика о распределении данных

Теперь попробуем составить алгоритм для оценки "раздутости" нашей таблицы (или нескольких):

она относится (pg_depend) к конкретной схеме (pg_namespace) public (чтобы в анализ не попадали всякие системные таблицы из pg_catalog и information_schema)
количество страниц (pg_class.relpages) в ней существенно больше необходимого для хранения такого количества записей (pg_class.reltuples)
чтобы оценить это самое "необходимое количество" мы по статистике распределения данных (pg_statistic) для каждого из столбцов таблицы (pg_attribute) поймем, сколько там NULL-значений (pg_statistic.stanullfrac) и средний размер хранимых данных (pg_statistic.stawidth) с учетом выравнивания (pg_attribute.attalign)
и все это попробуем максимально плотно "разложить" в соответствии с компоновкой страницы на минимальное их количество

Упаковываемся на страницу

Итак, в нашем распоряжении есть страница данных - сколько записей реально туда "упаковать"?

Физический размер страницы определяется на моменте компиляции движка PostgreSQL, поэтому обычно его никто не меняет и оставляет равным 8KB. Но более правильным, чем захардкодить константу, будет в явном виде спросить ее у сервера из параметра block_size:

SELECT current_setting('block_size')::integer;-- 8192

Теперь перейдем к логическому размеру, для этого нам необходимо вычесть всю служебную информацию:

структура размещения данных в таблице

PageHeaderData - 24 байта заголовка служебной информации о самой странице
ItemIdData - по 4 байта указателя на каждую запись
HeapTupleHeaderData - по 23 байта служебной информации на каждую запись с учетом выравнивания до разрядности системы (32-bit -> 4 байта, 64-bit -> 8 байт)

Тут стоит обратить внимание, что если начать считать по табличке в документации, то будет упорно выходить 27 байт, если не обратить внимание на один факт:

структура HeapTupleHeaderData

В исходниках, t_cid и t_xvac описаны как C-union, то есть занимают одни и те же 4 байта.

"Почти бесплатные" NULL'ы

Отдельно стоит отметить момент хранения NULL-значений столбцов записи. Если конкретная запись содержит NULL-значение в любом из полей, то в HeapTupleHeaderData к 23 "стабильным" байтам заголовка будет добавлена битовая маска по количеству полей.

То есть если у вас в записи 8 полей и любое из них NULL, то добавлен будет 1 байт, что в сумме даст 24 байта заголовка и с учетом выравнивания. А вот если полей 9, то ой... добавится 2 байта, что в сумме даст уже 25, а с учетом выравнивания на 64-bit системах - уже 32 байта.

При этом в "теле" записи NULL не хранится никак и дополнительного места не занимает.

Немного математики

Заметим, что для определения общего размера записи нам необходимо знать о наличии NULL в любом из ее полей, а в pg_statistic.stanullfrac хранится доля NULL-значений для конкретного поля.

Поэтому, чтобы получить долю записей, содержащих хотя бы один NULL, нам всего лишь надо перемножить вероятности. А для этого нам пригодился бы агрегат-произведение, которого, увы, нету среди стандартных sum/avg/min/max/count.

Не беда! Тут нам на помощь придет математический "хак", который я приводил в статье "SQL HowTo: 1000 и один способ агрегации":

P = exp(sum(ln(...)))

Пора писать код!

Для самопроверки добавим точно такую же таблицу, как наша, но не будем над ней издеваться:

CREATE TABLE nobloat ASSELECT 0 i;CREATE INDEX ON nobloat(i);

-- objects-in-schemeWITH dep AS (  -- https://postgrespro.ru/docs/postgresql/12/catalog-pg-depend  SELECT    objid  FROM    pg_depend  WHERE    (      refclassid    , refobjid    , classid    ) = (      'pg_namespace'::regclass    , (        -- https://postgrespro.ru/docs/postgresql/12/catalog-pg-namespace        SELECT          oid        FROM          pg_namespace        WHERE          nspname = 'public' -- schema        LIMIT 1      )    , 'pg_class'::regclass    ))-- objects, cl AS (  -- https://postgrespro.ru/docs/postgresql/12/catalog-pg-class  SELECT    oid  , relname  , relpages  , reltuples  FROM    pg_class cl  WHERE    oid = ANY(ARRAY(TABLE dep)::oid[]) AND    relkind IN ('r', 'm', 'p') -- relation | matview | partition)SELECT  T.*, cl.*, CASE    WHEN ratio >= 1 THEN (ratio - 1) * def.PAGESIZE  END::bigint repack_effect_sizeFROM  (    -- https://postgrespro.ru/docs/postgresql/12/storage-page-layout    SELECT      current_setting('block_size')::integer PAGESIZE    , CASE        WHEN version() ~ 'mingw32' OR version() ~ '64-bit' THEN 8        ELSE 4      END MAXALIGN  ) def, cl, LATERAL (    WITH cols AS (      SELECT        *      , (sz + szq - 1) / szq * szq sza -- aligned size      FROM        (            -- https://postgrespro.ru/docs/postgresql/12/catalog-pg-attribute            -- https://postgrespro.ru/docs/postgresql/12/catalog-pg-statistic            SELECT              attname            , attnum            , coalesce(st.stanullfrac, 0) nfr            , CASE                WHEN attlen = -1 THEN                  CASE                    WHEN attstorage IN ('p', 'm') OR stawidth < 2048 THEN -- toast_tuple_target                      stawidth                    ELSE 8 -- len + toast_id                  END                ELSE attlen              END sz            , CASE attalign                WHEN 'c' THEN 1                WHEN 's' THEN 2                WHEN 'i' THEN 4                WHEN 'd' THEN 8              END szq            FROM              pg_attribute at            LEFT JOIN              pg_statistic st                ON (st.starelid, st.staattnum) = (at.attrelid, at.attnum)            WHERE              at.attrelid = cl.oid AND              NOT at.attisdropped AND -- without dropped columns              at.attnum > 0           -- without system columns (tableoid, ctid, ...)            ORDER BY              attnum        ) T    )    SELECT      CASE        WHEN reltuples = 0 AND relpages = 0 THEN 1        WHEN reltuples = 0 AND relpages > 0 THEN NULL        ELSE          relpages /            ceil( -- need pages              reltuples /                (                  (PAGESIZE - 24) / -- PageHeaderData                    ceil(szt::double precision / reltuples)::bigint -- avg tuple size                ) -- tuples-per-page            )      END ratio    FROM      (        SELECT          reltuples * 4 + -- ItemIdData          (            (reltuples - fnnt) * hdr_tuple_w_nulls + -- hdr, tuples w/nulls            fnnt * hdr_tuple_wo_nulls                -- hdr, tuples wo/nulls          ) +          sztc szt -- size of tuples        FROM          (            SELECT              sztc            , fnnt              -- aligned headers            , ceil(hdr_cols_sys::double precision / MAXALIGN)::integer * MAXALIGN hdr_tuple_wo_nulls            , ceil((hdr_cols_sys + hdr_cols_null)::double precision / MAXALIGN)::integer * MAXALIGN hdr_tuple_w_nulls            FROM              (                SELECT                  -- https://doxygen.postgresql.org/htup__details_8h_source.html#l00121                  -- 4 : t_xmin                  -- 4 : t_xmax                  -- 4 : t_cid | t_xvac                  -- 6 : t_ctid                  -- 2 : t_infomask2                  -- 2 : t_infomask                  -- 1 : t_hoff                  23 hdr_cols_sys                , ceil(count(*)::double precision / 8)::integer hdr_cols_null                , sum(ceil(sza * reltuples * (1 - nfr))) sztc -- size of tuples cols                , trunc(exp(sum(ln(CASE WHEN nfr < 1 THEN 1 - nfr ELSE 1 END))) * reltuples) fnnt -- full-not-null-tuples                FROM                  cols              ) T          ) T      ) T  ) T;

Что в результате?

ratio |   oid | relname | relpages | reltuples | repack_effect_size-------------------------------------------------------------------   73 | 41333 | bloat   |       73 |        15 |             589824    1 | 41337 | nobloat |        1 |         1 |                  0

Заметим, что PostgreSQL считает, что в bloat у нас 15 записей, а не 1, как в реальности - это следствие неактуальной статистики как результат не выполненного вовремя ANALYZE. Ровно по той же причине может получиться, что ratio окажется меньше 1.

А дальше - сами определяйтесь, какие из таблиц вы будете "сжимать" и чем:

Если ваша жизнь DBA, сопровождающего PostgreSQL, наполнена вопросами "а почему так медленно?" и "как сделать, чтобы запрос не тормозил?", наш сервис анализа и визуализации планов запросовexplain.tensor.ru сделает ее немного легче за счет привлечения коллег и обновленных подсказок.

Иногда в интерфейсе наших приложений СБИС возникаетнеобходимость "сгруппировать" часть записейв некотором списке (например, служебные сообщения в чате, контакты и телефонные звонки).

Хорошо, если все эти записи приходят с одного источника, а вот еслииз разных сервисов, да с навигацией по курсору- алгорит

Иногда при выполнении длительных или плохо написанных запросов в PostgreSQL происходят разные неприятные вещи типа внезапного сбоя процесса или краша всего сервера.

В таких случаях на носителе могут остаться "мертвые души" - файлы (иногда совсем немаленькие, а вполне сравнимые по объему со всей остальной базой), которые были созданы во время работы процесса в качестве временного хранилища промежуточн

В конце прошлого года Иван Панченко предложил мне рассказать на внутреннем семинаре Postgres Pro, чего, по нашему опыту использования PostgreSQL в "кровавом энтерпрайзе" "Тензора", не хватает в этой СУБД.

С докладом пока так и не сложилось, зато появилась эта статья, в которой я постарался собрать наиболее показательные вещи и "хотелки", кот

Как нормальные DBA, мы подождали выпуск пары минорных версий к PostgreSQL 13, который должен порадовать нас многими полезными вещами, и теперь готовы перенести базу нашего сервиса мониторинга этой СУБД с 12-й версии на 13-ю.

Но как это сделать с минимальным простоем, а лучше вообще без него? На помощь придет функционал

"Шеф, всё пропало, у нас serial на мегатаблице почти закончился!" - а это значит, что либо вы его неаккуратно накрутили сами, либо у вас действительно данных столько, что разрядности integer-столбца уже не хватает для вашей большой и активной таблицы в PostgreSQL-базе.

Да и столбец этот не простой, а целый PRIMARY KEY, на которы

Отыщи всему начало, и ты многое поймёшь (Козьма Прутков).

Меня зовут Руслан, я релиз-инженер в Badoo и Bumble. Недавно я столкнулся с необходимостью оптимизировать механизм автомерджа в мобильных проектах. Задача оказалась интересно

Привет, меня зовут Александр, я старший разработчик ПО в Центре разработкиOrionInnovation. Хочу признаться, я люблю рассказывать про C++ и не только на различных митапах и конференциях.Ивотядобрался доХабра. НаCppConfRussiaPiter2020 я рассказывал про концепты и послевыступлен

Всем привет! Меня зовут Александр и я пишу код для 2ip.ru. За добрую половину сервисов можно пинать меня, готов отбиваться. Cегодня я хочу немного рассказать про переделку одного нашего старого сервиса. Это конечно не "big data", но всё равно довольно большие объемы информации, поэтому думаю будет интересно.

Речь пойдет про

Привет, Хабр! Мы постоянно проводим тесты различных софтверных решений на нашем оборудовании, и иногда простая, казалось бы, задача разворачивается на недели. Как раз о таком случае сегодня и пойдет речь. Главный герой нашего рассказа - Павел, технический консультант компании

22 июня в 18.30 (Мск) Яндекс.Практикум проведет открытый вебинар Вычисляем на видеокартах. Технология OpenCL. На вебинаре расскажем, как использовать видеокарту в качестве полноценного вычислительного устройства, мощности которого чаще всего прост

В последнее время всё чаще появляются статьи о производительности российских процессоров Эльбрус на различных задачах. Тема криптографии пока что остаётся за кадром, хотя в разное время были упоминания то о высоких возможностях Эльбруса (некий ГОСТ лучше в 9 раз на Эльбрус-4С, чем на Intel Core i7-2600), то о плохой

Привет, Хабр. В прошлой статье я рассказал о начальном анализе предметной области и базовом проектировании нашей новой ECM-системы. Теперь я расскажу о первой практической задаче, которую мы решили. А именно - о выборе способа организации структуры хранилища бизнес-ат

Описание проблемы

Не раз наша команда в Каруне сталкивались с задачей, связанной с хранением и использованием IP-адресов в базе данных. Предположим, что есть типичная задача: необходимо парсить огромное количество диапазонов адресов (~300k) сизвестного ресурса, а далее определять страну по IP-адресу клиента. Кажется, ничего особенного. Это довольно просто

Это вольный перевод поста одного из сильных разработчиков Postgres - Andres Freund. Кроме того что разработчик сильный, так еще и статья довольно интересная и раскрывает детали того как работает ОС Linux.

Довольно часто можно слышать заяв

Автор Игорь Косенков, инженер postgres Professional

Привет всем! Сегодня речь пойдет о кластере. Да, снова об отказоустойчивом кластере на базе Corosync/Pacemaker. Только настраивать мы его будем не как обычно с помощью утилиты pcs, а с помощью мало используемой утилиты crm.

С точки зрения использования этих утилит (pcs и crm) весь мир Unix-like операционок делится на два вида:

содержи

О чем эта статья и кому адресована?

С SQL работают почти все, но даже опытные разработчики иногда не могут ответить на простой вопрос. Каким образом СУБД выполняет самый обычный INNER JOIN?

С другой стороны - разработчики на C# или других ООП языках часто воспринимают СУБД как всего лишь хранилище. И размещать какие-то бизнес-правила в SQL - плохо. В противовес им создаются библиотеки вроде

Описание проблемы

Исходные данные:

Два SQL Server'а, которые находятся в прямой доступности между собой, на одном из которых настроен Linked Server.
SQL запрос вида:

insert into LocalDatabaseName.dbo.TableName (column1, column2, ..., columnN)select column1, column2, ..., columnNfrom LinkedServerName.RemoteDatabaseName.dbo.TableName

В предыдущей статье я описал векторные языки и их ключевые отличия от обычных языков. На коротких примерах я постарался показать, как эти особенности позволяют реализовывать алгоритмы необычным образом, кратко и с высоким уровнем абстракции. В силу своей векторной природы такие языки идеально присоблены для обработки больших данных, и в качестве доказательства в этой статье я полностью реализую на векторном языке простой SQL

Я уже ранееписал о том, что придумал движок, который позволяет работать с не 1С SQL-базой из клиентов, которыми являются базовые конфигурации 1С:Деньги. Думаю, это классное решение для небольших частных или малотиражных конфигураций! Я назвал его Базовый Учет или Базуха (Базовый Учет Хозяйства).

Так вышло, что на заре моей карьеры в IT меня покусал Oracle -- тогда я ещё не знал ни одной ORM, но уже шпарил SQL и знал, насколько огромны возможности БД.

Знакомство с DjangoORM ввело меня в глубокую фрустрацию. Вместо возможностей -- хрена с два, а не составной первичный ключ или оконные функции. Специфические фичи БД проще забыть. Добивало то, что по цене нулевой гибкости мне продавали падение же производительности -- с

Я учусь иллюстрировать сложные процессы с помощью комиксов. Нашла себе в копилку крутой кейс: как с помощью комиксов про милых выдр можно ребенку объяснить такую сложную штуку как Apache Kafka,

Описание проблемы

Добрый день, коллеги. В этой статье я бы хотел затронуть тему таблиц с типом Row. Этот тип таблиц для многих администраторов баз данных, долгое время оставался наиболее естественным типом, так сказать типом по умолчанию. Таблицы типа COLUMN в основнов встречались в хранилищах данных (Data Warehouse), то есть базах данных с преобладающей нагрузкой типа OLAP.

Основная идея инженеров компании SAP при разработке базы данных HANA

Довольно часто можно слышать заяв

Данные это один из наиболее важных компонентов геопространственных технологий и, пожалуй, любой другой отрасли. К управлению данными сейчас относятся серьезно во всех отраслях, поэтому знания по этой дисциплине имеют важное значение для карьеры ИТ-специалистов. Этот цикл статей задуман как универсальное руководство, в котором мы рассмотрим тему от и до, начиная с вопроса Что такое данные? и заканчивая изучением и применением геопро

Традиционную конференцию PGConf.Russia в этом году из-за поднадоевшего вируса не удалось провести в обещанные сроки в традиционной форме. Поэтому пока онлайн, но в запланированные дни - с 1 по 3 марта, с надеждой на оффлайн в будущем. Онлайн упрощает приглашение иностранных докладчиков (поэтому их сравнительно много), участники на подножном корме - в общем, онлайн обходится дешевле, поэтому мы смогли сделать конференцию бесплатной

Ровно год назад с рассказа о нашем сервисе визуализации планов запросов мы начали публикацию на Хабре серии статей, посвященных работе с PostgreSQL и его особенностям. Это уже пройденные нами грабли, интересные наработки, накопившиеся рекомендации, применяемые в разработке Тензора те вещи, которые помогают нам делать

Многие, кто уже пользуется explain.tensor.ru нашим сервисом визуализации планов PostgreSQL, возможно, не в курсе одной из его суперсособностей превращать сложно читаемый кусок лога сервера

На SQL вы описываете что хотите получить, а не как это должно исполняться. Поэтому проблема разработки SQL-запросов в стиле как слышится, так и пишется занимает свое почетное место, наряду с особенностями вычисления условий в SQL.

Сегодня на предельно

Привет Хабр!

Несмотря на то, что на текущем месте работы взаимодействовать с PostgreSQL приходится значительно меньше, я продолжаю поддерживать свою библиотеку pg-index-health. Недавно я зарелизил версию 0.3.1, ключевой особенностью которой стала подд

	Русский
	English

DBA Кто-то слишком много ест!

Как быстро наступить на грабли

Хранение данных в таблице

В недрах pg_catalog

Упаковываемся на страницу

"Почти бесплатные" NULL'ы

Немного математики

Пора писать код!

Сейчас читают

Блог компании тензор

Анализируем слона вместе с коллегами

Множественные источники данных в интерфейсе client-side SQL

DBA прибираем мертвые души

Чего энтерпрайзу в PostgreSQL не хватает

DBA меняем слонов на переправе

DBA Когда почти закончился serial

Высокая производительность

Ваш безлимит как увеличить пропускную способность автомерджа

Производительность компилятора при работе с концептами в C20

Как мы весь интернет сканировали

Следствие вели пропажа FC-линков HBA Emulex на сервере Atos BullSequana S1600

Вебинар Вычисляем на видеокартах. Технология OpenCL

На пути к вершине Магма и Кузнечик на Эльбрусе

Postgresql

Что нам стоит дом построить? (часть 2)

Опыт хранения IP-адресов в PostgreSQL

Описание проблемы

Анализируем слона вместе с коллегами

Перевод Измеряем расходы на память у Postgres процессов

Отказоустойчивый кластер PostgreSQL с помощью crm

Как реляционная СУБД делает JOIN?

О чем эта статья и кому адресована?

Sql

Опыт хранения IP-адресов в PostgreSQL

Описание проблемы

Анализируем слона вместе с коллегами

Linked Server MSSQL. Оптимизация производительности в 30 раз

Векторные языки SQL интерпретатор в 100 строк

Лучше 1С может быть только 1С Базуха

SQLAlchemy а ведь раньше я презирал ORM

Администрирование баз данных

Перевод Как объяснить детям, что такое Apache Kafka за 15 минут с картинками и выдрами

Опыт хранения IP-адресов в PostgreSQL

Описание проблемы

Анализируем слона вместе с коллегами

SAP HANA. Таблицы с типом хранения Row

Перевод Измеряем расходы на память у Postgres процессов

Перевод Путеводитель по базам данных в 2021г

Dba

Анализируем слона вместе с коллегами

Приглашаем на PGConf.Online 2021