Перевод Автоматический failover базы данных Moodle в PostgreSQL с помощью ClusterControl

Один из ключевых моментов в обеспечении высокой доступности быстрая реакция на сбой. Хотя нередко можно встретить ручное управление базами данных и систему мониторинга, которая следит за их состоянием и отправляет предупреждения дежурному персоналу. А это означает, что кому-то, возможно, придется проснуться среди ночи, добраться до компьютера, войти в систему и посмотреть логи то есть до начала восстановления может пройти довольно много времени. В идеале весь этот процесс должен быть автоматизирован.

В этой статье мы рассмотрим, как развернуть полностью автоматизированную систему, которая детектируют отказ первичной базы данных, и инициирует failover, изменяя роль (promote) вторичной базы данных. Для реализации автоматического failover базы данных Moodle PostgreSQL мы будем использовать ClusterControl.

Преимущество автоматического failover

Уменьшается время на восстановление базы данных
Увеличивается время uptime
Уменьшается зависимость от DBA или администраторов, настраивающих высокую доступность баз данных

Архитектура

На текущий момент у нас есть один первичный сервер Postgres и два вторичных все за балансировщиком нагрузки HAProxy, который отправляет трафик Moodle на первичный узел PostgreSQL. Для настройки автоматического failover в ClusterControl есть важные параметры восстановления кластера (cluster recovery) и узла (node auto recovery).

На какой сервер переключаться

В ClusterControl есть белый и черный списки серверов, с помощью которых вы можете настраивать участие в failover.

В конфигурации cmon это две переменные:

replication_failover_whitelist список IP-адресов или имен вторичных серверов, которые должны использоваться в качестве потенциальных кандидатов на роль первичного сервера. Если эта переменная установлена, то будут рассматриваться только эти хосты.
replication_failover_blacklist список хостов, которые никогда не будут рассматриваться в качестве кандидата на роль первичного сервера. Вы можете использовать этот список для указания вторичных серверов, которые используются для резервного копирования или аналитических запросов. Если аппаратная конфигурации вторичных серверов отличаются, то здесь вы можете указать более медленные сервера.

Процесс автофайловера (auto failover)

Шаг 1

Начинаем загрузку данных на первичном сервере (192.168.33.14) с помощью sysbench.

[root@centos11 sysbench]# /bin/sysbench --db-driver=pgsql --oltp-table-size=100000 --oltp-tables-count=24 --threads=2 --pgsql-host=****** --pgsql-port=6543 --pgsql-user=sbtest --pgsql-password=***** --pgsql-db=sbtest /usr/share/sysbench/tests/include/oltp_legacy/parallel_prepare.lua run sysbench 1.0.20 (using bundled LuaJIT 2.1.0-beta2)   Running the test with following options: Number of threads: 2 Initializing random number generator from current time    Initializing worker threads...   Threads started!   thread prepare0 Creating table 'sbtest1'... Inserting 100000 records into 'sbtest1' Creating secondary indexes on 'sbtest1'... Creating table 'sbtest2'...

Шаг 2

После этого остановим первичный сервер Postgres (192.168.33.14). Так как в ClusterControl включен параметр enable_cluster_autorecovery, то на роль первичного будет выбран первый подходящий сервер.

# service postgresql-12 stop

Шаг 3

ClusterControl обнаружит сбой в работе первичного узла и переключит один из вторичных серверов на роль первичного. Также он изменит настройки на других вторичных серверах таким образом, чтобы они реплицировались с нового первичного сервера.

В нашем случае 192.168.33.13 становится новым первичным сервером, а вторичные сервера теперь реплицируются с него. И HAProxy направляет трафик базы данных с серверов Moodle на новый первичный сервер.

Запуск на 192.168.33.13

postgres=# select pg_is_in_recovery();  pg_is_in_recovery  -------------------  f (1 row)

Запуск на 192.168.33.15

postgres=# select pg_is_in_recovery();  pg_is_in_recovery  -------------------  t (1 row)

Текущая топология

HAProxy автоматически обнаруживает недоступность узлов и перестает отправлять на него трафик. Эта проверка выполняется сценариями проверки работоспособности, которые настраиваются во время развертывания ClusterControl.

После того как ClusterControl повысит роль вторичного сервера до первичного, HAProxy помечает, что старый первичный сервер в оффлайне и переводит новый первичный узел в онлайн.

Когда старый первичный сервер снова заработает, то он не синхронизируется автоматически с новым первичным сервером. Мы должны вернуть его обратно в топологию и сделать это можно через интерфейс ClusterControl. Это позволит избежать потери или несогласованности данных, например, если нужно выяснить причину выхода из строя сервера.

ClusterControl передаст резервную копию с нового первичного сервера и настроит репликацию.

Заключение

Автоматический failover важная часть любой продуктивной базы Moodle. Благодаря ему можно сократить время простоя при отказе сервера, а также при выполнении задач по обслуживанию и миграции. Важно все настроить правильно, чтобы программное обеспечение автоматического failover могло принять правильные решения.

Перевод статьи подготовлен в преддверии старта курса "PostgreSQL".

Также приглашаем всех желающих на демо-урок Проблемы миграции данных. В рамках урока:
поговорим о видах миграции и способах их реализации;
разберем основные проблемы, связанные с миграцией данных и пути их устранения;
рассмотрим несколько реальных практических кейсов и порассуждаем над эффективностью их решения;
вспомним программные средства, позволяющие автоматизировать процесс миграции данных.

ЗАПИСАТЬСЯ НА ВЕБИНАР

Выберите правильный фреймворк для архитектуры микросервисов

Архитектура микросервисов это методология, позволяющая разделить монолитное единое приложение на небольшие приложения и сервисы, которые выполняют легкие задачи. Бизнес-возможности и независимо развертываемые

В этой статье мы рассмотрим, что такое классификатор, поговорим о мультиклассовой классификации с помощью нейронных сетей. Затем, ознакомившись с контекстом перейдем к основному топику поста к Log-Sum-Exp Trick. Напишем формулы и разберемся, как этот трюк помогает избежать переполнения чисел с плавающей то

Нам удалось добиться значительного повышения производительности рантайма для дебажной (отладочной) конфигурации по умолчанию Visual Studio в компиляторе C++ для x86/x64. Для программ, скомпилированных в режиме дебага в

Я бы хотел сравнить два наиболее интересных инструмента, которые считаются "геймчейнджерами", из большого списка инструментов для исследования автоматизации, доступных на рынке.

Вот вам вопрос на миллион долларов: является ли Cypress чем-то большим, чем платформа для ав

Pete Lumbis и Network Ninja в своих комментариях к моим запи

Хотя IntelliJ IDEA является полноценной IDE (Интегрированная среда разработки), вы наверняка захотите ее персонализировать. В JetBrains Marketplace есть множество плагинов с полезными функциями, которые могут удовлетворить ваши личные или деловые потребности.

Библиотека

Привет, Хабр. В прошлой статье я рассказал о начальном анализе предметной области и базовом проектировании нашей новой ECM-системы. Теперь я расскажу о первой практической задаче, которую мы решили. А именно - о выборе способа организации структуры хранилища бизнес-ат

Описание проблемы

Не раз наша команда в Каруне сталкивались с задачей, связанной с хранением и использованием IP-адресов в базе данных. Предположим, что есть типичная задача: необходимо парсить огромное количество диапазонов адресов (~300k) сизвестного ресурса, а далее определять страну по IP-адресу клиента. Кажется, ничего особенного. Это довольно просто

Если ваша жизнь DBA, сопровождающего PostgreSQL, наполнена вопросами "а почему так медленно?" и "как сделать, чтобы запрос не тормозил?", наш сервис анализа и визуализации планов запросовexplain.tensor.ru сделает ее немного легче за счет привлечения коллег и обновленных подсказок.

Это вольный перевод поста одного из сильных разработчиков Postgres - Andres Freund. Кроме того что разработчик сильный, так еще и статья довольно интересная и раскрывает детали того как работает ОС Linux.

Довольно часто можно слышать заяв

Автор Игорь Косенков, инженер postgres Professional

Привет всем! Сегодня речь пойдет о кластере. Да, снова об отказоустойчивом кластере на базе Corosync/Pacemaker. Только настраивать мы его будем не как обычно с помощью утилиты pcs, а с помощью мало используемой утилиты crm.

С точки зрения использования этих утилит (pcs и crm) весь мир Unix-like операционок делится на два вида:

содержи

О чем эта статья и кому адресована?

С SQL работают почти все, но даже опытные разработчики иногда не могут ответить на простой вопрос. Каким образом СУБД выполняет самый обычный INNER JOIN?

С другой стороны - разработчики на C# или других ООП языках часто воспринимают СУБД как всего лишь хранилище. И размещать какие-то бизнес-правила в SQL - плохо. В противовес им создаются библиотеки вроде

Перевод статьи подготовлен в преддверии старта курса Разработчик Java.

1. Введение

В этой статье описываются ключевые концепции Flyway и пример использования этого фреймворка для непрерывного изменения схемы баз

Перевод Автоматический failover базы данных Moodle в PostgreSQL с помощью ClusterControl

Преимущество автоматического failover

Архитектура

На какой сервер переключаться

Процесс автофайловера (auto failover)

Текущая топология

Заключение

Сейчас читают

Блог компании otus

Перевод Лучшие фреймворки для микросервисов

Выберите правильный фреймворк для архитектуры микросервисов

Log-Sum-Exp Trick как свойства функций делают работу классификаторов реальной

Перевод Повышение производительности дебажных билдов в два-три раза

Перевод Cypress VC Selenium

Перевод Локальный TCP Anycast это действительно сложно

Перевод 10 топовых плагинов для IntelliJ IDEA, которые ты не должен пропустить

Postgresql

Что нам стоит дом построить? (часть 2)

Опыт хранения IP-адресов в PostgreSQL

Описание проблемы

Анализируем слона вместе с коллегами

Перевод Измеряем расходы на память у Postgres процессов

Отказоустойчивый кластер PostgreSQL с помощью crm

Как реляционная СУБД делает JOIN?

О чем эта статья и кому адресована?

Clustercontrol