Перевод Дизайн пагинации страниц в API

Для API может быть сложно вернуть все результаты запроса, особенно если их тысячи. Это создаёт нагрузку на сервер, на клиент, на сеть и часто является ненужным. Поэтому и придумали пагинацию.

Обычный способ разбиения на страницы это смещение или номер страницы. Вы делаете такой запрос:

GET /api/products?page=10{"items": [...100 products]}

а дальше такой:

GET /api/products?page=11{"items": [...another 100 products]}

В случае простого смещения получается ?offset=1000 и ?offset=1100 тот же старый суп, только разогретый. Здесь мы либо переходим прямо к SQL-запросу типа

OFFSET 1000
LIMIT 100

, либо умножаем на размер страницы (значение LIMIT). В любом случае, это неоптимальное решение, поскольку каждая база данных должна пропустить эту 1000 строк. А чтобы их пропустить, нужно их идентифицировать. Неважно, это PostgreSQL, ElasticSearch или MongoDB, она должна их упорядочить, пересчитать и выбросить.

Это ненужная работа. Но она повторяется снова и снова, так как такой дизайн легко реализовать вы непосредственно сопоставляете свой API с запросом к базе данных.

Что же тогда делать? Мы могли бы посмотреть, как устроены базы данных! У них есть понятие курсора это указатель на строку. Таким образом, вы можете сказать базе данных: Верни мне 100 строк после этой. И такой запрос гораздо удобнее для базы данных, так как высока вероятность, что вы идентифицируете строку по полю с индексом. И не нужно извлекать и пропускать эти строки, вы пройдёте прямо мимо них.

Пример:

GET /api/products{"items": [...100 products], "cursor": "qWe"}

API возвращает (непрозрачную) строку, которую затем можно использовать для получения следующей страницы:

GET /api/products?cursor=qWe{"items": [...100 products], "cursor": "qWr"}

С точки зрения реализации есть много вариантов. Как правило, у вас имеются некоторые критерии запроса, например, идентификатор товара (product id). В этом случае вы его кодируете с помощью некоторого обратимого алгоритма (скажем, хэш-идентификаторов). И при получении запроса с курсором вы декодируете его и генерируете запрос типа WHERE id > :cursor LIMIT 100.

Небольшое сравнение производительности. Вот результат смещения:

=# explain analyze select id from product offset 10000 limit
100;

QUERY PLAN

---------------------------------------------------------------------------------------------------------------------------------


Limit (cost=1114.26..1125.40 rows=100 width=4) (actual
time=39.431..39.561 rows=100 loops=1)

-> Seq Scan on product (cost=0.00..1274406.22 rows=11437243
width=4) (actual time=0.015..39.123 rows=10100 loops=1)

Planning Time: 0.117 ms

Execution Time: 39.589 ms

А вот результат операции where:

=# explain analyze select id from product where id > 10000
limit 100;

QUERY PLAN

------------------------------------------------------------------------------------------------------------------------------


Limit (cost=0.00..11.40 rows=100 width=4) (actual time=0.016..0.067
rows=100 loops=1)

-> Seq Scan on product (cost=0.00..1302999.32 rows=11429082
width=4) (actual time=0.015..0.052 rows=100 loops=1)

Filter: (id > 10000)

Planning Time: 0.164 ms

Execution Time: 0.094 ms

Разница в несколько порядков! Конечно, фактические цифры зависят от размера таблицы, от фильтров и реализации хранилища. Вот отличная статья с более подробной технической информацией, см. слайд 42 со сравнением производительности.

Конечно, никто не запрашивает товары по идентификатору их обычно запрашивают по какой-то релевантности (а затем по идентификатору в качестве решающего параметра). В реальном мире чтобы выбрать решение, нужно посмотреть на конкретные данные. Запросы можно упорядочить по идентификатору (так как он монотонно увеличивается). Товары из списка будущих покупок тоже можно упорядочить таким образом по времени составления списка. В нашем случае товары загружаются с ElasticSearch, который, естественно, поддерживает такой курсор.

Минус в том, что с помощью stateless API невозможно создать ссылку Предыдущая страница. В случае пагинации у пользователя невозможно обойти эту проблему. Так что если важно иметь кнопки предудущей/следующей страницы и Перейти непосредственно на страницу 10, то придётся использовать старый метод. Но в других случаях метод по курсору может значительно повысить производительность, особенно на очень больших таблицах с очень глубокой пагинацией.

Описание проблемы

Не раз наша команда в Каруне сталкивались с задачей, связанной с хранением и использованием IP-адресов в базе данных. Предположим, что есть типичная задача: необходимо парсить огромное количество диапазонов адресов (~300k) сизвестного ресурса, а далее определять страну по IP-адресу клиента. Кажется, ничего особенного. Это довольно просто

Если ваша жизнь DBA, сопровождающего PostgreSQL, наполнена вопросами "а почему так медленно?" и "как сделать, чтобы запрос не тормозил?", наш сервис анализа и визуализации планов запросовexplain.tensor.ru сделает ее немного легче за счет привлечения коллег и обновленных подсказок.

Исходные данные:

Два SQL Server'а, которые находятся в прямой доступности между собой, на одном из которых настроен Linked Server.
SQL запрос вида:

insert into LocalDatabaseName.dbo.TableName (column1, column2, ..., columnN)select column1, column2, ..., columnNfrom LinkedServerName.RemoteDatabaseName.dbo.TableName

В предыдущей статье я описал векторные языки и их ключевые отличия от обычных языков. На коротких примерах я постарался показать, как эти особенности позволяют реализовывать алгоритмы необычным образом, кратко и с высоким уровнем абстракции. В силу своей векторной природы такие языки идеально присоблены для обработки больших данных, и в качестве доказательства в этой статье я полностью реализую на векторном языке простой SQL

Я уже ранееписал о том, что придумал движок, который позволяет работать с не 1С SQL-базой из клиентов, которыми являются базовые конфигурации 1С:Деньги. Думаю, это классное решение для небольших частных или малотиражных конфигураций! Я назвал его Базовый Учет или Базуха (Базовый Учет Хозяйства).

Так вышло, что на заре моей карьеры в IT меня покусал Oracle -- тогда я ещё не знал ни одной ORM, но уже шпарил SQL и знал, насколько огромны возможности БД.

Знакомство с DjangoORM ввело меня в глубокую фрустрацию. Вместо возможностей -- хрена с два, а не составной первичный ключ или оконные функции. Специфические фичи БД проще забыть. Добивало то, что по цене нулевой гибкости мне продавали падение же производительности -- с

Что такое `Workbox`?

Workbox (далее WB) это библиотека (точнее, набор библиотек), основной целью которой является "предоставление

В этой статье я собрал несколько интересных сервисов с API, многие из которых вы можете использовать как основу для вашего приложения. Другие же отлично подходят как уникальные фичи, которые помогут разнообразить опыт использования вашей программы.

С 5 июня 2021 года сайт гугла, и самое главное гугл таблицы - перестали отдавать данные с Московской биржи.

При попытке получить котировки с префиксом MCX, например для Сбербанка, формулой из гугл таблиц =GOOGLEFINANCE("MCX:SBER") теперь всегда возвращается результат #N/A.

А при поиске любой российской бумаги

Давайте представим, что вы параноик, и параноик вдвойне, когда дело касается многопоточности. Предположим, что вы делаете backend некого функционала приложения, а приложение переодически дергает на вашем серверы какие-то методы. Все вроде хорошо, но есть одно но. Что если ваш функционал напрямую зависит от каких-либо других данных, того же банального профиля например? Встает вопрос, как гарантировать то, что сценарий отработает име

Сталкивались ли вы с такой ошибкой? Пытались ее решить? Пробовали найти решение в сети и ничего не находили? Обычно, данная проблема решается простой перезагрузкой страницы.

Около года назад в Techgoise я получил возможность поработать с

Привет, меня зовут Иван, я занимаюсь бэкенд-разработкой в Ozon пишу микросервисы для личного кабинета продавца. Сегодня я расскажу небольшую историю проблемы, вызванную неправильной настройкой пула соединений: что случилось, как мы это обнаружили и как исправлять такие проблемы в микросервисах на Go.

Проблема скрывалась внутри нашего API Gateway. Это сервис, который реализует паттерн Фасад и предоставляет единственное торчащ

GET /api/products?page=10{"items": [...100 products]}

а дальше такой:

Перевод Дизайн пагинации страниц в API

Сейчас читают

Sql

Опыт хранения IP-адресов в PostgreSQL

Описание проблемы

Анализируем слона вместе с коллегами

Linked Server MSSQL. Оптимизация производительности в 30 раз

Векторные языки SQL интерпретатор в 100 строк

Лучше 1С может быть только 1С Базуха

SQLAlchemy а ведь раньше я презирал ORM

Api

Идеальный инструмент для создания прогрессивных веб-приложений или Все, что вы хотели знать о Workbox. Часть 2

Что такое `Workbox`?

17 интересных (и забавных) API для вашего проекта

Гугл финанс перестал транслировать данные российских акций что делать?

Как синхронизировать сценарий без транзакций? Штатными средствами Java

Перевод Десятикратное улучшение производительности React-приложения

Чиним проблемы нагрузок в Go с помощью настройки пула HTTP-соединений

Пагинация страниц