Лексоранги что это такое и как их использовать для эффективной сортировки списков

В этой статье я расскажу, что такое Лексоранги, как ими пользуются в Jira, и как ими воспользовались мы для эффективной сортировки списков и перетаскивания элементов в нашем мобильном приложении.

Перетаскивание элементов в списке популярная фича в современных приложениях, наличие которой только порадует пользователей. Однако реализуя такой функционал нужно постараться не наступить на грабли плохой оптимизации: большое количество элементов, пересчет позиции каждый раз, а если в списке ещё и несколько секций то при перетаскивании между секциями, скорее всего, нужно реализовать дополнительную логику. Как не получить по лбу, уменьшить количество вычислений, и как нам в этом помогут лексоранги читайте под катом.

Обозначим проблему

Итак, Вы решили добавить в своё приложение возможность перетаскивать элементы. Значит, нужно как-то сортировать элементы, иначе никакого смысла в перетаскивании. И что первое приходит в голову?

Позиции

Самые обычные ничем не примечательные позиции. Те самые числа от 1 до бесконечности(не совсем). Работать с ними просто и удобно, элементы сортируются без проблем. На первый взгляд, всё хорошо. На столько хорошо, что для большинства приложений это то, что нужно.

Что же тогда не так с числовой позицией?

Проблема таится в сопутствующих операциях. Нужно внедрить элемент между вторым и третьим элементами? Смещаем всё вперёд на один начиная с третьего элемента, не забыв при этом обновить данные в БД. Выполнение такой операции единожды не выглядит сложно, однако эта операция будет выполняться довольно часто.

Еще одна проблемная операция обновление данных на сервере. Обновили задачу нужно послать апдейт всех затронутых задач на сервер. Сервер в свою очередь должен разослать этот апдейт всем, кто подписан на список задач. Чем чаще пользователи изменяют порядок задач в списке, тем больше данных нужно послать на сервер, и тем больше данных сервер должен разослать клиентам.

Получается, при перетягивании одной задачи мы будем не только изменять позиции у большого количества элементов, но и отсылать их на сервер, который будет после рассылать их другим пользователям.

Вывод: хочется что-то более оптимальное

Варианты решений

Когда мы в компании столкнулись с подобной проблемой, первым возможным решением стал следующий алгоритм: всем элементам мы расставим какие-нибудь стандартные позиции через равные интервалы(шаги). Так, первый элемент будет иметь позицию равной 1, а второй равной 1000. Когда пользователь захочет перетащить что-нибудь между этими двумя элементами, мы посчитаем среднюю позицию (1000 + 1) / 2 = ~500. И так далее, и так далее.

Чем плох этот вариант, думаю, вы догадались сразу. Мы ограничены в количестве шагов, которые можно сделать. Т.е. между 1 и 1000 500. Между 1 и 500 250. Потом 125 и в конечном итоге места не останется. Увеличение шага эту проблему не решает.

Может воспользуемся дробными числами?

Нет, дробные числа не исправляют проблему, а лишь оттягивают момент её появления.

Немного подумав и погуглив, мы наткнулись на доклад о том, как в Жире (Jira) используются лексоранги (Lexorank, доклад).
Основаны они на трёх вещах:

1 строки легко сортировать в алфавитном порядке
2 между двумя строками можно найти среднюю строку (не всегда, и это уже не так просто)
3 нельзя найти среднюю? Воспользуемся ведром(звучит странно, да)

С сортировкой всё понятно, идём сразу к пункту номер 2.

Есть в английском алфавите буквы в a и c, а между ними, очевидно, b. Но как найти эту b математическим путём?

Давайте просто отнимем от кода буквы c код буквы a, получим 2 (c = 143, a = 141). Осталось поделить результат пополам. Получили 1. И правда, если прибавить к коду а единицу, мы получим код буквы b.

Комбинация английских букв и называется лексорангом

Ситуации, когда между двумя строками нет места, тут так же имеют место быть, и я уже писал, что для их решения используются вёдра.

Ведро это метка перед рангом, выглядит так: 0|aaa. Здесь 0 номер ведра. Когда места не остаётся, элементы перекладываются из одного ведра в другое, а метки расставляются заново с сохранением порядка. Вот и вся магия!

Как этим воспользовались мы
Точно не сказано (скорее, просто мы не нашли) как легко и безболезненно найти среднюю строку между двумя. Поэтому мы напряглись и придумали вот что. Сразу окунаемся в пример.

Возьмём две строки: aa и cc и найдём между ними среднюю.

После посимвольного вычитания как выше мы получим число 11. Но что делать дальше? Вы можете подумать, что нужно просто добавить результат к строке aa. Тут и правда получится строка bb, находящаяся между аа и сс, однако алгоритм будет неверным, и сейчас мы с вами увидим почему.

Давайте подумаем, на что это похоже? aa, cc, 11. На какую-то систему счисления. На какую? А на 26-ричную! Почему? Потому что в английском алфавите 26 букв. Вот так вот.
Надо перевести результат, 11, из 26-ричной системы счисления в привычную нам 10-ричную.

Формула довольно простая:

X = y₀ + y₁ * size + y₂ * size^² y_n * size^^(n-1)

Здесь за size обозначен размер системы счисления (в данном случае size = 26)
y_n n-ное число справа

Запомним эту формулу как, например, формула 1, она нам ещё пригодится.

Подставляем наши числа и вот что получается: 2 + 2 * 26 = 54. Теперь мы знаем, сколько символов между строкой аа и сс. Но нам нужно взять среднюю между этими двумя. Делим 54 на 2, получаем 27. Остаётся только правильно добавить к кодам аа наш результат.
Как это сделать? Вначале узнаем, сколько нужно прибавить к первому (правому) символу. Для этого получим остаток от деления 27 на 26. Получится 1. Прибавляем к а 1 получится буква b.

Теперь надо подумать, как узнать, на сколько символов надо сдвинуть второй символ.
Тут нам поможет следующая формула:

X = Y / size^^(n-1) % size

По этой формуле мы можем узнать, сколько нужно добавить к определённому месту(символу, задаётся с помощью n).

Подставляем всё туда, получаем(n = 2): (27/ 26) % 26 = 1. Прибавляем. Получаем финальный результат bb.

Реализовать алгоритм на каком-либо ЯП не так сложно, когда точно знаешь, как он работает. Ниже я добавил реализацию алгоритма на языке Dart(приложение, в котором возникла данная проблема, написано на Flutter'е).

Наша реализация нахождения 'средней' строки

String getRankBetween({@required String firstRank, @required String secondRank}) {  assert(firstRank.compareTo(secondRank) < 0, "First position must be lower than second. Got firstRank $firstRank and second rank $secondRank");  /// Make positions equal  while (firstRank.length != secondRank.length) {    if (firstRank.length > secondRank.length)      secondRank += "a";    else      firstRank += "a";  }  var firstPositionCodes = [];  firstPositionCodes.addAll(firstRank.codeUnits);  var secondPositionCodes = [];  secondPositionCodes.addAll(secondRank.codeUnits);  var difference = 0;  for (int index = firstPositionCodes.length - 1; index >= 0; index--) {    /// Codes of the elements of positions    var firstCode = firstPositionCodes[index];    var secondCode = secondPositionCodes[index];    /// i.e. ' a < b '    if (secondCode < firstCode) {      /// ALPHABET_SIZE = 26 for now      secondCode += ALPHABET_SIZE;      secondPositionCodes[index - 1] -= 1;    }    /// formula: x = a * size^0 + b * size^1 + c * size^2    final powRes = pow(ALPHABET_SIZE, firstRank.length - index - 1);    difference += (secondCode - firstCode) * powRes;  }  var newElement = "";  if (difference <= 1) {    /// add middle char from alphabet    newElement = firstRank +        String.fromCharCode('a'.codeUnits.first + ALPHABET_SIZE ~/ 2);  } else {    difference ~/= 2;    var offset = 0;    for (int index = 0; index < firstRank.length; index++) {      /// formula: x = difference / (size^place - 1) % size;      /// i.e. difference = 110, size = 10, we want place 2 (middle),      /// then x = 100 / 10^(2 - 1) % 10 = 100 / 10 % 10 = 11 % 10 = 1      final diffInSymbols = difference ~/ pow(ALPHABET_SIZE, index) % (ALPHABET_SIZE);      var newElementCode = firstRank.codeUnitAt(          secondRank.length - index - 1) + diffInSymbols + offset;      offset = 0;      /// if newElement is greater then 'z'      if (newElementCode > 'z'.codeUnits.first) {        offset++;        newElementCode -= ALPHABET_SIZE;      }      newElement += String.fromCharCode(newElementCode);    }    newElement = newElement        .split('')        .reversed        .join();  }  return newElement;}

Но это ещё не всё

Во всяком случае, для нас это было не всё. Мы добавляли данную фичу в уже выпущенное приложение, поэтому нужна была миграция. Написать миграции для SQL проблем не составляет, а вот посчитать стандартные ранги уже не так просто. Но, зная как находится средняя строка, сделать это становится не сложно. Алгоритм будет следующий:

задаём начало и конец промежутка(у нас это ааа и zzz соответственно)
считаем, сколько комбинаций разных символов между строками, тут нам поможет формула 1
теперь делим то, что получилось на максимально возможное количество элементов в списке
итак, у нас есть шаг, есть начальная позиция, остаётся только к начальной позиции прибавить шаг, получить ранг, потом к этому рангу прибавить шаг, получить новый ранг, потом снова прибавить шаг и так далее

Всё так же на Dart'е. параметр forNumOfTasks отвечает за то, сколько позиций вы получите. Если вы проставляете позиции для списка, где сейчас всего три элемента, нет смысла рассчитывать позиции на весь список(на 50, 100 или ещё сколько-то)

Наша реализация нахождения 'дефолтных' рангов

/// modify field forNumOfTasks to get certain number of positionsListString getDefaultRank({int forNumOfTasks = TASK_FOR_PROJECT_LIMIT_TOTAL}) {final startPos = START_POSITION;final endPos = END_POSITION;final startCode = startPos.codeUnits.first;final endCode = endPos.codeUnits.first;final diffInOneSymb = endCode - startCode;/// x = a + b * size + c * size^2final totalDiff = diffInOneSymb + diffInOneSymb * ALPHABET_SIZE + diffInOneSymb * ALPHABET_SIZE * ALPHABET_SIZE;/// '~/'  div without remainderfinal diffForOneItem = totalDiff ~/ (TASK_FOR_PROJECT_LIMIT_TOTAL + 1);/// x = difference / size^(place - 1) % sizefinal Listint diffForSymbols = [diffForOneItem % ALPHABET_SIZE,diffForOneItem ~/ ALPHABET_SIZE % ALPHABET_SIZE,diffForOneItem ~/ (pow(ALPHABET_SIZE, 2)) % ALPHABET_SIZE];ListString positions = [];var lastAddedElement = startPos;for (int ind = 0; ind < forNumOfTasks; ind++) {var offset = 0;var newElement = "";for (int index = 0; index < 3; index++) {final diffInSymbols = diffForSymbols[index];var newElementCode = lastAddedElement.codeUnitAt(2 - index) + diffInSymbols;if (offset != 0) {newElementCode += 1;offset = 0;}/// 'z' code is 122 if 'll be neededif (newElementCode > 'z'.codeUnitAt(0)) {offset += 1;newElementCode -= ALPHABET_SIZE;}final symbol = String.fromCharCode(newElementCode);newElement += symbol;}/// reverse element cuz we are calculating from the endnewElement = newElement.split('').reversed.join();positions.add(newElement);lastAddedElement = newElement;}positions.sort();positions.forEach((p) => print(p));return positions;}

Фуууух, устали? Самое сложное уже позади, осталось совсем немного!

Нам не очень понравилась идея с вёдрами. Объективно она хороша. Но нам не нравилась сама идея наличия алгоритма восстановления: закончились позиции восстанавливайся с помощью вёдер! Так что, никаких вёдер. Однако, ранги не бесконечные, а значит что-то придумать надо.

И мы придумали

Если места между строками не осталось, то мы решили просто добавить к нижней границе среднюю букву английского алфавита (n). Т.е. если мы захотим всунуть элемент между аа и аb, то получится aa, aan и ab. Благодаря тому, что строки сортируются поэлементно слева-направо, удлинение строки не испортит сортировку. Зато у нас появилось место для новых элементов, и это без каких-либо алгоритмов восстановления.

Этот кусочек кода можно найти также и в алгоритме нахождения средней строки.

Кусочек кода с добавлением 'среднего' символа

if (difference <= 1) {    /// add middle char from alphabet    newElement = firstRank +        String.fromCharCode('a'.codeUnits.first + ALPHABET_SIZE ~/ 2);  }

Резюме

Лексоранги показались нам отличным инструментом индексации, использование которого оптимизирует работу с БД и сервером: при изменении порядка задач необходимо обновить только одну измененную задачу.

Делитесь своим мнением по поводу лексорангов и тем, какие у Вас мысли по поводу решения подобных задач.

Ну и для всех читателей Хабра предлагаем оценить результат, который у нас получился. А также забрать себе полезный список Кодекс авторов Хабра.

Спасибо за внимание!

Привет! Меня зовуте Андрей и я работаю разработчиком Flutter.

Написание материала вызвано желанием показать пример создания сервиса c использованием технологии gRPC в экосистеме Dart и, соответственно, Flutter. Желание периодически возникает, когда приходится испытывать "боль", при переключении на проекты, в которых до сих пор применяется REST + JSON.

Планирую сделать серию из 3-4 статей.

Кратко о gRPC

Flutter позволяет вам писать простые и понятные тесты для разных частей приложения.

Сегодня мы попробуем написать несколько unit тестов, которые используются для тестирования классов, методов и отдельных функций.

Также мы попробуем использовать библиотеку Mockito, которая позволяет создавать фейковые реализации.

Ну что ж, приступаем к тестированию!

Наш план

Ключевой мотивацией для написания данной статьи является факт сильного недостатка информации (особенно в русскоязычном сообществе) по использованию cgo и Dart FFI для вызова Go кода из языка Dart.

Язык Dart, не смотря на свою возрастающую популярность, на данный момент до сих пор не имеет такого же большого сообщества, как у языка Go. Dart заточен под выполнение других задач, по этому он иногда не содержит тех реализаций и ф

Представляем свежий релиз Flutter 2.2, анонсированный на Google I/O. Да, оригинальная статья вышла ещё в мае, но мы считаем, что лучше поздно, чем никогда. Публикуем перевод статьи с комментариями Евгения Сатурова ex-Flutter TeamLead Surf, а ныне DevRel Surf.

Когда вы создаете различные формы (например: регистрации или входа) на Flutter, вы не заморачиваетесь с кастомизацией компонентов, потому что вы можете изменить любое поле формы под свой стиль.

Помимо кастомизации, Flutter предоставляет возможность обработки ошибок и валидации полей формы.

И сегодня мы постараемся разобраться с этой темой на небольшом примере.

Ну что ж, погнали!

Наш план

Наконец-то мы добрались до одной из самых важных тем, без которой идти дальше нет смысла.

План довольно простой: нам предстоит познакомиться с клиент-серверной архитектурой и реализовать получение списка постов.

В конце мы правильно организуем файлы наших страниц и вынесем элемент списка в отдельный файл.

Полетели!

Наш план

Ча

В этой подборке исследуем StoreKit 2, распознаем лица и позы на Android, улучшаем производительность React-приложений, учим сквирклморфизм и многое другое!

Этот дайджест доступен в виде еженедельной

Привет! Меня зовуте Андрей и я работаю разработчиком Flutter.

Планирую сделать серию из 3-4 статей.

Кратко о gRPC

Flutter позволяет вам писать простые и понятные тесты для разных частей приложения.

Также мы попробуем использовать библиотеку Mockito, которая позволяет создавать фейковые реализации.

Ну что ж, приступаем к тестированию!

Наш план

Помимо кастомизации, Flutter предоставляет возможность обработки ошибок и валидации полей формы.

И сегодня мы постараемся разобраться с этой темой на небольшом примере.

Ну что ж, погнали!

Наш план

Работая в компании IT-аутсорса в качестве руководителя 3 линии поддержки, задумался, как автоматизировать подключение сотрудников по RDP, через VPN к серверам десятков клиентов.

Таблички с адресами, паролями и прочими настройками серверов, конечно, хорошо, но поиск клиента и вбивание адресов с аккаунтами занимает довольно существенное время.
Держать все подключения к VPN в Windows не самая лучшая идея, да и при переустан

Всем привет! Меня зовут Константин Измайлов, я руководитель направления Data Science в Delivery Club. Мы работаем над многочисленными интересными и сложными задачами: от формирования классических аналитических отчетов до построения рекомендательных моделей в ленте приложения.

Сегодня я расскажу пр

Представьте человека, который изучает алгоритмы. Чтобы понять как они работают, приходится изучать их код и представлять, как компьютер будет его выполнять. Это странно почему мы должны учиться думать как компьютер, вместо того, чтобы заставить его помогать на

Cодержание

Введение
Основные понятия и термины
Характеристика ИО как научной дисциплины
Этапы операционного исследования
- Постановка задачи
- Построени

Можно выделить ряд алгоритмов, которые являются базовыми и лежат в основе практически каждой строчки программ, написанных на языках высокого уровня. Хорошо иметь под руками классический многотомный труд Дональда Кнута "The Art of Computer Programming", там детально разобраны многие ба

Давайте представим, что вы параноик, и параноик вдвойне, когда дело касается многопоточности. Предположим, что вы делаете backend некого функционала приложения, а приложение переодически дергает на вашем серверы какие-то методы. Все вроде хорошо, но есть одно но. Что если ваш функционал напрямую зависит от каких-либо других данных, того же банального профиля например? Встает вопрос, как гарантировать то, что сценарий отработает име

Большую часть своей жизни я жил и работал в Москве. Занимался тем, что менял здоровье на деньги. Правда, на очень хорошие, поэтому под занавес пятого десятка купил квартиру в тихом приморском городке, далеко от столичной суеты и ежедневной нервотрёпки.

Особой необходимости в работе у меня не было. Дети уже стали самостоятельными настолько, что запросто могут содержать нас с женой. Да и скопить удалось прилично. Однако, были

Многие программисты считают, что компиляторы это волшебные чёрные ящики, на вход в которые можно подать хаотичный код, а на выходе получить красивый оптимизированный двоичный файл. Доморощенные философы часто начинают рассуждать о том, какие фишки языка или флаги компилятора следует использовать, чтобы раскрыть всю мощь магии компилятора. Если вы когда-нибудь видели кодовую базу GCC, то и в самом деле могли поверить, ч

Предисловие

На момент написания статьи я готовился к диплому и писал дипломный проект для нужд Московского Политеха. Моя задача - перенести существующий функционал из PHP-таблицы во что-то современное с кучей проверок, после чего дополнить данный функционал. Движок - Nuxt, материал-фреймворк: Vuetify.

После написания первичного кода, я, довольный, окинул взглядом свою таблицу и пошел спать. На следующий день мне пре

Технология CSS-in-JS заняла прочное место среди инструментов фронтенд-разработки. И возникает ощущение, что CSS-in-JS-тренд в ближайшем будущем лишь усилится. Особенно в мире React. Например, в исследовании State of CSS, проведённом в 2020 году, приняли участие 11492 человека. Лишь 14,3% из них не слышали о

Это пилотная статья. Будем благодарны за обратную связь. Если тема вызовет интерес, мы возможно примем решение выложить на GitHub наши исходники (python) и входные data-setы.

В марте 2021 г. случилось мне поучаствовать в хакатоне с задачей на комбинаторику и оптимизаци

Введение

На сегодняшний день Python является одним из самых популярных языков программирования, но даже это не помогает ему покрыть все потребности программистов. Самый очевидный минус чистого CPython - это его скорость, поэтому некоторые программисты выбирают для своих задач другие языки программирования, а кто-то просто реализует узкие места на C/C++ и подключает их к Python.

Однако бывают случаи, когда есть некая

На рынке мессенджеров сейчас есть примерно всё, как на Привозе. Есть решения на открытом коде, есть мессенджеры с миллиардом пользователей (или даже двумя). Но четкого понимания, что же взять с прилавка, чтоб все сотрудники огромного банка (и его 300+ дочек) с улыбкой открывали какой-то один и это всё

Представьте ситуацию: вам нужно воспользоваться оплаченным (как вы думаете) сервисом и вдруг оказывается, что он отключен за неуплату. Такая неприятность портит впечатление от бренда, снижая поток прибыли, а внезапно отключенный клиент может не вернуться к сервису. К старту ку

В последнее время всё чаще появляются статьи о производительности российских процессоров Эльбрус на различных задачах. Тема криптографии пока что остаётся за кадром, хотя в разное время были упоминания то о высоких возможностях Эльбруса (некий ГОСТ лучше в 9 раз на Эльбрус-4С, чем на Intel Core i7-2600), то о плохой

Поиск оптимальных значений для ограничения ресурсов Kubernetes непростая задача, поскольку вам нужно найти золотую середину между слишком жесткими и недостаточными ограничениями.

В этой статье, которая является продолжением серии статей о рациональном использовании ресурсов в Kubernetes, вы узнаете, как выбрать правильные ограничения ресурсов Kubernetes: от обнаружения контейнеров без каких-либо ограничений до

Технический прогресс не стоит на месте, появляются новые компьютерные архитектуры, компиляторы становятся умнее и генерируют более быстрый машинный код. Современные задачи требуют все более креативного и эффективного решения. В данной статье пойдет речь, на мой взгляд, про

Вместо вступления

Прежде всего хочется выразить признательность всем, кто откликнулся на первую статью об оптимизации кода на языке C/C++ на примере функции для вычисления квадратного корня из целого с округлением до ближайшего целого. Благодаря экспертному вниманию была исправлена опечатка в тексте; копилка эффективных алгоритмов пополнилась.

Интересен алгоритм

	Русский
	English

Лексоранги что это такое и как их использовать для эффективной сортировки списков

Обозначим проблему

Позиции

Варианты решений

Но это ещё не всё

Резюме

Сейчас читают

Dart

GRPC Dart, Сервис Клиент, напишем

Кратко о gRPC

Основы Flutter для начинающих (Часть IX)

Вызов кода Go из Dart с использованием cgo и Dart FFI на простом примере

Перевод Flutter 2.2 что нового

Основы Flutter для начинающих (Часть VI)

Основы Flutter для начинающих (Часть V)

Flutter

Дайджест интересных материалов для мобильного разработчика 398 (14 20 июня)

GRPC Dart, Сервис Клиент, напишем

Кратко о gRPC

Основы Flutter для начинающих (Часть IX)

Вызов кода Go из Dart с использованием cgo и Dart FFI на простом примере

Перевод Flutter 2.2 что нового

Основы Flutter для начинающих (Часть VI)

Алгоритмы

Powershell настоящий язык программирования. Скрипт оптимизации рутины в техподдержке

Геопространственное моделирование с применением методов машинного обучения

Как я пытался придумать новый подход к изучению алгоритмов через интерактивные визуализации

Исследование операций

Запросить 100 серверов нельзя оптимизировать код. Ставим запятую

Как синхронизировать сценарий без транзакций? Штатными средствами Java

Клиентская оптимизация

USB over IP удалённое администрирование

Перевод Компилятор всё оптимизирует? Ну уж нет

Проблемы рендера 7-и тысяч элементов на Vuetify

Предисловие

Перевод Сравнение производительности CSS и CSS-in-JS в реальном мире

Жадный алгоритм, ветви и границы для расписания мерчендайзеров (кейс Хакатона на оптимизацию)

Pythonnet. Как запустить C код из Python

Введение

Лексоранги

Лексоранги что это такое и как их использовать для эффективной сортировки списков

Оптимизация

Недоумение про ещё один корпоративный чат или как сделать приятно всем

Перевод Оптимизация платежей в Dropbox при помощи машинного обучения

На пути к вершине Магма и Кузнечик на Эльбрусе

Перевод Как оптимизировать ограничения ресурсов Kubernetes

Recovery mode Сборка ядра Linux 5.12.10 c LLVM 12 Clang и LTO оптимизацией

Корни разные нужны, корни разные важны

Вместо вступления

Категории

Последние комментарии