ArangoDB в реальном проекте

ArangoDB гибридная (документная и графовая) база данных. К ее положительным сторонам относятся:

мощный и удобный язык запросов AQL
JOIN (даже более мощный чем в реляционных базах данных)
репликация и шардинг
ACID (в кластере работает только в платной версии)

Из менее существенных, но не менее удобных возможностей:

нечеткий поиск
встроенный в базу данных движок микросервисов Foxx
работа в режиме подписки на изменения в базе данных

Справедливости ради отмечу и недостатки:

отсутствие ODM
низкая популярность (в сравнении например с MongoDB)

После анализа возможностей ArangoDB и, в особенности, после преодоления в последних версиях недостатков (таких как резкое падение производительности при превышении размера коллекции доступной оперативной памяти) и появлении новых возможностей (таких как нечеткий поиск) пришло время испытаний в реальном приложении.

Возможности AQL (ArangoDB Query Language)

Один из главных вопросов, который меня волновал, будет ли выразительность AQL достаточной для выполнения всего спектра запросов в реальном приложении. И будет ли работа без ORM/ODM достаточно комфортной.

В ArangoDB есть несколько способов сделать запрос к данным. Есть привычный для тех, кто работает с MongoDB, объектно-ориентированный API, но такой способ в ArangoDB считается устаревшим и основной упор делается на запросы AQL.

Простейший запрос к одной коллекции выглядит так:

db.query({  query: `for doc in managers    filter doc.role == @role    sort doc.@field @order    limit @page * @perPage, @perPage    return doc`,  bindVars: { role, page, perPage, field, order },});

Такой вот интересный язык запросов, построенный на ключевом слове FOR, которое в данном случае не означает перебор всех документов коллекции, если, конечно, по полю role создан индекс.

В большинстве случаев, для работы приложения нужно выбрать связанные объекты из нескольких коллекций. В библиотеке mongoose (MongoDB) для этого используют метод populate(). В ArangoDB это можно сделать одним запросом AQL:

db.query({   query: `      for mall in malls        for city in cities          filter mall.cityId == city._key      return merge(mall, { city })  `,  bindVars: { },});

Это типичный INNER JOIN. Только немного удобнее, так как объект city будет присутствовать в виде вложенного объекта, а не сольётся в список полей, как это происходит в стандартном SQL.

Что касается LEFT JOIN для его реализации нужно использовать подзапросы и ключевое слово LET:

db.query({  query: `    for city in cities      let malls=(        for mall in malls          filter mall.cityId==city._key          return mall      )    return merge(city, {malls})`,  bindVars: { },});

Результирующий объект будет содержать поле malls типа array или значение null. Как Вы можете заметить, есть отличие от LEFT JOIN в стандартном SQL это то, что количество объектов в результирующей коллекции будет равно количеству объектов в коллекции city, и не будет повторяться для каждого значение mall. Вместо этого mall представлено массивом. Я бы сказал, что такой вариант даже более удобен для работы. Получить же "классический" результат, как в SQL, также можно, но запрос будет более сложный.

Я привел самые простые запросы из тех, что есть в реальном приложении. Но, как выяснилось, на базе вышеперечисленных средств можно строить самые сложные запросы, которые не менее, а может быть и более выразительны, чем запросы SQL. При этом умолчу о других документо-ориентированных NoSQL базах данных, где аналогичные запросы просто невозможны.

Графы

Для реализации граф-ориентированных возможностей в ArangoDB применяются коллекции ребер графа. Документы в этой коллекции отличаются от документов в простых коллекциях наличием двух служебных полей: _from и _to. Работать с коллекциями ребер графом можно теми же средствами, что и с коллекциями документов. В дополнение существует несколько специальных средств для обходя графов.

Я планировал реализовать на граф-ориентированных возможностях дерево категорий товаров. Однако, реализация операций update оказалась неожиданно сложной. Поэтому я отказался от этой идеи. Возможно, просто не нашел еще ключ к этим возможностям.

Нечеткий поиск

Есть такая часто встречающаяся задача: искать текст, если в исходной строке есть опечатки или ошибки. Как правило, для этого используется база данных Elacticsearch. У такого решения есть два недостатка. Во-первых, нужно согласовывать в режиме реального времени значения в основной базе данных и в Elasticsearch. Это непросто, часто эти значения расходятся, и тогда приходится принудительно переиндексировать базу данных. И, во-вторых, Elasticsearch требовательна по ресурсам, что также не всегда приемлемо из соображений финансового порядка.

В последних версиях ArangoDB можно создать SEARCH VIEW в котором можно искать значения с неполным совпадением:

  await db.createAnalyzer('fuzzy_brand_search_bigram', {    type: 'ngram',    properties: { min: 2, max: 2, preserveOriginal: true },    features: ['position', 'frequency', 'norm'],  });  await db.createView('brandSearch', {    links: {      brands: {        includeAllFields: true,        analyzers: ['fuzzy_brand_search_bigram'],      },    },  });

Сам запрос выглядит так:

db.query({    query: `       for brand in brandSearch          search NGRAM_MATCH(              brand.name,               @brandName,               0.4,               'fuzzy_brand_search_bigram'          )          filter brand.mallId == @mallId        return brand `,    bindVars: { mallId, brandName },});

Без ODM?

В своей статье я показал, что по статистике, MongoDB в половине случаев используется без ODM. То есть, это достаточно распространенная практика.

Действительно, сделать запрос, как это было показано выше, гораздо проще средствами AQL, чем определять схему с разными видами связей. Во всяком случае, не было еще ни одного проекта на Sequelize (ORM для реляционных баз данных), где не пришлось бы сделать один-два RAW запроса.

Однако, я, тем не менее, сторонник использования ODM. В своей статье я описал, что я хотел бы от ODM для ArangoDB. ODM не обязательно должна заниматься генерацией запросов в базу данных. Я бы хотел, чтобы ODM обеспечивала сохранение в базу данных только нужных полей, и следила за наличием обязательных полей. А при получении объекта из базы данных типизировала его, добавляла вычислимые поля, фильтровала набор полей для разных групп запросов, и обеспечивала локализацию значений полей.

В настоящее время я нашел всего один фреймвёрк, который очень близок к тому, что я хочу получить: https://github.com/rawmodel/framework. Но мне в нем не хватает двух возможностей. Во-первых для методов типа PATCH входной объект, как правило, содержит не все, а только изменяемые поля. Для таких запросов нужно отключать полные правила валидации. И, во-вторых, там невозможно сделать локализацию значений. Я незамедлительно создал два issue в этом репозитарии. К чести автора, он ответил почти мгновенно, но ответ меня далеко не устроил. По первому вопросу он рекомендовал сначала забирать полный объект из базы данных, а затем мерджить его с объектом с неполным набором полей. По второму порекомендовал локализацию делать на фронтенде.

В своей статье я описал и реализовал свою библиотеку. Её и использовал в реальном проекте. Конечно, были моменты стресса, когда выходило, что возможностей этой библиотеки недостаточно. Но их в основном удалось разрешить. Так что по-прежнему приглашаю к сотрудничеству желающих продвигать технологию ArangoDB.

apapacy@gmail.com
15 марта 2021 года

Что такое `Workbox`?

Workbox (далее WB) это библиотека (точнее, набор библиотек), основной целью которой является "предоставление

Мы продолжаем серию публикаций адаптированного и дополненного перевода "Карманной книги по TypeScript".

Другие части:

Часть 1. Основы
Ч

Предлагаем вашему вниманию подборку с ссылками на новые материалы из области фронтенда и около него.

Медиа|Веб-разработка|CSS|JavaScript

Изображения, используемые на веб-страницах, привлекают пользователей, пользователи довольно-таки охотно щёлкают по ним мышью. Изображения делают веб-страницы лучше во всём кроме скорости работы страниц. Изображения это огромные куски байтов, которые обычно являются теми частями сайтов, которые загружаются медленнее всего. В этом материале я собрал всё, что нужно знать в 2021 году об улучшении скорости работы веб-страни

Всем привет! Меня зовут Александр и я пишу код для 2ip.ru. За добрую половину сервисов можно пинать меня, готов отбиваться. Cегодня я хочу немного рассказать про переделку одного нашего старого сервиса. Это конечно не "big data", но всё равно довольно большие объемы информации, поэтому думаю будет интересно.

Речь пойдет про

Часть 1.

Часть 2.

Часть 3.

Всем привет! В новой части мы рассмотрим использование JSFFI.

intro

Привет, Хабр. В прошлой статье я рассказал о начальном анализе предметной области и базовом проектировании нашей новой ECM-системы. Теперь я расскажу о первой практической задаче, которую мы решили. А именно - о выборе способа организации структуры хранилища бизнес-ат

Перевод материала подготовлен в рамках курса "NoSQL".

Приглашаем также всех желающих на двухдневный интенсив MongoDB Map-Reduce Framework.
Темы 1 дня: CRUD-операции; фильтрация по полям; sort

Yelp это крупнейшее в США приложение для заказа еды и услуг. Оно установлено более чем на 30 млн уникальных устройств, в нём зарегистрировано более 5 млн. компаний. Для хранения и доступа к данным в Yelp используют Cassandra. Как и для каких задач применяется эта база данных, на конферен

А не пора ли нам шардить коллекции?
Не-е-е:

у нас нет времени, мы пилим фичи!
CPU занят всего на 80% на 64 ядерной виртуалке!
данных всего 2Tb!
наш ежедневный бекап идет как раз 24 часа!

В этой статье я хочу сравнить Redis и Tarantool. У меня нет цели сделать громогласный вывод Tarantool лучше! или Redis круче!. Я хочу понять их сходства и отличия, разобраться, для каких задач какую технологию выбрать. Потому что это очень близкие на первый взгляд вещи, и

Каждый индекс Elasticsearch состоит из шардов. Шарды это логическое и физическое разделение индекса. В этой статье мы расскажем о сайзинге шардов Elasticsearch важной его части, серьёзно влияющей на производительность кластера. В высоконагруженных системах выбор правильной конфигурации архитектуры хранения позв

Статья переведена. Ссылка на оригинал

Эта статья представляет собой адаптированный отрывок из книги "

Начнем писать трейдинг бота, который будет работать на криптобирже Binance. Бот должен уметь:

торговать самостоятельно, принося какой-то доход
должен быть удобен для создания и обкатывания различных стратегий торговли
тестировать стратегию на исторических данных

Пожалуй, начнем с архитектуры

У нас есть биржа Binance, у которой есть шикарное api. Поэтом

Перед началом чтения хочу предупредить, что все описанные ниже определения и проделанные мною исследования несут в себе ознакомительный характер и являются неполными или неточными.

При написании данной статьи много важных аспектов были пропущены или не дополнены из-за м

Управление зависимостями это часть повседневной работы Node.js-программиста. Сегодня мы поговорим о разных подходах к работе с зависимостями в Node.js, и о том, как система загружает и обрабатывает зависимости.

Писать Node.js-приложения можно так, чтобы абсолютно весь код, обеспечивающий их функционирование, находился бы в одном .js-файле. Но при такой организации кода не используется модульный подход, когда ф

Серьёзно и профессионально я начал заниматься вёрсткой в 2019 году, хотя до этого ещё со школы интересовался данной темой как любитель. Поэтому новичком мне себя назвать сложно, но и профессионалом с опытом 5+ лет я тоже не являюсь. Тем не менее, я успел познакомиться со сборщ

ECMAScript-модули (кратко их называют ES-модулями) это модули, формат которых описан в стандарте ECMAScript, при работе с которыми используются инструкции import и export:

// ECMAScript-модуль// инструкция importimport myFunc from './my-func';//инструкция exportexport myOtherFunc(param) {const result = myFunc(param);// ....return otherResult;}

К старту курса о Fullstack-разработке на Python, где также рассматрива

Screeps это ММО для програмистов (платное). сделан хаброчанином @artch

Что у вас есть после туториала?

В каждой комнате которую вы контролируете у вас есть здание под названием room controller, чем выше уровень контроллера, тем боль

Middleware в случае с HTTP-сервером в Node.JS это промежуточный код, который выполняется до того, как начнёт выполняться ваш основной код. Это, чаще всего, нужно для того, чтобы сделать какой-то дополнительный тюнинг или проверку входящего запроса. Например, чтобы превратить данные из POST-запроса в формате JSON-строки в обычный объект, или получить доступ к кукам в виде объета, и т.п.

С

В одном из наших проектов, мы использовали IPC (inter-process communication) на сокетах. Довольно большой проект, торгового бота, где были множество модулей которые взаимодействовали друг с другом. По мере роста сложности стал вопрос о мониторинге, что происходит в микросервисах. Мы решили создать свое приложение для отслеживания, потока данных на всего двух библиотеках

Вот за что я люблю typescript, так это за то что он не даёт мне пороть ерунду. Померять длину числового значения и проч. Поначалу я конечно плевался, возмущался что ко мне пристают со всякими глупыми формальностями. Но потом втянулся, полюбил пожёстче. Ну в смысле a little bit more strict. Включил в проекте опцию strictNullCheck и три дня потратил на устранение возникших ошибок. А потом с удовлетворением радовался, отмечая как легк

Сегодня Я хотел бы поделиться своей не большой разработкой, которая помогает мне уже более чем пол года: "Модуль для работы с sqlite3".

Концепция

Вместо написания SQL запросов мы будем передавать ключи, значения, названия таблиц, условия и callback'и, которые будут вызывать по завершению запросов(в каждый callback мы будем передавать ошибку и результат, если такой есть).

Представим модуль в виде класса.

ArangoDB гибридная (документная и графовая) база данных. К ее положительным сторонам относятся:

мощный и удобный язык запросов AQL
JOIN (даже более мощный чем в реляционных базах данных)
репликация и шардинг
ACID (в кластере работает только в платной версии)

Из менее существенных, но не менее удобных возможностей:

нечеткий поиск

ODM - Object Document Mapper - используется преимущественно для доступа к документоориенриирвоанным базам данных, к которым относятся MongoDB, CouchDB, ArangoDB, OrientDB (последние две базы данных гибридные) и некоторые другие.

Прежде чем перейти к рассмотрению вопроса, озвученного в на

Статья посвящена альтернативным версиям Qt-драйверов для работы с базами данных. По большому счету отличий от нативных Qt-драйверов не так много, всего пара: 1) Поддержка типа UUID; 2) Работа с сущностью "Транзакция" как с самостоятельным объектом. Но эти отличия привели к су

Автор Игорь Косенков, инженер postgres Professional

Привет всем! Сегодня речь пойдет о кластере. Да, снова об отказоустойчивом кластере на базе Corosync/Pacemaker. Только настраивать мы его будем не как обычно с помощью утилиты pcs, а с помощью мало используемой утилиты crm.

С точки зрения использования этих утилит (pcs и crm) весь мир Unix-like операционок делится на два вида:

содержи

Если вы работаете с сайтом, который постепенно растет, - увеличивается количество товаров, трафик с рекламы - то рано или поздно придется перейти в режим работы highload, высоких нагрузок на сервер. Но что делать, если ваш сайт не растет, а сервер все чаще не выдерживает, и происходит блокировка данных? Именно с этой проблемой мы столкнулись, дорабатывая сайт для интернет-магазина светового оборудования с ассортиментом более чем 10

(статья обновлена в мае 2021г.)

Какие системы управления базами данных (СУБД) распространены в мире больше всего? Как они изменились с 2006года и какие входят в десятку самых популярных? В этой статье мы проанализируем базы данных, которые были на пике популярности с 2006 по 2021год. Данные обновляются каждый месяц. Подробнее в индексе ведущих баз данных TOPDB

От подработок на 500 долларов до контрактов на миллионы. Подробная история бизнеса с нуля со взлетами и падениями

На днях я зафиксировал круглую дату 15 лет с момента регистрации моей первой IT-компании (было это25 апреля 2006 года) так что захотелось немного подели

	Русский
	English

ArangoDB в реальном проекте

Возможности AQL (ArangoDB Query Language)

Графы

Нечеткий поиск

Без ODM?

Сейчас читают

Разработка веб-сайтов

Идеальный инструмент для создания прогрессивных веб-приложений или Все, что вы хотели знать о Workbox. Часть 2

Что такое Workbox?

Перевод Карманная книга по TypeScript. Часть 8. Модули

Дайджест свежих материалов из мира фронтенда за последнюю неделю 473 (14 20 июня 2021)

Перевод Оптимизация веб-графики в 2021 году

Как мы весь интернет сканировали

Создаем веб-приложение на Haskell с использованием Reflex. Часть 4

Nosql

Что нам стоит дом построить? (часть 2)

Перевод Atlas как сервис

Cassandra в Yelp

Шардинг, от которого невозможно отказаться

Tarantool vs Redis что умеют in-memory технологии

Elasticsearch сайзинг шардов как завещал Elastic анонс вебинара предложения по митапу

Node.js

Как работает Middleware в Express?

Как написать пассивный доход Пишем качественного трейд бота на JS (часть 1)

Пожалуй, начнем с архитектуры

Поиск коллизий в SHA-256 на платформе Node.js при помощи Bitcoin Hasher

Перевод Управление зависимостями в Node.js

Как я сделал свою сборку Gulp для быстрой, лёгкой и приятной вёрстки

Перевод Использование ECMAScript-модулей в Node.js

Nodejs

Перевод Как мы потерпели неудачу, а затем преуспели в переходе на TypeScript

Screeps, есть ли жизнь после туториала?

Хочу middleware, но не хочу ExpressJS

ReactRedoor IPC мониторинг

Использование приватных свойств класса для усиления типизации в typescript

Модуль для работы с sqlite3

Концепция

Arangodb