Вместо предисловия

Началось всё с того, что мне предложили в рамках предмета "Основы веб-программирования" поучаствовать в проекте, вместо проделывания лабораторных работ и курсовой, поскольку я заявил о том, что хотел быть делать нечто отдалённое от общего курса (и так уже достаточно знаний было по связке DRF + Vue, хотелось чего-то нового). И вот в одном из своих PR на github я решил использовать полнотекстовый поиск (задание намекало на это) для фильтрации контента, что заставило меня обратиться к документации Django в поисках того, каким же образом лучше это дело реализовать. Думаю, вы знаете большую часть из тех методов, что были там предложены (contains, icontains, trigram_similar). Все они подходят для каких-то конкретных задач, но не слишком хороши в, именно, полнотекстовом поиске. Пролистав чуть ниже, я наткнулся на раздел, в котором говорилось о взаимодействии Django и Pgsql для реализации document-based поиска, что меня привлекло, поскольку в постгре встроен инструмент для реализации этого самого [полнотекстового] поиска. И я решил, что скорее всего, django просто предоставляет API к этому поиску, исходя из чего такое решение должно работать и точнее и быстрее, чем любые другие варианты. Преподаватель мне не слишком поверил, мы с ним поспорили, и он предложил провести исследование на эту тему. И вот я здесь.

Начало работы

Первая проблема, которая передо мной встала поиск мокапа БД, чтобы не придумать каких-нибудь непонятных штук самому и я отправился гуглить и читать вики постгреса. В итоге остановился на их демо базе о полётах по России.

Хорошо, база найдена. Теперь нужно определиться в том, какие способы фильтрации будут использоваться для сравнения. Первое, что я бы хотел использовать, разумеется, стандартный метод search из django.contrib.postgres.search. Второе contains (ищет слово в строке) и icontains (предоставляет данные, игнорируя акценты, например: по запросу "Helen" будет результат: <Author: Helen Mirren>, <Author: Helena Bonham Carter>, <Author: Hlne Joy>), которые предоставляет сам django. Все эти способы фильтрации я так же хочу сравнить со встроенным поиском внутри postgresql. Искать я решил по таблице tickets в версии small она содержит 366733 записей. Поиск будет происходить по полю passenger_name, где, как нетрудно догадаться, содержится имя пассажира. Написано оно транслитом.

Дать django возможность работать с уже существующей БД

Вторая проблема разрешить django только чтение данных из нашей демонстрационной БД. Покопавшись ещё в документации django я нашёл каким же образом, можно составить модельки по существующей БД, чтобы не перепечатывать ручками всё:

$ python manage.py inspectdb > models.py

При этом, разумеется, сама БД должна быть обозначена в settings.py. Всего пару ошибочек мне пришлось поправить и всё заработало как следует. Сразу после этого я решил написать простенькую вьюшку, которая сможет нам эти данные вернуть. Браузер, разумеется очень напрягся (что и не мудрено), когда я пытался открыть адрес, по которому должно было вернуться 300к+ записей, поэтому я ограничил их число для 10, чтобы удостовериться, что они там хотя бы есть. А вообще, совершенно точно понятно, что запрос лучше отправлять через curl. Это явно скушает в разы меньше оперативной памяти.

Выбор метрик

Изначально я подумал, что считать время фильтрации в питоне получится, используя таймер для получения времени исполнения скрипта, и дополнительной метрикой должно было стать время исполнения запроса через curl, поскольку это показывает приблизительное время, за которое отфильтрованные данные дойдут до конечного пользователя. Кроме этого, следует сравнивать это время с эталонным (прямым исполнением соответствующих запросов в БД).

Фильтруем в django

Но поскольку я уже снял 600 измерений времени выполнения скрипта в таблице финальной решил оставить, просто чтобы было сразу понятно, что это время вообще мало что реально отражает.

Итоговая view для contains

class TicketListView(g.ListAPIView):    serializer_class = TicketSerializer    def get_queryset(self):                queryset = ''        params = self.request.query_params        name = params.get('name', None)        if name:            start_time = d.datetime.now()            queryset = queryset.filter(passenger_name__contains=name)            end_time = d.datetime.now()            time_diff = (end_time - start_time)            execution_time = time_diff.total_seconds() * 1000            print("Filter execution time {} ms".format(execution_time))        return queryset

Contains

Начнём с contains, по сути, он работает как WHERE LIKE.

Запрос в Django ORM/Запрос в sql для contains

queryset = queryset.filter(passenger_name__contains=name)

SELECT "tickets"."ticket_no", "tickets"."book_ref", "tickets"."passenger_id", "tickets"."passenger_name", "tickets"."contact_data" FROM "tickets" WHERE "tickets"."passenger_name"::text LIKE %IVAN%

Для того, чтобы получить результат из curl я выполнял запрос следующим образом (считается в секундах):

$ curl -w "%{time_total}\n" -o /dev/null -s http://127.0.0.1:8000/api/tickets/?name=IVAN1,242888

Свёл всё в таблице, на соответствующем листе.

Но если резюмировать отклонение от скорости фильтрации внутри самого постгреса достаточно большое, и по факту исполнение такого запроса к серверу займёт от 140 до 1400 мс. Не претендую на истину, но работает всё приблизительно так. А время самой фильтрации через ORM займёт от 73 до 600 мс, в то время как такая же фильтрация внутри постгреса выполняется за промежуток от 55 до 100 мс.

Icontains

Icontains работает несколько по-другому (он приводит всё к одному виду, чтобы сравнение было более близким). Код для вьюшки использовался почти аналогичный, только вместо contains icontains. Вот и вся разница.

Запрос в Django ORM/Запрос в sql для icontains

queryset = queryset.filter(passenger_name__icontains=name)

SELECT "tickets"."ticket_no", "tickets"."book_ref", "tickets"."passenger_id", "tickets"."passenger_name", "tickets"."contact_data" FROM "tickets" WHERE UPPER("tickets"."passenger_name"::text) LIKE UPPER(%IVAN%)

По итогу, отклонение в данном случае уже меньше, поскольку и сам постгрес начал тратить намного большее времени на исполнение запроса (порядка 300 мс), а исполнение такого запроса к серверу займёт у клиента от 200 до 1500 мс. Фильтрация через ORM от до 200 до 700 мс.

Full text search (через django.contrib.postgres)

Поскольку индексов никаких создано не было, full text search довольно сильно и вполне ощутимо проигрывает прошлым вариантам. Время исполнения запроса в постгресе колеблется около 1300 мс, а запрос к серверу занимает от 1000 до 1700 мс. При этом, фильтрация через ORM укладывается в промежуток от 1000 до 1450 мс.

Код

class TicketListView(g.ListAPIView):    serializer_class = TicketSerializer    def get_queryset(self):        # queryset = Tickets.objects.all()        queryset = ''        params = self.request.query_params        name = params.get('name', None)        if name:            start_time = d.datetime.now()            queryset = Tickets.objects.filter(passenger_name__search=name)            end_time = d.datetime.now()            time_diff = (end_time - start_time)            execution_time = time_diff.total_seconds() * 1000            print("Filter execution time {} ms".format(execution_time))            f = open('results.txt', 'a')            f.write('{}'.format(execution_time))            f.write('\n')            f.close()        return queryset

Full text search (через rest_framework.filters, точнее SearchFilter)

Если не использвоать именно FTS, то результаты получаются сравнимыми с FTS внутри постгре, но хуже, чем contains и icontains. От 200 до 1710 мс.

А с использованием FTS эффективность повышается, отклонение сводится к минимальному. В среднем, это займёт от 800 до 1120 мс.

Код

...from rest_framework import filters as fclass TicketListView(g.ListAPIView):    queryset = Tickets.objects.all()    serializer_class = TicketSerializer    filter_backends = [f.SearchFilter]    search_fields = ['@passenger_name']

Использование фильтров через модуль django-filter

Результаты почти совпали со стандартными contains и icontains, поэтому смысла детально это рассматривать не вижу. Да и в целом, модуль django-filter не показал какого-то ощутимого преимущества перед стандартными средствами фильтрации Django ORM.

Так что в итоге?

Если у вас есть большой объём данных нужно прописывать нормальные индексы и использовать полнотекстовый поиск (разумеется, только в том случае, когда соответствует вашим целям) с радостью и счастьем, потому что он решает довольно широкий круг проблем. Но вот всегда ли в нём есть необходимость уже решать вам. Я усвоил для себя, что в некоторых случаях (когда не стоит задачи именно полнотекстового поиска, а есть поиск по подстроке, который реализуется с помощью contains/icontains) лучше вовсе не использовать полнотекстовый поиск, потому что индексы в определённый момент начинают кушать всё больше и больше памяти вашего сервера, что, скорее всего, негативно скажется на работе вашего сервера.

В целом, моё понимание некоторых внутренних механизмов работы django благодаря этому исследованию устаканилось. И пришло, наконец, осознание разницы между поиском по подстроке и полнотекстовым поиском. Разнице в их реализации через Django ORM.

В прошлой части мы в общих чертах рассмотрели, как устроен REST API на DRF при работе на чтение. Едва ли не самый сложный для понимания этап сериализация. Вооружившись исходным кодом, полностью разберем этот этап от приема набора записей из модели до их преобразования в список словарей.

Важный момент: мы говорим о работе сериалайзера только на чтение, то есть когда он отдаёт поль

При работе над django-проектом, есть ряд must-have сторонних библиотек, если не хочется бесконечно изобретать велосипед. Средстав отладки sql запросов(debug-toolbar, silk, --print-sql из django-extensions), что-нибудь для хранения древовидных структур, переодических/отложенных задач(кстати, cron-like интерфейс ес

Prologue

- Глянь, статью на Хабр подготовил.
- Эм... а почему заголовок на английском?
- "Предметно-ориентированное проектирование, Гексагональная архитектура портов и адаптеров, Внедрение зависимостей и Пайто..."

С пронзительным хлопком в воздухе материализуется обалдевший Сатана в обличии сине-жёлтого питона.

Intro

Как же летит время! Два года назад я расстался с миром Django и очутился в м

Внимание!

Прочитав статью, может сложиться впечатление, что я люблю БДСМ или что-то такое, но это вам только кажется.

Проблемы в работе магазина

Я работаю в обычном велосипедном магазине в центре Варшавы. Торгуем как стационарно, так и в интернете. Среднее количество купленных велосипедов за день ~2 на весь год. При этом пик продаж приходится на лето и тогда в день можем иметь п

Введение

После того, как мы закончили разработку веб-приложения, оно должно быть размещено на хосте, чтобы общественность могла получить доступ к нему из любого места. Мы посмотрим, как развернуть и разместить приложение на экземпляре AWS EC2, используя Nginx в качес

Предисловие

Для написания данной статьи был изучен очень большой пласт материала, разбросанного по всему Интернету, по форумам, чатам, сайтам-блогам, stackoverflow. Я собрал все воедино, так как это пригодится и мне и очень надеюсь, что другие разработчики на Django, также, останутся довольны данным материалом. Если есть что добавить (улучшить) или поправить, пожалуйста, пишите в комментариях или в Диалоги ( личные сообщен

Привет, Хабр. В прошлой статье я рассказал о начальном анализе предметной области и базовом проектировании нашей новой ECM-системы. Теперь я расскажу о первой практической задаче, которую мы решили. А именно - о выборе способа организации структуры хранилища бизнес-ат

Описание проблемы

Не раз наша команда в Каруне сталкивались с задачей, связанной с хранением и использованием IP-адресов в базе данных. Предположим, что есть типичная задача: необходимо парсить огромное количество диапазонов адресов (~300k) сизвестного ресурса, а далее определять страну по IP-адресу клиента. Кажется, ничего особенного. Это довольно просто

Если ваша жизнь DBA, сопровождающего PostgreSQL, наполнена вопросами "а почему так медленно?" и "как сделать, чтобы запрос не тормозил?", наш сервис анализа и визуализации планов запросовexplain.tensor.ru сделает ее немного легче за счет привлечения коллег и обновленных подсказок.

Это вольный перевод поста одного из сильных разработчиков Postgres - Andres Freund. Кроме того что разработчик сильный, так еще и статья довольно интересная и раскрывает детали того как работает ОС Linux.

Довольно часто можно слышать заяв

Автор Игорь Косенков, инженер postgres Professional

Привет всем! Сегодня речь пойдет о кластере. Да, снова об отказоустойчивом кластере на базе Corosync/Pacemaker. Только настраивать мы его будем не как обычно с помощью утилиты pcs, а с помощью мало используемой утилиты crm.

С точки зрения использования этих утилит (pcs и crm) весь мир Unix-like операционок делится на два вида:

содержи

О чем эта статья и кому адресована?

С SQL работают почти все, но даже опытные разработчики иногда не могут ответить на простой вопрос. Каким образом СУБД выполняет самый обычный INNER JOIN?

С другой стороны - разработчики на C# или других ООП языках часто воспринимают СУБД как всего лишь хранилище. И размещать какие-то бизнес-правила в SQL - плохо. В противовес им создаются библиотеки вроде

Вместо предисловия

Но ученые научились определять, где система дает сбой.

MS TECH | GETTY, UNSPLASH

В далекое прошлое ушли уютные форумы, где люди-модераторы заставляли участников следовать правилам и

Дистанционное игибридное обучение

В период дистанционного и гибридного обучения учителя применяли инновационные методы интеграции технологий в учебный процесс, чтобы заинтересовать учащихся. Большинство (82%) работников сферы образования уверено, что пр

"Моей вдове"

Дорогая, любимая. Мне непросто писать из-за холода 70 градусов ниже ноля и только палатка защищает Мы оказались в тупике, и я не уверен, что мы справимся. Во время короткого завтрака я пользуюсь небольшой толикой тепла, чтобы написать письма

Недавно мы публиковали статью Как фотка в портфолио влияет на получение работы и заказов. Обзор исследований. Там мы рассказали про два эксперимента. В первом тестировали несколько фотографий с разными выражениями лиц у норвежских программистов (задумчивое, серьёзное, улыбающееся) и оценивали, как оно влияет на ощущение компетентности. Во втором оценивали, как зависит ощущение от профиля, но в нём менялось не то

Многие из нас говорят с сами с собой, только не вслух, конечно, а мысленно. Психологи говорят, что это вполне нормально и даже полезно. Причем не только для человека, но и для роботов. Так, итальянские ученые сознательно

Группе учёных из Института Хюбрехта в Нидерландах удалось вырастить из стволовых клеток слёзные железы и заставить их плакать. Слёзные железы являются частью обширного слёзного аппарата, отвечающего за поддержание нормальной работы роговицы и конъюнктивы. Сама железа в

Я только что потратил более двух часов на устранение, казалось бы, простой проблемы с HTML. Когда я скопировал и вставил небольшой раздел HTML, веб-браузер отображал только что вставленный раздел не так, как оригинал. Горизонтальный интервал между некоторыми элементами

В преддверии старта курса "Java QA Automation Engineer" подготовили перевод полезного материала.

Также приглашаем поучаствовать в открытом вебинаре на тему HTTP. Postman, Newman, Fiddler (Charles), curl, SOAP. SoapUI. На этом занятии участники вместе с экспертом разберут, какие бываю API и каким

Прим. перев.: уникальная история, что всколыхнула интернет в эти дни, показывает неожиданную сторону того, что могут заслужить авторы самых популярных Open Source-проектов. Ниже представлен перевод недавней заметки из блога шведского программиста Daniel Stenberg оригинального автора и главного разработчика curl, обладателя премии Polhem Prize (вручается в Швеции за выдающиеся инженерные достижения).

Мы приготовили для вас много новых инсайтов, записей важных вебинаров, книжек и шпаргалок. Прокачивайте скилы, читайте, смотрите, думайте, применяйте на практике! Станьте частью DevNation!

Начни новое:

Сборник полезных ссылок для системного администратора, руководства, инструкции, учебные курсы, секреты-советы и многое другое ниже в наш

	Русский
	English

Из песочницы Сравнение разных django filter на примере демо базы PostgreSQL

Вместо предисловия

Начало работы

Дать django возможность работать с уже существующей БД

Выбор метрик

Фильтруем в django

Contains

Icontains

Full text search (через django.contrib.postgres)

Full text search (через rest_framework.filters, точнее SearchFilter)

Использование фильтров через модуль django-filter

Так что в итоге?

Сейчас читают

Django

Django Rest Framework для начинающих создаём API для чтения данных (часть 2)

Конечные автоматы и django

Domain-driven design, Hexagonal architecture of ports and adapters, Dependency injection и Python

Prologue

Intro

Как я уместил систему управления товарами на сайте Presta Shop в пяти кнопках

Проблемы в работе магазина

Развертывание приложений Django

Введение

Полезности для разработчика на Django

Предисловие

Postgresql

Что нам стоит дом построить? (часть 2)

Опыт хранения IP-адресов в PostgreSQL

Описание проблемы

Анализируем слона вместе с коллегами

Перевод Измеряем расходы на память у Postgres процессов

Отказоустойчивый кластер PostgreSQL с помощью crm

Как реляционная СУБД делает JOIN?

О чем эта статья и кому адресована?

Django-filter

Из песочницы Сравнение разных django filter на примере демо базы PostgreSQL

Вместо предисловия

Django-rest-framework

Из песочницы Сравнение разных django filter на примере демо базы PostgreSQL

Вместо предисловия

Исследование

Перевод ИИ все еще не умеет модерировать хейт-спич

Инструменты Microsoft для повышения эффективности учебного процесса

Нестойкий оловянный припой. О чуме, погубившей Роберта Скотта, и о других заразных болезнях

"Моей вдове"

Как выражение лица на фотке в резюме влияет наощущение компетентности (в России)

Поговори сам с собой ученые научили роботов самоанализу и улучшили результаты их работы

У ученых получилось вырастить искусственные слёзные железы

Curl

Перевод Пробелы бывают разные ampnbsp C2A0

Перевод Автоматизированное тестирование баз данных в Java с помощью JdbcTemplate

Перевод Обратная сторона Open Source-славы как угрожают автору curl

8 Kubernetes-инсайтов, шпаргалка по Curl и онлайн-курс Разработка облачных приложений с микросервисными архитектурами

Начни новое:

Сборник полезных ссылок для системного администратора

Из песочницы Сравнение разных django filter на примере демо базы PostgreSQL

Вместо предисловия

Django orm

Из песочницы Сравнение разных django filter на примере демо базы PostgreSQL

Вместо предисловия

Категории

Последние комментарии