Что такое бессерверный SQL? И как использовать его для анализа данных?

Каждому специалисту по обработке и анализу данных, прежде чем запускать на своем наборе данных сложные алгоритмы машинного обучения, нужно исследовать и проанализировать его несколькими способами.

Начнем с определения бессерверных вычислений.

Бессерверные вычисления:

СогласноВикипедии, бессерверные вычисления стратегия организации платформенных облачных услуг, при которой облако автоматически и динамически управляет выделением вычислительных ресурсов в зависимости от пользовательской нагрузки.

Это означает, что мы, пользователи, имеем дело только с логикой. Нам не нужно беспокоиться о серверах, планировании ресурсов или масштабе операций технического обслуживания. Это не значит, что их нет, просто мы ими не занимаемся?

Что такое SQL?

СогласноВикипедии, SQL декларативный язык программирования, применяемый для создания, изменения и упорядочивания данных в реляционной базе данных.

Что такое бессерверный SQL?

Бессерверный SQL это инструмент распределенных вычислений, который позволяет обрабатывать распределенные данные с помощью языка SQL без необходимости администрировать серверы баз данных. Если у нас есть данные, или даже "большие данные", в одном из наших озер или хранилищ, напримерAWS S3илихранилище BLOB-объектов Azure,мы сможем выполнить запрос SQL на этих данных без необходимости создавать конвейер или импортировать данные в распределенные базы данных, например в Cassandra или MongoDB.

Это огромное преимущество, особенно если мы собираемся взаимодействовать с данными в автономных системах, не создавая конвейеры, или просто взглянуть на абсолютно новые данные, которые только что были добавлены в хранилище, прежде чем реплицировать или преобразовывать их, а затем сохранять в выделенную базу данных.

Как и со всеми облачными сервисами, необходимо понимать модель затрат. В бессерверной инфраструктуре мы платим за использование. То есть мы платим за объем обработанных данных.

Если выполнить запросselect *на наборе объемом 2ТБ, мы заплатим за обработку 2ТБ данных. Поэтому в зависимости от потребности компании или группы пул выделенных серверов может оказаться выгоднее.

Рассмотрим сценарий разведочного анализа данных с помощью бессерверного SQL

Возьмем известныйнабор данных нью-йоркского такси из открытых наборов данныхи попробуем понять, как обстоят дела у таксопарков, в какое время дня люди вызывают такси и многое другое. Эта информация поможет нам исследовать данные.

Для бессерверного SQL я буду использоватьрабочее пространство Azure Synapse. Вы можете использовать его, попробоватьBig Queryили присмотреться к другим инструментам.

Сначала посмотрим на данные select top 100вернет первые 100 строк из файла Parquet:

SELECT TOP 100 * FROM    OPENROWSET(        BULK 'https://azureopendatastorage.blob.core.windows.net/nyctlc/yellow/puYear=*/puMonth=*/*.parquet',        FORMAT='PARQUET'    ) AS [nyc]SELECT TOP 100 * FROM

Это результаты операции select в таблице

Мы можем просматривать результат в формате таблицы или диаграммы. Диаграмма пока будет неинформативной, поскольку мы использовали простой запросselect.

Но мы уже можем начать знакомство с данными: столбцом категорий, метками и многим другим.

Посмотрим на ежегодное количество поездок в промежутке с 2014-го по 2019-й. Это даст нам общее представление о происходившем в эти годы:

SELECT    YEAR(tpepPickupDateTime) AS current_year,    COUNT(*) AS rides_per_yearFROM    OPENROWSET(        BULK 'https://azureopendatastorage.blob.core.windows.net/nyctlc/yellow/puYear=*/puMonth=*/*.parquet',        FORMAT='PARQUET'    ) AS [nyc]WHERE nyc.filepath(1) >= '2014' AND nyc.filepath(1) <= '2019'GROUP BY YEAR(tpepPickupDateTime)ORDER BY 1 ASC;SELECT

Запрос

Итоговая диаграмма

Из диаграммы видно, что за эти годы пассажиры стали гораздо реже пользоваться нью-йоркским такси. Количество поездок упало со 165 миллионов в 2014 году до 44 миллионов в 2019 году.

Возможные причины: улучшение городского транспорта, например метро и автобусов, или появление новых сервисов заказа машин, таких как Uber и Lyft.

Теперь проанализируем один конкретный год:

SELECT    CAST([tpepPickupDateTime] AS DATE) AS [current_day],    COUNT(*) as rides_per_dayFROM    OPENROWSET(        BULK 'https://azureopendatastorage.blob.core.windows.net/nyctlc/yellow/puYear=*/puMonth=*/*.parquet',        FORMAT='PARQUET'    ) AS [nyc]WHERE nyc.filepath(1) = '2016'GROUP BY CAST([tpepPickupDateTime] AS DATE)ORDER BY 1 ASC

На диаграмме по результатам нашего запроса мы видим падение количества поездок на выходных. Для этого я сменю представление диаграммы в соответствии с нашими потребностями:

Возможно, это происходит из-за того, что люди реже вызывают такси на праздники. Поэтому мы объединим таблицу данных нью-йоркского такси с календарем праздников в США.

Все данные взяты из открытых наборов, поэтому вы тоже можете запрашивать их и работать с ними.

WITH taxi_rides AS(    SELECT        CAST([tpepPickupDateTime] AS DATE) AS [current_day],        COUNT(*) as rides_per_day    FROM          OPENROWSET(            BULK 'https://azureopendatastorage.blob.core.windows.net/nyctlc/yellow/puYear=*/puMonth=*/*.parquet',            FORMAT='PARQUET'        ) AS [nyc]    WHERE nyc.filepath(1) = '2016'    GROUP BY CAST([tpepPickupDateTime] AS DATE)),public_holidays AS(    SELECT        holidayname as holiday,        date    FROM        OPENROWSET(            BULK 'https://azureopendatastorage.blob.core.windows.net/holidaydatacontainer/Processed/*.parquet',            FORMAT='PARQUET'        ) AS [holidays]    WHERE countryorregion = 'United States' AND YEAR(date) = 2016)SELECT*FROM taxi_rides tLEFT OUTER JOIN public_holidays p on t.current_day = p.dateORDER BY current_day ASCWITH taxi_rides AS

Этот запрос можно разделить на три запроса:

1. Define taxi_ride temp table

На этом шаге мы получаем данные из озера данных, выбираем, приводим информацию о датах, считаем поездки за 2016 год, а затем группируем поездки по дням.

taxi_rides AS(    SELECT        CAST([tpepPickupDateTime] AS DATE) AS [current_day],        COUNT(*) as rides_per_day    FROM          OPENROWSET(            BULK 'https://azureopendatastorage.blob.core.windows.net/nyctlc/yellow/puYear=*/puMonth=*/*.parquet',            FORMAT='PARQUET'        ) AS [nyc]    WHERE nyc.filepath(1) = '2016'    GROUP BY CAST([tpepPickupDateTime] AS DATE))

2. Define public_holiday temp table:

На этом шаге мы получаем данные из озера, но уже из другой таблицы, а затем выбираем праздники в США за 2016 год.

public_holidays AS(    SELECT        holidayname as holiday,        date    FROM        OPENROWSET(            BULK 'https://azureopendatastorage.blob.core.windows.net/holidaydatacontainer/Processed/*.parquet',            FORMAT='PARQUET'        ) AS [holidays]    WHERE countryorregion = 'United States' AND YEAR(date) = 2016)

3. Объединяем:

Используем операторwith в начале запроса, а затем в третьем запросе обращаемся к обеим временным таблицам и объединяем их, используя столбец даты в качестве ключа.

SELECT*FROM taxi_rides tLEFT OUTER JOIN public_holidays p on t.current_day = p.dateORDER BY current_day ASC

Выполнив запрос на бессерверной платформе SQL, мы получим диаграмму, в которой сможем настраивать столбцы, чтобы лучше исследовать и понимать данные:

Любые данные, которые находятся в озере данных открытом или корпоративном, можно удобно исследовать с помощью бессерверного SQL.

Впоследствии мы сможем сохранить созданное представление данных и поделиться им с коллегами или загрузить образ, нажав кнопкуЗагрузить как образ.

Кнопка "Сохранить как образ"

Хотите узнать больше?

Приглашаю вас наполностью бесплатный мастер-класс,который я проведу 7 декабря вместе с Саймоном Уитли. Мы покажем шаг за шагом, как извлечь больше выводов из данных нью-йоркского такси:

Мы проанализируем:

расстояние поездок;
чеки с разбивкой по позициям;
типы тарифов;
способы оплаты;
количество пассажиров (со слов водителей).

Все, что вам нужно, зарегистрироватьсяпо этой ссылке.

Примечания

Бессерверный SQL не создан для аналитики в реальном времени и рабочих нагрузок, требующих ответа в пределах миллисекунд.
В бессерверном SQL оплата взимается за использование.

Спасибо, что дочитали. Будем рады вашим вопросам, комментариям и отзывам на@adipolak.-

Мы рады сообщить, что стал доступен июньский релиз расширения Jupyter для Visual Studio Code. Если вы работаете с Python, мы рекомендуем загрузить расширение Python из Marketplace или установить его прямо из галереи расширений в Visual Studio Code. Если у вас уже установлено расширение Python, вы также можете получить последнее

Миссия Xbox проста: приносить радость и помочь стать частью игрового сообщества всем людям планеты. Для ее достижения мы стремимся дать каждому возможность играть в те игры, которые нравятся, с теми, с кем хочется, и тогда, когда хочется.

В воскресенье прошло первое

Недавно команда Xbox провела онлайн-мероприятие Xbox & Bethesda Games Showcase, показав самую масштабную игровую линейку за всю историю существования Xbox. В рамках шоу было продемонстрировано и анонсировано 30 игр от партнёров и внутренних студий, 27 из которых станут ча

По следам Microsoft Build 2021 у нашего Windows Terminal второй день рождения! Этот релиз впервые представляет версию 1.9 для Windows Terminal Preview и переносит основной Windows Terminal в версию 1.8. Как всегда, вы можете установить обе с

Есть вопрос, который мне постоянно задают в Твиттере: как создавать приложения с крутым дизайном с помощью Xamarin.Forms? Это отличный вопрос, ведь любой может создавать красивые приложения, немного вдохновившись и поработав над стилем. Я не дизайнер и не претендую на звание дизайнера, но есть много отличных источников вдохновения для дизайна приложений, включа

Автор Сатья Наделла, глава Microsoft

Когда я встречаюсь с лидерами из разных отраслей, становится ясно, что единого стандарта или плана гибридной работы не существует. У каждой организаци

Логотип статьи определяет три, как временные, так и географические, точки на моём жизненном пути, через которые лежал мой путь в страну под названием Программирование. В городе Чебоксары, на родине легендарного комдива Гражданской войны В.И.Чапаева, прошло моё детство (1954-1968 г.г.), там я закончил 8

Всем привет. С вами я, stalker320, и сегодня я хотел бы рассказать про написание служебных скриптов, запускающихся в редакторе. Всем желающим прочесть - добро пожаловать под кат

EditorScript - это такой скрипт, который можно запустить по нажатию комбинации Ctrl+Shift+X прямо из движка. Он может исполнять различные служебные функции. К примеру создать необходимую структуру каталогов в проекте.

Привет, меня зовут Александр, я старший разработчик ПО в Центре разработкиOrionInnovation. Хочу признаться, я люблю рассказывать про C++ и не только на различных митапах и конференциях.Ивотядобрался доХабра. НаCppConfRussiaPiter2020 я рассказывал про концепты и послевыступлен

Работая в компании IT-аутсорса в качестве руководителя 3 линии поддержки, задумался, как автоматизировать подключение сотрудников по RDP, через VPN к серверам десятков клиентов.

Таблички с адресами, паролями и прочими настройками серверов, конечно, хорошо, но поиск клиента и вбивание адресов с аккаунтами занимает довольно существенное время.
Держать все подключения к VPN в Windows не самая лучшая идея, да и при переустан

В 26-м выпуске NP-полного подкаста я рассказывал, что начал переводить один из своих сервисов из Redis Sentinel на Redis Cluster. На этой неделе я захотел потестировать данный код, и, конечно же, выбрал Testcontainers для этого. К сожалению, Redis Cluster в тестовых контейнерах не з

Мне на удивление часто приходится говорить о том, почему мне всё ещё нравится язык C, и о том, почему я плохо отношусь к C++. Поэтому я решил, что мне стоит об этом написать, а не снова и снова повторять одно и то же.

Как это обычно бывает у C-программистов, язык C не был ни моим первым яз

Описание проблемы

Не раз наша команда в Каруне сталкивались с задачей, связанной с хранением и использованием IP-адресов в базе данных. Предположим, что есть типичная задача: необходимо парсить огромное количество диапазонов адресов (~300k) сизвестного ресурса, а далее определять страну по IP-адресу клиента. Кажется, ничего особенного. Это довольно просто

Если ваша жизнь DBA, сопровождающего PostgreSQL, наполнена вопросами "а почему так медленно?" и "как сделать, чтобы запрос не тормозил?", наш сервис анализа и визуализации планов запросовexplain.tensor.ru сделает ее немного легче за счет привлечения коллег и обновленных подсказок.

Исходные данные:

Два SQL Server'а, которые находятся в прямой доступности между собой, на одном из которых настроен Linked Server.
SQL запрос вида:

insert into LocalDatabaseName.dbo.TableName (column1, column2, ..., columnN)select column1, column2, ..., columnNfrom LinkedServerName.RemoteDatabaseName.dbo.TableName

В предыдущей статье я описал векторные языки и их ключевые отличия от обычных языков. На коротких примерах я постарался показать, как эти особенности позволяют реализовывать алгоритмы необычным образом, кратко и с высоким уровнем абстракции. В силу своей векторной природы такие языки идеально присоблены для обработки больших данных, и в качестве доказательства в этой статье я полностью реализую на векторном языке простой SQL

Я уже ранееписал о том, что придумал движок, который позволяет работать с не 1С SQL-базой из клиентов, которыми являются базовые конфигурации 1С:Деньги. Думаю, это классное решение для небольших частных или малотиражных конфигураций! Я назвал его Базовый Учет или Базуха (Базовый Учет Хозяйства).

Так вышло, что на заре моей карьеры в IT меня покусал Oracle -- тогда я ещё не знал ни одной ORM, но уже шпарил SQL и знал, насколько огромны возможности БД.

Знакомство с DjangoORM ввело меня в глубокую фрустрацию. Вместо возможностей -- хрена с два, а не составной первичный ключ или оконные функции. Специфические фичи БД проще забыть. Добивало то, что по цене нулевой гибкости мне продавали падение же производительности -- с

Я учусь иллюстрировать сложные процессы с помощью комиксов. Нашла себе в копилку крутой кейс: как с помощью комиксов про милых выдр можно ребенку объяснить такую сложную штуку как Apache Kafka,

Описание проблемы

Добрый день, коллеги. В этой статье я бы хотел затронуть тему таблиц с типом Row. Этот тип таблиц для многих администраторов баз данных, долгое время оставался наиболее естественным типом, так сказать типом по умолчанию. Таблицы типа COLUMN в основнов встречались в хранилищах данных (Data Warehouse), то есть базах данных с преобладающей нагрузкой типа OLAP.

Основная идея инженеров компании SAP при разработке базы данных HANA

Это вольный перевод поста одного из сильных разработчиков Postgres - Andres Freund. Кроме того что разработчик сильный, так еще и статья довольно интересная и раскрывает детали того как работает ОС Linux.

Довольно часто можно слышать заяв

Данные это один из наиболее важных компонентов геопространственных технологий и, пожалуй, любой другой отрасли. К управлению данными сейчас относятся серьезно во всех отраслях, поэтому знания по этой дисциплине имеют важное значение для карьеры ИТ-специалистов. Этот цикл статей задуман как универсальное руководство, в котором мы рассмотрим тему от и до, начиная с вопроса Что такое данные? и заканчивая изучением и применением геопро

Привет, Хабр! Сегодня делимся подборкой наших крутых вебинаров и митапов по Azure в Июне. В этот раз их четыре, и один из четырех эвентов может вас заинтересовать, даже если вы не работаете с Azure: встреча разработчиков, работающих с любыми технологиями Microsoft. Присоединяйтесь!

Привет, Хабр! Сегодня, как и обещали*, делимся подборкой самых интересных для разработчиков конференции Microsoft Build 2021. Их получилось 11, но это не значит, что это все. Чтобы узнать еще больше, изучайте сайт конференции.

* пообещали это мы во вчерашней подборке 8 анонсов конференции Microsoft Build 2021, которую подго

В рамках глобальной технологической конференции Miсrosoft Build 2021, которая проходит с 25 по 27 мая в онлайн-формате, компания продемонстрировала новые решения для разработчиков, а также совместно с партнерами анонсировала инициативу в области устойчивого развития.

Любому бизнесу, особенно крупному, хочется максимально оптимизировать внутренние процессы. В частности, те, которые касаются ИТ. Довольно часто мы встречаем ситуации, когда сугубо цифровые задачи в силу устаревших регламентов или страха сломать работающую систему решаются по старинке, вручную.

Ингосстрах обратилась к нам со следующей задачей: из-за огромного количества ручных операций параметр time-to-market их цифровых прод

Учитесь. Общайтесь. Пишите код.

Конференция Build ключевое событие года для Microsoft. На мероприятии выступают первые лица компании, в том числе, ее глава Сатья Наделла. Это 48 часов погружения в технологические инновации и общения с глобальным техноло

Привет, Хабр! В этот раз у нас немного разбитый анонс мероприятий месяца (в начале мая рассказали про ранние мероприятия точечно, теперь делаем небольшую подборку), все из-за праздников. В этой статье у нас 2 эвента: один полностью на русском, второй с субтитрами. Заглядывайте под кат!

1. Взаимодействие DevOps и GitHub

Несколько дней назад в сеть просочился образ ранней версии Windows 11. Различные издательства провели тесты по производительности и пришли к неутешительному выводу: Windows 11 в среднем работает хуже, чем Windows 10. Но расстраиваться рано! Проблемы производительности могут быть связаны с сыростью слитого

В воскресенье прошло первое

В конце 1990-х команды разработчиков Windows Shell и Internet Explorer внедрили множество потрясающих и сложных структур, позволяющих использовать расширение оболочки и браузера для обработки сценариев, создаваемых третьими сторонами. Например, Internet Explorer поддержива

Начнем с определения бессерверных вычислений.

Бессерверные вычи

*Gateway шлюз

Azure Active Directory Gateway это обратный прокси-сервер, который работает с сотнями служб, входящих в Azure Active Directory (Azure AD). Если вы пользовались такими службами, как office.com, outlook.com, azure.com или xbox.live.com, то вы исполь

Автор Сатья Наделла, глава Microsoft

* пообещали это мы во вчерашней подборке 8 анонсов конференции Microsoft Build 2021, которую подго

Добро пожаловать в современный интернет, где большая часть взаимодействия приходится на интерфейсы прикладного программирования API. На API держится цифровой бизнес: с ними стало возможным предоставлять и получать услуги через приложения и подключённые к Сети устройства. Плат

Привет, Хабр. В прошлой статье я рассказал о начальном анализе предметной области и базовом проектировании нашей новой ECM-системы. Теперь я расскажу о первой практической задаче, которую мы решили. А именно - о выборе способа организации структуры хранилища бизнес-ат

Статья посвящена альтернативным версиям Qt-драйверов для работы с базами данных. По большому счету отличий от нативных Qt-драйверов не так много, всего пара: 1) Поддержка типа UUID; 2) Работа с сущностью "Транзакция" как с самостоятельным объектом. Но эти отличия привели к су

Автор Игорь Косенков, инженер postgres Professional

Привет всем! Сегодня речь пойдет о кластере. Да, снова об отказоустойчивом кластере на базе Corosync/Pacemaker. Только настраивать мы его будем не как обычно с помощью утилиты pcs, а с помощью мало используемой утилиты crm.

С точки зрения использования этих утилит (pcs и crm) весь мир Unix-like операционок делится на два вида:

содержи

Если вы работаете с сайтом, который постепенно растет, - увеличивается количество товаров, трафик с рекламы - то рано или поздно придется перейти в режим работы highload, высоких нагрузок на сервер. Но что делать, если ваш сайт не растет, а сервер все чаще не выдерживает, и происходит блокировка данных? Именно с этой проблемой мы столкнулись, дорабатывая сайт для интернет-магазина светового оборудования с ассортиментом более чем 10

(статья обновлена в мае 2021г.)

Какие системы управления базами данных (СУБД) распространены в мире больше всего? Как они изменились с 2006года и какие входят в десятку самых популярных? В этой статье мы проанализируем базы данных, которые были на пике популярности с 2006 по 2021год. Данные обновляются каждый месяц. Подробнее в индексе ведущих баз данных TOPDB

От подработок на 500 долларов до контрактов на миллионы. Подробная история бизнеса с нуля со взлетами и падениями

На днях я зафиксировал круглую дату 15 лет с момента регистрации моей первой IT-компании (было это25 апреля 2006 года) так что захотелось немного подели

	Русский
	English

Что такое бессерверный SQL? И как использовать его для анализа данных?

Бессерверные вычисления:

Что такое SQL?

Что такое бессерверный SQL?

Рассмотрим сценарий разведочного анализа данных с помощью бессерверного SQL

Хотите узнать больше?

Сейчас читают

Блог компании microsoft

Jupyter в Visual Studio Code июньский релиз

Немного про нашу стратегию развития экосистемы XBOX и существующие достижения

Команда Xbox представила самую большую линейку эксклюзивных игр в истории

Представляем Windows Terminal Preview 1.9

Создание прекрасных приложений с помощью Xamarin.Forms

Парадокс гибридной работы

Программирование

Пятьдесят лет на стезе программирования. Часть I. Начало пути. Отчий дом и Казанское суворовское военное училище

Принцип работы EditorScript

Производительность компилятора при работе с концептами в C20

Powershell настоящий язык программирования. Скрипт оптимизации рутины в техподдержке

Как подружить Redis Cluster c Testcontainers?

Перевод Почему я всё ещё люблю C, но при этом терпеть не могу C?

Sql

Опыт хранения IP-адресов в PostgreSQL

Описание проблемы

Анализируем слона вместе с коллегами

Linked Server MSSQL. Оптимизация производительности в 30 раз

Векторные языки SQL интерпретатор в 100 строк

Лучше 1С может быть только 1С Базуха

SQLAlchemy а ведь раньше я презирал ORM

Администрирование баз данных

Перевод Как объяснить детям, что такое Apache Kafka за 15 минут с картинками и выдрами

Опыт хранения IP-адресов в PostgreSQL

Описание проблемы

Анализируем слона вместе с коллегами

SAP HANA. Таблицы с типом хранения Row

Перевод Измеряем расходы на память у Postgres процессов

Перевод Путеводитель по базам данных в 2021г

Microsoft azure

4 бесплатных мероприятия по Azure в июне

11 анонсов конференции Microsoft Build для разработчиков

8 анонсов конференции Microsoft Build 2021

Как мы построили гибридное облако и сняли с ручника разработку

Регистрация на Microsoft Build 2021 уже началась

2 крутых Azure-вебинара второй половины мая

1. Взаимодействие DevOps и GitHub

Microsoft

Краткая история Windows и что у нее под капотом

Jupyter в Visual Studio Code июньский релиз

Немного про нашу стратегию развития экосистемы XBOX и существующие достижения

Команда Xbox представила самую большую линейку эксклюзивных игр в истории

Представляем Windows Terminal Preview 1.9

Перевод Протекающие абстракции и код, оставшийся со времён Windows 98

Azure synapse analytics

Что такое бессерверный SQL? И как использовать его для анализа данных?

Бессерверные вычи

Azure

Перевод Azure Active Directory Gateway теперь на .NET Core 3.1

Парадокс гибридной работы

4 бесплатных мероприятия по Azure в июне

11 анонсов конференции Microsoft Build для разработчиков

Как мы построили гибридное облако и сняли с ручника разработку

Облачные Gateway API зачем нужны подобные сервисы и чем они отличаются у разных платформ

Базы данных

Что нам стоит дом построить? (часть 2)

Про uuid-ы, первичные ключи и базы данных

Отказоустойчивый кластер PostgreSQL с помощью crm

Recovery mode Как ускорить сайт в 4 раза, просто перенастроив сервер

Перевод Самые популярные базы данных 20062021гг

Портфолио в 200 сайтов. Как я, будучи студентом, создал IT-компанию с десятками сотрудников

Категории

Последние комментарии