Перевод Регрессия и линейные комбинации векторов

Недавно я помогал вести курс по линейной алгебре, который организовали Тай-Даная Брэдли и Джек Хидари. Одним из вопросов, который периодически возникал у слушателей курса, был вопрос о том, почему программистов должна заботить тема линейной комбинации векторов.

Если кто не знает о том, что это такое поясню. Предположим, имеются векторы

. Их линейной комбинацией называется выражение вида

, представляющее собой сумму произведений векторов на коэффициенты

.

Должен признать, что книги по математике оказывают своим читателям медвежью услугу, представляя концепцию линейной комбинации векторов не более чем теоретической идеей. В результате создаётся впечатление того, что эта концепция нужна лишь для математических доказательств, что самое ценное для практика это умножение матриц и векторные произведения. Но, на самом деле, это не так. Линейная комбинация векторов лежит в самом сердце многих вариантов практического применения математических идей.

В некоторых случаях главной целью применения некоего алгоритма является лишь поиск приемлемой линейной комбинации набора векторов. Векторы это строительные блоки (часто являющиеся базисом векторного пространства или подпространства), а набор линейных комбинаций векторов представляет собой законный способ комбинирования этих блоков. Более простые блоки допускают применение более простых и более эффективных алгоритмов, но их линейные комбинации менее выразительны. Вследствие этого и возникает компромисс.

Конкретный пример этого регрессия. Большинство людей, говоря о регрессии, имеют в виду линейную регрессию. Речь идёт о поиске линейной функции, вроде

, которая хорошо аппроксимирует некие данные. В случае с функцией от нескольких переменных имеется, например,

в роли вектора входных переменных, и

в роли вектора коэффициентов или весов. А сама функция тогда выглядит как

.

Для того чтобы избежать сдвига функции на

(что делает функцию аффинной, а не чисто линейной; с формулами чисто линейных функций проще работать, так как сдвиг функции напоминает неприятный частный случай, который нужно постоянно принимать во внимание) авторы часто добавляют к вектору входных переменных фиктивную переменную

, значение которой никогда не меняется и составляет 1, и переименовывают

для того чтобы формула приобрела бы окончательный вид

. В результате задача оптимизации, которую нужно решить, учитывая то, что

это набор данных для аппроксимации, выглядит так:

В данном случае оптимизируемая функция, представляющая собой результат работы регрессии, не похожа на линейную комбинацию векторов. Но с технической точки зрения это линейная комбинация векторов, хотя выполнена она с использованием не слишком интересного способа.

Более очевидной связь подобных задач с линейной комбинацией векторов становится тогда, когда пытаются моделировать нелинейные системы. Суть тут в том, чтобы определить класс функций, называемых базисными функциями

, и допустить, чтобы аппроксимация представляла бы собой любую линейную комбинацию функций в

, то есть любую функцию в пределах

Опять же, вместо того, чтобы умножать каждую координату входного вектора на коэффициент

, мы взвешиваем вклад каждой базисной функции (когда нам дан весь входной вектор) в выходные данные. Если базисные функции должны дать нам единственную координату (

), это значит, что мы возвращаемся к линейной регрессии.

В результате задача оптимизации будет заключаться в том, чтобы выбрать коэффициенты, минимизирующие ошибку аппроксимации:

Рассмотрим пример. Предположим, что нам нужно выполнить регрессию на базисных функциях, представленных квадратичными полиномами. Базис для трёх входных переменных может выглядеть так:

Любой квадратичный полином от трёх переменных может быть представлен в виде линейной комбинации этих базисных функций. Кроме того, обратить внимание на то, что если рассматривать это как базис векторного пространства, тогда вектор будет представлен набором из 10 чисел из десяти коэффициентов полинома. Это то же самое, что

, но с другой интерпретацией того, какой смысл имеют компоненты векторов. Учитывая это, мы теперь знаем о том, как находить скалярные произведения векторов, проекции векторов, и много чего ещё, хотя всё это может и не иметь такого же геометрического смысла.

Это не те функции, которые обычно, на практике, используются в качестве базисных функций для полиномиальной регрессии (подробнее об этом смотрите в примечаниях, приведённых в конце статьи), но благодаря этим знаниям мы уже можем сделать кое-что полезное при реализации регрессионных алгоритмов.

Простой стохастический градиентный спуск

Хотя существуют аналитические решения многих регрессионных задач (включая задачу квадратичной регрессии, хотя и с небольшим изменением), градиентный спуск это достаточно простое решение, позволяющее продемонстрировать то, как оптимизатор может находить приемлемые линейные комбинации векторов. Нижеприведённый код написан на Python 3.9, этот код можно найти на GitHub.

Начнём с объявления нескольких полезных псевдонимов типов:

from typing import Callable, Tuple, ListInput = Tuple[float, float, float]Coefficients = List[float]Gradient = List[float]Hypothesis = Callable[[Input], float]Dataset = List[Tuple[Input, float]]

Затем объявим простой класс-обёртку для базисных функций:

class QuadraticBasisPolynomials:def __init__(self):self.basis_functions = [lambda x: 1,lambda x: x[0],lambda x: x[1],lambda x: x[2],lambda x: x[0] * x[1],lambda x: x[0] * x[2],lambda x: x[1] * x[2],lambda x: x[0] * x[0],lambda x: x[1] * x[1],lambda x: x[2] * x[2],]def __getitem__(self, index):return self.basis_functions[index]def __len__(self):return len(self.basis_functions)def linear_combination(self, weights: Coefficients) -> Hypothesis:def combined_function(x: Input) -> float:return sum(w * f(x)for (w, f) in zip(weights, self.basis_functions))return combined_functionbasis = QuadraticBasisPolynomials()

Функция linear_combination возвращает функцию, которая вычисляет взвешенную сумму базисных функций. Теперь мы можем описать функции, вычисляющие ошибку для всего набора данных и для одной точки данных:

def total_error(weights: Coefficients, data: Dataset) -> float:hypothesis = basis.linear_combination(weights)return sum((actual_output - hypothesis(example)) ** 2for (example, actual_output) in data)def single_point_error(weights: Coefficients, point: Tuple[Input, float]) -> float:return point[1] - basis.linear_combination(weights)(point[0])

Сейчас можно определить градиент функции ошибки по отношению к весам и к одной точке данных. Вспомним о том, что функция ошибок выглядит так:

Здесь

это линейная комбинация базисных функций:

Так как мы реализуем алгоритм стохастического градиентного спуска, формула вычисления ошибки немного упрощается. Мы вычисляем её не для всего набора данных, а только для одного, случайным образом выбранного элемента за раз. В результате функция ошибки будет выглядеть так:

Затем мы вычисляем градиент применительно к отдельным компонентам

, используя правило дифференцирования сложной функции, и учитывая, что единственный компонент линейной комбинации векторов, отличающийся ненулевым влиянием на градиент для

это компонент, содержащий

. Это один из главных плюсов использования линейной комбинации векторов, который заключается в простоте вычисления градиента:

Ещё одна сильная сторона линейности заключается в том, что этой формуле безразлично содержимое исходных базисных функций. Это будет так до тех пор, пока веса не появятся в формуле для базисных функций. Попробуйте, в качестве упражнения, изменить эту реализацию так, чтобы в каждой из точек данных применялась бы собственная радиальная базисная функция (в конце статьи есть примечание о том, почему это, в реальной жизни, может быть непросто).

def gradient(weights: Coefficients, data_point: Tuple[Input, float]) -> Gradient:error = single_point_error(weights, data_point)dE_dw = [0] * len(weights)for i, w in enumerate(weights):dE_dw[i] = -2 * error * basis[i](data_point[0])return dE_dw

И, наконец, реализуем ядро алгоритма градиентного спуска, в которое входят механизмы, упрощающие отладку кода:

import randomdef print_debug_info(step, grad_norm, error, progress):print(f"{step}, {progress:.4f}, {error:.4f}, {grad_norm:.4f}")def gradient_descent(data: Dataset,learning_rate: float,tolerance: float,training_callback = None,) -> Hypothesis:weights = [random.random() * 2 - 1 for i in range(len(basis))]last_error = total_error(weights, data)step = 0progress = tolerance * 2grad_norm = 1.0if training_callback:training_callback(step, 0.0, last_error, 0.0)while abs(progress) > tolerance or grad_norm > tolerance:grad = gradient(weights, random.choice(data))grad_norm = sum(x**2 for x in grad)for i in range(len(weights)):weights[i] -= learning_rate * grad[i]error = total_error(weights, data)progress = error - last_errorlast_error = errorstep += 1if training_callback:training_callback(step, grad_norm, error, progress)return basis.linear_combination(weights)

Сгенерируем какой-нибудь простой набор данных и запустим оптимизацию:

def example_quadratic_data(num_points: int):def fn(x, y, z):return 2 - 4*x*y + z + z**2data = []for i in range(num_points):x, y, z = random.random(), random.random(), random.random()data.append(((x, y, z), fn(x, y, z)))return dataif __name__ == "__main__":data = example_quadratic_data(30)gradient_descent(data,learning_rate=0.01,tolerance=1e-06,training_callback=print_debug_info)

Алгоритму на то, чтобы сойтись, может понадобиться несколько тысяч шагов. Сколько именно зависит от того, как отработал генератор случайных чисел при подготовке данных. Но обычно алгоритм сходится к решению, дающему ошибку меньше 1. Вот график, на котором показана связь ошибки и шагов алгоритма градиентного спуска для задачи квадратичной регрессии.

Ошибка и шаги алгоритма

Ядра и регуляризация

Я завершу этот материал пояснениями, на которые ссылался в статье.

Настоящее полиномиальное ядро. Мы решили использовать простой набор полиномиальных функций. Это тесно связано с концепцией ядра, но настоящее полиномиальное ядро использует немного другие базисные функции. Оно масштабирует некоторые из базисных функций, используя

. Но зачем это делать? Ответ сводится к технике повышения эффективности вычислений, называемой ядерным трюком. Этот трюк, если кратко его описать, позволяет вычислять скалярное произведение двух линейных комбинаций векторов в векторном пространстве без вычисления координат данных в пространстве. Если в реализации используемого алгоритма регрессии используются только скалярные произведения векторов (что справедливо для аналитических решений регрессионных задач), то в нашем распоряжении оказываются сильные стороны нелинейного моделирования признаков и нам, при этом, не нужно тратить ресурсы на непосредственное вычисление признаков. В этой связи уместно будет обсудить гораздо больше теоретических математических вопросов (см. также: Reproducing Kernel Hilbert Space), но тут я не буду углубляться в эту тему.

Что не так с упражнением про радиальные базисные функции? В этом упражнении я предложил вам создать семейство базисных функций, по одной функции для каждой точки данных. Проблема тут заключается в том, что наличие настолько большого количества базисных функций делает пространство линейной комбинации векторов слишком выразительным. В ходе оптимизации произойдёт переобучение модели. В результате получится нечто, напоминающее справочную таблицу: каждой точке данных соответствует отдельная запись. При этом такая модель редко показывает хорошие результаты при обработке новых точек данных, которых не было в учебном наборе. Дело в том, что этих точек нет в найденной алгоритмом оптимизации справочной таблице. На практике, для того чтобы справиться с этой проблемой, обычно, при расчёте ошибки, используют дополнительный компонент, соответствующий метрикам L1 или L2 вектора весовых коэффициентов. Это позволяет обеспечить то, что общий размер весов будет небольшим, то, что большинство весов, в случае с применением метрики L1, будут нулевыми, и то, что лишь немногие веса (самые важные) будут ненулевыми. Процесс введения штрафов за размеры линейных комбинаций векторов называют регуляризацией.

Что вы посоветовали бы почитать программистам, которые хотят с нуля освоить линейную алгебру?

Они отличаются тем, что у гибридных (Ca+, Ca/Sb) свинцовый сплав положительных решёток легирован сурьмой, а отрицательных кальцием, тогда как у кальциевых (Ca/Ca) те и другие кальцием. В результате, выделение газов происходит при разных напряжениях заряда, и токи окончания заряда при этих напряжениях тоже разные.

Однако, современные автом

Приветствую всех читателей Habr! В своей сегодняшней статье, хочу рассказать вам о своем новом DIY беспроводном устройстве датчике качества воздуха. Помимо оценки качества воздуха, датчик может оценивать уровень освещенности в помещении, температуру, влажность и атмосферное давление, на основе данных атмосферного давления, устройство может предсказывать прогноз погоды. Это полностью открытый проект.

Изображения, используемые на веб-страницах, привлекают пользователей, пользователи довольно-таки охотно щёлкают по ним мышью. Изображения делают веб-страницы лучше во всём кроме скорости работы страниц. Изображения это огромные куски байтов, которые обычно являются теми частями сайтов, которые загружаются медленнее всего. В этом материале я собрал всё, что нужно знать в 2021 году об улучшении скорости работы веб-страни

Журналы все чаще отзывают научные статьи, потому что оказывается, что написаны они не теми, кем заявлено. Необходимо выработать более эффективные способы решения проблемы, в противном случае мы рискуем полностью утерять общественное доверие к науке.

Мне на удивление часто приходится говорить о том, почему мне всё ещё нравится язык C, и о том, почему я плохо отношусь к C++. Поэтому я решил, что мне стоит об этом написать, а не снова и снова повторять одно и то же.

Как это обычно бывает у C-программистов, язык C не был ни моим первым яз

Сравнительно недавно Raspberry Pi Foundation выпустила плату Raspberry Pi Pico, основанную на микроконтроллере (Micro Controller Unit, MCU) RP2040. Эта плата привлекла большое внимание членов сообщества разработчиков различных электронных устройств. Появилось довольно много проектов, в которых используются программируемые модули ввода-вывода (Programmable I/O, PIO) Raspberry Pi Pico. Например, это проект

Работая в компании IT-аутсорса в качестве руководителя 3 линии поддержки, задумался, как автоматизировать подключение сотрудников по RDP, через VPN к серверам десятков клиентов.

Таблички с адресами, паролями и прочими настройками серверов, конечно, хорошо, но поиск клиента и вбивание адресов с аккаунтами занимает довольно существенное время.
Держать все подключения к VPN в Windows не самая лучшая идея, да и при переустан

Всем привет! Меня зовут Константин Измайлов, я руководитель направления Data Science в Delivery Club. Мы работаем над многочисленными интересными и сложными задачами: от формирования классических аналитических отчетов до построения рекомендательных моделей в ленте приложения.

Сегодня я расскажу пр

Представьте человека, который изучает алгоритмы. Чтобы понять как они работают, приходится изучать их код и представлять, как компьютер будет его выполнять. Это странно почему мы должны учиться думать как компьютер, вместо того, чтобы заставить его помогать на

Cодержание

Введение
Основные понятия и термины
Характеристика ИО как научной дисциплины
Этапы операционного исследования
- Постановка задачи
- Построени

Можно выделить ряд алгоритмов, которые являются базовыми и лежат в основе практически каждой строчки программ, написанных на языках высокого уровня. Хорошо иметь под руками классический многотомный труд Дональда Кнута "The Art of Computer Programming", там детально разобраны многие ба

Давайте представим, что вы параноик, и параноик вдвойне, когда дело касается многопоточности. Предположим, что вы делаете backend некого функционала приложения, а приложение переодически дергает на вашем серверы какие-то методы. Все вроде хорошо, но есть одно но. Что если ваш функционал напрямую зависит от каких-либо других данных, того же банального профиля например? Встает вопрос, как гарантировать то, что сценарий отработает име

Трансформеры за последние несколько лет штурмом захватили мир NLP, а сегодня они с успехом применяются в выходящих за рамки NLP приложениях. Они обладают такими возможностями благодаря модулю внимания, который схватывает отношения между всеми словами последовательностей. Но са

Пример расчётного доказательства в Lean

Математики давно используют компьютеры в своей работе как инструменты для сложных вычислений и выполнения рутинных операций перебора. Например, в 1976 году методом компьютерного перебора была доказана

Зарабатывать продажей лекарств, которые заведомо не работают, не только аморально, но и не особо легко. Люди всё-таки обычно не хотят покупать препараты, неэффективность которых была доказана. А вот если вы сумели выдавить заветное p < 0.05 в пользу того, что акупунктура та

В этой статье мы рассмотрим, что такое классификатор, поговорим о мультиклассовой классификации с помощью нейронных сетей. Затем, ознакомившись с контекстом перейдем к основному топику поста к Log-Sum-Exp Trick. Напишем формулы и разберемся, как этот трюк помогает избежать переполнения чисел с плавающей то

В дополнение к открытым спутниковым данным, некоторые из которых перечислены в статье Общедоступные данные дистанционного зондирования Земли: как получить и использовать, существует и множество производных продуктов например, рельеф. Притом можно найти открытый рельеф разного пространственного разрешения, равно как и множество коммерческих, и появляется задача выбрать лучший продукт из доступных.

Призма Вельда-Бланделла

На рубеже четвертого и третьего тысячелетия до нашей эры на Земле возникли две первые цивилизации. В долине Нила после объединения верхнего и нижнего Египта образовалось

Очень много людей с самым разным бэкграундом, и не всегда даже техническим, в последнее время пытаются перейти в data science. И такой ажиотажный интерес - проблема для всех, кто рассматривает переквалификацию в эту сферу. Потому что рынок труда может оказаться наводнён соискателям без опыта.

С точки зрения потенциального работодателя: вы скорее возьмёте выпускника технического вуза, или человека за 40, без профильного опыта

Задача распознавания семантического следования (textual entailment), или импликации (natural language inference), в текстах на естественном языке состоит в определении того, может ли часть текста (посылка, антецедент) подразумеваться или противоречить (или не противоречить) другому фрагменту текст

Технология распознавания эмоций в речи может может найти применение в огромном количестве задач. В частности, это позволит автоматизировать процесс мониторинга качества обслуживания клиентов call-центров.

Определение эмоций человека по его речи уже относительно насыщенн

Мне давно нравятся Байесовские сети доверия

Представьте ситуацию: вам нужно воспользоваться оплаченным (как вы думаете) сервисом и вдруг оказывается, что он отключен за неуплату. Такая неприятность портит впечатление от бренда, снижая поток прибыли, а внезапно отключенный клиент может не вернуться к сервису. К старту ку

Есть такой сабреддит /r/nononoyes, где публикуют видео, в которых происходит что-то такое, что, на первый взгляд, кажется ужасно неправильным, идущим к катастрофе. Но в конце всё, чудесным образом, заканчивается хорошо.

В том сабреддите хорошо смотрелась бы команда

[ -z $var
]

Мы, сотрудники GitHub, гордимся тем, что наша платформа обеспечивает тем, кто ей пользуется, первоклассный опыт разработчика (Developer Experience, DX). Значительная часть наших усилий сосредоточена на фронтенде системы, который мы стремимся сделать настолько простым, быстрым и доступным, насколько это возможно. Для проекта таких масштабов, как GitHub, это та ещё задача. В кодовой базе нашего фронтенда, как и во многих

Недавно я, используя React Native, занимался разработкой мобильного приложения для медитации Atomic Meditation. Эта программа помогает тем, кто ей пользуется, выработать привычку медитировать, ежедневно уделяя этому занятию какое-то время. В ходе работы у меня появились серьёзные причины приступить к изуч

Сегодня мы хотим познакомить вас с проектом Lego Microscope. Цель этого проекта заключается в том, чтобы предоставить всем желающим инструкции и ресурсы по сборке собственного микроскопа из кубиков LEGO.

В наши дни понятие DevOps у всех на слуху. Это организационный подход, широко используемый для ускорения разработки и развёртывания приложений. Организации внедряют у себя практики DevOps, так как они обещают дать тем, кто их использует, всё лучшее, что существует в мире разработки ПО, причём на всех этапах работы от планирования и тестирования, до развёртывания и мониторинга проектов. В реализации практик DevOps важну

	Русский
	English

Перевод Регрессия и линейные комбинации векторов

Простой стохастический градиентный спуск

Ядра и регуляризация

Сейчас читают

Блог компании ruvds.com

Чем кальциевые аккумуляторы отличаются от гибридных?

Миниатюрный датчик качества воздуха на батарейке с e-ink экраном

Перевод Оптимизация веб-графики в 2021 году

Перевод Мы стоим на пороге кризиса Фальшивой науки

Перевод Почему я всё ещё люблю C, но при этом терпеть не могу C?

Перевод Практический взгляд на Raspberry Pi Pico с точки зрения STM32

Алгоритмы

Powershell настоящий язык программирования. Скрипт оптимизации рутины в техподдержке

Геопространственное моделирование с применением методов машинного обучения

Как я пытался придумать новый подход к изучению алгоритмов через интерактивные визуализации

Исследование операций

Запросить 100 серверов нельзя оптимизировать код. Ставим запятую

Как синхронизировать сценарий без транзакций? Штатными средствами Java

Математика

Перевод Наглядно о том, почему трансформеры работают настолько хорошо

Компьютерное доказательство теории конденсированной математики первый шаг к великому объединению

Перевод Plt0.05, и откуда оно (иногда) берётся

Log-Sum-Exp Trick как свойства функций делают работу классификаторов реальной

Оцениваем открытые и коммерческие цифровые модели рельефа

Тайна списка шумерских царей. Часть 1. Машина времени

Машинное обучение

Стоит ли смотреть в сторону Data science?

Перевод Учимся понимать таблицы на меньшем объеме данных

Распознавание эмоций в записях телефонных разговоров

БСД, или как легко объяснить финансистам их же задачи в терминах машинного обучения

Перевод Оптимизация платежей в Dropbox при помощи машинного обучения

Log-Sum-Exp Trick как свойства функций делают работу классификаторов реальной

Ruvds_переводы

Перевод О неоправданно хорошей работе -z var

Перевод Использование веб-компонентов при работе над GitHub

Перевод Регрессия и линейные комбинации векторов

Перевод Рассказ о том, почему в 2021 году лучше выбирать TypeScript, а не JavaScript

Перевод Собственный микроскоп из кубиков LEGO

Перевод Запуск тестов Selenium в Jenkins

Категории

Последние комментарии