Косинусное подобие - Cosine similarity

Косинусное сходство - это мера сходства между двумя ненулевыми векторами внутреннего пространства продукта . Он определяется как равный косинусу угла между ними, который также совпадает с внутренним произведением тех же векторов, нормированных на оба, и имеет длину 1. Из последнего определения следует, что подобие косинуса зависит только от угла между ними. два ненулевых вектора, но не по их величине. Косинусное подобие ограничено интервалом для любого угла. Например, два вектора с одинаковой ориентацией имеют косинусное подобие 1, два вектора, ориентированные под прямым углом друг к другу, имеют подобие 0, а два диаметрально противоположных вектора имеют подобие -1. Косинусное подобие особенно используется в положительном пространстве, где результат аккуратно ограничен . Название происходит от термина «направляющий косинус»: в этом случае единичные векторы максимально «похожи», если они параллельны, и максимально «несхожи», если они ортогональны (перпендикулярны). Это аналогично косинусу, который равен единице (максимальное значение), когда сегменты образуют нулевой угол, и нулю (некоррелирован), когда сегменты перпендикулярны.

Эти ограничения применимы для любого количества измерений, а косинусное подобие чаще всего используется в многомерных положительных пространствах. Например, при поиске информации и интеллектуальном анализе текста каждому термину условно назначается другое измерение, а документ характеризуется вектором, где значение в каждом измерении соответствует количеству раз, когда термин появляется в документе. Таким образом, косинусное сходство дает полезную меру того, насколько похожими могут быть два документа с точки зрения их предмета.

Этот метод также используется для измерения сплоченности кластеров в области интеллектуального анализа данных .

Одним из преимуществ косинусного подобия является его низкая сложность , особенно для разреженных векторов : нужно учитывать только ненулевые измерения.

Другие названия косинусного подобия - это сходство Оркини и коэффициент конгруэнтности Такера ; Сходство Оцука-Очиай (см. Ниже) - это косинусное сходство, применяемое к двоичным данным.

Определение

Косинус двух ненулевых векторов может быть получен с помощью формулы евклидова скалярного произведения :

Для двух векторов атрибутов, A и B , косинусное сходство, cos (θ) , представляется с помощью скалярного произведения и величины как

где и - компоненты вектора и соответственно.

Результирующее подобие варьируется от -1, что означает точно противоположное, до 1, означающего точно такое же, с 0, указывающим ортогональность или декорреляцию , а промежуточные значения указывают на промежуточное сходство или несходство.

Для сопоставления текста векторы атрибутов A и B обычно являются векторами частотности терминов документов. Косинусное сходство можно рассматривать как метод нормализации длины документа во время сравнения.

В случае поиска информации косинусное сходство двух документов будет находиться в диапазоне от 0 до 1, поскольку частота терминов не может быть отрицательной. Это остается верным при использовании весов tf – idf . Угол между двумя частотными векторами не может быть больше 90 °.

Если векторы атрибутов нормализованы путем вычитания средних векторов (например, ), мера называется центрированным косинусным подобием и эквивалентна коэффициенту корреляции Пирсона . Для примера центрирования

Термин косинусное расстояние используется для дополнения косинусного подобия в положительном пространстве, то есть

Однако важно отметить, что косинусное расстояние не является надлежащей метрикой расстояния, поскольку оно не обладает свойством неравенства треугольника - или, более формально, неравенством Шварца - и нарушает аксиому совпадения; чтобы исправить свойство неравенства треугольника при сохранении того же порядка, необходимо преобразовать в угловое расстояние.

Угловое расстояние и подобие

Нормализуется углом, называемый угловым расстоянием между любыми двумя векторами и является формальным показателем расстояния и может быть вычислен из косинуса подобия. Дополнение к метрике углового расстояния затем можно использовать для определения функции углового подобия, ограниченной от 0 до 1 включительно.

Когда элементы вектора могут быть положительными или отрицательными:

Или, если элементы вектора всегда положительны:

-нормированное евклидово расстояние

Другой эффективный прокси для косинусного расстояния может быть получен путем нормализации векторов с последующим применением нормального евклидова расстояния. Используя этот метод, каждый член в каждом векторе сначала делится на величину вектора, в результате чего получается вектор единичной длины. Тогда ясно, что евклидово расстояние по конечным точкам любых двух векторов является правильной метрикой, которая дает тот же порядок, что и косинусное расстояние для любого сравнения векторов, и, кроме того, позволяет избежать потенциально дорогостоящих тригонометрических операций, необходимых для получения правильного метрическая. После нормализации векторное пространство можно использовать с полным набором методов, доступных для любого евклидова пространства, в частности, стандартными методами уменьшения размерности. Это нормализованное расстояние формы, в частности, используется во многих алгоритмах глубокого обучения.


Коэффициент Оцука-Очиай

В биологии существует аналогичная концепция, известная как коэффициент Оцука-Очиай, названный в честь Яносуке Оцука (также пишется как Оцука , Оцука или Отука, японский :大 塚 弥 之 助) и Акира Очиай ( яп .合 明), также известного как Очиаи- Коэффициент Баркмана или Очиай, который можно представить в виде:

Здесь и - множества , а - количество элементов в . Если наборы представлены как битовые векторы, можно увидеть, что коэффициент Оцука-Очиаи совпадает с косинусоидальным подобием.

В недавней книге коэффициент ошибочно приписывают другому японскому исследователю с фамилией Оцука. Путаница возникает из-за того, что в 1957 году Акира Очиаи приписывает коэффициент только Оцуке (имя не упоминается), цитируя статью Икусо Хамаи ( яп .井 生 三), который, в свою очередь, цитирует оригинальную статью Яносуке Оцука 1936 года.

Характеристики

Наиболее примечательным свойством косинусного сходства является то, что оно отражает относительное, а не абсолютное сравнение отдельных векторных измерений. Для любых констант и вектора векторы и максимально похожи. Таким образом, эта мера наиболее подходит для данных, где частота более важна, чем абсолютные значения; в частности, частота употребления терминов в документах. Однако более современные метрики, основанные на теории информации, такие как Jensen-Shannon , SED и Triangular Divergence, показали улучшенную семантику по крайней мере в некоторых контекстах.

Косинусное сходство связано с евклидовым расстоянием следующим образом. Обозначим евклидово расстояние обычным образом и заметим, что

путем расширения . Когда A и B нормализованы к единице длины, это выражение равно

Евклидово расстояние называется хордовым расстоянием (потому что это длина хорды на единичной окружности), и это евклидово расстояние между векторами, которые были нормированы на единичную сумму квадратов значений внутри них.

Нулевое распределение: для данных, которые могут быть как отрицательными, так и положительными, нулевое распределение косинусного сходства является распределением скалярного произведения двух независимых случайных единичных векторов . Это распределение имеет среднее значение , равное нулю , и дисперсия из (где это число измерений), и хотя распределение ограничена между -1 и +1 , как растет большое распределение все более хорошо аппроксимировать нормальным распределением . Другие типы данных, такие как потоки битов , которые принимают только значения 0 или 1, нулевое распределение принимает другую форму и может иметь ненулевое среднее значение.

Мягкая косинусная мера

Мягкий косинус или («мягкое» сходство) между двумя векторами учитывает сходство между парами объектов. Традиционное косинусное сходство рассматривает функции модели векторного пространства (VSM) как независимые или совершенно разные, в то время как мягкая косинусная мера предлагает учитывать сходство функций в VSM, что помогает обобщить концепцию косинуса (и мягкого косинуса), а также идею (мягкого) сходства.

Например, в области обработки естественного языка (NLP) сходство между функциями довольно интуитивно. Такие функции, как слова, n -граммы или синтаксические n -граммы, могут быть очень похожими, хотя формально они считаются разными функциями в VSM. Например, слова «играть» и «игра» - это разные слова и, таким образом, сопоставлены с разными точками в VSM; тем не менее они семантически связаны. В случае n -грамм или синтаксических n -грамм может применяться расстояние Левенштейна (фактически, расстояние Левенштейна может применяться и к словам).

Для вычисления мягкого косинуса матрица s используется для обозначения сходства между функциями. Его можно рассчитать с помощью расстояния Левенштейна, сходства WordNet или других мер сходства . Затем мы просто умножаем на эту матрицу.

Для двух N -мерных векторов и мягкое косинусное подобие вычисляется следующим образом:

где s ij = сходство (признак i , признак j ) .

Если нет подобия между функциями ( s ii = 1 , s ij = 0 для ij ), данное уравнение эквивалентно традиционной формуле косинусного подобия.

Время сложность этой меры является квадратной, что делает его применимым для реальных задач. Обратите внимание, что сложность может быть снижена до субквадратичной. Эффективная реализация такого мягкого косинусного подобия включена в библиотеку с открытым исходным кодом Gensim .

Смотрите также

использованная литература

внешние ссылки