Русский
Русский
English
Статистика
Реклама

Энтропия

Скользкие термины

12.10.2020 18:16:09 | Автор: admin

Существует пара терминов, на которых я вот лично я постоянно спотыкаюсь. Приходится в сотый, двухсотый, трехсотый раз гуглить и вчитываться, но через некоторое время прочитанное благополучно выветривается из головы. Это при том, что другие незнакомые термины я осваиваю без видимых усилий, но с этими двумя извечная закавыка.

Эти не подлежащие запоминанию термины энтропия и сингулярность.

К чему я сообщаю о личной проблеме? Хочу озвучить одну не самую популярную мысль, а именно: процесс запоминания зависит не столько от индивидуальных качеств человеческой памяти, сколько от предмета запоминания в данном случае самих терминов.

Идея состоит в следующем.

Как известно, одни термины определяются при помощи других то есть одни слова определяются другими словами, при этом никаких первоначальных слов с установленным значением нет.

Первоначально существует физический мир, разделенный на физические объекты: каждый объект индивидуален ему можно дать имя, при этом разночтений не возникнет, если только в определении границ физического объекта.

Если договориться называть человека Васей Петровым, этот человек и будет Васей Петровым: спорить можно только о том, являются ли, скажем, отрезанные в парикмахерской волосы Васи Петрова его частью, или это уже не Вася Петров. А если отрезать не волосы, а палец, является ли отрезанный палец Васей Петровым? Или, формулируя задачу в общем виде: если разрезать Васю Петрова надвое, обе части будут Васей Петровым или одна, а если одна, то какая именно другими словами, в какой части физического тела находится идентификационное средоточие Васи Петрова? Но пока Вася Петров относительно цел, вопроса с идентификацией не возникает.

Далее, на основе схожих характеристик можно вычленять группы объектов и именовать их. Здесь разночтения уже возможны, ведь некоторые из характеристик физических объектов не являются дискретными.

Женщина, родившая ребенка, однозначно является его матерью. Но если делить людей на высоких и низких, необходимо произвольно установить границу деления. Допустим, граница установлена в 180 см. В таком случае между двумя людьми, высоким и низким, может быть разница всего 2 см (170 и 181 см), тогда как между двумя высокими людьми гораздо больше (например, 181 и 201 см).

Наконец, существуют абстрактные понятия (дружба, преданность, доверие и т.п.), которые так просто вообще не охарактеризуешь, слишком сложны, неоднозначны, а зачастую и индивидуальны критерии, по которым они образованы. Тем не менее даже абстрактные понятия термины высшего порядка имеют свои значения, завязанные на множестве терминов низшего порядка.

Таким образом, в человеческом мозгу образуется сложная система взаимосвязей между десятками тысяч терминов, которыми человек на протяжении жизни пользуется. Все эти термины взаимозависимы завязаны друг на друга. Если в имеющуюся сложную систему вводить новый термин, он должен лечь на предназначенное ему пустое место, причем согласованно со смежными понятиями, иначе вводимый термин в устоявшуюся систему не запишется.

Вы правильно поняли: я подозреваю, что не в силах запомнить значения терминов энтропия и сингулярность по той причине, что они некорректно ложатся на терминологическую систему в моем мозгу. Предлагаю злополучные термины вкратце проанализировать, для чего использовать определения Википедии.

Вот самая вменяемая фраза Википедии по поводу энтропии.
В широком смысле, в каком слово часто употребляется в быту, энтропия означает меру сложности, хаотичности или неопределённости системы: чем меньше элементы системы подчинены какому-либо порядку, тем выше энтропия.

Прежде всего, мне как правоверному обывателю неясно, что значит: элементы системы подчинены какого-либо порядку мутная какая-то фраза, совершенно ненаучная! Если элементы существуют в рамках системы, они и действуют в рамках этой системы, а если начинают действовать вопреки системе, то из системы выпадают либо разносят ее вдребезги. Убей Бог, не понимаю соответственно, не могу запомнить.

Это далеко не все. Допустим, энтропия мера хаотичности. Однако, хаотичность термин отрицательный, альтернативный положительному термину упорядоченность. Я к тому, что если уж, вопреки бритве Оккама, приспичило вводить в оборот синонимичный термин следовало вводить не отрицательный термин, а положительный: не меру хаотичности, а меру упорядоченности. Тогда с запоминанием проблем не возникло бы.

Представьте, что в языке отсутствуют понятия обувь и соответственно обутый, а вместо них используются термины отсутствие обуви и разутый легче стало бы воспринимать реальность или тяжелей?

Даже этимология, в иных случаях безотказная, тут не действует.
Энтропия (от др.-греч. в + поворот; превращение)

Положим, я запамятовал значение энтропии, но знаю, что слово произошло от греческих в и поворот сильно мне данное знание поможет?

С энтропией закончил, перехожу к сингулярности.

Вот что сообщает по поводу сингулярности Википедия:
Сингулярность (от лат. singularis единственный, особенный)
Сингулярность в философии единичность существа, события, явления
Математическая сингулярность (особенность) точка, в которой математическая функция стремится к бесконечности или имеет какие-либо иные нерегулярности поведения.
Гравитационная сингулярность (сингулярность пространства-времени) область пространства-времени, через которую невозможно гладко продолжить входящую в неё геодезическую линию.
Космологическая сингулярность состояние Вселенной в начальный момент Большого взрыва, характеризующееся бесконечной плотностью и температурой вещества.
Технологическая сингулярность гипотетический момент, по прошествии которого технический прогресс станет настолько быстрым и сложным, что окажется недоступным пониманию.

Тут по крайней мере этимология понятна, хотя все равно ничего не объясняет, за счет слишком разнородного употребления.

Философия: существуют привычные единичность и уникальность на кой черт потребовалась сингулярность? К слову, в юности я почитывал философские труды, но сингулярности что-то не вспоминается.

Математика: математическим аппаратом не владею, поэтому судить не берусь. Допускаю, что в математике употребление данного термина строго формально, следовательно, корректно.

Гравитация: не понимаю от слова вообще. Зато хорошо знаю, что сказки о четырехмерном пространстве-времени не имеют под собой научного основания. Время не четвертая пространственная координата, упаси Боже. Как можно спутать?

Космология: не верую ни в какую теорию Большого взрыва (возражение стандартное: если сначала ничего не было, то что взорвалось-то?), но дело не в этом. Зачем потребовалось обзывать начальный момент Большого взрыва сингулярностью? Не иначе, из-за красивости данного определения.

Технология: по крайней мере, значение понятно. Но опять звучный наукообразный термин, этимология которого не имеет никакого отношения к приданному значению. Зачем сделано чтобы в голове каша образовалась?

Как видим, сингулярностью именуются совершенно различные, не имеющие отношения друг к другу и этимологии данного слова сущности. И что удивительного в том, что моя память наотрез отказывается помещать данную эклектичную ахинею в продуманную устоявшуюся понятийную систему?!

Подозреваю, что данной умственной особенностью не один я страдаю если кто-то подтвердит подозрения, мне станет значительно легче. Впрочем, я и без подтверждения уверен: с энтропией и сингулярностью дело нечисто.
Подробнее..

Перевод Парадоксы чёрных дыр раскрывают фундаментальную связь между энергией и порядком

16.06.2020 14:11:48 | Автор: admin
Разбираясь с вопросами, которые ставят перед наукой экстремальные чёрные дыры, физики выявили удивительную и универсальную связь между энергией и энтропией.


Экстремальные чёрные дыры содержат столько электрического заряда, сколько возможно. Это привлекло пристальное внимание физиков-теоретиков.

Физики любят крайности, говорит Гарретт Гун, физик из Университета Карнеги-Меллона. Если не получается двигаться дальше, что-то изменилось, застопорилось значит, там кроется что-то интересное.
EDISON Software - web-development
Компания EDISON всегда рада помочь в исследовательских бизнес-проектах.


На протяжении многих лет мы делаем инвестиции в стартапы, помогая средствами и технической поддержкой в реализации свежих нестандартных идей.

Речь не только о том, чтобы дать взаймы. Мы готовы разделить риски и активно содействовать в создании чего-то нового.
Десятилетиями чёрные дыры играли ведущую роль в мысленных экспериментах, с помощью которых физики исследуют крайности природы. Эти невидимые сферы образуются, когда материя становится настолько сконцентрированной, что всё находящееся на определённом расстоянии, даже свет, попадает в ловушку её гравитации. Альберт Эйнштейн сравнил силу тяжести с кривыми в пространственно-временном континууме, но кривизна настолько возрастает при приближении к центру чёрной дыры, что уравнения Эйнштейна перестают работать. Таким образом, поколения физиков обращались к чёрным дырам за подсказками об истинном, квантовом происхождении гравитации, которое должно стать гармоничной красивой теорией и в целом соответствовать идеям Эйнштейна в любом месте Вселенной.

Концепцию испаряющихся чёрных дыр для познания квантовой гравитации предложил Стивен Хокинг. В 1974 году британский физик подсчитал, что квантовая рябь на поверхностях чёрных дыр заставляет их испаряться, медленно уменьшаясь в размерах с выделением тепла. С тех пор испарение чёрных дыр стало основой исследования квантовой гравитации.

Совсем недавно физики рассмотрели крайность из крайностей сущности, называемые экстремальными чёрными дырами и выявили многообещающую проблематику.

Чёрная дыра становится электрически заряженной, если в неё падает заряженная материя. Физики рассчитали, что чёрные дыры имеют так называемый экстремальный предел, точку насыщения, когда они хранят максимальное количество электрического заряда для своего размера. Когда заряженная чёрная дыра сжимается под воздействием излучения Хокинга, она в конечном итоге достигает данного экстремального предела. Он будет настолько мал, насколько это возможно, с учётом величины заряда. Дальнейшее испарение невозможно.

Но идея о том, что экстремальная чёрная дыра перестаёт испаряться и с того момента просто неизменна, неправдоподобна, утверждает Грант Реммен, физик из Калифорнийского университета в Беркли. В этом случае вселенная далёкого будущего будет усеяна крошечными неразрушимыми остатками чёрных дыр любых чёрных дыр, потому что даже лёгкое прикосновение к чёрной дыре после испарения превратит её в экстремальную. Неизвестны какие-либо фундаментальные условия, при которых эти чёрные дыры навсегда были бы защищены от окончательного разрушения, поэтому физики не думают, что такое стационарное состояние может длиться вечно.


Итак. Есть вопрос, как сказала Сера Кремонини из Университета Лихай: Что происходит со всеми этими экстремальными чёрными дырами?

Физики обоснованно полагают, что экстремальные чёрные дыры должны в конечном итоге распасться, разрешая парадокс, но каким-то иным путём, помимо испарения Хокинга. Изучение гипотетических возможностей в последние годы привело исследователей к основным подсказкам о квантовой гравитации.

Четыре физика в 2006 году пришли к выводу, что если экстремальные чёрные дыры способны распасться, это значит, что гравитация должна быть самым слабым взаимодействием в любой возможной вселенной, что являлось сильным утверждением об отношении квантовой гравитации к другим квантовым силам. Этот вывод привлёк более пристальное внимание к судьбам экстремальных чёрных дыр.

Затем, два года назад, Реммен и его коллеги Клиффорд Чунг и Джунью Лю из Калифорнийского технологического института обнаружили, что способность распадаться экстремальных чёрных дыр напрямую зависит от другого ключевого свойства черных дыр: их энтропии мере того, сколькими различными способами составные части объекта могут быть переставлены. Энтропия одна из наиболее изученных особенностей чёрных дыр, но до этого она не имела ничего общего с их экстремальным пределом. Это прям вау, отлично, что две очень крутые вещи оказались взаимосвязаны, говорит Чунг.

И что окончательно поразило, эта взаимосвязь, как оказалось, характерна для любых природных явлений. В статье, опубликованной в марте в Physical Review Letters, Гун и Риккардо Пенко обобщили выводы своей предыдущей работы, доказав простую универсальную формулу, связывающую энергию и энтропию. Новая формула была применена к газообразной системе, а также к чёрной дыре.


Риккардо Пенко (слева) и Гаррет Гун (справа) на примере экстремальных чёрных дыр доказали универсальную связь между энергией и энтропией.
Университет Карнеги Меллон; Фото Кристин Гун


Согласно последним исследованиям, мы действительно продвинулись в изучении квантовой гравитации, говорит Гун, Но, что ещё интереснее, узнаём нечто новое и о более повседневных вещах.

Экстремальность чёрных дыр


Для физиков достаточно очевидно, что заряженные чёрные дыры имеют экстремальный предел. Объединяя уравнения Эйнштейна и уравнения Максвелла, они рассчитали, что заряд Q чёрной дыры, никогда не превзойдёт её массу M, если их преобразовать в одни и те же фундаментальные единицы измерения. Вместе масса и заряд чёрной дыры определяют её размер радиус горизонта событий. Между тем, заряд чёрной дыры также создает второй внутренний горизонт, скрытый за горизонтом событий. По мере увеличения Q внутренний горизонт чёрной дыры расширяется, а горизонт событий сжимается до тех пор, пока при Q = M оба горизонта не совпадут.

Если Q увеличится ещё больше, радиус горизонта событий станет комплексным числом (содержащий квадратный корень из отрицательного числа), а не вещественным. Это нефизично (This is unphysical). Итак, согласно простому сочетанию теории электромагнетизма и эйнштейновской гравитации, состояние Q = M должно быть пределом.

Когда чёрная дыра достигнет этой точки, простым вариантом для дальнейшего разделения было бы распад на две меньшие чёрные дыры. Однако для того, чтобы подобное расщепление было возможно, законы сохранения энергии и сохранения заряда требуют, чтобы в одном из дочерних объектов в итоге заряд превалировал над массой. Исходя из уравнений Эйнштейна и Максвелла, это невозможно.


Инфографика от 5W для журнала Quanta

Но, в конце концов, разделение экстремальных чёрных дыр на две части возможно, как указали в 2006 году Нима Аркани-Хамед, Любос Мотл, Альберто Николис и Кумрун Вафа. Они отметили, что объединённые уравнения Эйнштейна и Максвелла не работают для маленьких, сильно искривлённых чёрных дыр. В меньших масштабах дополнительные нюансы, связанные с квантово-механическими свойствами гравитации, приобретают большую важность. Эти детали вносят поправки в уравнения Эйнштейна-Максвелла, корректируя прогнозируемый экстремальный предел. Четыре физика показали, что чем меньше чёрная дыра, тем весомее эти поправки, в результате чего экстремальный предел смещается всё дальше и дальше от Q = M.


Исследователи также отметили, что если корректировки имеют нужный знак положительный, а не отрицательный тогда маленькие чёрные дыры могут содержать больше заряда, чем массы. Для них Q > M, и это именно то, что нужно для распада больших экстремальных чёрных дыр.

Если это так, то не только чёрные дыры могут распасться. Аркани-Хамед, Мотл, Николис и Вафа отметили, что из этого следует еще один факт о природе: гравитация должна быть самой слабой силой. Заряд объекта Q это его чувствительность к любому взаимодействию, кроме силы тяжести. Его масса М это его чувствительность к гравитации. Таким образом, Q > M означает, что из обеих сил гравитация является слабейшей.

Исходя из своего предположения о том, что чёрные дыры способны распадаться, четыре физика обобщили гипотезу, предположив, что гравитация должна быть самой слабой силой в любой жизнеспособной вселенной. Другими словами, объекты с Q > M всегда будут существовать для любого вида заряда Q, независимо от того, являются ли эти объекты частицами, такими как электроны (которые действительно имеют гораздо большие электрические заряды, чем их масса), или маленькими чёрными дырами.

Эта гипотеза слабой гравитации получила широкое распространение, поддерживая ряд других идей о квантовой гравитации. Но Аркани-Хамед, Мотл, Николис и Вафа не доказали, что Q > M или что экстремальные чёрные дыры могут распадаться. Поправки квантовой гравитации к экстремальному пределу могут быть отрицательными, и в этом случае маленькие чёрные дыры могут нести даже меньший заряд на единицу массы, чем большие. Экстремальные чёрные дыры не распались бы, и гипотеза о слабой гравитации не оправдалась.

Все это означало, что исследователям нужно было выяснить, каков на самом деле знак корректировок квантовой гравитации.

Беспорядок повсюду


Вопрос о квантовых гравитационных корректировках поднимался и ранее, в другой, казалось бы, не связанной теме по изучению чёрных дыр.

Почти 50 лет назад ныне покойные физики Джейкоб Бекенштейн и Стивен Хокинг независимо друг от друга обнаружили, что энтропия чёрной дыры прямо пропорциональна площади её поверхности. Энтропия, обычно рассматривается как мера беспорядка, она оценивает количество способов, которыми внутренние части объекта могут быть перестроены без какого-либо изменения общего состояния. (Если комната грязная, т.е., с высокой энтропией, вы можете перемещать предметы случайным образом, и комната останется настолько же грязной; в противоположном случае, если комната чистая, т.е. с низкой энтропией, перемещение предметов сделает её менее аккуратной.) Перебросив мостик между энтропией чёрной дыры, которую определяют её внутренние микроскопические компоненты, и её геометрической площадью поверхности, закон энтропии Бекенштейна и Хокинга стал одной из самых сильных опор физиков для изучения чёрных дыр и квантовой гравитации.

Бекенштейн и Хокинг вывели свой закон, применив уравнения гравитации Эйнштейна (вместе с законами термодинамики) к поверхности чёрной дыры. Они рассматривали эту поверхность как гладкую и игнорировали любые структуры, существующие в микроскопических масштабах.

В 1993 году физик Роберт Уолд из Чикагского университета показал, что можно добиться большего. Уолд нашёл хитрые лазейки для получения небольших эффектов, получаемых от более микроскопических уровней реальности, не зная, каково полное описание этого более глубокого уровня. Его тактика, впервые применённая физиком Кеннетом Уилсоном в другом контексте, заключалась в том, чтобы описывать все возможные физические эффекты. В уравнениях Эйнштейна Уолд показал, как добавить ряд дополнительных факторов любых, имеющих правильные размерности и единицы измерения, построенные из всех физически значимых переменных, которые могли бы описывать неизвестные свойства чёрной дыры на близкой дистанции к её поверхности. Вы можете описать наиболее общий набор элементов, которые у вас могут быть в принципе, которые описывают кривизну [чёрной дыры] определённого размера, сказал Кремонини.


К счастью, этот ряд можно прервать после первых нескольких элементов, поскольку всё более сложные составные части многих переменных мало способствуют окончательному ответу. Даже многие из ведущих членов ряда могут быть вычеркнуты, потому что они имеют неправильную симметрию или нарушают условия согласованности. Это оставляет лишь несколько сущностей любого значения, которые модифицируют уравнения гравитации Эйнштейна. Решение этих новых, более сложных уравнений дает более точные свойства чёрной дыры.

Уолд проделал это в 1993 году, рассчитав, как квантовые гравитационные эффекты на малых расстояниях корректируют закон энтропии Бекенштейна-Хокинга. Эти поправки смещают энтропию чёрной дыры, таким образом, что она становится не точно пропорциональна площади. И хотя невозможно вычислить энтропийный сдвиг напрямую участвуют переменные с неизвестными значениями ясно, что поправки тем значительнее, чем меньше чёрная дыра, и, следовательно, тем больше энтропийный сдвиг.

Три года назад Чунг, Лю и Реммен применили один и тот же базовый подход Уолда к изучению заряженных чёрных дыр и экстремального предела. Они модифицировали уравнения Эйнштейна-Максвелла серией дополнительных членов, возникающих из-за эффектов на близком расстоянии, и решили новые уравнения, чтобы вычислить новый скорректированный экстремальный предел. Это привело к удивительному результату: поправки к экстремальному пределу заряженной чёрной дыры точно соответствовали поправкам к её энтропии, рассчитанным по формуле Уолда; квантовая гравитация неожиданно сдвигает обе величины одинаково.

Реммен помнит дату, когда они завершили расчет 30 ноября 2017 года потому что это было так увлекательно, вспоминает он. Это было очень захватывающе, когда мы доказали, что эти [дополнительные] элементы дают одинаковые сдвиги и энтропии и экстремальности.


Грант Реммен, Клиффорд Чунг и Джунью Лю обнаружили, что изменение экстремального предела чёрной дыры соответствует изменению её энтропии.

Но одинаковый ли знак у этих сдвигов? Обе поправки зависят от неопределённых переменных, поэтому в принципе они могут быть как положительными, так и отрицательными. В своей статье 2018 года Чунг и его коллеги подсчитали, что энтропийный сдвиг является положительным в большом классе сценариев и моделей квантовой гравитации. Они утверждают, что также интуитивно понятно, что сдвиг энтропии должен быть положительным. Напомним, что энтропия измеряет все возможные внутренние состояния чёрной дыры. Кажется разумным, что учёт более микроскопических деталей поверхности чёрной дыры выявит новые возможные состояния и, следовательно, приведет к большей энтропии, а не к меньшей. Чем больше микросостояний тем более правдоподобной будет теория, сказал Реммен.

Если это так, то сдвиг в экстремальном пределе также является положительным, что позволяет меньшим чёрным дырам хранить больше заряда по отношению к массе. В этом случае чёрные дыры всегда могут распасться на более лёгкие, сказал Чунг, добавив, что гипотеза слабой гравитации верна.

Но другие исследователи указывают на то, что эти результаты не являются прямым доказательством гипотезы о слабой гравитации. Гэри Шиу, физик-теоретик из Университета Висконсина в Мэдисоне, сказал, что вера в то, что энтропия всегда должна возрастать, когда вы принимаете во внимание квантовую гравитацию, это интуитивный вывод, с которым кто-то согласен, а кто-то нет.

Шиу привёл контрпримеры: нереалистичные модели квантовой гравитации, в которых благодаря аннулированию эффектов на коротких расстояниях уменьшается энтропия чёрных дыр. В этих моделях нарушается причинность или другие фундаментальные принципы, но, по мнению Шиу, смысл в том, что вновь найденная связь с энтропией сама по себе не доказывает, что экстремальные чёрные дыры всегда могут распадаться или что гравитация всегда является самой слабой силой.

А вообще доказать [гипотезу о слабой гравитации] это было бы просто фантастически, добавил Шиу. Именно поэтому мы всё ещё думаем об этой проблеме.


Запретное болотное царство


Гравитация является самой слабой из четырёх фундаментальных взаимодействий в нашей вселенной. Гипотеза о слабой гравитации утверждает, что иначе и быть не могло. Помимо нашей вселенной, гипотеза также, кажется, верна для любых теоретически возможных вселенных, выводимых из теории струн. Кандидат в квантовую теорию гравитации, теория струн, утверждает, что частицы это не точки, а протяженные объекты (т.н. струны), и что пространство-время в микроскопических масштабах также имеет дополнительные измерения. Когда теоретики описывают различные наборы струн, которые могут определять вселенную, они неизменно обнаруживают, что гравитация которая возникает из определённого типа струн всегда является самой слабой силой в этих модельных вселенных. Видеть, что это в конечном итоге происходит раз за разом, очень поразительно, делится Хорхе Сантос, физик из Института перспективных исследований в Принстоне, Нью-Джерси и Кембриджском университете.

Гипотеза о слабой гравитации является одной из наиболее важных в наборе гипотез болотных царств, выдвинутых физиками за последние два десятилетия. Это спекулятивные утверждения, основанные на мысленных экспериментах и примерах, о том, какие виды вселенных возможны и невозможны. Исключая невозможные варианты вселенных (помещая их в бесполезное болотное царство), болотные теоретики стремятся выяснить, почему наша вселенная такая, какая она есть.

Если бы исследователи смогли доказать, что гравитация неизбежно является самой слабой (и, как следствие, что чёрные дыры всегда могут разрушиться), то самый важный вывод, по мнению Сантоса, состоит в том, что квантовая гравитация должна стать теорией великого объединения. То есть, если Q и M должны иметь фиксированное соотношение, их связанные силы должны быть частью одной единой математической структуры. Сантос отметил, что единственной существующей теорией, которая объединяет фундаментальные силы в единую структуру, является теория струн. Конкурирующие подходы, такие как петлевая квантовая гравитация, пытаются квантовать гравитацию, разделяя пространство-время на части, не связывая гравитацию с другими силами. Если гипотеза слабой гравитации верна, то такие вещи, как петлевая квантовая гравитация, мертвы, сказал Сантос.

Хорхе Пуллин, теоретик петлевой квантовой гравитации в Университете штата Луизиана, считает что мёртвый это слишком сильно сказано. Этот подход сам по себе может быть частью более широкой объединённой теории, говорит он: Петлевая квантовая гравитация не исключает объединяющую структуру, просто мы пока не ставили это в повестку дня.


Гипотеза о слабой гравитации также взаимно усиливает некоторые другие гипотезы о болотных царствах, в том числе о роли симметрии и расстояния в квантовой гравитации. Согласно Шиу, логическая связь между этими гипотезами даёт нам некоторую уверенность в том, что, хотя эти заявления сделаны в виде предположений, за ними может скрываться универсальная истина.

Шиу сравнил наше нынешнее, приблизительное понимание квантовой гравитации с первым периодом развития квантовой механики. Было много догадок, много прыжков веры в то, что является правильной теорией субатомного мира, сказал он. В конце концов, многие из этих догадок оказались частью нынешней широкомасштабной картины.

Универсальная Энергия и Беспорядок


Новое исследование может иметь далеко идущие последствия не только в изучении чёрных дыр и квантовой гравитации.

В своей мартовской статье Гун и Пенко уточнили расчёт поправок энтропии и экстремальности чёрной дыры. Вместо того, чтобы использовать понятия, связанные с гравитацией и геометрией поверхности чёрной дыры, они рассчитали поправки исключительно в терминах универсальных термодинамических величин, таких как энергия и температура. Это позволило им обнаружить термодинамическую связь между энергией и энтропией, которая обычно наблюдается в природе.

Эта взаимосвязь просто прекрасна, говорит Сантос.

В случае с чёрными дырами формула учёного дуэта (Гун и Пенко) говорит о том же, что уже доказали Чунг, Реммен и Лю: это квантовая гравитация сдвигает экстремальный предел чёрных дыр (позволяя им хранить больше заряда по отношению к массе) и смещает их энтропию на пропорциональную величину. Другой способ описания дополнительной вместимости, обусловленной квантовой гравитацией, заключается в том, что чёрная дыра с фиксированным зарядом может иметь меньшую массу. Масса является формой энергии, и поэтому данное уменьшение массы можно рассматривать в более общем смысле как сдвиг в количестве энергии. Что обратно пропорционально сдвигу в значении энтропии.

В то время как для чёрной дыры равные и противоположные смещения в значениях энергии и энтропии происходят под влиянием неизвестных факторов квантовой гравитации, эквивалентная ситуация характерна для любой физической системы вблизи её экстремального предела.

Например, газ становится экстремальным при охлаждении до абсолютного нуля. Термодинамическая формула Гуна и Пенко говорит, что любые изменения в физике газа на микроскопическом уровне (например, когда речь идёт о типах атомов, которые его составляют) вызывают сдвиги в его энергии и энтропии, как с противоположными знаками, так с совпадающими. Гун предположил, что связь между энергией и энтропией может быть полезна в исследованиях ультрахолодных газов и других криогенных экспериментах, потому что иногда одно вычислить легче, чем второе.

Независимо от того, окажется ли эта взаимосвязь энтропия/энергия полезной в более приземлённых областях физики, у исследователей ещё очень много работы, чтобы изучить её в контексте чёрных дыр и её значение для природы гравитации.

Сможем ли мы ответить на вопрос: почему гравитация так слаба?- сказал Чунг. Тот факт, что этот вопрос один из главных, тот факт, что на этот вопрос можно чётко ответить, не вдаваясь в философские рассуждения, и тот факт, что он таким окольным путём приводит к энтропии (причём, путём, проверенным временем), в результате всего этого все эти увлекательные вещи о чёрных дырах кажутся каким-то безумием.
Подробнее..

Перевод Напишем и поймем Decision Tree на Python с нуля! Часть 5. Информационная энтропия

09.11.2020 12:16:47 | Автор: admin
Данная статья пятая в серии. Ссылки на предыдущие статьи: первая, вторая, третья, четвертая

5.1 Информационная энтропия (Средний объем информации)


При создании дерева решений из данных алгоритм ID3 использует индекс, называемый информационной энтропией, чтобы определить, какой атрибут следует использовать для ветвления с наиболее эффективным распределением данных.

В начале, определимся с понятием объем информации. Интуитивно понятно, что объем данных = сложность, запутанность данных. Дерево решений собирает данные с одинаковыми значениями классов с каждого ветвления, таким образом снижая степень запутанности значений класса. Следовательно, при выборе атрибута, согласно которому лучше всего проводить ветвление, опираться стоит на то, насколько простыми стали данные после разветвления.

5.1.1 Определяем понятие объем информации


Объем данных, по сути, это ценность полученной информации.
Предположим, что информация о явлениях с низкой вероятностью возникновения (например, данные, согласно которым произойдет то или иное явление), встречается гораздо чаще, чем информация о событиях, которые произойдут с высокой вероятностью.

Например, знание правильного ответа из пяти предложенных вариантов, по объему информации больше, чем знание правильного ответа из двух вариантов.

И для того, чтобы передать это знание другому человеку, представим, что оно закодировано как двоичное число и отправлено по каналу связи. В данном случае объем такого сообщения (длина в битах) и будет определяться как объем информации.

image

Когда вероятность того, что событие E произойдет, равна P (E), объем информации I (E), который знает, что событие E произошло, определяется следующим образом.

I(E)=log2(1/P(E))=log2P(E)

5.1.2 Что такое информационная энтропия (средний объем информации)


У любого атрибута есть несколько значений. Например атрибут Погода представлен в 3 вариантах: Ясно, Облачно, Дождь. Среднее значение атрибутов того объема информации, который был получен из каждой вероятности появления события и называется энтропией (средним объемом информации).

В следующей формуле она представления буквой Н.

H=EP(E)log2P(E)

Например, рассчитать значение энтропии 2-ух представленных на рисунке атрибутов, можно следующим образом. Более смешанная, хаотичная левая сторона имеет высокое значение энтропии, по сравнению с черной правой стороной, имеющей низкое значение энтропии.

image

Однако, даже не используя запутанные формулы, из примера сверху можно понять, что правой стороне не хватает сложности, если посмотреть на количество черных точек. Можно, например, рассмотреть случай с добавлением желтой точки, создав тем самым ситуацию с 3 значениями. Информационную энтропию можно вычислить одинаковым образом как для двух значений, так и для трех значений, что делает ее, можно сказать, унифицированной и простой в обращении.

В примере ниже, несмотря на одинаковое количество черных точек с обеих сторон, значение энтропии будет выше на стороне, где присутствуют желтый и красный цвет, нежели чем на стороне, где оставшиеся точки только красные.

image

И алгоритм ID3 ищет значения атрибутов, которые разделяют данные на группы с более низкой энтропией.

5.2 Вычисление информационной энтропии


Информационная энтропия может быть вычислена с помощью следующего лямбда-выражения с DataFrame в качестве ввода и значением энтропии в качестве вывода.

entropy = lambda df:-reduce(lambda x,y:x+y,map(lambda x:(x/len(df))*math.log2(x/len(df)),df.iloc[:,-1].value_counts()))


Так как в данном лямбда-выражении уже присутствует другое лямбда-выражение, можно все немного упорядочить, и получится следующее:

entropy = lambda df:-reduce( #4.reduce создает одно значение из всех элементов массива.    lambda x,y:x+y,#5.Складываем значения энтропии, полученные из индивидуальных значений (9,5).    map( #2.Преобразовываем число (9,5) частотного массива (["": 9, "": 5]) в энтропию согласно следующему лямбда-выражению        lambda x:(x/len(df))*math.log2(x/len(df)),#3.Вычисляем P(E)log2(P(E))        df.iloc[:,-1].value_counts() #1.Частота последнего столбца DataFrameнапример:["":9,"":5]    ))

Данное выражение можно упорядочить следующим образом:

  1. df.iloc[:,-1]извлекает последний столбец DataFrame, а value_counts дает его частотное распределение (пример частотного распределения: ["": 9, "": 5])
  2. map преобразует каждое из значений частотного распределения (например, 9,5) в значения энтропии.
  3. (x / len (df)) * math.log2 (x / len (df)) вычисляет формулу P (E) log2P (E) для одного значения энтропии.
  4. reduce используется для создания единого значения из всех элементов массива. Например, его можно использовать для расчета сумм, средних значений и т. д.
  5. Лямбда-выражение x, y: x + y дает сумму двух аргументов (x, y), то есть сумму массивов. Это часть с сигмой в формуле энтропии (EP(E)log2P(E)). Так как выражение имеет минус в начале, оно также имеет минус перед reduce в программе.

5.2.1 Вычисление информационной энтропии


Информационная энтропия для следующих данных составляет 0,9402859586706309.

d = {"Гольф":["","","","","","","","","","","","","",""]}# Энтропия равна 0.9402859586706309

С другой стороны, в случае, если первые два x изменяются на , станут доминирующими данными (сложность снизится), то энтропия будет равна 0,74959525725948.

d = {"Гольф":["","","","","","","","","","","","","",""]}# Энтропия равна 0.74959525725948

Ниже приведен список всех программ, вычисляющих информационную энтропию.

import pandas as pdfrom functools import reduceimport mathd = {"Гольф":["","","","","","","","","","","","","",""]}df0 = pd.DataFrame(d)entropy = lambda df:-reduce(    lambda x,y:x+y,    map(        lambda x:(x/len(df))*math.log2(x/len(df)),        df.iloc[:,-1].value_counts()    ))print(entropy(df0)) # Вывод 0.9402859586706309

Спасибо за прочтение!

Мы будем очень рады, если вы расскажете нам, понравилась ли вам данная статья, понятен ли перевод, была ли она вам полезна?
Подробнее..

Язык кибернетики. Ищем то, что однозначно

10.05.2021 12:10:00 | Автор: admin

Язык это механизм, который позволяет конструировать все возрастающую сложность из отдельно взятых преобразований. Статья является продолжением идей, которые в свое время высказали кибернетики В. Турчин и Р. Эшби.

Сначала о более фундаментальном. О вещи или явлении как об ограничении разнообразия [1, c 187]

Это ограничение (рис. - консольный вывод программы) таково, что при переходах состояний с учетом операторов оно явно больше, чем без них. В примере: множество состояний {22, 12, 21, 11}, множество операторов {55, 54, 45, 44}. Из состояния 22 следуют состояния 12, 22, 11, 21. Из состояния 12 следуют состояния 22, 11, 12. Из состояния 21 следуют состояния 22, 21. Из состояния 11 следуют состояния 11, 21, 12. Если же известны операторы, неопределенность только в одном месте. Из состояния 11 при операторе 44 следуют как состояние 21, так и состояние 12.

Однозначность, как меру ограничения разнообразия, можно оценить: сумма всех возможных однозначных переходов без учета неизвестного состояния NaN отнесем к всем случившимся переходам. Тогда с учетом знания об операторах коэффициент однозначности примет значение: k=13/(13+1). Если же операторы не учитывать, то k=4/(4+3+2+3). В первом случае коэффициент почти равен 1, что характеризует это преобразование как высоко предсказуемое.

А как оценить предполагаемый выигрыш в битах? Если допустить, что первоначально были неизвестны переходы между состояниями, то из каждого состояния могли бы следовать все четыре состояния. Тогда энтропия была бы равна -log(4/(4+4+4+4)). Для преобразования выше без учета операторов и без NaN уже меньше -log(4/(4+3+2+3)), а с учетом операторов -log(13/(13+1)). Если же первоначально все, включая операторы, рассматривать как состояния, то энтропия значительна -log(8/64). Можно сказать, что последовательность исследования, выраженная в битах, будет: -log(1/8), -log(1/4), -log(1/3), -log(13/14).

Код программы, который сам ищет такое преобразование, понижая неопределенность с -log(1/8) до -log(13/14), в статье не приводится.

Описана только общая логика и она такова, что

  1. Рассматривается множество элементов {55, 54, 45, 44, 22, 12, 21, 11}.

  2. Выдвигаются гипотезы. Берется множество операторов и множество состояний. Записываются переходы между состояниями. Например, ими могут быть: множество операторов {54, 44, 22, 21}, множество состояний {55, 45, 11}. Или как на рисунке: множество операторов {55, 54, 45, 44}, множество состояний {22, 12, 21, 11}.

  3. Цель максимизировать коэффициент однозначности.

В реальном мире все сложней. Мы не знаем заранее какие состояния, и какие операторы рассматривать. Наш внутренний учитель в этом случае то, что сопротивляется энтропии, сопротивляется неопределенности потока данных, обнаруживая преобразования, имеющие предсказательную силу.

Как правило, физические законы имеют коэффициент однозначности единицу. Но выявлять и запоминать только такое значит лишать себя возможности действовать в мире, где эта неопределенность все же присутствует и ее нельзя свести к нулю. Нужен разумный компромисс между 100% предсказуемостью и возможностью действовать, пусть и с ошибками.

Сделав это фундаментальное допущение, посмотрим на мир с точки зрения его имитации. Речь идет о компьютерных играх. Интересны они тем, что число степеней свободы несоизмеримо в них меньше. И тем интересны, что непонятно первоначально как поступать, чтобы добиться цели. Да и сама цель часто не ясна. Что же составляет их сюжетную линию, мозг как всей игры, так и отдельных персонажей? Конечные автоматы [2]. По ссылке на рисунке состояния отмечены кружками, а операторы подписаны стрелками. Это тоже преобразование. Причем с коэффициентом однозначности единица.

Итак, как мы должны поступать, если конечная цель-состояние не известна, а операторы определены? Ответ: Q-learning. Представим комнату, разбитую на множество состояний-квадратов. Где-то находится клад. Сначала мы просто передвигаемся случайно или по принципу иди туда, где меньше всего был [3]. Рано или поздно мы получим вознаграждение в виде найденного клада. В этом случае пометим целевое состояние некоторым положительным числом. В следующий раз при очередных блужданиях по комнате и находясь уже рядом с целью, отметим состояние, ведущее к цели с учетом дисконтирования. Обычно множитель берется немного меньше единицы. Но для наглядности пусть будет вычитание единицы. Так постепенно информация о цели будет распространяться на соседние и все более удаленные состояния. Можно это представить так, что вначале имеем ровную поверхность, а после многочисленного прохождения представляющей точкой по комнате, она создаст в памяти топографическую карту. И на этой карте самой высокой точкой будет сама цель. И правило, по которому оптимально нужно перемещаться к цели двигаться в сторону возрастания числа, то есть выбирать то соседнее состояние, где оно максимально (в сторону градиента).

Допустим, у нас есть преобразование-комната, такая что состояниями ее будут {54, 61, 62, 63}, а возможными операторами {37, 38, 39}.

Пусть представляющая точка перемещается случайно в смысле выбора операторов. Если клад является состоянием 63, то информация об этом в таблице Q-learning будет постепенно распространяться на соседние состояния. Пусть наградой за клад будет число пять. Тогда с учетом дисконтирования соседние с ней состояния будут отмечены как четыре. Таковым здесь только состояние 61, из которого цель непосредственно достижима. Состояние же 62 можно получить из состояния 54.

Если состояние 54 является открытой дверью (начальным состоянием) комнаты, то оптимальный маршрут к кладу, например, может быть таким: 62=39(54) 61=37(62) 63=37(61)

Есть ли возможность разные преобразования соединить? Да. Наш язык этим и занимается. Есть языки, в которых синтаксис предложения строится за счет окончаний. Есть те, где эта роль отводится предлогам. Но это не принципиально. Существенно другое.

Базовые случаи соединения преобразований:

  1. Преобразование А изменяет состояния преобразования В. Это возможно, если состояния преобразования А являются операторами преобразования В.

  2. Значение переменной (то есть имя преобразования А) является значением представляющей точки этого преобразования А. И оно подставляется в качестве состояния (или оператора) в вышестоящее по иерархии преобразование С.

Что характеризует родительный падеж? Отношение принадлежности. Для примера выше: клад комнаты. Иначе говоря, одним из состояний комнаты является клад. Что соответствует второму типу соединения. В свою очередь клад может быть описан как преобразование. А комната как состояние дома. Вот что пишет Турчин [4]:

Что это значит? Что если раз за разом переходы преобразования (с учетом заданного коэффициента однозначности) именно таковы, то выносится решение (для примера выше): комната. В противном случае ее нельзя считать таковой. Далее эта информация поднимается на более высокую ступень иерархии преобразований.

Классификаторами-преобразователями могут быть что угодно. Например, ими могут быть: классификатор края изображения, классификатор движения. С обычных позиций они фильтры для стоящий выше преобразований.

Эволюция и мышление суть схожи. Разница лишь скорости обработки информации. Цитируем Турчина [4]

Доказав свою полезность для животного, классификаторы первого уровня прочно входят в число его средств борьбы за существование. Тогда начинается следующая серия проб и ошибок: небольшое число классификаторов первого уровня (точнее, их выходных подсистем) связывается между собой в один пробный классификатор второго уровня, пока не получится полезное соединение. Затем оказывается полезным размножение этого соединения. Можно предположить, что на втором уровне иерархии поскольку это касается органов зрения появляются такие понятия, как граница между светом и тенью, средняя освещенность пятна, движение границы между светом и тенью и т. п. Таким же путем возникают и следующие уровни иерархии.

Вернемся к игре. Пусть имеется поток данных. Пусть он будет таким: {15, 32, 53, 41, 36, 44}, {14, 32, 36, 41}, {15, 31, 53, 34, 44} Что можно сказать? Практически ничего. Вот с таким вот хаосом встречается и ребенок, рождаясь на свет. И только потом он начинает видеть предметы. Сначала вблизи, маму. Потом уже все знать о друге, что в соседнем подъезде. Самое сложное это подобрать множество операторов и множество состояний таких, что они дадут преобразование, однозначность которого не ниже заданного.

Пусть первая гипотеза такова, что множество операторов {41, 44, 45} и множество состояний {11, 12, 14, 15}. Записываем переходы. Если однозначность низкая, то гипотеза не верна. Допускаем далее, что операторами будут {11, 12, 14, 15}, а состояниями {41, 44, 45}. Если результат тоже отрицательный, то ищем иные варианты. Пусть приходим к заключению, что операторы {31, 32}, а состояния {11, 12, 14. 15}.

Мысленно усложним. Пусть состояние 11 это преобразование, переходы которого таковы: 45=35(45) 45=35(44) 41=35(41) 44=36(45) 41=36(44) 44=36(41) 45=34(45) 44=34(44) 41=34(41). В этом случае вместо состояния 11 будем наблюдать сменяющиеся состояния {45, 44, 41}. Причем будем иметь аномалию неоднозначности преобразования в переходе из состояния 12 при операторе 32: 45|44|41=32(12). Действуем далее по принципу: где неоднозначность, там и пища (в смысле удовольствия от новизны), если из нее можно получить информацию. В том смысле, что получено преобразование с высокой предсказуемостью и логарифм от коэффициента однозначности стремится, с учетом заданной погрешности, к нулю. Поскольку преобразование 11 теперь однозначно, можно уже подставить его в вышестоящее преобразование.

Если оценить полученную информацию как разницу энтропий всей игры, то получим приблизительно: -log(1/22) - 0. Когда все переходы будут выявлены, то энтропия игры будет иметь значение ноль, а коэффициент однозначности каждого преобразования будет равен единице. Кроме того, будет известно, как соединены преобразования между собой.

Немного очеловечим рассуждения. Пусть преобразование 11 это ключ. А преобразование выше по иерархии лабиринт. Пусть также в лабиринте есть еще одна аномалия неоднозначности дверь. Причем состояния преобразования ключ являются операторами преобразования дверь.

Итак, смысл всего:

  1. Выдвигаем гипотезы, то есть берем множество операторов и множество состояний. Проверяем на однозначность.

  2. Если преобразование удовлетворяет требуемой точности, то прогоняем ее на Q-learning, составляя топологическую карту цели. Это можно делать даже параллельно.

  3. Способы соединения преобразований, задающие структуру предложения это синтаксис языка. Где базовыми случаями, если не считать именительный падеж, являются винительный и родительный.

Конкретно нашей игры, последовательно решаем проблемы: не размеченный поток данных, обнаружение преобразования ключ и преобразования дверь, после этого лабиринт тоже можно считать преобразованием с заданной точностью, ключ отрывает дверь, представляющая точка из лабиринта через открытую дверь перемещается в комнату. Там она находит клад. Далее информация распространяется обратно. Чтобы найти клад комнаты, нужно предварительно открыть дверь. Дверь открывается ключом. Дверь и ключ в лабиринте. Немного упростим сказанное: ключ лабиринта, дверь лабиринта, ключ открывает дверь, открытая дверь лабиринта открытая дверь комнаты, клад комнаты. Ниже сами преобразования и их соединения на примере игры поиска клада

Всегда ли направление исследования должно идти от низших ступеней иерархии к высшим? Нет, конечно. Если имеем неопределенность 45|44|41=32(12), то можно, не описывая 11 как преобразование в однозначных переходах, сделать гомоморфную замену: 11=g11(45|44|41). То есть сказать: если 45, то только 11; если 44, то только 11; если 41, то только 11. Аналогично для двери: 12=g12(52|53|54). Такой подход не позволит, разумеется, однозначно предсказать состояния преобразований ключ и дверь. Но имеет то преимущество, что выразит преобразование лабиринт сразу как однозначное. Задача же определения состояний 11 и 12, как однозначных преобразований, откладывается на потом. Когда количество элементов входящего разнообразия велико, это может быть очень ценно, поскольку немедленно дает возможность ориентироваться хотя бы в части поступающего разнообразия.

Допустим, все преобразования найдены и выявлены их типы соединения. Допустим также, что текущими состояниями являются: состояние 15 лабиринта, состояние 41 ключа, состояние 52 двери.

Тогда маршрут к кладу может быть таким:

  1. Двигаемся в лабиринте от состояния 15 к состоянию 11, то есть к ключу: 12=31(15) 11=32(12)

  2. Меняем состояние ключа, так чтобы состояние преобразования 12 (дверь) стало 54 (открыта): 44=36(41) 44=34(44) 45=35(44) 45=35(45); при этом сама дверь перейдет от состояния 52 к 54: 52=41(52) 53=44(52) 54=44(53) 54=45(54).

  3. В лабиринте из состояния 11 переходим к состоянию 12 (к двери): 12=31(11)

  4. Поскольку преобразование 12 (дверь) находится в состоянии открыта, то есть в состоянии 54, то представляющая точка может двигаться из лабиринта в комнату. И уже в комнате от состояния 54 к состоянию 63 (клад).

  5. Замечание. Вопросы синхронизации между преобразованиями здесь не оговаривались.

Немного еще гуманитарных свидетельств. Первая колонка из воспоминаний слепоглухонемой [5]. Вторая из наблюдений за внучкой одноклассницы. Третья опыт обучения языку жестов обезьян [6]. Комментарии. Постоянно идет специализация понятий-преобразований (стакан / вода). Что можно считать глаголом? Смену состояний, как смену кадров в кинопленке, ведущую к цели. Аня рукой бабушки гладит кошку Аня управляет рукой бабушки, бабушка гладит кошку. Рука одноклассницы выступает в роли как управляющего, так и управляемого преобразования. Иначе говоря, рука бабушки как преобразование находится в творительном падеже.

Для тех существ, которые только начинают осваивать язык, характерно: выявление преобразования с учетом коэффициента однозначности, получение состояния в нем, включение преобразований в иерархию, обнаружение зависимости преобразований.

Литература

  1. Эшби Р. Введение в кибернетику М.: Прогресс, 1968

  2. Корчаг А. Конечные автоматы и глубокое обучение в несколько строк URL

  3. Булыгина А. В. Способы нахождения цели. Роль случайности URL

  4. Турчин В.Ф. Феномен науки. Кибернетический подход к эволюции. URL

  5. Келлер Х. История моей жизни URL

  6. Смирнова А. Зорина З. О чем рассказали говорящие обезьяны: Способны ли высшие животные оперировать символами? URL

P.S. Пишите bvv2311@mail.ru

Подробнее..

Представление объектов для машинного обучения, основанного на теории решеток

14.07.2020 12:05:49 | Автор: admin

Это четвертая статья из серии работ (ссылки на первую, вторую и третью статьи), посвященных системе машинного обучения, основанного на теории решеток, названной "ВКФ-система". Программа использует алгоритмы, основанные на цепях Маркова, чтобы породить причины целевого свойства путем вычисления случайного подмножества сходств между некоторыми группами обучающих объектов. Эта статья описывает представление объектов через битовые строки, чтобы вычислять сходства посредством побитового умножения соответствующих представлений. Объекты с дискретными признаками требуют некоторой техники из Анализа формальных понятий. Случай объектов с непрерывными признаками использует логистическую регрессию, разделение области изменения на подынтервалы с помощью теории информации и представление, соответствующее выпуклой оболочке сравниваемых интервалов.


got idea!


1 Дискретные признаки


Чтобы закодировать объект, описываемый только дискретными признаками, нам нужно вычислить вспомогательные битово-строчные представления значений каждого признака. Мы предполагаем, что эксперт в состоянии связать эти значения в отношении "общий"/"частный". Упорядочение должно образовывать нижнюю полурешетку после добавления специального значения 'null' (с сокращением '_' в некоторых случаях), чтобы обозначить тривиальное (отсутствующее) сходство между значениями заданного признака у сравниваемых объектов.


Представление целого объекта будет конкатенацией кодирований значений его признаков в некотором фиксированном порядке. Тогда побитовое умножение длинных строк сведется к перемножениям кодирований каждого атрибута. Следовательно, кодирование должно заменять сходство между значениями на побитовое умножение.


Так как любая нижняя полурешетка легко превращается в решетку (с добавлением наибольшего элемента, если его нет), Анализ формальных понятий (АФП) обеспечивает все необходимые средства.


Современная формулировка фундаментальной теоремы АФП утверждает


Для каждой конечной решетки $\langle{L,\wedge,\vee}\rangle$ пусть $G$ будет (над)множеством всех $\wedge$-неразложимых элементов и $M$ будет (над)множеством всех $\vee$-неразложимых элементов. Для $gIm\Leftrightarrow{g\geq{m}}$ выборка $(G,M,I)$ породит решетку всех кандидатов $L(G,M,I)$, которая изоморфна первоначальной решетке $\langle{L,\wedge,\vee}\rangle$.


Элемент $x\in{L}$ решетки $\langle{L,\wedge,\vee}\rangle$ называется $\vee$-неразложимым, если $x\neq\emptyset$ и для всех $y,z\in{L}$$y<x$ и $z<x$ влекут $y\vee{z}<x$.
Элемент $x\in{L}$ решетки $\langle{L,\wedge,\vee}\rangle$ называется $\wedge$-неразложимым, если $x\neq\testbf{T}$ и для всех $y,z\in{L}$$x<y$ и $x<z$ влекут $x<y\wedge{z}$.


Решетка ниже содержит $\wedge$-неразложимые элементы, отмеченные красным цветом, $\vee$-неразложимые элементы, отмеченные синим.


irreducible elements


Фундаментальная теорема (первоначально доказанная проф. Рудольфом Вилле с помощью выборки $(L,L,\geq)$) задает минимальную выборку вида


G\M h i j k
a 1 1 1 0
b 0 1 1 1
c 1 1 0 0
d 1 0 1 0
f 0 1 0 1
g 0 0 1 1

чтобы породить решетку всех кандидатов, изоморфную исходной решетке.


Отметим, что выборка Вилле требует 121 бит, а новая выборка нуждается только в 24 битах!


Автор предложил следующий алгоритм, чтобы кодировать значения битовыми строками:


  1. Топологически сортируем элементы нижней полурешетки.
  2. В матрице порядка $\geq$ ищем столбцы, которые совпадают с побитовым умножением предыдущих (каждый такой столбец соответствует $\vee$-приводимому элементу).
  3. Все найденные ($\vee$-приводимые) столбцы удаляются.
  4. Строки оставшейся матрицы задают коды соответствующих значений.

Этот алгоритм являются частью обеих CPython-библиотек: 'vkfencoder' внутри конструктора класса vkfencoder.XMLImport и 'vkf' внутри конструктора класса vkf.FCA. Разница в источнике данных: vkf.FCA читает такблицу БД под управлением MariaDB, а vkfencoder.XMLImport читает XML файл.


2 Непрерывные признаки


Мы обсуждаем шаги кодирования непрерывных признаков в соответствии с порядком их изобретения. Сначала мы применим идею системы C4.5 обучения деревьям решений для разделения области значений переменной на подынтервалы с использованием энтропийных методов.
После этого мы закодируем появление значения в некотором подынтервале битовой строкой таким образом, чтобы побитовое умножение соответствовало выпуклой оболочке сравниваемых подынтервалов.
Наконец, мы рассмотрим, как комбинировать несколько признаков, чтобы получить их дизъюнкцию или импликации. Ключом является логистическая регрессия между признаками.


2.1 Энтропийный подход


Когда мы имеем непрерывный признак, его область значений должна быть разбита на несколько подынтерваловв с различным влиянием на целевое свойство. Чтобы выбрать корректные пороги мы свяжем этот признак и целевое свойство через энтропию.


Путь $E=G\cup{O}$ будет дизъюнктным объединением обучающих примеров $G$ и контр-примеров $O$. Интервал $[a,b)\subseteq\textbf{R}$ значений непрерывного признака $V:G\to\textbf{R}$ порождает три подмножества $G[a,b)=\lbrace{g\in{G}: a\leq{V(g)}<b}\rbrace,$$O[a,b)=\lbrace{g\in{O}: a\leq{V(g)}<b}\rbrace$ и
$E[a,b)=\lbrace{g\in{E}: a\leq{V(g)}<b}\rbrace$.


Энтропия интервала $[a,b)\subseteq\textbf{R}$ значений непрерывного признака $V:G\to\textbf{R}$ равна


${\rm{ent}}[a,b)=-\frac{\vert{G[a,b)}\vert}{\vert{E[a,b)}\vert}\cdot\log_{2}\left(\frac{\vert{G[a,b)}\vert}{\vert{E[a,b)}\vert}\right)-\frac{\vert{O[a,b)}\vert}{\vert{E[a,b)}\vert}\cdot\log_{2}\left(\frac{\vert{O[a,b)}\vert}{\vert{E[a,b)}\vert}\right)$


Средняя информация разбиения $a<r<b$ интервала $[a,b)\subseteq\textbf{R}$ значений непрерывного признака $V:G\to\textbf{R}$ равна


${\rm{inf}}[a,r,b)=\frac{\vert{E[a,r)}\vert}{\vert{E[a,b)}\vert}\cdot{\rm{ent}}[a,r)+\frac{\vert{E[r,b)}\vert}{\vert{E[a,b)}\vert}\cdot{\rm{ent}}[r,b).$


Порог это значение $V=r$ с минимальной средней информацией.


Для непрерывного признака $V:G\to\textbf{R}$ обозначим $a=\min\{V\}$ через $v_{0}$, и пусть $v_{l+1}$ будет произвольным числом, превосходящим $b=\max\{V\}$. Пороги $\lbrace{v_{1}<\ldots<v_{l}}\rbrace$ вычисляются последовательно расщеплением подынтервала с наибольшей энтропией.


2.2 Кодирование битовыми строками для выпуклой оболочки


Мы представляем значение непрерывного признака битовой строкой длины $2l$, где $l$ число порогов. Битовые строки могут рассматриваться как строки индикаторных (Булевских) переменных


$\delta_{i}^{V}(g)=1 \Leftrightarrow V(g)\geq{v_{i}} \\ \sigma_{i}^{V}(g)=1 \Leftrightarrow V(g)<v_{i},$


где $1\leq{i}\leq{l}$.


Тогда строка $\delta_{1}^{V}(g)\ldots\delta_{l}^{V}(g)\sigma_{1}^{V}(g)\ldots\sigma_{l}^{V}(g)$ является битовым представлением непрерывного признака $V$ на объекте $g\in{E}$.


Следующая лемма утверждает, что результат побитового умножения выпуклая оболочка интервалов для аргументов.


Путь $\delta_{1}^{(1)}\ldots\delta_{l}^{(1)}\sigma_{1}^{(1)}\ldots\sigma_{l}^{(1)}$ представляет $v_{i}\leq{V(A_{1})}<v_{j}$ и $\delta_{1}^{(2)}\ldots\delta_{l}^{(2)}\sigma_{1}^{(2)}\ldots\sigma_{l}^{(2)}$ предстваляет $v_{n}\leq{V(A_{2})}<v_{m}$. Тогда


$(\delta_{1}^{(1)}\cdot\delta_{1}^{(2)})\ldots(\delta_{l}^{(1)}\cdot\delta_{l}^{(2)})(\sigma_{1}^{(1)}\cdot\sigma_{1}^{(2)})\ldots(\sigma_{l}^{(1)}\cdot\sigma_{l}^{(2)})$


соответствует $\min\lbrace{v_{i},v_{n}}\rbrace\leq{V((A_{1}\cup{A_{2}})'')}<\max\lbrace{v_{j},v_{m}}\rbrace$.


Отметим, что тривиальное сходство $0\ldots00\ldots0$ соответствует тривиальному условию $\min\{V\}\leq{V((A_{1}\cup{A_{2}})'')}\leq\max\{V\}$.


2.3 Отношения между непрерывными признаками


Подход к машинному обучению на основании АФП естественно рассматривает конъюнкцию нескольких бинарных аттрибутов как возможную причину целевого свойства. В случае дискретных признаков эксперт имеет возможность выразить дизъюнкцию значений путем добавления новых значений (в решеточных структурах параграфа 1). Случай непрерывных признаков отличается. Так что мы нуждаемся в некоторой технике, чтобы включить и этот случай.


Ключевой является следующая лемма


Дизъюнкция пропозициональных переменных $p_{i_{1}}\vee\ldots\vee{p_{i_{k}}}$ эквивалентна выполнимости неравенства $p_{i_{1}}+\ldots+{p_{i_{k}}}>\sigma$ для любого $0<\sigma<1$.


Так как мы ограничиваемся двумя целевыми классами, то мы ищем классификатор


Классификатор это отображение $c:$R$^{d}\to\lbrace{0,1}\rbrace$, где $\textbf{R}^{d}$ область объектов классификации (описываемых $d$ непрерывными признаками) и $\lbrace{0,1}\rbrace$метки целевых классов.


Как обычно, мы предположим существование некоторого вероятностного распределения $\langle{\vec{X},K}\rangle\in\text{R}^{d}\times\lbrace{0,1}\rbrace$, которое может быть разложено как


$p_{\vec{X},K}(\vec{x},k)=p_{\vec{X}}(\vec{x})\cdot{p_{K\mid\vec{X}}(k\mid\vec{x})},$


где $p_{\vec{X}}(\vec{x})$ побочное (маргинальное) распределение объектов, a $p_{K\mid\vec{X}}(k\mid\vec{x})$ условное распределение меток на заданном объекте, т.е. для каждого $\vec{x}\in\text{R}^{d}$ выполняется следующее разложение


$p_{K\mid\vec{X}}(k\mid\vec{x})=\textbf{P}\lbrace{K=k\mid\vec{X}=\vec{x}}\rbrace.$


Вероятность ошибки классификатора $c:\textbf{R}^{d}\to\lbrace{0,1}\rbrace$ равна


$ R(c)=\textbf{P}\left\lbrace{c(\vec{X})\neq{K}}\right\rbrace. $


Байесовский классификатор $b:\textbf{R}^{d}\to\lbrace{0,1}\rbrace$ относительно $p_{K\mid\vec{X}}(k\mid\vec{x})$
задается правилом


$ b(\vec{x})=1 \Leftrightarrow p_{K\mid\vec{X}}(1\mid\vec{x})>\frac{1}{2}>p_{K\mid\vec{X}}(0\mid\vec{x}) $


Мы напомним хорошо известную теорему об оптимальности Байесовского классификатора


Байесовский классификатор $b$ имеет наименьшую ошибку классификации:


$ \forall{c:\textbf{R}^{d}\to\lbrace{0,1}\rbrace}\left[R(b)=\textbf{P}\lbrace{b(\vec{X})\neq{K}}\rbrace\leq{R(c)}\right] $


Теорема Байеса влечет


$ p_{K\mid\vec{X}}(1\mid\vec{x})=\frac{p_{\vec{X}\mid{K}}(\vec{x}\mid{1})\cdot\textbf{P}\lbrace{K=1}\rbrace}{p_{\vec{X}\mid{K}}(\vec{x}\mid{1})\cdot\textbf{P}\lbrace{K=1}\rbrace+p_{\vec{X}\mid{K}}(\vec{x}\mid{0})\cdot\textbf{P}\lbrace{K=0}\rbrace}= \\ =\frac{1}{1+\frac{p_{\vec{X}\mid{K}}(\vec{x}\mid{0})\cdot\textbf{P}\lbrace{K=0}\rbrace}{p_{\vec{X}\mid{K}}(\vec{x}\mid{1})\cdot\textbf{P}\lbrace{K=1}\rbrace}}=\frac{1}{1+\exp\lbrace{-a(\vec{x})}\rbrace}=\sigma(a(\vec{x})), $


где $a(\vec{x})=\log\frac{p_{\vec{X}\mid{K}}(\vec{x}\mid{1})\cdot\textbf{P}\lbrace{K=1}\rbrace}{p_{\vec{X}\mid{K}}(\vec{x}\mid{0})\cdot\textbf{P}\lbrace{K=0}\rbrace}$ и $\sigma(y)=\frac{1}{1+\exp\lbrace{-y}\rbrace}$ хорошо известная логистическая функция.


2.4 Логистическая регрессия между непрерывными признаками


Давайте приблизим неизвестную $a(\vec{x})=\log\frac{p_{\vec{X}\mid{K}}(\vec{x}\mid{1})\cdot\textbf{P}\lbrace{K=1}\rbrace}{p_{\vec{X}\mid{K}}(\vec{x}\mid{0})\cdot\textbf{P}\lbrace{K=0}\rbrace}$ линейной комбинацией $\vec{w}^{T}\cdot\varphi(\vec{x})$ базисных функций $\varphi_{i}:\textbf{R}^{d}\to\textbf{R}$ ($i=1,\ldots,m$) относительно неизвестных весов $\vec{w}\in\textbf{R}^{m}$.


Для обучающей выборки $\langle\vec{x}_{1},k_{1}\rangle,\dots,\langle\vec{x}_{n},k_{n}\rangle$ введем знаки $t_{j}=2k_{j}-1$. Тогда


$ \log\lbrace{p(t_{1},\dots,t_{n}\mid\vec{x}_{1},\ldots,\vec{x}_{n},\vec{w})}\rbrace=-\sum_{j=1}^{n}\log\left[1+\exp\lbrace{-t_{j}\sum_{i=1}^{m}w_{i}\varphi_{i}(\vec{x}_{j})}\rbrace\right]. $


Заметим, что логарифм правдоподобия


$ L(w_{1},\ldots,w_{m})=-\sum_{j=1}^{n}\log\left[1+\exp\lbrace{-t_{j}\sum_{i=1}^{m}w_{i}\varphi_{i}(\vec{x}_{j})}\rbrace\right]\to\max $


является вогнутой функцией.


Метод Ньютона-Рафсона приводит к итеративной процедуре


$ \vec{w}_{t+1}=\vec{w}_{t}-(\nabla_{\vec{w}^{T}}\nabla_{\vec{w}}L(\vec{w}_{t}))^{-1}\cdot\nabla_{\vec{w}}L(\vec{w}_{t}). $


С помощью $s_{j}=\frac{1}{1+\exp\lbrace{t_{j}\cdot{(w^{T}\cdot\Phi(x_{j}))}}\rbrace}$ мы получаем


$ \nabla{L(\vec{w})}=-\Phi^{T}{\rm{diag}}(t_{1},\ldots,t_{n})\vec{s}, \nabla\nabla{L(\vec{w})}=\Phi^{T}R\Phi, $


где $R={\rm{diag}}(s_{1}(1-s_{1}), s_{2}(1-s_{2}), \ldots, s_{n}(1-s_{n}))$ диагональная матрица с элементами
$s_{1}(1-s_{1}), s_{2}(1-s_{2}), \ldots, s_{n}(1-s_{n})$ и ${\rm{diag}}(t_{1},\ldots,t_{n})\vec{s}$ вектор с координатами $t_{1}s_{1}, t_{2}s_{2}, \ldots, t_{n}s_{n}$.


$ \vec{w}_{t+1}=\vec{w}_{t}+\left(\Phi^{T}R\Phi\right)^{-1}\Phi^{T}{\rm{diag}}(t)\vec{s}= (\Phi^{T}R\Phi)^{-1}\Phi^{T}R\vec{z}, $


где $\vec{z}=\Phi\vec{w}_{t}+R^{-1}{\rm{diag}}(t_{1},\ldots,t_{n})\vec{s}$ итеративно вычисляемые веса.


Как обычно, ридж-регрессия поможет избежать плохо-обусловленной ситуации


$ \vec{w}_{t+1}=(\Phi^{T}R\Phi+\lambda\cdot{I})^{-1}\cdot(\Phi^{T}R\vec{z}). $


В компьютерной программе "ВКФ-система" мы используем стандартный базис: константу 1 и сами признаки.


Наконец, нам нужен критерий значимости регрессии. Для логистической регрессии применялись два типа критериев:


Критерий Кокса-Снелла объявляет признак $V_{k}$ значимым, если


$ R^{2}=1-\exp\lbrace{2(L(w_{0},\ldots, w_{k-1})-L(w_{0},\ldots,w_{k-1},w_{k}))/n}\rbrace\geq\sigma $


Критерий МакФаддена объявляет признак $V_{k}$ значимым, если


$ 1-\frac{L(w_{0},\ldots,w_{k-1},w_{k})}{L(w_{0},\ldots,w_{k-1})}\geq\sigma $


Заключение


"ВКФ-система" была применена к массиву Wine Quality из репозитория данных для машинного обучения (Универсистет Калифорнии в г. Ирвайн). Эксперименты продемонстрировали перспективы предложенного подхода. Для высококачественных красных вин (с оценкой >7), все примеры были классифицированы корректно.


Ситуация с дизъюнкцией (из параграфа 2.3) возникла при учете взаимоотношения "алкоголь" и "сульфаты". Положительные (хотя и слабо различные) веса соответствуют разным шкалам измерения различных признаков, а порог оказался строго между 0 и 1. Ситуация с "лимонной кислотой" и "алкоголем" была аналогичной.


Но ситуация с парой ("pH", "алкоголь") радикально отличалась. Вес "алкоголя" был положительным, тогда как вес "pH" оказался отрицательным. Но с помощью очевидного логического преобразования мы получили импликацию ("pH" $\Rightarrow$ "алкоголь").


Автор выражает благодарности своим колегам и студентам за поддержку и стимулы.

Подробнее..

Категории

Последние комментарии

  • Имя: Макс
    24.08.2022 | 11:28
    Я разраб в IT компании, работаю на арбитражную команду. Мы работаем с приламы и сайтами, при работе замечаются постоянные баны и лаги. Пацаны посоветовали сервис по анализу исходного кода,https://app Подробнее..
  • Имя: 9055410337
    20.08.2022 | 17:41
    поможем пишите в телеграм Подробнее..
  • Имя: sabbat
    17.08.2022 | 20:42
    Охренеть.. это просто шикарная статья, феноменально круто. Большое спасибо за разбор! Надеюсь как-нибудь с тобой связаться для обсуждений чего-либо) Подробнее..
  • Имя: Мария
    09.08.2022 | 14:44
    Добрый день. Если обладаете такой информацией, то подскажите, пожалуйста, где можно найти много-много материала по Yggdrasil и его уязвимостях для написания диплома? Благодарю. Подробнее..
© 2006-2024, personeltest.ru