Из песочницы Точные и быстрые вычисления для чисел с плавающей точкой на примере функции синуса. Введение и часть 1

Внимательно прочитал очень хорошие статьи от ArtemKaravaev по сложению чисел с плавающей точкой. Тема очень интересная и хочется её продолжить и показать на примерах, как работать с числами с плавающей точкой на практике. В качестве эталона возьмём библиотеку GNU glibc (libm). А чтобы статья не была уж скучной, добавим соревновательную составляющую: попробуем не только повторить, но и улучшить код библиотеки, сделав его более быстрым/точным.

В качестве примера я выбрал тригонометрическую функцию синуса. Это широко распространённая функция, математика которой хорошо известна со школы и университета. В тоже время при её имплементации появятся много ярких примеров правильной работы с числами. В качестве числа с плавающей точкой я буду использовать double.

В данном цикле статей планируется много всего начиная от математики, заканчивая машинными кодами и опциями компилятора. Язык написания статьи С++, но без излишеств. В отличии от С работающие примеры будут более удобочитаемыми даже для людей не знакомым с этим языком и занимать меньше строк.

Статьи будут написаны методом погружения. Будут обсуждаться подзадачи, которые потом соберутся вместе в единое решение проблемы.

Разложение синуса в ряд Тейлора.

Функция синуса раскладывается в бесконечный ряд Тейлора.

$$display$$\sin(x)=x-{\frac {x^{3}}{3!}}+{\frac {x^{5}}{5!}}-{\frac {x^{7}}{7!}}+{\frac {x^{9}}{9!}}-\cdots $$display$$

Понятно, что бесконечный ряд мы посчитать не можем, кроме случаев, когда есть аналитическая формула бесконечной суммы. Но это не наш случай))) Предположим, что мы хотим посчитать синус в интервале $inline$[0, \frac{\pi}{2}]$inline$. Более подробно работу с интервалами обсудим в части 3. Зная, что $inline$\sin(\frac{\pi}{2})=1$inline$ оценим найдём первый член который можно отбросить исходя из условия, что $inline$\frac{(\pi/2)^n}{n!}<e$inline$, где $inline$e$inline$ это разница между числом 1 и наименьшем числом, которое больше 1. Грубо говоря это последний бит мантиссы (wiki). Решить данное уравнение проще перебором. Для $inline$e \approx 2.22\times10^{-16}$inline$. У меня получилось $inline$n=23$inline$ уже можно отбросить. Правильный выбор количества слагаемых будет обсуждено в одной из следующей частей, поэтому на сегодня перестрахуемся и возьмём слагаемых до $inline$n=25$inline$ включительно.
Последнее слагаемое приблизительно в 10000 раз меньше, чем $inline$e$inline$.

Простейшее решение

Руки уже чешутся, пишем:

Полный текст программы для тестирования

#include <iostream>#include <iomanip>#include <cmath>#include <array>#include <bitset>#include <quadmath.h>// Полный путь к файлу для clang//#include "/usr/lib/gcc/x86_64-linux-gnu/10/include/quadmath.h"#include <numeric>#include <limits>#include <vector>#include <boost/timer/timer.hpp>#include <boost/math/special_functions/factorials.hpp>namespace bm = boost::math;using namespace std;typedef union { uint32_t i[2]; double x; } mynumber;array<double, 25> fc;double sin_e1(double x) {  double result = 0;  int sign = 1;  for(int i = 1; i < 25; i += 2) {    result += sign * pow(x, i) / bm::unchecked_factorial<double>(i);    sign = -sign;  }  return result;}double sin_e2(double x) {  double result = 0;  int sign = 1;  double xx = x * x;  double pw = x;  double fti = 1.0;  for(int i = 1; i < 25; i += 2) {    fti /= i;    result += sign * pw * fti;    fti /= ( i + 1 );    sign = -sign;    pw  *= xx;  }  return result;}double sin_e3(double x) {  double result = 0;  for(int i = 25; i >= 1; i -= 2) {    result += (((i - 1) % 4 == 0) ? 1 : -1 ) * pow(x, i) / bm::unchecked_factorial<double>(i);  }  return result;}double sin_e4(double x) {  double xx = x * x;  double res = fc[25];  for(int i = 23; i >= 1; i -= 2) {    res = fc[i] + xx * res;  }  return x * res;}double sin_e5(double x) {  double xx = x * x;  double res = fc[25];  for(int i = 23; i >= 3; i -= 2) {    res = fc[i] + xx * res;  }  return x + x * xx * res;}#define SIN(a) sin_e5(a)// ^^ Изменить функцию для вычисления здесь. ^^int main() {  __uint128_t ft = 1;  fc[1] = 1.0; //3 * 5;  for(int i = 2; i < fc.size(); i++) {    ft *= i;    // factorial with sign for Taylor series    fc[i] = (1.0 / ft) * (( (i - 2) % 4 < 2) ? -1 : 1);  }  vector<double> xv;  xv.resize(8 * 2000000);  // Линейное заполнение массива значениями от 0 до M_PI/2  for (int i = 0; i < xv.size(); i++) {    // Максимальное значение в массиве изменять здесь.    xv[i] = (M_PI / 2) * i / double(xv.size());  }  {    boost::timer::auto_cpu_timer at;    double res = 0;    for(int i = 0; i < xv.size(); i++) {      res += SIN(xv[i]);    }  }  int co = 0, cn = 0;  // Используем числа четверной точности как эталон.  __float128 avg = 0.0, div = 0.0;  for(int i = 0; i < xv.size(); i++) {    mynumber dold, dnew;    dold.x = sin(xv[i]);    dnew.x = SIN(xv[i]);    __float128 q = sinq(xv[i]); // <= sinq считаем эталоном.    __float128 dd = __float128(dnew.x) - q;    // Вычисляем среднее и стандартное отклонение.    div += dd * dd;    avg += dd;    // Сравниваем побитово, что значения синуса от встроенной функции и от нашей.    // Если они различаются, то выясняем какая из функций даёт более правильный результат.    if( dold.i[0] != dnew.i[0] || dold.i[1] != dnew.i[1] ) {      if( fabsq(q - dold.x) <= fabsq(q - dnew.x) )        co++;      else        cn++;    }  }  avg /= xv.size();  div /= xv.size();  // Количество случаев, когда внутренняя функция дала более правильный результат к общему количеству вычислений.  cout << "Better libm: " <<  co << " / " << xv.size() << "(" << 100.0 * co / xv.size() << "%)" << endl;  // Количество случаев, когда "наша" функция дала более правильный результат к общему количеству вычислений.  cout << "Better new: " <<  cn << " / " << xv.size() << "(" << 100.0 * cn / xv.size() << "%)" << endl;  // Среднее отклонения и отклонение отклонения нашей функции от эталона.  cout << "  Avg / std new: " << double(avg) << " / " << double(sqrtq( div - avg * avg )) << endl;  return 0;}

double sin_e1(double x) {  double result = 0;  int sign = 1;  for(int i = 1; i < 25; i += 2) {    result += sign * pow(x, i) / bm::factorial<double>(i);    sign = -sign;  }  return result;}

Как ускорить программу я думаю, что многие сообразили сразу. Как вы думаете, во сколько раз ваши изменения могут ускорить программу? Оптимизированная версия и ответ на вопрос под спойлером.

Оптимизированная версия программы.

double sin_e2(double x) {  double result = 0;  int sign = 1;  double xx = x * x;  double pw = x;  double fti = 1.0;  for(int i = 1; i < 25; i += 2) {    fti /= i;    result += sign * pw * fti;    fti /= ( i + 1 );    sign = -sign;    pw  *= xx;  }  return result;}

Ускорение больше чем в 10000 раз (GNU C++ v10; -O2)

Улучшение точности

Методика

Точность вычисления функции будем определять 2-мя стандартными параметрами.

Среднеквадратичное отклонение от истинного значения sin(float128) и среднее данного отклонения. Последний параметр может дать важную информацию о том, как ведёт себя наша функция. Она может систематически занижать или завышать результат.

В дополнение к данным параметрам ввёдём еще два. Вместе с нашей функции мы вызываем ещё встроенную в библиотеку функцию sin(double). Если результаты двух функций: нашей и встроенной не совпадают (побитово), то добавляем в статистику, какая из двух функций дальше от истинного значения.

Порядок суммирования

Вернёмся снова к исходному примеру. Как можно увеличить его точность по-быстренькому? Те, кто внимательно читал статью Можно ли сложить N чисел типа double наиболее точно? скорее всего дадут ответ сразу. Надо крутить цикл в обратную сторону. Чтобы складывать от наименьших по-модулю, к наибольшим.

double sin_e3(double x) {  double result = 0;  for(int i = 25; i >= 1; i -= 2) {    result += (((i - 1) % 4 == 0) ? 1 : -1 ) * pow(x, i) / bm::unchecked_factorial<double>(i);  }  return result;}

Результаты приведены в табличке.

Функция	Среднее ошибки	STD	Лучше наша	Лучше libm
sin_e1	-1.28562e-18	8.25717e-17	0.0588438%	53.5466%
sin_e3	-3.4074e-21	3.39727e-17	0.0423%	10.8049%
sin_e4	8.79046e-18	4.77326e-17	0.0686%	27.6594%
sin_e5	8.78307e-18	3.69995e-17	0.0477062%	13.5105%

Может показаться, что использование алгоритмов умного суммирования уберёт ошибку практически до 0, но это не так. Конечно эти алгоритмы дадут увеличение точности, но для полного избавления от ошибок требуются ещё и алгоритмы умного умножения. Они существуют, но очень накладны: очень много лишних операций. Применение их здесь не оправдано. Впрочем позднее мы к ним вернёмся в другом контексте.

Осталось совсем немного. Объединить быстрый и точный алгоритмы. Для этого снова вернёмся к ряду Тейлора. Ограничем его для примера 4-мя членами и сделаем следующее преобразование.

$$display$$\sin(x)\approx x(1+x^2(-1/3!+x^2(1/5!+x^2(-1/7!+x^2\cdot1/9!))))$$display$$

Можно раскрыть скобки и проверить, что получится исходное выражение. Такое представление очень просто ложится на цикл.

double sin_e4(double x) {  double xx = x * x;  double res = fc[25];  for(int i = 23; i >= 1; i -= 2) {    res = fc[i] + xx * res;  }  return x * res;}

Работает быстро, но потеряли точность, по сравнению с e3. Опять же проблема в округлении. Давайте рассмотрим последний шаг цикла и немного преобразуем исходное выражение

$$display$$\sin(x)\approx x+x \cdot x^2(-1/3!+ \cdots))$$display$$

И соответствующий код.

double sin_e5(double x) {  double xx = x * x;  double res = fc[25];  for(int i = 23; i >= 3; i -= 2) {    res = fc[i] + xx * res;  }  return x + x * xx * res;}

Точность в сравнении с libm увеличилась в 2 раза. Если догадываетесь почему точность увеличилась, пишите в комментариях. К тому же есть ещё одна, гораздо более неприятная вещь у sin_e4, которая отсутствует у sin_e5, связанная с точностью. Попробуйте догадаться в чём проблема. В следующей части я обязательно о ней расскажу подробно.

Если статья Вам понравится, то в следующей я расскажу, как в GNU libc считается синус с максимальным ULP в 0.548.

Логотип статьи определяет три, как временные, так и географические, точки на моём жизненном пути, через которые лежал мой путь в страну под названием Программирование. В городе Чебоксары, на родине легендарного комдива Гражданской войны В.И.Чапаева, прошло моё детство (1954-1968 г.г.), там я закончил 8

Всем привет. С вами я, stalker320, и сегодня я хотел бы рассказать про написание служебных скриптов, запускающихся в редакторе. Всем желающим прочесть - добро пожаловать под кат

EditorScript - это такой скрипт, который можно запустить по нажатию комбинации Ctrl+Shift+X прямо из движка. Он может исполнять различные служебные функции. К примеру создать необходимую структуру каталогов в проекте.

Привет, меня зовут Александр, я старший разработчик ПО в Центре разработкиOrionInnovation. Хочу признаться, я люблю рассказывать про C++ и не только на различных митапах и конференциях.Ивотядобрался доХабра. НаCppConfRussiaPiter2020 я рассказывал про концепты и послевыступлен

Работая в компании IT-аутсорса в качестве руководителя 3 линии поддержки, задумался, как автоматизировать подключение сотрудников по RDP, через VPN к серверам десятков клиентов.

Таблички с адресами, паролями и прочими настройками серверов, конечно, хорошо, но поиск клиента и вбивание адресов с аккаунтами занимает довольно существенное время.
Держать все подключения к VPN в Windows не самая лучшая идея, да и при переустан

В 26-м выпуске NP-полного подкаста я рассказывал, что начал переводить один из своих сервисов из Redis Sentinel на Redis Cluster. На этой неделе я захотел потестировать данный код, и, конечно же, выбрал Testcontainers для этого. К сожалению, Redis Cluster в тестовых контейнерах не з

Мне на удивление часто приходится говорить о том, почему мне всё ещё нравится язык C, и о том, почему я плохо отношусь к C++. Поэтому я решил, что мне стоит об этом написать, а не снова и снова повторять одно и то же.

Как это обычно бывает у C-программистов, язык C не был ни моим первым яз

Всем привет! Меня зовут Константин Измайлов, я руководитель направления Data Science в Delivery Club. Мы работаем над многочисленными интересными и сложными задачами: от формирования классических аналитических отчетов до построения рекомендательных моделей в ленте приложения.

Сегодня я расскажу пр

Представьте человека, который изучает алгоритмы. Чтобы понять как они работают, приходится изучать их код и представлять, как компьютер будет его выполнять. Это странно почему мы должны учиться думать как компьютер, вместо того, чтобы заставить его помогать на

Cодержание

Введение
Основные понятия и термины
Характеристика ИО как научной дисциплины
Этапы операционного исследования
- Постановка задачи
- Построени

Можно выделить ряд алгоритмов, которые являются базовыми и лежат в основе практически каждой строчки программ, написанных на языках высокого уровня. Хорошо иметь под руками классический многотомный труд Дональда Кнута "The Art of Computer Programming", там детально разобраны многие ба

Давайте представим, что вы параноик, и параноик вдвойне, когда дело касается многопоточности. Предположим, что вы делаете backend некого функционала приложения, а приложение переодически дергает на вашем серверы какие-то методы. Все вроде хорошо, но есть одно но. Что если ваш функционал напрямую зависит от каких-либо других данных, того же банального профиля например? Встает вопрос, как гарантировать то, что сценарий отработает име

Трансформеры за последние несколько лет штурмом захватили мир NLP, а сегодня они с успехом применяются в выходящих за рамки NLP приложениях. Они обладают такими возможностями благодаря модулю внимания, который схватывает отношения между всеми словами последовательностей. Но са

Пример расчётного доказательства в Lean

Математики давно используют компьютеры в своей работе как инструменты для сложных вычислений и выполнения рутинных операций перебора. Например, в 1976 году методом компьютерного перебора была доказана

Зарабатывать продажей лекарств, которые заведомо не работают, не только аморально, но и не особо легко. Люди всё-таки обычно не хотят покупать препараты, неэффективность которых была доказана. А вот если вы сумели выдавить заветное p < 0.05 в пользу того, что акупунктура та

В этой статье мы рассмотрим, что такое классификатор, поговорим о мультиклассовой классификации с помощью нейронных сетей. Затем, ознакомившись с контекстом перейдем к основному топику поста к Log-Sum-Exp Trick. Напишем формулы и разберемся, как этот трюк помогает избежать переполнения чисел с плавающей то

В дополнение к открытым спутниковым данным, некоторые из которых перечислены в статье Общедоступные данные дистанционного зондирования Земли: как получить и использовать, существует и множество производных продуктов например, рельеф. Притом можно найти открытый рельеф разного пространственного разрешения, равно как и множество коммерческих, и появляется задача выбрать лучший продукт из доступных.

Призма Вельда-Бланделла

На рубеже четвертого и третьего тысячелетия до нашей эры на Земле возникли две первые цивилизации. В долине Нила после объединения верхнего и нижнего Египта образовалось

Продолжаем цикл лекций (часть 1 и часть 2). В части 2 мы посмотрели, что внутри у библиотеки libm и в данной работе попробуем немного переделать функцию do_sin, чтобы увеличить её точность и скорость работы. Приведу эту функцию ещё раз do_sin)

Продолжаю цикл статей по работе с плавающей точкой. В первой статье я дал небольшое математическое введение и показал самый простой и очевидный способ вычисления синуса с примерами программ с разными подводными камнями. Сегодня статья будет немного другая по стилю. Здесь не будет практики, зато мы копнём глубже математику и залезем в святая-святых код стандартной библиотеки. Так же я дам ответ на вопрос в конце п

Из песочницы Точные и быстрые вычисления для чисел с плавающей точкой на примере функции синуса. Введение и часть 1

Разложение синуса в ряд Тейлора.

Простейшее решение

Улучшение точности

Методика

Порядок суммирования

Сейчас читают

Программирование

Пятьдесят лет на стезе программирования. Часть I. Начало пути. Отчий дом и Казанское суворовское военное училище

Принцип работы EditorScript

Производительность компилятора при работе с концептами в C20

Powershell настоящий язык программирования. Скрипт оптимизации рутины в техподдержке

Как подружить Redis Cluster c Testcontainers?

Перевод Почему я всё ещё люблю C, но при этом терпеть не могу C?

Алгоритмы

Powershell настоящий язык программирования. Скрипт оптимизации рутины в техподдержке

Геопространственное моделирование с применением методов машинного обучения

Как я пытался придумать новый подход к изучению алгоритмов через интерактивные визуализации

Исследование операций

Запросить 100 серверов нельзя оптимизировать код. Ставим запятую

Как синхронизировать сценарий без транзакций? Штатными средствами Java

Математика

Перевод Наглядно о том, почему трансформеры работают настолько хорошо

Компьютерное доказательство теории конденсированной математики первый шаг к великому объединению

Перевод Plt0.05, и откуда оно (иногда) берётся

Log-Sum-Exp Trick как свойства функций делают работу классификаторов реальной

Оцениваем открытые и коммерческие цифровые модели рельефа

Тайна списка шумерских царей. Часть 1. Машина времени

Вычисления с плавающей точкой

Точные и быстрые вычисления для чисел с плавающей точкой на примере функции синуса. Часть 3 fixed-point

Точные и быстрые вычисления для чисел с плавающей точкой на примере функции синуса. Часть 2 libm

Из песочницы Точные и быстрые вычисления для чисел с плавающей точкой на примере функции синуса. Введение и часть 1

Категории

Последние комментарии

	Русский
	English