Как выполнить округление Такермана для квадратного корня с плавающей точкой

Question

Как выполнить округление Такермана для квадратного корня с плавающей точкой

0

Я пытаюсь выполнить Tuckerman Rounding Test, чтобы определить правильно округленный до ближайшего результата.

Я создал программу в C++, чтобы сравнить два решения с квадратным корнем из числа и выполнить тест tuckerman на них. Однако, математическое решение библиотеки C++ не может пройти тест tuckerman, поэтому мне интересно, что может быть неправильным?

Вот мой вывод:

Square root program started
Input value is 62a83003

===Tuckerman Test with MATLAB result===
Square root result from MATLAB = 5112b968
g*(g-ulp) = 62a83001
b = 62a83003
g*(g+ulp) = 62a83003
=====>Passes Tuckerman test


===Tuckerman Test with correct result===
Correct square root result = 5112b969
g*(g-ulp) = 62a83003
b = 62a83003
g*(g+ulp) = 62a83005
=====>Fails Tuckerman test

Вот мой код (C++):

#include <iostream>
#include <cmath>
#include <fstream>

using namespace std;

union newfloat{
    float f;
    unsigned int i;
};

int main ()
{
// Declare new floating point numbers
newfloat input;
newfloat result, resultm1, resultp1;
newfloat correct_result, correct_resultm1, correct_resultp1;
newfloat resultm1_times_result, resultp1_times_result;
newfloat correct_resultm1_times_result, correct_resultp1_times_result;

// Print message at start of program
cout << "Square root program started" << endl;
input.i = 0x62A83003; // Input we are trying to find the square root of
cout << "Input value is " << hex << input.i << "\n" <<  endl; // Print input value

result.i = 0x5112B968; // Result from MATLAB
resultm1.i = result.i - 1; // value minus 1 ulp
resultp1.i = result.i + 1; // value plus 1 ulp

correct_result.f = sqrt(input.f);          // Compute correct square root
correct_resultm1.i = correct_result.i - 1; // correct value minus 1 ulp
correct_resultp1.i = correct_result.i + 1; // correct value plus 1 ulp

resultm1_times_result.f = result.f * resultm1.f; // Compute g(g-ulp) for matlab result
resultp1_times_result.f = result.f * resultp1.f; // Compute g(g+ulp) for matlab result

correct_resultm1_times_result.f = correct_result.f * correct_resultm1.f; // Compute g*(g-ulp) for correct result
correct_resultp1_times_result.f = correct_result.f * correct_resultp1.f; // Compute g*(g+ulp) for correct result


// Print output from MATLAB algorithm and perform tuckerman test
cout << "===Tuckerman Test with MATLAB result===" << endl;
cout << "Square root result from MATLAB = " << result.i << endl;
cout << "g*(g-ulp) = " << hex << resultm1_times_result.i << endl;
cout << "b = " << hex << input.i << endl;
cout << "g*(g+ulp) = " << hex << resultp1_times_result.i << endl;
if ((resultm1_times_result.f < input.f) && (input.f <= resultp1_times_result.f))
  cout << "=====>Passes Tuckerman test" << endl;
else
  cout << "=====>Fails Tuckerman test" << endl;


cout << "\n" << endl;

// Print output from C++ sqrt math library and perform tuckerman test
cout << "===Tuckerman Test with correct result===" << endl;
cout << "Correct square root result = " << hex << correct_result.i << endl;
cout << "g*(g-ulp) = " << hex << correct_resultm1_times_result.i << endl;
cout << "b = " << hex << input.i << endl;
cout << "g*(g+ulp) = " << hex << correct_resultp1_times_result.i << endl;
if ((correct_resultm1_times_result.f < input.f) && (input.f <= correct_resultp1_times_result.f))
  cout << "=====>Passes Tuckerman test" << endl;
else
  cout << "=====>Fails Tuckerman test" << endl;

return 0;
}

Veridian 05 фев. 2015, в 00:13

Источник

0

У меня нет опыта использования теста Такермана, но, как я понимаю, его нужно применять математически, а не оценивать с целевой арифметической точностью с плавающей точкой. Рассмотрим: g=0x1.2572d20000000p+35 (5112b969); g*(g-ulp)=0x1.506005e8cea00p+70 < arg=0x1.5060060000000p+70 <= g*(g+ulp)=0x1.50600a7e99e80p+70 T;;;; g=0x1.2572d00000000p+35 (5112b968); g*(g-ulp)=0x1.5060015303600p+70 < arg=0x1.5060060000000p+70 <= g*(g+ulp)=0x1.506005e8cea00p+70 F
njuffa 05 фев. 2015, в 01:17
0

Все, что, по-видимому, необходимо для правильного применения теста, - это вычисление двух произведений g*(g-ulp) и g*(g+ulp) с удвоенной шириной предварительного результата g . В аппаратном множителе полный продукт двойной ширины должен быть доступен до окончательного округления, поэтому необходимое дополнительное оборудование (компаратор двойной ширины) будет минимальным, если его нет по другим причинам.
njuffa 05 фев. 2015, в 01:30
0

@njuffa, Предполагая, что у меня нет аппаратного обеспечения для выполнения вычислений с большей точностью (как в случае с тем, над чем я работаю), возможно ли выполнить округление по Такерману?
Veridian 05 фев. 2015, в 02:33
0

Я не знаю. Мне кажется, что, если предварительный результат находится в пределах 1 ulp от конечного результата, старшие биты в сравнениях должны быть отменены, и вы можете избежать сравнения только младших битов двух продуктов с аргументом. Таким образом, вам не понадобятся промежуточные результаты двойной ширины. У вас есть способ генерации этих младших битов? Некоторый контекст вашего вопроса может быть полезен: что у вас есть в плане аппаратного и программного обеспечения?
njuffa 05 фев. 2015, в 02:41
0

Вот другой угол, который вы могли бы попробовать. Округление Такермана было введено в R. Agarwal et al., "Новые скалярные и векторные элементарные функции для IBM System / 370", IBM J. Res. Develop., Vol. 30, No. 2, March 1986, p. 126. В документе особо отмечается , что продукция г * (г + ULP) и г * (г-ULP) вычисляются с усечением (не округление!) Множителем системы / 370, не требуя какую - либо дополнительную точность.
njuffa 05 фев. 2015, в 03:03
1

Использование умножающего усечения исправляет конкретный случай, упомянутый в вопросе: g=5112b969; mul_rz(g,g-ulp)=62a83002 < arg=62a83003 <= mul_rz(g,g+ulp)=62a83005 T;;;; g=5112b968; mul_rz(g,g-ulp)=62a83000 < arg=62a83003 <= mul_rz(g,g+ulp)=62a83002 F Так что это похоже на подход, который стоит изучить.
njuffa 05 фев. 2015, в 03:30

Показать ещё 4 комментария

Теги:

c++

floating-point

matlab

math

rounding

1 ответ

Ещё вопросы

У меня нет опыта использования теста Такермана, но, как я понимаю, его нужно применять математически, а не оценивать с целевой арифметической точностью с плавающей точкой. Рассмотрим: g=0x1.2572d20000000p+35 (5112b969); g*(g-ulp)=0x1.506005e8cea00p+70 < arg=0x1.5060060000000p+70 <= g*(g+ulp)=0x1.50600a7e99e80p+70 T;;;; g=0x1.2572d00000000p+35 (5112b968); g*(g-ulp)=0x1.5060015303600p+70 < arg=0x1.5060060000000p+70 <= g*(g+ulp)=0x1.506005e8cea00p+70 F
Все, что, по-видимому, необходимо для правильного применения теста, - это вычисление двух произведений g*(g-ulp) и g*(g+ulp) с удвоенной шириной предварительного результата g . В аппаратном множителе полный продукт двойной ширины должен быть доступен до окончательного округления, поэтому необходимое дополнительное оборудование (компаратор двойной ширины) будет минимальным, если его нет по другим причинам.
@njuffa, Предполагая, что у меня нет аппаратного обеспечения для выполнения вычислений с большей точностью (как в случае с тем, над чем я работаю), возможно ли выполнить округление по Такерману?
Я не знаю. Мне кажется, что, если предварительный результат находится в пределах 1 ulp от конечного результата, старшие биты в сравнениях должны быть отменены, и вы можете избежать сравнения только младших битов двух продуктов с аргументом. Таким образом, вам не понадобятся промежуточные результаты двойной ширины. У вас есть способ генерации этих младших битов? Некоторый контекст вашего вопроса может быть полезен: что у вас есть в плане аппаратного и программного обеспечения?
Вот другой угол, который вы могли бы попробовать. Округление Такермана было введено в R. Agarwal et al., "Новые скалярные и векторные элементарные функции для IBM System / 370", IBM J. Res. Develop., Vol. 30, No. 2, March 1986, p. 126. В документе особо отмечается , что продукция г * (г + ULP) и г * (г-ULP) вычисляются с усечением (не округление!) Множителем системы / 370, не требуя какую - либо дополнительную точность.
Использование умножающего усечения исправляет конкретный случай, упомянутый в вопросе: g=5112b969; mul_rz(g,g-ulp)=62a83002 < arg=62a83003 <= mul_rz(g,g+ulp)=62a83005 T;;;; g=5112b968; mul_rz(g,g-ulp)=62a83000 < arg=62a83003 <= mul_rz(g,g+ulp)=62a83002 F Так что это похоже на подход, который стоит изучить.

njuffa · Accepted Answer · 2015-02-05T03-48-00.000Z

В оригинальной публикации, в которой Tuckerman было представлено закругление квадратного корня, было:

Рамеш К. Агарвал, Джеймс У. Кули, Фред Г. Густавсон, Джеймс Б. Ширер, Гордон Шлишман, Брайант Таккерман, "Новые скалярные и векторные элементарные функции для IBM System/370", IBM J. Res. Развить. 30, № 2, март 1986 г., стр. 126-144.

В этой статье конкретно указывается, что умножения, используемые для вычисления произведений g*(g-ulp) и g*(g+ulp), а не округляют умножения:

"Однако эти неравенства можно показать эквивалентными

y _-* y <x <= y * y ₊,

где * обозначает умножение System/360/370 (которое усекает результат), так что тесты легко выполняются без необходимости дополнительной точности. (Обратите внимание на асимметрию: один <, один <=.) Если левое неравенство терпит неудачу, y слишком велико; если правое неравенство терпит неудачу, y слишком мало ".

Следующий код C99 показывает, как округление Tuckerman успешно используется для корректного округления результатов в функции квадратного корня с одной точностью.

#include <stdio.h>
#include <stdlib.h>
#include <fenv.h>
#include <math.h>

#pragma STDC FENV_ACCESS ON
float mul_fp32_rz (float a, float b)
{
    float r;
    int orig_rnd = fegetround();
    fesetround (FE_TOWARDZERO);
    r = a * b;
    fesetround (orig_rnd);
    return r;
}

float my_sqrtf (float a)
{
    float b, r, v, w, p, s;
    int e, t, f;

     if ((a <= 0.0f) || isinff (a) || isnanf (a)) {
         if (a < 0.0f) {
             r = 0.0f / 0.0f;
         } else {
             r = a + a;
         }
     } else {
         /* compute exponent adjustments */
         b = frexpf (a, &e);
         t = e - 2*512;
         f = t / 2;
         t = t - 2 * f;
         f = f + 512;
         /* map argument into the primary approximation interval [0.25,1) */
         b = ldexpf (b, t);
         /* initial approximation to reciprocal square root */
         r =        -6.10005470e+0f;
         r = r * b + 2.28990124e+1f;
         r = r * b - 3.48110069e+1f;
         r = r * b + 2.76135244e+1f;
         r = r * b - 1.24472151e+1f;
         r = r * b + 3.84509158e+0f;
         /* round rsqrt approximation to 11 bits */
         r = rintf (r * 2048.0f); 
         r = r * (1.0f / 2048.0f);
         /* Use A. Schoenhage coupled iteration for the square root */
         v = 0.5f * r;
         w = b * r;             
         w = (w * -w + b) * v + w;
         v = (r * -w + 1.0f) * v + v;
         w = (w * -w + b) * v + w;
         /* Tuckerman rounding: mul_rz (w, w-ulp) < b <= mul_rz (w, w+ulp) */
         p = nextafterf (w, 0.0f);
         s = nextafterf (w, 2.0f);
         if (b <= mul_fp32_rz (w, p)) {  
             w = p;
         } else if (b > mul_fp32_rz (w, s)) {
             w = s;
         }
         /* map back from primary approximation interval by jamming exponent */
         r = ldexpf (w, f);
     }
     return r;
 }

 int main (void)
 {
     volatile union {
         float f;
         unsigned int i;
     } arg, res, ref;
     arg.i = 0;
     do {
         res.f = my_sqrtf (arg.f);
         ref.f = sqrtf (arg.f);
         if (res.i != ref.i) {
              printf ("!!!! error @ arg=%08x: res=%08x ref=%08x\n",
                      arg.i, res.i, ref.i);
              break;
         }
         arg.i++;
    } while (arg.i);
    return EXIT_SUCCESS;
}

Спасибо! Это сработало отлично! Округление до нуля было трюком, который мне был нужен