单精度浮点数与机器精度解析

资源描述

《单精度浮点数与机器精度解析》由会员分享，可在线阅读，更多相关《单精度浮点数与机器精度解析（3页珍藏版）》请在金锄头文库上搜索。

1、单精度浮点数与机器精度解析一、单精度浮点数先来简单了解一下浮点数在计算机中的存储方式。根据 IEEE 754 标准，单精度浮点数格式如下（所有位取 0）：各部分解释单精度浮点数有 32 个二进制位，左侧是高位，右侧是低位。最高位被指定为符号位，0 代表正数，1 代表负数。指数部分将是 2 的幂次，其编码值（即上表指数部分对应的八个二进制位）规定为指数的实际值加上偏移值 27-1=127，这是为了避免负数，将-127, 128映射到0, 255，这样指数部分编码就可以简单地编排为00000000, 11111111。例如指数部分为 00001000，十进制为8。那么其所代表的实际指数是 8-

2、127=-119，即要乘上 2-119。最后 23 位尾数是不包含整数位的实际有效小数位。规约数的整数位是 1，非规约数的整数位是0。规约形式的浮点数与非规约形式的浮点数指数部分的编码值在1, 2e-2内，且尾数部分的整数位是 1，这样的浮点数被称为规约形式的浮点数。指数部分的编码值为 0，尾数非零，这样的浮点数被称为非规约形式的浮点数。规约浮点数的尾数1, 2)，而非规约浮点数的尾数(0, 1)。需要注意，非规约数指数编码为 00000000，但指数实际值是-126，而非-127。非规约浮点数被 IEEE 754-1985 标准采用是因为它的渐进式下溢出，而规约浮点数将导致突然式下溢出，

3、具体原理不再展开。实际计算设符号位为 s。sign(s)确定正负：sign(0)=1，sign(1)=-1 ；指数部分为 e；尾数部分为 f。用 (N)2 表示二进制数 N。规约形式：sign(s)*2e-127*(1.f)2非规约形式：sign(s)*2-126*(0.f)2 特殊值和极值上下溢出值由浮点数的存储方式可以看出计算机所能表示的浮点数是有限的，我们把所能表示的最大正值称为上溢值，而把最接近 0 的正值称为下溢值。由表二我们看到上溢值为3.40e38，下溢值为1.40e-45。二、机器精度Wikipedia 上机器精度 Machine Epsilon 是这样描述的：“Machi

4、ne epsilon gives an upper bound on the relative error due to rounding in floating point arithmetic”。因为浮点数是离散的，所以实数的表示存在着误差。例如圆周率这样的无限不循环小数不可能精确地由某一个浮点数表示。我们需要一些具体的量去刻画这种误差，以估计结果的准确性。机器精度便是其中之一：它是所有相对误差的上限。相对误差是绝对误差与精确值的比值的绝对值。例如一个精确的实数 x，所有单精度浮点数中与 x 距离最近的数为 y，绝对误差为|y-x|，相对误差即|yx|/|x|，而所有相对误差的上限便是单精

5、度浮点数的机器精度。对于 32 位浮点数，指数 8 位，尾数为 23 位。对于两个指数实际值为 E 的相同的浮点数，若它们尾数部分相差(00000000000000000000001)2，即 2-23，易见它们是相邻的。那么与它们指数相同的实数 x 与距 x 最近的浮点数 y 之间的距离|y-x| 一定小于此相邻两浮点数的距离 2-23 * 2E。可以取 x=1.0（或者其他任何数），此时实际指数为 0，所以机器精度是 2232E /1.0。三、C+程序实现利用库求值标准库中的 numeric_limits 类中包含了许多算数特殊值：上溢值: std:numeric_limits:max(

6、);规约下溢值: std:numeric_limits:min();非规约下溢值: std:numeric_limits:denorm_min();机器精度: std:numeric_limits:epsilon();其中 numeric_limits中 float 可以换成 int，double 等其它类型。实际二进制存储值std:string get_binary(float f)int index_byte, index_bit;unsigned int byte = 0;char ch, *p;std:string bin_f = ;p = (char *)(&f);for (index_byte = sizeof(float)-1; index_byte=0; index_byte-) ch = *(p+index_byte); /从最高位开始取byte = ch; /将地址中 8 个二进制位赋值成十进制数for (index_bit = 1; index_bit=128) bin_f += 1;else bin_f += 0; /判断首位是 1 还是 0byte = 1; /将当前位变成首位byte &= 255; /确保始终 8 个二进制位return bin_f;

展开阅读全文