浮点数的存储

■ 现实生活中的小数
数学中的小数，又称为实数。一般用十进制表示

例如： 3.14159265

■ 科学计算法
数学中的科学计算法许多种表示法

3.14159265 = 0.314159265 × 101

■ 计算机中浮点数的表示

在计算机中的使用科学计数法是一种“规格化计数法”。

● 规格化计数法
用科学计数法表示实数时，如果最左边的第一个数字不是0，则被称为“规格化计数法”
0.1 × 10-2 不是规格化计数法
1.0 × 10-3 则是规格化计数法

● IEEE 754 标准
IEEE 754 标准成立于1985年，80年代起所有的计算机系统均支持IEEE 754
IEEE 754 对浮点数在计算机表示方法有三个主要的规定：

对于单精度（single precision）：单精度浮点数位长：32位

（1） IEEE 754 标准规定：第1位为符号位，1 代表负，0代表正
（2）接下来用8位来表示指数部分。
（3）接下来的23位用来表示有效数位

0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
- --------------- ---------------------------------------------
S 指数（8位）有效数位（23 位）

★ IEEE 754 考虑到利用现有的整数比较指充，对浮点数能进行快速的比较和排序，由于指数部分大小能快速反应出浮点数的大小，所以，在符号位接下来的8位用来表示指数，有效数位的大小反应出浮点数的精度。安排在最后的23位

★ 对于规格化二进制浮点示法而言，有效数位的第1位必定是1而不是0，因此，IEEE 754 规定：实际有效数位中的第1位被省去，因而，有效数位中默计含有1位。

★ 移码：除了将指数安排在有效数位前面，还不足以快速比较两个浮点数的大小，例如：

1.0 × 2 -1 在计算机中表示为：0 11111111 00000000000000000000000
这个数相当于整数的 0x7F800000

1.0 × 2 1 在计算机中表示为：0 00000001 00000000000000000000000
这个数相当于整数的 0x00800000

如果用整数比较指令，比较两个数，1.0 × 2 -1 竟然比 1.0 × 2 1 还大！

为了解决这个问题，IEEE 754 设计了一个方案：将指数加上一个常数 127
这个常数 127 被称为“移码”（biased notation）

我们再来看一看：
1.0 × 2 -1 将指数： -1 + 127 = 126 后,得出以下的二进制数：
0 01111110 00000000000000000000 也就是: 0x3F000000

1.0 × 2 1 将指数：1 + 127 = 128 后，得出以下的二进制数：
0 10000000 00000000000000000000 也就是：0x40000000

这样的话，就可以得出正确结果了。

对于双精度（double precision）浮点数来说：位长64 位
（1）IEEE 754 标准规定：第1位为符号位，1 代表负，0代表正。
（2）接下来用11位来表示指数部分。
（3）接下来的52位用来表示有效数位。

★ 双精度浮点数用52位来表示有效数位，11位表示指数位，这样提高浮点数的精度，也还提高了浮点数的取值范围。

★ 双精度的移码为 1023

例子：
1、将 -0.625 转化为计算机中的二进制数浮点数
解：
-0.625 = -5/8 = -5/23 = -101 × 2-3 = -1.01 × 2-1

符号位：1
指数位：-1 + 127 = 126
有效数位：1.01（在机器中要相应去掉默认位）

所以，在机器表示的二进制序列为：1 01111110 0100000000000000000000
相当于整数：0xBF200000

2、将如下二进制序列用十进制浮点数表示。
11000000101000000000000000000000

解：
符号位：1 是负数
指数位；10000001 = 129，这个数要减去移码值，即：129 – 127 = 2
有效数位：01000000000000000000000 这个数要加上默认1，即得：1.01

整个序列结果为：- 1.01 × 22 = -101 = -5.0

下面的例子是按照二进制格式化输出整型、字符型以及单精度和双精度浮点型的例子：

[cpp] view plain copy print ?

#include<stdio.h>
/*
*
*fun1(char);
fun2(int)
fun3(float);
fun4(double);
*
*
*
**/
voidfun4(doublen)
{
inti;
unsignedj=0;
char*p=(char*)&n;
putchar(10);
printf("doublen:%lf\n",n);
for(i=7;i>=0;i--)
{
for(j=0x80;j!=0;j>>=1)
{
if(*(p+i)&j)
{
putchar('1');
}
else{
putchar('0');
}
if(i==7&&j==0x80||i==6&&j==0x10)
{
putchar('');
}
}
}
putchar(10);
}
voidfun3(floatn)
{
char*q=(char*)&n;
inti;
unsignedintj=0;
putchar(10);
printf("floatn:%f\n",n);
for(i=3;i>=0;i--)
{
for(j=0x80;j!=0;j>>=1)
{
if(*(q+i)&j)
{
putchar('1');
}
else
{
putchar('0');
}
if(i==3&&j==0x80||i==2&&j==0x80)
{
putchar('');
}
}
}
putchar(10);
}
voidfun2(intn)
{
unsignedintj=0x80000000;
putchar(10);
printf("intn:%d\n",n);
while(j!=0)
{
if(n&j)
{
putchar('1');
}
else
{
putchar('0');
}
if(j==0x80000000||j==0x00800000)
{
putchar('');
}
j>>=1;
}
putchar(10);
}
voidfun1(charn)
{
chari=0;
unsignedcharj=0x80;
putchar(10);
printf("charn:%d\n",n);
while(i<8)
{
if(n&j)
{
putchar('1');
}
else
{
putchar('0');
}
j>>=1;
i++;
}
putchar(10);
}
intmain(void)
{
floatx1=4.25;
floatx2=-4.25;
doubley1=4.25;
doubley2=-4.25;
intz1=5;
intz2=-5;
charw1=13;
charw2=-13;
fun2(z1);
fun2(z2);
fun1(w1);
fun1(w2);
fun3(x1);
fun3(x2);
fun4(y1);
fun4(y2);
putchar(10);
return0;
}

执行结果：

相关推荐