浮点数的存储
■ 现实生活中的小数
数学中的小数,又称为实数。一般用十进制表示
例如: 3.14159265
■ 科学计算法
数学中的科学计算法许多种表示法
3.14159265 = 0.314159265 × 101
■ 计算机中浮点数的表示
在计算机中的使用科学计数法是一种“规格化计数法”。
● 规格化计数法
用科学计数法表示实数时,如果最左边的第一个数字不是0,则被称为“规格化计数法”
0.1 × 10-2 不是规格化计数法
1.0 × 10-3 则是规格化计数法
● IEEE 754 标准
IEEE 754 标准成立于1985年,80年代起所有的计算机系统均支持IEEE 754
IEEE 754 对浮点数在计算机表示方法有三个主要的规定:
对于单精度(single precision):单精度浮点数位长:32位
(1) IEEE 754 标准规定:第1位为符号位,1 代表负,0代表正
(2) 接下来用8位来表示指数部分。
(3) 接下来的23位用来表示有效数位
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
- --------------- ---------------------------------------------
S 指数(8位) 有效数位 (23 位)
★ IEEE 754 考虑到利用现有的整数比较指充,对浮点数能进行快速的比较和排序,由于指数部分大小能快速反应出浮点数的大小,所以,在符号位接下来的8位用来表示指数,有效数位的大小反应出浮点数的精度。安排在最后的23位
★ 对于规格化二进制浮点示法而言,有效数位的第1位必定是1而不是0,因此,IEEE 754 规定:实际有效数位中的第1位被省去,因而,有效数位中默计含有1位。
★ 移码:除了将指数安排在有效数位前面,还不足以快速比较两个浮点数的大小,例如:
1.0 × 2 -1 在计算机中表示为:0 11111111 00000000000000000000000
这个数相当于整数的 0x7F800000
1.0 × 2 1 在计算机中表示为:0 00000001 00000000000000000000000
这个数相当于整数的 0x00800000
如果用整数比较指令,比较两个数,1.0 × 2 -1 竟然比 1.0 × 2 1 还大!
为了解决这个问题,IEEE 754 设计了一个方案:将指数加上一个常数 127
这个常数 127 被称为“移码”(biased notation)
我们再来看一看:
1.0 × 2 -1 将指数: -1 + 127 = 126 后,得出以下的二进制数:
0 01111110 00000000000000000000 也就是: 0x3F000000
1.0 × 2 1 将指数:1 + 127 = 128 后,得出以下的二进制数:
0 10000000 00000000000000000000 也就是:0x40000000
这样的话,就可以得出正确结果了。
对于双精度(double precision)浮点数来说:位长64 位
(1)IEEE 754 标准规定:第1位为符号位,1 代表负,0代表正。
(2)接下来用11位来表示指数部分。
(3)接下来的52位用来表示有效数位。
★ 双精度浮点数用52位来表示有效数位,11位表示指数位,这样提高浮点数的精度,也还提高了浮点数的取值范围。
★ 双精度的移码为 1023
例子:
1、将 -0.625 转化为计算机中的二进制数浮点数
解:
-0.625 = -5/8 = -5/23 = -101 × 2-3 = -1.01 × 2-1
符号位:1
指数位:-1 + 127 = 126
有效数位:1.01(在机器中要相应去掉默认位)
所以,在机器表示的二进制序列为:1 01111110 0100000000000000000000
相当于整数:0xBF200000
2、将如下二进制序列用十进制浮点数表示。
11000000101000000000000000000000
解:
符号位:1 是负数
指数位;10000001 = 129, 这个数要减去移码值,即:129 – 127 = 2
有效数位:01000000000000000000000 这个数要加上默认1,即得:1.01
数学中的小数,又称为实数。一般用十进制表示
例如: 3.14159265
■ 科学计算法
数学中的科学计算法许多种表示法
3.14159265 = 0.314159265 × 101
■ 计算机中浮点数的表示
在计算机中的使用科学计数法是一种“规格化计数法”。
● 规格化计数法
用科学计数法表示实数时,如果最左边的第一个数字不是0,则被称为“规格化计数法”
0.1 × 10-2 不是规格化计数法
1.0 × 10-3 则是规格化计数法
● IEEE 754 标准
IEEE 754 标准成立于1985年,80年代起所有的计算机系统均支持IEEE 754
IEEE 754 对浮点数在计算机表示方法有三个主要的规定:
对于单精度(single precision):单精度浮点数位长:32位
(1) IEEE 754 标准规定:第1位为符号位,1 代表负,0代表正
(2) 接下来用8位来表示指数部分。
(3) 接下来的23位用来表示有效数位
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
- --------------- ---------------------------------------------
S 指数(8位) 有效数位 (23 位)
★ IEEE 754 考虑到利用现有的整数比较指充,对浮点数能进行快速的比较和排序,由于指数部分大小能快速反应出浮点数的大小,所以,在符号位接下来的8位用来表示指数,有效数位的大小反应出浮点数的精度。安排在最后的23位
★ 对于规格化二进制浮点示法而言,有效数位的第1位必定是1而不是0,因此,IEEE 754 规定:实际有效数位中的第1位被省去,因而,有效数位中默计含有1位。
★ 移码:除了将指数安排在有效数位前面,还不足以快速比较两个浮点数的大小,例如:
1.0 × 2 -1 在计算机中表示为:0 11111111 00000000000000000000000
这个数相当于整数的 0x7F800000
1.0 × 2 1 在计算机中表示为:0 00000001 00000000000000000000000
这个数相当于整数的 0x00800000
如果用整数比较指令,比较两个数,1.0 × 2 -1 竟然比 1.0 × 2 1 还大!
为了解决这个问题,IEEE 754 设计了一个方案:将指数加上一个常数 127
这个常数 127 被称为“移码”(biased notation)
我们再来看一看:
1.0 × 2 -1 将指数: -1 + 127 = 126 后,得出以下的二进制数:
0 01111110 00000000000000000000 也就是: 0x3F000000
1.0 × 2 1 将指数:1 + 127 = 128 后,得出以下的二进制数:
0 10000000 00000000000000000000 也就是:0x40000000
这样的话,就可以得出正确结果了。
对于双精度(double precision)浮点数来说:位长64 位
(1)IEEE 754 标准规定:第1位为符号位,1 代表负,0代表正。
(2)接下来用11位来表示指数部分。
(3)接下来的52位用来表示有效数位。
★ 双精度浮点数用52位来表示有效数位,11位表示指数位,这样提高浮点数的精度,也还提高了浮点数的取值范围。
★ 双精度的移码为 1023
例子:
1、将 -0.625 转化为计算机中的二进制数浮点数
解:
-0.625 = -5/8 = -5/23 = -101 × 2-3 = -1.01 × 2-1
符号位:1
指数位:-1 + 127 = 126
有效数位:1.01(在机器中要相应去掉默认位)
所以,在机器表示的二进制序列为:1 01111110 0100000000000000000000
相当于整数:0xBF200000
2、将如下二进制序列用十进制浮点数表示。
11000000101000000000000000000000
解:
符号位:1 是负数
指数位;10000001 = 129, 这个数要减去移码值,即:129 – 127 = 2
有效数位:01000000000000000000000 这个数要加上默认1,即得:1.01
整个序列结果为:- 1.01 × 22 = -101 = -5.0
下面的例子是按照二进制格式化输出整型、字符型以及单精度和双精度浮点型的例子:
- #include<stdio.h>
- /*
- *
- *fun1(char);
- fun2(int)
- fun3(float);
- fun4(double);
- *
- *
- *
- **/
- voidfun4(doublen)
- {
- inti;
- unsignedj=0;
- char*p=(char*)&n;
- putchar(10);
- printf("doublen:%lf\n",n);
- for(i=7;i>=0;i--)
- {
- for(j=0x80;j!=0;j>>=1)
- {
- if(*(p+i)&j)
- {
- putchar('1');
- }
- else{
- putchar('0');
- }
- if(i==7&&j==0x80||i==6&&j==0x10)
- {
- putchar('');
- }
- }
- }
- putchar(10);
- }
- voidfun3(floatn)
- {
- char*q=(char*)&n;
- inti;
- unsignedintj=0;
- putchar(10);
- printf("floatn:%f\n",n);
- for(i=3;i>=0;i--)
- {
- for(j=0x80;j!=0;j>>=1)
- {
- if(*(q+i)&j)
- {
- putchar('1');
- }
- else
- {
- putchar('0');
- }
- if(i==3&&j==0x80||i==2&&j==0x80)
- {
- putchar('');
- }
- }
- }
- putchar(10);
- }
- voidfun2(intn)
- {
- unsignedintj=0x80000000;
- putchar(10);
- printf("intn:%d\n",n);
- while(j!=0)
- {
- if(n&j)
- {
- putchar('1');
- }
- else
- {
- putchar('0');
- }
- if(j==0x80000000||j==0x00800000)
- {
- putchar('');
- }
- j>>=1;
- }
- putchar(10);
- }
- voidfun1(charn)
- {
- chari=0;
- unsignedcharj=0x80;
- putchar(10);
- printf("charn:%d\n",n);
- while(i<8)
- {
- if(n&j)
- {
- putchar('1');
- }
- else
- {
- putchar('0');
- }
- j>>=1;
- i++;
- }
- putchar(10);
- }
- intmain(void)
- {
- floatx1=4.25;
- floatx2=-4.25;
- doubley1=4.25;
- doubley2=-4.25;
- intz1=5;
- intz2=-5;
- charw1=13;
- charw2=-13;
- fun2(z1);
- fun2(z2);
- fun1(w1);
- fun1(w2);
- fun3(x1);
- fun3(x2);
- fun4(y1);
- fun4(y2);
- putchar(10);
- return0;
- }
执行结果: