浮点型的那些事

从事码农这个工作以来一直学习各种技术博客，从来没有分享过自己的提升，今天终于忍不住想写自己的第一篇技术博客，望斧正。

浮点型的那些事

　　从学习编程之初就知道浮点型的科学计数法保存是有问题的，保存的精度并不能得到保证，一直得过且过的用着而没有去细致研究。

　　直到我的处女症发作，实在是忍不住用代码去“观看”了一下内存中浮点型是如何储存的以至于产生误差的。

　　1.浮点型遇到的问题

　　　　　　举个最简单的????，也是让我强迫癌难以忍受的例子是什么样的呢，贴出来：

　　　　　　　float a = 0.2f;
　　　　　　　double b = a;

　　　　　　讲道理，b理论上的值是个程序猿就能告诉我是0.2。嗯，我也是这么觉得的，可是结果呢

　　　　　　　　浮点型的那些事

　　　　　　这是shenmegui，我的内心都是懵逼的好吗。你如果说float强转double型丢失精度我忍了，或者说类似于2.25-2.2=0.04999995这种结果我都能接受。

　　　　　　但是为什么数据范围变大的过程中数据会发生改变呢，不知道别人能不能忍，反正我不能忍。

　　2.浮点型保存

　　　　　　浮点型怎么保存的网上有大把说明，简单来说就是：把它的二进制数用科学计数法分三部分保存，具体如下

　　　　　　拿让我纠结的0.2举例
　　　　　　首先把浮点数转成二进制，这不用说了吧（整数除二取余，倒叙排列；小数乘二取整，顺序排列）
　　　　　　　　二进制结果是：0.0011001100110011001100110011001100（各种无限0011的循环）

　　　　　　然后把它用科学计数法表示出来
　　　　　　　　科学计数法结果是：1.100110011....(照样循环) * 2^(-3)

　　　　　　接着把它的符号位，指数，尾数分别取出来
　　　　　　　　符号：0
　　　　　　　　指数：-3
　　　　　　　　尾数：.100110011001100110011001100110(小数点后还是照例循环)

　　　　　　知道的应该看出来了，只去小数点后的数值。原因很简单，因为最前面首位必然是1，所以省略掉那个大家共有的1省出一位来提升精度。

　　　　　　最后就是对各个数值进行处理并以IEEE标准进行存储

　　　　　　float采用IEEE 754标准（一般商业性质的系统都采取这个标准，至于到底是什么，为什么采用都是可以轻易查到的，就不详细描述了。）

　　　　　　同样用0.2的float来举例：
　　　　　　符号为很明显了是 --- 0 (1位)
　　　　　　指数的操作是指数加指数偏移值，float型是127，double型是1023。

　　　　　　指数位-3+124的二进制值是 --- 01111100（8位）
　　　　　　尾数依然是各种循环 --- 10011001100110011001100 （23位）

　　　　　　用代码去验证一下，看看内存中的float到底是不是按照我们想象的方式存储

 1 　　　　class MainClass
 2 　　　　{
 3 　　　　　　public static void Main(string[] args)
 4 　　　　　　{
 5 　　　　　　　　float val = 0.2f;
 6 
 7 　　　　　　　　int data = GetMemoryData(val);
 8 
 9 　　　　　　　　uint signNum = ((uint)data & 0x80000000) >> 31;
10 　　　　　　　　uint exponentialNum = ((uint)data & 0x7f800000) >> 23;
11 　　　　　　　　uint mantissaNum = ((uint)data & 0x007fffff);
12 
13 　　　　　　　　string exponentialBinary = GetDataBinary(exponentialNum, 8);
14 　　　　　　　　string mantissaBinary = GetDataBinary(mantissaNum, 23);
15 　　　　　　　　Console.WriteLine("符号位为：{0}", signNum);
16 　　　　　　　　Console.WriteLine("指数位为：{0}", exponentialBinary);
17 　　　　　　　　Console.WriteLine("尾数位为：{0}", mantissaBinary);
18 
19 　　　　　　}
20 
21 　　　　　　static unsafe int GetMemoryData(float val)
22 　　　　　　{
23 　　　　　　　　return *((int*)(&val));
24 　　　　　　}
25 
26 　　　　　　static string GetDataBinary(uint data, int num)
27 　　　　　　{
28 　　　　　　　　byte[] binarys = new byte[23];
29 
30 　　　　　　　　for (int i = 0; i < num; i ++){
31 　　　　　　　　byte val = (byte)(data & 0x1);
32 　　　　　　　　data >>= 1;
33 　　　　　　　　binarys[22 - i] = (byte)(val + 48);
34 　　　　　　   }
35 　　　　　　   return System.Text.Encoding.Default.GetString(binarys);
36 　　　　　　}
37 　　　　 }

　　　　　　运行一下的结果是：

　　　　　　　　浮点型的那些事

　　　　　　也就是像下图这样

　　　　　　　　浮点型的那些事

问题的原因

　　　　　　实际上看到这里，聪明的应该已经可以猜到问题产生的原因了。

　　　　　　我们可以按照刚才的流程反向算一遍，用储存的尾数加上隐藏位1，得到底数：1.10011001100110011001101再乘上2的-3次幂。
　　　　　　得到的结果，恰恰是是我们一开始看到的错误的值。
　　　　　　那么float转double型的过程实际上就是在后面不断的补0的过程。
　　　　　　float因为精度所限并不能显示出后面缺失的精度，而高精度的double型补零后反而暴露出了浮点型精度的缺失问题
　　　　　　　　浮点型的那些事

解决办法

　　　　1.如果对精度要要求很高，对性能和内存的要求相对宽松的话，可以试着改成字符串进行操作。
　　　　2.如果需要进行大量的数据操作的话，可以用Kahan算法补差值的方式进行精度修复。

　　　　　　不知道有没有观察仔细的看出来了！
　　　　　　我们算出来的二进制是：00111110010011001100110011001100
　　　　　　然而实际上的二进制是：00111110010011001100110011001101
　　　　　　产生尾数位最后一位不同的原因呢～～～
　　　　　　其实我也想知道啊!!!

相关推荐