浮点型的那些事

  从事码农这个工作以来一直学习各种技术博客,从来没有分享过自己的提升,今天终于忍不住想写自己的第一篇技术博客,望斧正。

 

      浮点型的那些事

 

  从学习编程之初就知道浮点型的科学计数法保存是有问题的,保存的精度并不能得到保证,一直得过且过的用着而没有去细致研究。

  直到我的处女症发作,实在是忍不住用代码去“观看”了一下内存中浮点型是如何储存的以至于产生误差的。

  1.浮点型遇到的问题

      举个最简单的????,也是让我强迫癌难以忍受的例子是什么样的呢,贴出来:

       float a = 0.2f;
       double b = a;

 

      讲道理,b理论上的值是个程序猿就能告诉我是0.2。嗯,我也是这么觉得的,可是结果呢

        浮点型的那些事

      这是shenmegui,我的内心都是懵逼的好吗。你如果说float强转double型丢失精度我忍了,或者说类似于2.25-2.2=0.04999995这种结果我都能接受。

      但是为什么数据范围变大的过程中数据会发生改变呢,不知道别人能不能忍,反正我不能忍。

  2.浮点型保存

      浮点型怎么保存的网上有大把说明,简单来说就是:把它的二进制数用科学计数法分三部分保存,具体如下

      拿让我纠结的0.2举例
      首先把浮点数转成二进制,这不用说了吧(整数除二取余,倒叙排列;小数乘二取整,顺序排列)
        二进制结果是:0.0011001100110011001100110011001100(各种无限0011的循环)

      然后把它用科学计数法表示出来
        科学计数法结果是:1.100110011....(照样循环) * 2^(-3)

      接着把它的符号位,指数,尾数分别取出来
        符号:0
        指数:-3
        尾数:.100110011001100110011001100110(小数点后还是照例循环)

      知道的应该看出来了,只去小数点后的数值。原因很简单,因为最前面首位必然是1,所以省略掉那个大家共有的1省出一位来提升精度。

      最后就是对各个数值进行处理并以IEEE标准进行存储

      float采用IEEE 754标准(一般商业性质的系统都采取这个标准,至于到底是什么,为什么采用都是可以轻易查到的,就不详细描述了。)

      同样用0.2的float来举例:
      符号为很明显了 是 --- 0 (1位)
      指数的操作是指数加指数偏移值,float型是127,double型是1023。


      指数位-3+124的二进制值是 --- 01111100(8位)
      尾数依然是各种循环 --- 10011001100110011001100 (23位)

      用代码去验证一下,看看内存中的float到底是不是按照我们想象的方式存储

 

 1     class MainClass
 2     {
 3       public static void Main(string[] args)
 4       {
 5         float val = 0.2f;
 6 
 7         int data = GetMemoryData(val);
 8 
 9         uint signNum = ((uint)data & 0x80000000) >> 31;
10         uint exponentialNum = ((uint)data & 0x7f800000) >> 23;
11         uint mantissaNum = ((uint)data & 0x007fffff);
12 
13         string exponentialBinary = GetDataBinary(exponentialNum, 8);
14         string mantissaBinary = GetDataBinary(mantissaNum, 23);
15         Console.WriteLine("符号位为:{0}", signNum);
16         Console.WriteLine("指数位为:{0}", exponentialBinary);
17         Console.WriteLine("尾数位为:{0}", mantissaBinary);
18 
19       }
20 
21       static unsafe int GetMemoryData(float val)
22       {
23         return *((int*)(&val));
24       }
25 
26       static string GetDataBinary(uint data, int num)
27       {
28         byte[] binarys = new byte[23];
29 
30         for (int i = 0; i < num; i ++){
31         byte val = (byte)(data & 0x1);
32         data >>= 1;
33         binarys[22 - i] = (byte)(val + 48);
34          }
35          return System.Text.Encoding.Default.GetString(binarys);
36       }
37      }

 

      运行一下的结果是:

        浮点型的那些事

      也就是像下图这样

        浮点型的那些事

 

 

  • 问题的原因

      实际上看到这里,聪明的应该已经可以猜到问题产生的原因了。

      我们可以按照刚才的流程反向算一遍,用储存的尾数加上隐藏位1,得到底数:1.10011001100110011001101再乘上2的-3次幂。
      得到的结果,恰恰是是我们一开始看到的错误的值。
      那么float转double型的过程实际上就是在后面不断的补0的过程。
      float因为精度所限并不能显示出后面缺失的精度,而高精度的double型补零后反而暴露出了浮点型精度的缺失问题
        浮点型的那些事

 

  • 解决办法

    1.如果对精度要要求很高,对性能和内存的要求相对宽松的话,可以试着改成字符串进行操作。
    2.如果需要进行大量的数据操作的话,可以用Kahan算法补差值的方式进行精度修复。


      不知道有没有观察仔细的看出来了!
      我们算出来的二进制是:00111110010011001100110011001100
      然而实际上的二进制是:00111110010011001100110011001101
      产生尾数位最后一位不同的原因呢~~~
      其实我也想知道啊!!!