浮点数

浮点数是属于有理数中某特定子集的数的数字表示，在计算机中用以近似表示任意某个实数。具体的说，这个实数由一个整数或定点数 (即尾数) 乘以某个基数 (计算机中通常是2) 的整数次幂得到，这种表示方法类似于基数为10的科学记数法。

浮点计算:

是指浮点数参与的运算，这种运算通常伴随着因为无法精确表示而进行的近似或舍入。

一个浮点数a由两个数m和e来表示: a = m × b^e。在任意一个这样的系统中，我们选择一个基数b (记数系统的基) 和精度p (即使用多少位来存储) 。m (即尾数) 是形如±d.ddd…ddd的p位数 (每一位是一个介于0到b-1之间的整数，包括0和b-1) 。如果m的第一位是非0整数，m称作规格化的。有一些描述使用一个单独的符号位 (s 代表+或者-) 来表示正负，这样m必须是正的。e是指数。

浮点表示法: 把数的范围和精度分别表示的方法，相当于数的小数点的位置随比例因子的不同而在一定范围内可以自由浮动。

阶码: 浮点数编码中，表示小数点的位置的代码。

尾数: 浮点数据编码中，表示数据有效值的代码。

基数: 浮点数据编码中，对阶码所代表的指数值的数据，在计算机中是一个常数，不用代码表示。

定点数是小数点固定的数。在计算机中没有专门表示小数点的位，小数点的位置是约定默认的。一般固定在机器数的最低位之后，或是固定在符号位之后。前者称为定点纯整数，后者称为定点纯小数。

浮点数的表示范围:

最常用的32位规格化浮点数的表示范围是:

前提条件:阶码用移码表示,尾数用补码表示,每1位是符号位,阶码占8位,尾数占23位

可表示的最大正数:(1-2^-23)*2^127

最小正数:2^-129

最大负数:-2^-129

目前多数系统都按照IEEE-754标准来规定浮点数的存储格式。IEEE754规定，单精度浮点数用4字节存储，双精度浮点数用8字节存储，分为三个部分: 符号位、阶码和尾数。阶码即指数，尾数即有效小数位数。单精度格式阶码占8位，尾数占24位，符号位1位，双精度则为11位阶码，53位尾数和1位符号位，

显然差别就出来了。即使都是4字节存储的单精度浮点数，还有不使用IEEE754标准的，我记得字长32位的大型IBM系列机就是1位符号位，24位尾数，7位阶码，基数16，而不是2，与此标准不同。所以浮点数的表示范围依赖的因素较多较复杂，主要取决于表示一个浮点数所用的字节数和阶码的大小与长度。说法不一样，但应该都是有根据的。

最小负数:-2^127

规格化表示

java中的浮点数采用的事IEEE Standard 754 Floating Point Numbers标准,该标准的规范可以参考http://blog.csdn.net/treeroot/articles/94752.aspx.

float占用4个字节,和int是一样,也就是32bit.

第1个bit表示符号,0表示正数,1表示负数,这个很好理解,不用多管.

第2-9个bit表示指数,一共8为(可以表示0-255),这里的底数是2,为了同时表示正数和负数,这里要减去127的偏移量.这样的话范围就是(-127到128),另外全0和全1作为特殊处理,所以直接表示-126到127.

剩下的23位表示小数部分,这里23位表示了24位的数字,因为有一个默认的前导1(只有二进制才有这个特性).

最后结果是:(-1)^(sign) * 1.f * 2^(exponent)

这里:sign是符号位,f是23bit的小数部分,exponent是指数部分,最后表示范围是(因为正负数是对称的,这里只关心正数)

2^(-126) ~~ 2(1-2^(-24)) * 2^127

这个还不是float的取值范围,因为标准中还规定了非规格化表示法,另外还有一些特殊规定.

非规格化表示:

当指数部分全0而且小数部分不全0时表示的是非规格化的浮点数,因为这里默认没有前导1,而是0.

取值位0.f * 2^(-126),表示范围位 2^(-149)~~ (1-2^(-23)) * 2^(-126) 这里没有考虑符号.这里为什么是-126而不是-127? 如果是-127的话,那么最大表示为

2^(-127)-2^(-149),很显然2^(-127) ~~2^(-126) 就没法表示了.

其他特殊表示

1.当指数部分和小数部分全为0时,表示0值,有+0和-0之分(符号位决定),0x00000000表示正0,0x80000000表示负0.

2.指数部分全1,小数部分全0时,表示无穷大,有正无穷和负无穷,0x7f800000表示正无穷,0xff800000表示负无穷.

3.指数部分全1,小数部分不全0时,表示NaN,分为QNaN和SNaN,Java中都是NaN.

结论:

可以看出浮点数的取值范围是:2^(-149)~~(2-2^(-23))*2^127,也就是Float.MIN_VALUE和Float.MAX_VALUE.

Contents

浮点数