IEEE 754

IEEE 754 (známý také jako IEC 60559, případně IEC 559) neboli Standard IEEE pro dvojkovou aritmetiku v pohyblivé řádové čárce (někdy též nesprávně v plovoucí desetinné čárce) je nejrozšířenější standard pro výpočty v pohyblivé řádové čárce, který používá mnoho mikroprocesorů a jednotek FPU. Standard definuje formáty pro reprezentaci čísel v pohyblivé desetinné čárce včetně záporné nuly, denormalizovaných čísel a zvláštních hodnot (kladné a záporné nekonečno, a „nečíslo“ – NaN).

Verze standardu

IEEE 754-1985 – byl poprvé implementován v koprocesoru Intel 8087
IEEE 754-2008 – rozšiřuje IEEE 754-1985; převzaly ho také ISO/IEC/IEEE 60559:2011
IEEE 754-2019 – rozšiřuje IEEE 754-2008; převzaly ho také ISO/IEC 60559:2020[1]

IEEE 754-1985 definuje čtyři formáty čísla pro: jednoduchou přesnost (single, 32 bitů), dvojnásobnou přesnost (double, 64 bitů), základní-rozšířenou přesnost (≥ 43-bitů, běžně se nepoužívá) a dvojitou-rozšířenou přesnost (≥ 79-bitů, obvykle se implementuje na 80 bitů). Pro implementaci standardu je vyžadována pouze základní přesnost, ostatní jsou volitelné.

IEEE 754-2008 rozšiřuje předchozí standard o čísla s poloviční a čtyřnásobnou přesností, dále doplňuje formáty pro práci s desítkovou aritmetikou v pohyblivé řádové čárce.

IEEE 754-2019 definuje nové operace: tanPi, aSinPi a aCosPi, došlo ke změnám operací min, max vlivem změny zacházení s hodnotou NaN a nulou se znaménkem. Měl by zachovávat dopřednou kompatibilitu pro IEEE 754-2008, ale mohou nastat odchylky pro operace: min, max, Num, NumMag vlivem jiného zacházení s hodnotou NaN.[2]

IEEE 754-2008	IEEE 754-1985	bitů	základ	znaménko	exponent	mantisa	pozn.
binary16	–	16b	2	1b	5b	10+1b^(*)	poloviční přesnost, "Half"
binary32	single	32b	2	1b	8b	23+1b	základní přesnost
binary64	double	64b	2	1b	11b	52+1b	dvojitá přesnost
–	extended(x86)	80b	2	1b	15b	64b+1b	dvojitá rozšířená přesnost
binary128	–	128b	2	1b	15b	112+1b	čtyřnásobná přesnost
decimal32^(x)	–	32b	10	1b	-95 až +96	7 číslic	základní přesnost
decimal64^(x)	–	64b	10	1b	-383 až +384	16 číslic	dvojitá přesnost
decimal128^(x)	–	128b	10	1b	-6143 až +6144	34 číslic	čtyřnásobná přesnost

(*) zápis 10+1b označuje, že mantisa je uložená 10bitově, přičemž se používá 1 "skrytý" bit

(x) každý decimální formát připouští dvě reprezentace, buď s využitím binárního kódování mantisy, nebo s využitím kódování DPD, kdy se 3 desítkové číslice zakódují do deseti bitů.

Reprezentovatelný rozsah čísel

Pokud převedeme rozsah exponentů a mantis do desítkové soustavy, dostaneme méně přesný, avšak lépe představitelný obraz možností binárních formátů čísel v plovoucí řádové čárce. Pokud FPU jednotka umí pracovat s denormalizovanými čísly, dochází ke zlepšení rozsahu v okolí nuly. Nejmenší denormalizované číslo je rovněž nejmenším "kvantem", po kterém se mohou měnit normalizovaná nebo denormalizovaná čísla v blízkosti nuly (tj. čísla s "nejzápornějším" exponentem).

Většinu destinných čísel nelze přesně převést do dvojkové soustavy. Při převodu pak vznikají periodická čísla, která nejsou v binárních formátech IEEE 754 reprezentovatelná. Např. (0,1)₁₀ = (0,000 1100 1100 1100 ...)₂. Protože mantisa má omezený počet číslic, je nevyhnutelné zaorkouhlení, kvůli kterému vzniká nepřesnost.

Formát (IEEE 754-2008)	velikost mantisy^(*) (počet desítkových číslic mantisy)	reprezentovatelná celá čísla⁽⁺⁾	největší kladné číslo	nejmenší kladné normalizované číslo	nejmenší kladné denormalizované číslo
binary16	≈ 3,3 desítkových číslic	+-2¹¹, tj.+-2048	6.55... × 10⁴	6.10... × 10⁻⁴	≈ 6 × 10⁻⁸
binary32	≈ 7,2 desítkových číslic	+-2²⁴, tj. ≈ +-1,6×10⁷	3.402823... × 10³⁸	1.17549... × 10⁻³⁸	≈ 1.4 × 10⁻⁴⁵
binary64	téměř 16 desítkových číslic	+−2⁵³,tj. ≈ +-9×10¹⁵	1.79769... × 10³⁰⁸	2.22507... × 10⁻³⁰⁸	≈ 5 × 10⁻³²⁴
binary128	≈ 34 desítkových číslic	+−2¹¹³, tj. ≈ +-10³⁴	1.18973... × 10⁴⁹³²	3.36210... × 10⁻⁴⁹³²	≈ 6,5 × 10⁻⁴⁹⁶⁶

(*) tento údaj nám pomáhá uvědomit si s jakou přesností pracujeme; např. přesnost zhruba "3,3 číslic" znamená "o trochu lepší přesnost výpočtů než se zaokrouhlováním na tři platné desítkové číslice"

(+) tento údaj reprezentuje rozsah, ve kterém lze bez ztráty přesnosti provést převod mezi celým číslem a číslem v plovoucí řádové čárce; vzhledem ke struktuře binárních formátů IEEE754 tento rozsah odpovídá velikosti mantisy

Základní přesnost (single, binary32)

Číslo v pohyblivé řádové čárce zabírá v přesnosti „single“ právě 32 bitů. Přitom je jeden bit vyhrazen pro určení znaménka, 8 bitů pro zakódování exponentu v aditivním kódování (také kód s posunutou nulou) a 23 bitů pro zakódování mantisy.

bit	31	30 29 … 24 23	22 21 … 3 2 1 0
význam	s (znaménko)	e (exponent)	m (mantisa)

podrobněji rozepsáno:

bit	31	30	29	…	24	23	22	21	…	3	2	1	0
význam	s	e₇	e₆	…	e₁	e₀	m₁	m₂	…	m₂₀	m₂₁	m₂₂	m₂₃

Pro reprezentovanou hodnotu "X" platí.

 X = (-1)^s × 2^E-127 × (1 + Q)

kde:

 E = 2⁷ × e₇ + 2⁶ × e₆ + … + 2¹ × e₁ + e₀
 Q = m₁ × 2⁻¹ + m₂ × 2⁻² + … + m₂₂ × 2⁻²² + m₂₃ × 2⁻²³

Můžeme si povšimnout, že místo aby mantisa obsahovala bit m₀, tak se k ní vždy přičítá jednička. Tento "skrytý bit" umožňuje efektivnější kódování a porovnávání. Díky absenci m₀ je vyloučena možnost zakódovat stejné číslo mnoha různými způsoby. Současně bychom se tím však zbavili možnosti zakódovat číslo nula. Proto výše uvedený základní vzorec platí pouze když je E v mezích 1 až 254, hodnoty E=0 a E=255 jsou použity pro vyjádření speciálních případů, kdy nelze výsledek operace pomocí výše uvedeného vzorce zakódovat:

podmínka	hodnota	poznámka
E = 1 až 254	X = (-1)^s × 2^E-127 × (1 + Q)	základní formát
E = 0, Q ≠ 0	X = (-1)^s × 2⁻¹²⁶ × Q	denormalizovaná čísla
E = 0, Q = 0, s = 0	X = 0	kladná nula
E = 0, Q = 0, s = 1	X = 0	záporná nula
E = 255, Q = 0, s = 0	X = +∞	kladné nekonečno (výsledek byl příliš vysoký)
E = 255, Q = 0, s = 1	X = −∞	záporné nekonečno (výsledek byl příliš nízký)
E = 255, Q > 0	X = NaN	není číslo

Ostatní dvojkové formáty

Ostatní formáty se základem 2 jsou řešeny obdobně jako základní přesnost, pouze jsou jiné počty bitů pro pole e a m

Desítkové formáty

Desítkové formáty se zatím běžně nepoužívají, standard navíc připouští dvě různé implementace, které mohou být u některých formátů i částečně funkčně odlišné. Tyto implementace se liší v kódování mantisy, které je buď binární anebo využívá schéma DPD pro zakódování tří desítkových číslic do deseti bitů.

Odkazy

Reference

ISO/IEC 60559:2020 Information technology — Microprocessor Systems — Floating-Point arithmetic [online]. ISO.org, 2020-05 [cit. 2021-12-27]. Dostupné online. (anglicky)
ANSI/IEEE Std 754-2019 Changes in 754-2019 from ANSI/IEEE Std 754-2008 [online]. ieee.org [cit. 2021-12-27]. Dostupné online. (anglicky)

Související články

Matematický koprocesor

Externí odkazy

Obrázky, zvuky či videa k tématu IEEE 754 na Wikimedia Commons
Popis IEEE 754 na root.cz
IEEE 754 kalkulátor
Jiný IEEE 754 kalkulátor

This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.

[ISO/IEC_60559:2020-1] ISO/IEC 60559:2020 Information technology — Microprocessor Systems — Floating-Point arithmetic [online]. ISO.org, 2020-05 [cit. 2021-12-27]. Dostupné online. (anglicky)

[ieeeGrouper2019changes-2] ANSI/IEEE Std 754-2019 Changes in 754-2019 from ANSI/IEEE Std 754-2008 [online]. ieee.org [cit. 2021-12-27]. Dostupné online. (anglicky)