HTML znakové sady


Pro správné zobrazení stránky HTML musí prohlížeč vědět, jakou znakovou sadu (kódování) použít:

Příklad

<meta charset="UTF-8">

HTML znakové sady

Specifikace HTML5 doporučuje webovým vývojářům používat znakovou sadu UTF-8!

Ne vždy tomu tak bylo. Kódování znaků pro raný web bylo ASCII.

Později, od HTML 2.0 po HTML 4.01, byla ISO-8859-1 považována za standardní znakovou sadu.

S XML a HTML5 konečně dorazilo UTF-8 a vyřešilo spoustu problémů s kódováním znaků.


Na začátku: ASCII

Počítačová data jsou uložena jako binární kódy (01000101) v elektronice.

Pro standardizaci ukládání textu byl vytvořen American Standard Code for Information Interchange (ASCII). Definovalo jedinečné binární číslo pro každý uložitelný znak, aby podporovala čísla od 0 do 9, velká a malá písmena (az, AZ) a speciální znaky jako ! $ + - ( ) @ < > , .

Protože ASCII používal pro znak 7 bitů, mohl reprezentovat pouze 128 různých znaků.

Největší slabinou ASCII bylo, že vylučoval neanglická písmena.

ASCII se dodnes používá, zejména ve velkých sálových počítačových systémech.

Pro bližší pohled si prosím prostudujte naši kompletní referenci ASCII .


Ve Windows: Windows-1252

Windows-1252 byla výchozí znaková sada ve Windows, až do Windows 95.

Jedná se o rozšíření ASCII s přidanými mezinárodními znaky.

K reprezentaci 256 různých znaků používá celý bajt (8 bitů).

Vzhledem k tomu, že Windows-1252 je ve Windows výchozím nastavením, podporují jej všechny prohlížeče.

Pro bližší pohled si prostudujte: The Complete Windows-1252 Reference .



V HTML 4: ISO-8859-1

Znaková sada nejčastěji používaná v HTML 4 byla ISO-8859-1.

ISO-8859-1 je rozšířením ASCII s přidanými mezinárodními znaky.

Příklad

<meta http-equiv="Content-Type" content="text/html;charset=ISO-8859-1">

V HTML 4 lze v tagu <meta> zadat znakovou sadu odlišnou od ISO-8859-1:

Příklad

<meta http-equiv="Content-Type" content="text/html;charset=ISO-8859-8">

Všechny procesory HTML 4 také podporují UTF-8:

Příklad

<meta http-equiv="Content-Type" content="text/html;charset=UTF-8">

Když prohlížeč detekuje ISO-8859-1, normálně se nastaví na Windows-1252, protože Windows-1252 má 32 dalších mezinárodních znaků.

Pro bližší pohled si prostudujte: Kompletní reference ISO-8859-1


V HTML5: Unicode UTF-8

Specifikace HTML5 doporučuje webovým vývojářům používat znakovou sadu UTF-8.

Příklad

<meta charset="UTF-8">

Znakovou sadu odlišnou od UTF-8 lze zadat v tagu <meta>:

Příklad

<meta charset="ISO-8859-1">

Unicode Consortium vyvinulo standardy UTF-8 a UTF-16, protože znakové sady ISO-8859 jsou omezené a nejsou kompatibilní s vícejazyčným prostředím.

Standard Unicode pokrývá (téměř) všechny znaky, interpunkci a symboly na světě.

Všechny procesory HTML5 a XML podporují UTF-8, UTF-16, Windows-1252 a ISO-8859.

Pro bližší pohled si prostudujte: The Complete Unicode Reference .