Reference HTML Unicode (UTF-8).

Konsorcium Unicode

Unicode Consortium vyvíjí standard Unicode. Jejich cílem je nahradit stávající znakové sady jejich standardním Unicode Transformation Format (UTF).

Standard Unicode se stal úspěšným a je implementován v HTML, XML, Java, JavaScript, E-mail, ASP, PHP atd. Standard Unicode je také podporován v mnoha operačních systémech a všech moderních prohlížečích.

Unicode Consortium spolupracuje s předními organizacemi pro vývoj standardů, jako jsou ISO, W3C a ECMA.

Znakové sady Unicode

Unicode lze implementovat různými znakovými sadami. Nejčastěji používaná kódování jsou UTF-8 a UTF-16:

Character-set	Description
UTF-8	A character in UTF8 can be from 1 to 4 bytes long. UTF-8 can represent any character in the Unicode standard. UTF-8 is backwards compatible with ASCII. UTF-8 is the preferred encoding for e-mail and web pages
UTF-16	16-bit Unicode Transformation Format is a variable-length character encoding for Unicode, capable of encoding the entire Unicode repertoire. UTF-16 is used in major operating systems and environments, like Microsoft Windows, Java and .NET.

Tip: Prvních 128 znaků Unicode (které odpovídají jedna ku jedné s ASCII) je zakódováno pomocí jednoho oktetu se stejnou binární hodnotou jako ASCII, takže platný text ASCII je platný i v kódování Unicode UTF-8.

HTML 4 podporuje UTF-8. HTML 5 podporuje UTF-8 i UTF-16!

Standard HTML5: Unicode UTF-8

Protože znakové sady v ISO-8859 byly omezené velikosti a nebyly kompatibilní ve vícejazyčných prostředích, Unicode Consortium vyvinulo standard Unicode.

Standard Unicode pokrývá (téměř) všechny znaky, interpunkci a symboly na světě.

Unicode umožňuje zpracování, ukládání a přenos textu nezávisle na platformě a jazyce.

Výchozí kódování znaků v HTML-5 je UTF-8.

Pokud webová stránka HTML5 používá jinou znakovou sadu než UTF-8, měla by být uvedena ve značce <meta> takto:

Příklad

Rozdíl mezi Unicode a UTF-8

Unicode je znaková sada . UTF-8 je kódování .

Unicode je seznam znaků s jedinečnými desetinnými čísly (body kódu). A = 65, B = 66, C = 67, ....

Tento seznam desetinných čísel představuje řetězec "ahoj": 104 101 108 108 111

Kódování je způsob, jakým se tato čísla převádějí na binární čísla, která mají být uložena v počítači:

Kódování UTF-8 uloží „ahoj“ takto (binárně): 01101000 01100101 01101100 01101100 01101111

Kódování převádí čísla do binárních čísel. Znakové sady převádí znaky na čísla.

HTML5 UTF-8 znakové kódy

Níže je uveden seznam některých kódů znaků UTF-8 podporovaných HTML5:

Character codes	Decimal	Hexadecimal
C0 Controls and Basic Latin	0-127	0000-007F
C1 Controls and Latin-1 Supplement	128-255	0080-00FF
Latin Extended-A	256-383	0100-017F
Latin Extended-B	384-591	0180-024F
Spacing Modifiers	688-767	02B0-02FF
Diacritical Marks	768-879	0300-036F
Greek and Coptic	880-1023	0370-03FF
Cyrillic Basic	1024-1279	0400-04FF
Cyrillic Supplement	1280-1327	0500-052F
General Punctuation	8192-8303	2000-206F
Currency Symbols	8352-8399	20A0-20CF
Letterlike Symbols	8448-8527	2100-214F
Arrows	8592-8703	2190-21FF
Mathematical Operators	8704-8959	2200-22FF
Box Drawings	9472-9599	2500-257F
Block Elements	9600-9631	2580-259F
Geometric Shapes	9632-9727	25A0-25FF
Miscellaneous Symbols	9728-9983	2600-26FF
Dingbats	9984-10175	2700-27BF

❮ Předchozí Další ❯

HTML znakové sady

HTML UTF-8

HTML symboly