De indeling UTF-8 is een variant van het Unicode-teken coding system, ontwikkeld door Ken Thompson van Bell Laboratories in 1992. Oorspronkelijk, Unicode was een eenvoudige, vaste breedte 16-bits coderingsindeling, maar UTF-8 is ontwikkeld voor systemen die vond het moeilijk om 16-bits eenheden van gegevens. UTF staat voor Unicode-omzettingsindeling.
Wat is Unicode?
Unicode werd oorspronkelijk ontwikkeld door een non-profit organisatie, bekend als de Unicode Consortium, in de late jaren 1980, in een poging om het maken van een enkele, uniforme tekenset. Unicode is ontworpen ter ondersteuning van de uitwisseling, de verwerking en de weergave van teksten in een breed scala van talen, met inbegrip van klassieke en historische versies van die talen. Ken Thompson een coderingsindeling gezocht voor een nieuw werkend systeem, die zou werken met zeven-bit tekens, maar kan worden uitgebreid tot een grotere tekenset, en het resultaat was UTF-8.
Doel
Computersoftware is meestal afhankelijk van elk teken wordt vertegenwoordigd door een opeenvolging van aangrenzende binaire cijfers of bits--meestal acht--bekend als een byte. Veel software-applicaties, is afhankelijk van de American Standard Code for Information Interchange of ASCII-waarde van elk teken wordt constant en bepaalde combinaties van bytes wordt geassocieerd met de controlefuncties. UTF-8 is gedefinieerd in termen van eenheden van de 8-bits code en alle Unicode-tekens zonder verstoring van elke codewaarden ASCII of besturingselement vertegenwoordigt. Elke byte in het ASCII-bereik vertegenwoordigt zichzelf in UTF-8 en ASCII-Besturingscodes verschijnen alleen als zichzelf en nooit als onderdeel van een reeks die elke andere teken vertegenwoordigt. Met andere woorden, is UTF-8 volledig backwardly compatibel met ASCII.
Variabele breedte
UTF-8 is wat wordt genoemd een variabele breedte encoding formaat. Het 8-bits codeunits gebruikt en de hogere bits in elke eenheid aangeven welk deel van de volgorde van de eenheid behoort elke byte. Een reeks eenheidswaarden code is gereserveerd voor de eerste, of leiden, element in een opeenvolging van codeunits en een verschillend aantal waarden is gereserveerd voor latere of achterstand, elementen. Als de hoge-bit een nul is, worden de resterende zeven bits in de code-eenheid worden behandeld als een gewone ASCII-teken. Als een bestand alleen ASCII-tekens bevat, is het al in UTF-8-indeling.
Gebruik
UTF-8 is meestal de coderingsindeling van keuze voor Hypertext Markup Language--de standaard set van regels, of protocol, voor het opmaken en weergeven van documenten op het Internet-- en andere soortgelijke protocollen. UTF-8 is al byte georiënteerde of byte-serienummer heeft, dus UTF-8 goed met C en andere programmeertalen werkt. Evenzo kunnen applicatieprogramma-interfaces die met Aziatische tekensets, zoals Chinees en Japans werken, waarin tekens kunnen worden vertegenwoordigd door één, twee of zelfs drie bytes, worden aangepast om te werken met UTF-8 met een minimum aan gedoe.