Unicode

Unicode (pronunțat în engleză /ˈjuːnɪˌkəʊd/) este un format definit de către Unicode Consortium pentru codarea, stocarea și interpretarea textelor pe suporturi informatice. Unicode este formatul standard de facto de codificare și interpretare a datelor binare în format text, având drept țel final să cuprindă toate caracterele din toate limbile globului. Este proiectat pentru ca oricărei litere (caracter) din orice limbă, de pe orice platformă de hardware sau software (program) să îi corespundă un număr unic și neechivoc. Standardul Unicode reprezintă implementarea specificațiilor ISO/IEC 10646, publicate prima dată în 1993 de către organizația ISO.

Fiind adoptat de majoritatea producătorilor de software (Microsoft, Apple, HP, Oracle), Unicode a început să fie folosit pe scară largă și să fie oferit de cele mai diverse aplicații de larg interes, începând de la cele mai răspândite sisteme de operare și până la sisteme de baze de date și servere de Internet. Totuși încă nu se poate vorbi de o accepție și un suport intergrat al acestei codificări la scară globală.

Până la Unicode au existat diverse metode de a se defini caracterele naționale ale diverselor țări, începând cu „ANSI extins” pentru l. engleză și terminând cu ultima alternativă standard, ISO-8859, trecând prin diverse variante cu răspândire mai largă sau mai restrânsă. Practic toate alternativele acceptate au fost bazate pe ideea că un text trebuie în mod necesar să fie scris de la început și până la sfârșit în aceeași limbă. Dar, odată cu globalizarea accentuată inclusiv a sistemelor informatice, a apărut din ce în ce mai mult necesitatea unui sistem de codificare care să accepte mai multe limbi în unul și același document scris.

Toate sistemele de codificare premergătoare lui Unicode se bazau pe același principiu ca și „ANSI extins”: din cele 256 de combinații posibile în cadrul unui octet, prima jumătate era folosită de un set comun de caractere – ASCII – iar cealaltă jumătate era dedicată codificării specifice, dependente de limbă. Având în vedere nu numai multitudinea de limbi posibile dar și numărul de caractere uriaș din unele limbi (un exemplu relevant este limba chineză), Unicode a introdus un număr arbitrar de octeți pe caracter. Din acest motiv implementarea acestui sistem de codificare este mai greu de realizat decât pentru sistemele tradiționale, însă cum utilitatea acestuia depășește cu mult dificultatea implementării, acest format a devenit unicul standard acceptat practic de către toate sistemele informatice curente.

Exemple de Unicode-uri

Derivate din alfabetul latin: Č, ĝ, ı, ą, Ŝ, ǔ, Þ, Ə
Derivate din abugidaul telugu: ౢ, ౣ, ౘ, ౙ, ఽ, ౸, ౹, ౺, ౻, ౼, ౽, ౾, ౿

Wikipedia în Unicode

În Wikipedia gotă și în cea birmană sunt folosite caractere Unicode.