TelefoniaPrugrammazione

Utf-8 - carrateru

Unicode sustegnu guasi tutti i gruppi caratteru esistenti. U megghiu forma di cudificazione santacroce unicode hè utf-8 ondes. U sustegnu cumpatibulità cù ascII, resistenza à luddie di i dati, i efficienza e bombe di a trasfurmazioni. Ma prima e cose prima.

forma linguistic

Computers upirari micca solu cum'è i numeri ughjetti astratti matimatica, oltri a la cumminazzioni di unità di pruvista è assicurà dati-taglia fissu - byte e parolle 32-pocu. mudellu cudificazione vole piglià sta in contu quandu serenità cumu a prisentazione di u numeru di i caratteri.

In sistemi urdinatore, u integers cullucatu in u muvimentu memoria di 8 pezzi (1 byte), 16 o di 32 pezzi. Ogni forma definisce una ondes unicode, chì siquenza di Leoni mimoria hè un nteru currispundenza à un particulare simbulu. In u mudellu ci sò trè sfarente forme di linguistic caratteri unicode 8, 16 è 32-pocu blocchi. Pràtica, si sò canusciutu comu utf-8, utf-16 è utf-32. Name utf leva di unicode Mutazioni Format. Ciascuna di l 'tri formi di i mezi cudificazione hè uguali rapprisintazzioni caratteru unicode hà vantaghji in diversi d'appricazzioni.

bez dati pò ièssiri usatu pi rapprisintari tutti i parsunaghji in u mudellu in unicode. Cusì, si sò tinuti compatible a suluzione per una varietà di raghjone, cù diversi formi di scrittura. Ogni scrittura pò unambiguously esse cunvirtuti nta ogni di l 'àutri dui senza perdita di dati.

principiu nenalozheniya

Ciascuna di l 'ondes forma unicode sviluppatu in vista di suvrapponnu micca parziale. Per esempiu, Windows-932 forma lu caratteri di unu o dui Lunardini di u corsu. A lunghezza siquenza dipende di u prima byte, tantu i valori byte difesa in la seria di dui-byte è sola francese disjoint byte. Perciò, u valore di una sola byte è trailing siquenza byte pò cunfidirazzioni. Stu significa per esempiu chì a ricerca caratteru D (codice 44) pò truvà lu mistakenly custatu a seconda parte di u siquenza di dui-byte caratteru "D" (codice 84 44). À truvà fora chì siquenza hè curretta, u prugrammu deve piglià in contu l 'Sandra prima.

A situazione hè cumplessa, siddu l 'incontru trattazzioni è trailing Sandra. Stu significa chi in modu à caccià i ambiguità sarà una Lookup riversu nanzu arrivannu u principiu di u testu, o l 'ordine codice unicu. Stu hè micca solu inefficient, ma ùn hè prutetta da felì è sbagli, postu chì solu una byte tortu à u testu piena hà divintatu unreadable &.

cunversione Format unicode simule vi stu prublemu perchè i valori di u mener, trailing, è una sola unità di a pruvista ùn sò u listessu nantu à u corsu. Stu cura chì tutti i unicode di spende è comparison, mai à sente i risultati erroneous duvuta a l 'ispensata di diffirenti parti di u còdice di caràtteri. U fattu ca sti formi di linguistic fighjulatu u principiu nenalozheniya, li distingui da altre encodings multi-byte Asian Est.

Un altru aspettu nonintersection encodings unicode hè chì ogni caratteru hà una fruntiera chiaramenti difinutu. Stu eliminates u bisognu di scanning un numaru nditerminativu di sìmmuli prima. Sta funzione hè volte chjamatu ondes self-clocking. Luddie di unità codice vi scopra un luddie di sola caratteru, è i caratteri circondu sò sempre nteru. In u cunversione furmatu 8-pocu, s'è i punti stacciatura à l 'byte, principianu cù 10xxxxxx (in codice binariu) à truvà hè necessariu u principiu di u simbulu di una à trè transitions riversu.

cuerenza

Eda unicode sustegnu tinuti tuttu 3 forma di encodings. Hè impurtante ùn a oppunìrisi u utf-8 è unicode, cum'è tutti i schedari cunversione - smetti forma valevule di embodiment di u mudellu di caratteru-ondes unicode.

Martelli-urintamentu

Pi rapprisintari utf-32 caratteri hà bisognu di un unità codice 32-pocu, chì vene cù u codice unicode. Utf-16 - unu di dui unità 16-pocu. A utf-8 usa sin'à 4 Sandra.

ondes utf-8 hè distinatu à esse compatible cu sistemi ascII-basatu byte-orientatu. Maiò parti di i prugrammi esistenti e pratiche di a tecnulugia infurmazioni per un longu tempu si basau supra la rapprisintazzioni di parsunaghji in una siquenza di Sandra. protocols multilingua dipende di u Esaudìscimi di ondes ascII è adopra sia simule vi lu caratteri cuntrollu spiciali. Una manera semplice à adattà a situazzioni unicode pò, cù linguistic 8-bit ca rapprisenta caratteri unicode, un caratteru ascII equivalenti, o un ghjocu di cuntrollu. À sta fine, è ghjè utf-8 ondes.

lunghezza variàbbili

Utf-8 - linguistic di lunghezza variàbbili, cumpunuta di unità pruvista 8-pocu, i pezzi supranu chì quì à chì parte di l 'ordine di ogni individuu byte apparteni. Una cullizzioni di valori data di a prima cumpunente di l'ordine codice, un altru - per u prossimu. Stu dà ondes disjointness.

ascII

Selinunte ascII ondes utf-8 hè cumplettamente suppurtatu (0x00-0x7F). Stu significa chi lu caratteri unicode U + 0000-U + 007F sò cummirtutu in sola byte 0x00-0x7F utf-8 è dunqua divintatu indiscernable da ascII. Oltri a chistu, pi evitari ambiguità, u valore 0x00-0x7F micca usati ogni di più in un rapprisintazzioni byte sola di i caratteri unicode. À encode sìmmuli neideograficheskih tranni ascII, cù un ordine di dui Sandra. Sìmmuli permette U + 0800-U + FFFF sò raprisintati da trè Lunardini, è codici novu cù più di U + FFFF bisognu di quattru Sandra.

sfera di applicazzioni

ondes utf-8 di solitu hè datu rinumata in u prutucolu HTML, è l 'comu.

XML ogettu di u primu mudellu cun piena sustegnu di utf-8 ondes. urganisazione standard preferimu noi dinù lu. prublemu Support in l 'indirizzu URL chì hè differente da u ascII-caratteri, fù risolta quandu u w3c Börsenkonsortium è gruppu ingegneria IETF ghjunse à un accordu nant'à u scrittura di tutti i indirizzi URL solu in utf-8.

Vincenti cun ascII favurizeghja a lu passaggiu di lu novu prugrammu. Cù utf-8 travaglia più scrittori testu, cumpresi JEdit, Emacs, BBEdit, Eclipse, è "Notepad" lu sistema upirativu Windows. No 'altri formi di ondes unicode ùn pò parrari di un tali sustegnu di u strumentu.

linguistic benefiziu hè chì hè custituitu di na siquenza di Sandra. Cù utf-8 catena hè facile à travaglià in C è altre lingue di prugrammazione. Ghjè u solu forma di ondes, l 'ordine ùn bisognu etichette Sandra marinaru, o una dichjarazione ondes in XML.

self-synchronization

In un ambienti chì usa simboli, 8-pocu di u prucessu cunfrontu cu àutri gruppi caratteru multi-byte, utf-8 hà i seguenti vantaghji:

  • Lu primu ordine codice byte cuntene infurmazione circa u so lunghezza. Stu aumenta l 'efficacità di a ricerca diretta.
  • Simplificatu truvarisi u principiu di u simbulu di u byte accuminzata hè limitata à una tavuletta fissu di valuri.
  • No valori Intersection byte.

Compare i benefici

ondes utf-8 hè poche. Ma quandu usatu di cudificazione caratteri Asian East (Chinese, Japanese, Korean, libera Chinese cù segni) usatu peptide 3-byte. Also utf-8 ondes hè nfiriuri a altre forme di linguistic battutu trasfurmazioni. A binariu linii tri pruduce u listessu risultatu comu lu binariu tri unicode.

U schema carrateru

U schema carrateru c'hè forma sìmmuli ondes è lu mètudu per unità codice stage sola byte. Definisce u schema ondes mudellu unicode dà l 'usu di un Marque ordine byte nizziali (Bom, Martelli Marque ordine).

Quannu lu marinaru in utf-8 funzione tag: hè limitatu solu da riferimentu a l 'usu di li formi di scrittura. Prublemi in serenità u endian utf-8 hannu, cum'è u so pesu unità ondes hè unu byte. Cù lu marinaru di sta forma di scrittura hè nè necessariu, nè cunsigliatu. Marinaru pò accade in u testu di a esse cunverta da altre codings cù Marque ordine byte ou rinumatu per utf-8 ondes. Hè un ordine di 3 Sandra EF BB 16 16 BF 16.

How to crià i ondes utf-8

U HTML linguistic utf-8 hè stallatu cù i seguenti codice:

A Galuppà

Meta situ http-equiv = "cuntinutu-Type" cuntenutu = "u testu / html,; charset = utf-8" ˃

In PHP utf-8 ondes s'appronta cù i funzioni lunat () in u principiu di u cartulare, dopu scinni lu errore valori liveddu di pruduzzioni:

˂? Php

error_reporting (-1);

lunat ( "cuntinutu-Type: u testu / html,; charset = utf-8 ');

A fate à una basa di dati SQL utf-8 ondes s'appronta:

˂? Php

mysql_set_charset ( 'utf8');

U ondes CSS-cartulare hè caratteri utf-8 hè renseigné sicuenti:

@charset "utf-8";

Quandu vi salvà i schedari di tutti i tippi sceglie utf-8 ondes senza cantu, nun veni spicificatu u situ ùn hà travagliu. A fari sta in DreamWeave tuccherà à sceglie a virsioni principali "mudìfiche - Case Page - Titre / cudificazione" a canciari lu ondes à utf-8. Siguita ricarcate a pagina, caccià u mercu capunanzu da a "signature in Connect in unicode (Bom)», è dumandà li canciamenti. Sè ogni testu nantu una pagina, o in una basa di dati hè stata impiantata una forma di scrittura, hè necessaria di sunari-entre o sunari-encode. Quandu voi travagghiari cu sprissioni rigulari, esse sicuru di aduprà i mudificaturi u.

Tù dinù ponu salvà u schedariu in ondes utf-8 à l ' "Notepad" di Windows. Dopu à sceltu la virsioni principali "File - Save As ..." à stallà la forma nicissariu di ondes è salvà u schedariu in utf-8.

In un testu di scrittore Notepad ++, si misi tranni utf-8, via lu bagagliu principali "Cunvertite à utf-8 senza marinaru» canciari u caratteru è salvà in utf-8.

ùn ci hè micca alternativa

In u cuntestu di a mundialisazione, induve sò guasgi frontiere puliticu è linguisticu, i gruppi caratteru chi hannu caratteristiche lucali, sò di pocu usu. Unicode hè un ghjocu di caràtteri sola chì accumpagna tuttu localizations. A utf-8 - un esempiu di u tonu in baddu di unicode, chi hè:

  • U sustegnu una larga gamma di i mezi, frà cumpatibulità cù ondes ascII;
  • Hè pocu di dati luddie;
  • sèmplice è ficaci in u travagliu;
  • hè piattaforma indipendente.

Cu l 'avventu di u dibattiti utf-8 circa ciò chì forma di ondes o di santacroce hè megliu, addiventa meaningless.

Similar articles

 

 

 

 

Trending Now

 

 

 

 

Newest

Copyright © 2018 co.birmiss.com. Theme powered by WordPress.