Back to site
Since 2004, our University project has become the Internet's most widespread web hosting directory. Here we like to talk a lot about web servers, web development, networking and security services. It is, after all, our expertise. To make things better we've launched this science section with the free access to educational resources and important scientific material translated to different languages.

Den- Karakter setovi

Denov mejl format sajt:

Telo: Karakter Setovi

Ako morate da koristite akcentovana slova ili matematičke simbole u svojim porukama, ili se pitate da li postoji način da ubacite "evro znak", ili ste primetili da nečija poruka sadrži smeće gde poseban karakter treba da bude, ovaj članak će vam pomoći da razumete probleme vezane za to.

Napomena:Neki ljudi se namotavaju na ovoj stranici kada traže niz: Ova poruka sadrži Unicode karaktere i poslata je kao binarni prilog. Oni su verovatno dobili e-mail poruku sa ovim tekstom. To je virus; ne otvarajte prilog. Prave Unicode poruke (koji su ispod objašnjene) ne trebaju binarne priloge.

Skup karaktera vašeg računara

Računari su veoma moćni uređaji. Međutim, oni imaju veoma značajno ograničenje: svi oni su zaista u stanju da se nose sa brojevima. Sve ostalo - reči, slike, zvuci, video klipovi - potrebno je da se pretvori u niz brojeva kako bi računar mogao da se bavi tim. To je posao podataka formata standarda, kako bi se obezbedilo da se različiti računari i programi slažu jedni sa drugima o tome koji podaci predstavljaju određenu gomilu brojeva. U ovom dobu "point-and-click" softvera, korisnici su navikli da budu u mogućnosti da prevuku, puste, seku, zalepe, zakače i preuzmu bilo kakve multimedije. Oni retko stanu da misle o tome šta se zapravo dešava "ispod haube" u njihovom računaru, osim kada nešto krene naopako i datoteka sa podacima izlazi kao masa smeća na kompjuterskom ekranu, u tom trenutku, znanje kako su podaci kodirani je bitno da se shvati ono što nije uspelo i kako da se popravi.

Ovaj članak se odnosi na to kako se računar skladišti i prenosi tekst. (Ostale vrste podataka se razmatraju u prilozima stranice.) Tekst je jedna od najstarijih vrsta podataka koje su ljudi želeli da sačuvaju na računarima, tako da su programeri dolazili sa šemama da predstave tekst kao brojeve, u poslednjih pola veka. Pošto je nekoliko vlasničkih kodirajućih sistema osmišljeno od strane proizvođača računara, potreba za univerzalnim kodirajućim standardom karaktera da bude dosledno korišćen od strane svih, dovela je do osmišljavanja ASCII-a (American Standard Code for Information Interchange) u ranim 1960-im. Neko vreme, ASCII su vodili "VHS vs BETA" stil bitke sa ostalim suprotstavljenim kodiranjima karaktera poput EBCDIC i Baudot, ali je ASCII pobedio na kraju. (Međutim, baš kao što se i beta-zasnovani video formati još uvek nalaze u specijalizovanoj profesionalnoj upotrebi, druga kodiranja karaktera uvek imaju svoje niše, postoje IBM mainframe-ovi koji koriste EBCDIC i telekomunikacione uređaje za gluve koristeći Baudot. Svako kome je potreban prenos podataka iz ovog u bilo šta drugo, ipak, mora da se konvertuje u ASCII). Nakon nekoliko revizija tokom godina, oblik ASCII poznat kao američki-ASCII je sada "zajednički imenitelj" skup karaktera koji je razumljiv prilično svim računarskim sistemima koji su sada u upotrebi.

U ASCII skupu znakova, svako slovo, broj i znak interpunkcije u komadu teksta predstavlja broj od 0 do 127. (U binarnom kodu koji koriste računari, je potrebno 7 bita,ili binarnih cifara, za skladištenje.) Na primer, veliko slovo A predstavljeno je brojem 65. Možete videti značaj konzistentnih standarda postavljenih znakova, ako drugi računar koristi kodiranje znakova koje je predstavljalo slovo Z brojem 65, onda bi bilo ko ko pokušava da pročita dokument prebačen na ovaj računar sa onog koji koristi ASCII , video Z svuda gde je A bila namera autora. Aristotel i Ejn Rand prave frku oko toga kako "A je A", ali ako se vaš set karaktera ne podudara, A može biti Z!

Iako postoji 128 znakova u ASCII skupu, neki od njih su kontrolni karakteri poput naslova i linefeed-ova (i više egzotične stvari kao što su Separator jedinica i Kontrola uređaja 2 koja se retko koristi ovih dana). Redovni karakteri uključuju 26-oslovni alfabet velikih i malih slova, 10 cifara, i razne zajedničke znake interpunkcije kao tačke i zareze. Normalan tekst na engleskom jeziku može biti napisan veoma dobro u "običnom" ASCII-u (mada morate da koristite samo "prave" citate i apostrofe, a ne vitičasta sortiranja, o čemu ćemo kasnije raspravljati).

US-ASCII Characters
0 NUL   16 DLE   32 SP   48 0   64 @   80 P   96 `   112 p
1 SOH   17 DC1   33 !   49 1   65 A   81 Q   97 a   113 q
2 STX   18 DC2   34 "   50 2   66 B   82 R   98 b   114 r
3 ETX   19 DC3   35 #   51 3   67 C   83 S   99 c   115 s
4 EOT   20 DC4   36 $   52 4   68 D   84 T   100 d   116 t
5 ENQ   21 NAK   37 %   53 5   69 E   85 U   101 e   117 u
6 ACK   22 SYN   38 &   54 6   70 F   86 V   102 f   118 v
7 BEL   23 ETB   39 '   55 7   71 G   87 W   103 g   119 w
8 BS   24 CAN   40 (   56 8   72 H   88 X   104 h   120 x
9 HT   25 EM   41 )   57 9   73 I   89 Y   105 i   121 y
10 LF   26 SUB   42 *   58 :   74 J   90 Z   106 j   122 z
11 VT   27 ESC   43 +   59 ;   75 K   91 [   107 k   123 {
12 FF   28 FS   44 ,   60 <   76 L   92 \   108 l   124 |
13 CR   29 GS   45 -   61 =   77 M   93 ]   109 m   125 }
14 SO   30 RS   46 .   62 >   78 N   94 ^   110 n   126 ~
15 SI   31 US   47 /   63 ?   79 O   95 _   111 o   127 DEL

Srećom, ASCII je usvojen na prilično univerzalan način da možete biti gotovo sigurni da će sve napisano pomoću znakova u ovom setu (osim kontrolnih znakova, svejedno) biti prikazano na isti način na koji je pisano, bez obzira na to koji sistemi i programi su poslati preko. Za korisnike elektronske pošte (da, jesam planirao da se vratimo na temu ovog sajta na kraju!), to znači da su ASCII znaci najsigurniji karakteri za korišćenje. Ako vaša poruka sadrži isključivo slova, brojeve i interpunkciju u ASCII skupu, nećete imati problema sa njihovom čitljivošću. (U stvari, to je čak i legalno po format standardima e-pošteda se uključe znakovi kontrole u poruku, uz poseban uslov da se kolica vraćaju i da se linefeed-ovi dešavaju zajedno čineći prelom, a ne odvojeno. Međutim, pored redova i tabova, stvarno nema smisla uključivati kontrolne karaktere u e-mail, i nedosledno tumačenje napravljeno od njih od strane programa na prijemnom kraju. Formfeed karakter, # 12., međutim, ima neku tradicionalnu upotrebu u diskusionim grupama povodom " spojlera" u razgovorima o knjigama, filmovima i slično, a neki čitaoci vesti pauziraju pritisak pre nastavka od te tačke, ili na drugi način prikrivaju ono što sledi znak dok ne budete spremni da ga vidite. Ova funkcija je manje uobičajena u današnjoj pošti ili čitaocima vesti, ipak)

Jedna stvar koju treba imati na umu o kontroli karaktera je da postoji neka razlika platforme u tome kako je prelom zastupljen; po tradicionalnim standardima, dva karaktera CR (# 13) i LF (# 10 ) idu zajedno da završe liniju. Windows sistemi rade to na ovaj način (tako da Microsoft zapravo sledi tradicionalne standarde ovde za promenu!), dok Unix, Linux i slični sistemi koriste samo LF karakter i MacOS tradicionalno koristi samo CR karakter. (. Međutim, skorije MacOS verzije su bazirane na Unix-u i prešle su na korišćenje LF karaktera) To ponekad može izazvati nevolje kada se tekstualne datoteke prenose između sistema, ali nisam primetio bilo koje e-mail probleme; bilo da svi mail klijenti i serveri prate standarde ispravno u kodiranju linije preloma, bez obzira na platforme, ili su dovoljno robusni da prepoznaju kočnice varijante drugih sistema i rade sa njima transparentno.

Kartice (# 9) takođe mogu biti problematične, jer programi mogu da se razlikuju sa toliko prostora koliko čine između tab zaustavljanja.

Izvan ASCII-a

Ostatak sveta ne govori engleski, i tu je ono gde ASCII postaje problematičan. Ne morate biti levičarski frik za računare da biste pronašli da postoji neka kulturna pristrasnost za davanje računarima "standardnog" skupa znakova koji dobro predstavlja engleski, ali izostavlja slova sa akcentima, umlautima i drugim dijakritičkim znacima, koji se koriste u mnogim drugim jezicima. Takođe, nedostaju i druge stvari, kao što su pisma, grčko i ćirilica, simboli valute, pored znaka za dolar, i specijalizovani simboli potrebni za napredne aplikacije kao što je viša matematika. Da bi računari biti upotrebljivi širom sveta, neophodno je da se ide dalje od ASCII-a.

Pošto je standardni bajt (jedinica za skladištenje podataka) na ličnim računarima 8 bita, a ASCII koristi samo 7, očigledna stvar za uraditi je da se stavi osmi bit u upotrebu, udvostručivši broj znakova koji bi mogli da budu zastupljeni. Ovo bi mogao da bude problem sa starijim softverom koji koristi osmi bit kao sumu za proveru ili režim zastave, ali je na kraju postalo uobičajeno za računare da koriste svih osam bitova za skladištenje karaktera. Nažalost, trebalo je neko vreme standardu da se pojavi u vezi toga koji bi karakteri bili u tih drugih 128 pozicija (predstavljajući brojeve od 128 do 255). Različite platforme koriste različite kombinacije slova sa akcentom, simbole, kutije za crtanje karaktera, i druge stvari. IBM PC tekstualni režim je imao jedan set, Macintosh je koristio drugi, i kada se Windows pojavio tek imao je drugačiji set. Verzije računarskih sistema namenjeni tržištima različitih zemalja takođe variraju, tako da će pojedini karakteri potrebni za lokalni jezik biti podržani. To nije bila dobra situacija za razmenu podataka između različitih sistema.

Srećom,Međunarodna organizacija za standardizaciju (koja je, iz nekog razloga, skraćena ISO umesto IOS, zapravo, prema njihovom sajtu, nije nameravana da predstavlja njihove realne inicijale, kako ne bi uvredili različite nacionalnosti koje bi ga skratile različito na različitim jezicima, vrste marketinga ovih dana izgleda da vole inicijalizme i akronime koji ne stoje ni za šta, u svakom slučaju) izašla je sa grupom standarda karaktera. Oni nisu mogli samo izaći sa jednim jedinstvenim skupom znakova, jer različiti jezici sveta imaju više znakova između njih nego što može da stane u jednu 8-bitnu grupu karaktera. Umesto toga, oni su izašli sa različitim setovima karaktera (označen kao ISO 8859 serija) dizajniranih za različite grupe jezika. Najčešće se koristi ISO-8859-1, takođe poznat kao "Latin-1", koji sadrži karaktere korisne za jezike Zapadne Evrope. Ovaj skup znakova (ili, tačnije, "kodiranje znakova", čistunci bi naglasili da je "skup", ili "repertoar" grupa dostupnih karaktera, ali "encoding" navodi koji brojevi odgovaraju kojim karakterima) je zapravo isto kao vlasničko "Windows-1252" kodiranje, sa izuzetkom da je grupa znakova na pozicijama od # 128 do # 159, gde Windows stavlja neke znakove, uključujući trgovački znak (trade mark) (™) i "kovrdžave" citate, umesto toga su zadržani za kontrolu karaktera u ISO-8859-1. Drugi ISO standard ISO 6429, zapravo daje štreberska imena i skraćenice za ove kontrolne znakove, kao što su "Obrnut line feed" i "Uvoditelj kontrolne sekvence". Ja ne znam koji programi zapravo koristiti ove kontrolne karaktere, ali ja ne mislim da ima smisla da ih koristite u e-mail porukama. (Čak i ako je to urađeno, ne bi bilo bezbedno, jer programi, bar u Windowsu, su skloni da pretpostave da su te pozicije karaktera okupirane od strane vlasničkih Microsoftism karaktera iz Windows seta karaktera, pre nego kontrolni znakovi standardi zaista kažu da su na tim pozicijama) Međutim, za potpunost, ja ih uključujem ovde u grafikon znakova od # 128 do # 255 od ISO-8859-1 kodiranje (karakteri # 0 - # 127 su isti kao u US-ASCII-u. ).

ISO-8859-1 characters (with ISO 6429 controls)
128 XXX   144 DCS   160 NBSP   176 °   192 À   208 Ð   224 à   240 ð
129 XXX   145 PU1   161 ¡   177 ±   193 Á   209 Ñ   225 á   241 ñ
130 BPH   146 PU2   162 ¢   178 ²   194 Â   210 Ò   226 â   242 ò
131 NBH   147 STS   163 £   179 ³   195 Ã   211 Ó   227 ã   243 ó
132 IND   148 CCH   164 ¤   180 ´   196 Ä   212 Ô   228 ä   244 ô
133 NEL   149 MW   165 ¥   181 µ   197 Å   213 Õ   229 å   245 õ
134 SSA   150 SPA   166 ¦   182   198 Æ   214 Ö   230 æ   246 ö
135 ESA   151 EPA   167 §   183 ·   199 Ç   215 ×   231 ç   247 ÷
136 HTS   152 SOS   168 ¨   184 ¸   200 È   216 Ø   232 è   248 ø
137 HTJ   153 XXX   169 ©   185 ¹   201 É   217 Ù   233 é   249 ù
138 VTS   154 SCI   170 ª   186 º   202 Ê   218 Ú   234 ê   250 ú
139 PLD   155 CSI   171 «   187 »   203 Ë   219 Û   235 ë   251 û
140 PLU   156 ST   172 ¬   188 ¼   204 Ì   220 Ü   236 ì   252 ü
141 RI   157 OSC   173 SHY   189 ½   205 Í   221 Ý   237 í   253 ý
142 SS2   158 PM   174 ®   190 ¾   206 Î   222 Þ   238 î   254 þ
143 SS3   159 APC   175 ¯   191 ¿   207 Ï   223 ß   239 ï   255 ÿ

"XXX" kontrolni karakteri, uzgred, ne koristi porno industrija, oni su jednostavno ostali ne​​definisani po standardu. U svakom slučaju, pošto ISO-8859-1 je samo jedan od nekoliko jezika specifičnih znakova kodiranja, neophodno je za bilo koji protokol koji šalje i prima tekst da ima neki način na koji ukazuje koje kodiranje se koristi. Jedna mogućnost je da se izjaviti po naredbi da je jedno kodiranje standardno, ISO-8859-1 (Latin-1) je de-fakto standard ovih dana u većini slučajeva gde ništa ne ukazuje drugačije; karakteri u ovom setu su, pored US-ASCII, "najsigurniji" koji se koriste u tekstu, jer većina računarskih sistema mogu da ih razumeju. Međutim, ovo izostavlja druge jezike koje predstavljaju različita kodiranja. Srećom, većina protokola, uključujući i one za veb i e-mail, obezbeđuju eksplicitnu indikaciju kodiranja karaktera. Za e-mail, to se radi u Content-Typezaglavlju sa dodatkom charset parametra. Dakle, da se ukaže na čistu tekstualnu poruku u ISO-8859-1 kodiranju, to se pojavljuje u zaglavlju:

Content-Type: text/plain; charset=iso-8859-1

Citirano za štampu (Quoted Printable)

Postoji samo jedan problem standardi mejl formata brane korišćenje karaktera van 7-bitnog ASCII opsega. Razlog za ovo je da bi 8-bitni karakteri imali nepredvidive efekte na programe i mreže neiskorišćene na njima. To je verovatno više od apstraktnog akademskog interesa danas, ali u ne tako dalekoj prošlosti mnogo e-mailova je preneseno putem mreža koje koriste osmi bit kao zastavu ili checksum. Da biste izbegli da izazivate probleme u takvim situacijama, citirano za štampu i base64 kodirajući sistemi su osmišljeni da dozvole bilo kakvu vrstu podataka koji se šalju isključivo u bezbednim ASCII znakovima. Base64 je dizajniran za transmitovanje binarnih podataka,i biće više reči o njemu u prilogu članka o datotekama. (Neki spameri zaista kodiraju svoje glavno telo teksta u base64kao zaklanjajuću tehniku!). Quoted printable ) Quoted Printable je dizajniran za običan tekst poruka koje možda sadrže neke ne-ASCII znakove. Delovi poruka koji su u sastavu normalnih ASCII karaktera za štampu ostaju nepromenjeni, dok "specijalni" karakteri (uključujući kontrolne karaktere, i sve iznad karaktera # 127) se kodiraju kao sekvence koje se sastoje od znaka jednako (=) praćeni sa dve heksadecimalne (baza 16) cifre (ovi se sastoje od cifara 0 do 9 i slova od A do F). Upotreba znaka jednakosti kao posebnog karaktera znači da takođe, mora biti kodiran (kao " =3D"). Još nekoliko pravila se koristi da bi se bavilo resornim pauzama i belim prostorom.

Ako program primanja pošte podrazumeva navedenu štampu za kodiranje (kao što skoro svi rade ovih dana), ovo kodiranje je opozvano na prijemnom kraju, tako da karakteri izlaze na isti način na koji su ušli. Ako primalac ne razume ovo kodiranje (ili gleda ovu poruku u sirovom obliku izvornog koda), poruka će uglavnom izgledati kao običan, čitljiv tekst, ali će imati nekoliko neobičnosti kao ravnopravne znake i hex cifre koje se smenjuju u njemu, a takođe mogu imati čudne prelome redova (kodiranje citiranja za štampu dodaje redove da dovedu liniju dužine u specifikacijama, ali ovo je opozvano na prijemnom kraju, kada je poslednji znak svake linije = znak da ukaže da je "meka prelomna linije ")

Ovo zaglavlje linija se dodaje da ukaže da je kodiranje citiranja za štampanje u upotrebi:

Content-Transfer-Encoding: quoted-printable

Napred do Unikoda

Standardizacija seta ISO karaktera kodiranja pomoglo je da se uvede red u haos setova vlasničkih prodavčevih specifičnih znakova, ali ipak neki ljudi su sanjali o stvaranju jedinstvenog, ujedinjenog skupa znakova koji će obuhvatiti znakove potrebne svim jezicima. Za ovo bi očigledno bilo potrebno više od 8 bita da predstavljaju; kineski, sam, ima više znakova nego što može da stane u set od 256 karaktera . Dakle, kada je standard karaktera poznat kao Unicode fprvo uzeo formu, bilo je 16-bitno kodiranje, uzimajući dva bajta po znaku (duplo više kao 8-bitni kodni rasporedi) i sposoban da zastupa 65.536 različitih karaktera. (Kao što ćemo videti kasnije, oni su ga na kraju proširili na još širi opseg nego ovaj.) Ovi karakteri imaju brojeve (ili "oznake pozicije") u rasponu od 0 do 65.535, ali su češće dati u heksadecimalnom kao 0000 do FFFF. ISO-8859-1 (Latin-1) je podskup Unikoda, čije prvih 256 pozicija odgovaraju ovom starijem standardu. Pošto je ovo u redu uključuje US-ASCII na prvih 128 mesta, i to je obuhvaćeno u Unikodu. Preostale pozicije, # 256 ​​i dalje, obuhvataju sve od grčkog, hebrejskog, kineskog, matematičkih simbola, do šah komada ... i Euro znak (€), važan Evropljanima da sada simbolično označei svoju jedinstvenu valutu, ali koji nije postojao u vreme kada su raniji set standardi karakteri napravljeni.

Pošto je većina onlajn teksta na engleskom ili zapadno evropskim jezicima, gde je većina karaktera u američko-ASCII skupu, zahtevanje dva bajta po znaku je smatrano rasipničkim, jer duplira veličinu teksta dokumenta. Dakle, neka efikasnija kodiranja su osmišljena, najpopularnije je bilo UTF-8. Ovo kodiranje ispušta koncept da svi karakteri imaju isti broj bitova, i predstavlja karaktere kao promenljive dužine sekvenci. Naime, na 128 US-ASCII karakteri su kodirani kao pojedinačni bajtovi, identičnim njihovoj zastupljenosti u američkom-ASCII i ISO-8859-1, tako da je bilo koji UTF-8 dokument koji se sastoji isključivo od tih karaktera drugačiji od običnog ASCII dokumenta, koji je dobar za napred i nazad kompatibilnosti. Osim toga, razne kombinacije bajta sa svojim visokim setom bitova se koriste za predstavljanje drugih Unikod znakova. Posebno treba istaći da Latin-1 znakovi od # 128 do # 255 ne mogu biti uključeni kao "sirovi" single bajtovi u UTF-8, jer se ovi bajtovi koriste kao deo multi-bajta sekvenci; ovi karakteri moraju da se kodiraju kao više od jednog bajta, za razliku od US-ASCII karaktera. To ponekad može da izazove problem kada su Latin-1 znakova nalepljeni u UTF-8 dokument i softver koji je uključen ne uradi odgovarajuću konverziju. Međutim, pošto softver autori postaju globalno svesniji (pošto računarsko tržište se širi na zemlje u kojima nisu ASCII znakovi su od suštinskog značaja), postaje sve češće za softver da pravilno rukuje svim vrsta znakova bez da korisnici imaju da razmišljaju previše o tome ... osim u prilikama u kojima se nešto zabrlja!

Otkad je UTF-8 osnovan (i korišćen mnogo češće nego sirovo 16-bitno kodiranje), Unikod sam je bacio koncept da svi njegovi karakteri imaju isti broj bitova, i revidiraju njihov standard da dozvoljavaju većem broju znakova da budu dodeljeni na položajima, čak većim nego # 65535. Ovi karakteri idu do šest bajtova za kodiranje u UTF-8, ali dozvoljavaju dodavanje karaktera suviše skromno da se napravi ranije. (Do sada, međutim, napori da se Klingon doda Unikodu skupu su odbijeni, međutim, oni su videli za shodno da dodaju takve korisne karaktere kao "gomilu Poo-a", u hex kodu U +1 F4A9.) Unicode skup karaktera je takođe usvojen kao standard od strane ISO-a, koji ga je odredio kao ISO 10646.

UTF-8 kodiranje je vrlo efikasno za dokumente koji sadrže uglavnom ASCII karaktere sa samo nekoliko drugih. To je takođe najbolji način za kodiranje dokumenta koji sadrži tekst na više jezika, gde će većina drugih kodiranja biti u stanju da predstavlja sve potrebne karaktere odjednom. Međutim, ako je nešto potpuno napisano na jednom jeziku sastavljenom od ne-ASCII karaktera, drugačije kodiranje, koje je specifično za taj jezik znakova, je efikasnije. Dakle, UTF-8 nikada neće istisnuti sva ostala kodiranja, međutim, osnovni Unikod standard je "zajedničko tlo", po kome karakteri u svim kodiranjima mogu da se uporede i pretvaraju, "lingua franca" za znakovne setove.

UTF-8.-kodirani dokument ima ovu header liniju da označi svoje kodiranje:

Content-Type: text/plain; charset=utf-8

U e-mail poruci, treba da bude dalji prenos-kodiranja citiranja za štampanje, kao što je opisano gore, tako da bajt-sekvence označavaju ne-ASCII znakove predstavljene u ASCII-u ( hex cifre) obliku.

Curly Quotes, Em-Dashes, and Trademark Signs

Ranije sam pomenuo da su neki karakteri u Windows setu karaktera, uključujući "kovrdžavo" citiranje i ™ znak, nisu bili deo ISO-8859-1. Uprkos tome, mnogi programi (naročito oni iz Microsoft-a) vole da ih ubacite u dokumente i e-mail poruke. Funkcija takozvanih "pametnih citata", nađena u velikom broju programa, izaziva normalne ASCII citate i apostrofe, "i", koji će biti pretvoreni u "kovrdžave" sorte ",".'' Čak i ako vaš e-mail program ne radi ovo, možda još možete da uvedete ove karaktere kada nalepite tekst odnekud drugde, kao što je program za obradu teksta ili veb stranica. Tipografski čistunci kažu da je to tačnije, iako starovremenski kompjuteristi (i ljudi koji su upoznati sa pisaćim mašinama pre toga) se koriste za "pravu" raznovrsnost citata. Postoji nekoliko načina na koji "uvijeni citat", i ostali karakteri u grupi koja je u Windows setu, ali ne Latin-1, mogu biti predstavljeni u e-mail poruci, i u njihovom opusu od potpuno pogrešnog (po standardima) do ispravnih, ali problematičnih. (Čak u veb stranicama mogu biti problematični;. ako vaš pregledač pokazuje znake pitanja ili sirovog koda kao što su &lsquo; iznad, gde bi primer zakrivljenog citata trebalo da bude, to znači da ne podržava ove entitete znakova).

  1. Neki programi samo bućnu ove dole u dokument ili poruku kao 8-bitne karaktere, pravo iz Windowsa. Ako zaglavlje ukazuje na to da je us-ascii, iso-8859-1, ili utf-8, onda je to samo jednostavno loše. Takvi karakteri su definisani u ASCII ,kontrolni karakteri su u ISO-8859-1, i deo multi-bajta sekvence u UTF-8, oni ne stoje za ono što Windows misli da oni rade. Međutim, ako zaglavlje ukazuje da je kodiranje windows-1252, onda su ovi karakteri tehnički ispravni, iako je upotreba vlasničkog, platforma specifičnog kodiranja nije dobra ideja (ne-windows sistemi mogu da ne znaju od čega da ga naprave). Uostalom, neki ne-windows sistemi (posebno MacOS) ponekad bućnu dole vlasnički-kodirane "pametne citate", sa karakterima različitim od windows sorte, u dokumentima i tako da apostrof završava gledajući na drugi kraj kao superscripted broj 1.

  2. Ponekad su ovi karakteri predstavljeni kao numeričke reference u HTML-u (ili SGML ili XML) Ovo nema smisla za običan tekst poruke (gde nikakva markup jezička sintaksa ima bilo koji posao koji se koristi), ali to ne mora uvek zaustaviti programe da to urade ionako. HTML e-mail, poruci, ima smisla baš kao u veb stranama. Međutim, numeričke reference ponekad korišćene su one lažne poput &#147;, koje korespondiraju sa pozicijom željenog karaktera u windows kodiranju. Numeričke karakterne reference u HTML-u su uvek u vezi sa Unikod znakovnim pozicijama, a kontrola karaktera na # 147 u Unikodu je u opsegu posebno nedozvoljenom u HTML-u. Karakteri u pitanju su u Unikodu, međutim, na mnogo višim položajima odbrojani,. tako, &#8220; predstavlja validnu numeričku referencu na levom kovrdžavom citatu.

  3. Konačno, ako se UTF-8 kodiranje koristi, ovi karakteri mogu biti uključeni kao multi-bit sekvence u okviru ovog kodiranja. Ovo je ispravno standardu-kompatibilno, i radi za običan teks, kao i HTML e-maila, nažalost, ne podržavaju svi e-mail programi UTF-8;.. evo kako pokušaj da ga koristite može izgledati (uzeto od stvarnog screenshot-a jedne dolazeće poruke kao što je prikazano u programu pošte):

    U UTF-8 karakteri su takođe poznati da se na sličan način unakaze kada se poruka koja ih sadrži citira, prosleđuje, kopira,i nalepljuje, ili na drugi način manipuliše, ili kada se gomila različitih poruka stavlja zajedno u jedan digest ili arhivu (koji može imati samo jedno "charset" zaglavlje, a ako je to nešto drugo osim UTF-8, čak bi i programi koji bi normalno razumeli kodirane karaktere, videli smeće umesto toga).

Zbog problema i otkaza uključenih, najbolje je da se drži na "bezbednim" američko-ASCII znakovima, uključujući "prave citate", a ne pokušavanje da budu "fensi" sa takozvanim "pametnim navodnicima" umesto toga. Ako zaista trebate ne -ASCII karaktere iz Unikod repertoara, kao što je u višejezičnoj poruci, idite napred i koristite odgovarajuće kodiranje (i svi korisnici sa nepodržavajućeg čitalaca programa će biti bez sreće), ali ako je to samo "drangulija" poput kudravih navodnika, bolje je da , ostanete jednostavani, glupi. U svakom slučaju., kovrdžavi apostrof šifriran u UTF-8 i transfer-kodovan u citiranom Printable-u izlazi kao =E2=80=99, koji traje neverovatnih devet bajtova ... gubljenje propusnog diska, čak i ako je to tačno prikazano. HTML referenca &#8217; traje sedam bajtova. Normalan ASCII apostrof. (') traje jedan bajt.

Ljudi koji pokušavaju da imitiraju vitičaste citate su ponekad "prisvajali" ostale ASCII i Latin-1 znakove, sa rezultatima koje smatram kao nešto neprijatnije nego korišćenje pravih citata. Grobni akcenat (`), koji je u ASCII-u, i akutni akcenat ('), koji je u Latin-1, ponekad su pritisnuti u službi kao jedan citat ili apostrof;. Međutim, oni nemaju nameru da budu bilo kakav citat. Oni se oslonjaju predaleko da izgledaju dobro kao navodnici, i dodatno neki softver tretira tastere za njih kao neprostornu kombinaciju znakova koja se koristi u kucanju akcentovanih slova -. akcenat u kombinaciji sa slovom otkucanim pre (ili možda posle?) toga. Dakle, ljudi koji dobijaju naviku da ih koriste kao citate smatraju da ponekad ne rade dobro. SAD-ove tastature imaju ključ samo za grobne akcente, ipak, ne za akutni (mada tastature u drugim zemljama često imaju oboje) , Ja sam viđao ljude koji koriste teški akcenat kao apostrof (kako `to?), mada se naginje u potpuno pogrešnom pravcu. Onda., tu je ono što ja zovem " Unix Geek Quoting" (takođe uobičajeno u službi vesti) koji koristi veliki akcenat kao jedan citat otvaranja i normalni prav jedan citat da ga zatvori, kao` ovo ". Ovo je ohrabreno arhaičnom verzijom ASCII standarda, realizovanom u fontovima nekih starih kompjuterskih sistema, koji su tražili da se normalno ASCII apostrof "osloni". Od 80-ih godina, barem, standard je tražio da ASCII apostrof bude ravan, a većina sadašnjih fontova prati ovo, pa su dve strane citata urađene na ovaj način da ne dolaze blizu uklapanju. Ljudi koji koriste ovaj stil navode često otvarajuće duple navodnike sa dva teška detalja, što je još više `` od udarca "kada odgovara jednom karakteru dvostruki citat na drugom kraju.

Pored citata i trgovačkog znaka, često koriste i zloupotrebljavaju windows karaktere van Latin-1 su "crtu em" (-) i tačke (...). "Prosti-ASCII" zamenjuje dve crtice (-) i tri tačke (...), s poštovanjem.

ROT13

ROT13 nije stvarno skup karaktera, ali je oblik kodiranja na koji možete ponekad naići, posebno na diskusionim grupama. To nije deo bilo kog službenog lica, dokumentovano standardom (koliko ja znam), i nema zaglavlja redova da ukaže na njegovo prisustvo, već je to normalno samo ugrađeno u sred jednostavne-tekstualne poruke. Odjednom (sa ili bez upozorenja), udarate deo besmislice teksta, iako je sastavljen od normalnih slova (nema kontrole smešnih karaktera ili heksadecimalnih cifara). Ako je na štreberskim diskusionima grupama ili mailing listi, verovatno ste naleteli na ROT13. Šta je trivijalno "šifrovanje" šema, projektovano tako da ne čuva tajnu poruku (jer to je lako dešifrovati kada znate kako), već da obezbedi manji stepen zaštite protiv njega slučajno vidjenog kada ne bi trebalo. Koristi se za takve stvari kao što je zaplet spojlera u diskusijama knjiga i filmova, prljavim vicevima ​​da bi vređali ljude, ili pominje imena ljudi i kompanija u toku zagrejanih naduvenosti oko kancelarijske politike gde naduveni ne žele biti indeksirani od strane Google, gde njihov gazda može da ih pročita .

U ROT13 kodiranju, 26 slova engleskog alfabeta standardnog se pomerio za 13 pozicija, sa pismom smatranim da završi od Z do A leđa u beskrajnoj petlji. Svi ostali karakteri (brojevi, interpunkcije i dijakritik pisma, na primer) su prepušteni sami sebi ", kao-je". (Ovo verovatno čini ROT13 neadekvatnim za skrivanje teksta u ne-engleskom jeziku koje imaju visok procenat znakova osim ASCII azbuke.) Pošto je 13 tačno polovina od 26, ista operacija tačno služi i za kodiranje i dekodiranje poruke.

Tradicionalno, Unix-bazirani čitaoci vesti imaju ugrađenu ROT13 kodirajuću / dekodirajuću funkciju što olakšava čitanje takvih kodirajućih poruka, ili da kreirate sopstvene. Windows mejl/ programi vesti nemaju uvek tu funkciju, ali veb lokacije postoje da to urade za vas.

 

 

Published (Last edited): 03-03-2013 , source: http://mailformat.dan.info/body/charsets.html