KOI8-T
il KOI8-T è un sistema di codifica di caratteri a 8-bit progettato per essere adoperato con la lingua tagica, in particolare con la versione dell'alfabeto tagico che si rifà all'alfabeto cirillico.[1] Introdotto da Michael Davis come soluzione temporanea per riempire i vuoti presenti nei sistemi di codifica allora esistenti in attesa della definitiva affermazione dell'Unicode,[2] il KOI8-T, il cui nome sta per Kod Obmena Informaciej, 8 bit (in russo Код Обмена Информацией, 8 бит, Codice per lo scambio di informazioni, 8 bit), è basato sul KOI8-R, sistema di codifica basato sull'originale KOI8 e progettato per l'utilizzo con il russo e con il bulgaro, di cui sostituisce alcuni caratteri grafici con sei lettere tagiche nelle loro versioni maiuscola e minuscola: Қ, Ғ, Ң, Ҷ, Ӯ e Ӣ.
Il KOI8 ed il CP-1251, un altro sistema di codifica di caratteri per le lingue che utilizzano l'alfabeto cirillico, sono ancora molto più utilizzati dell'ISO 8859-5, che in effetti non ha mai trovato grande utilizzo, anche se oggi, ormai, nella stragrande maggioranza degli utilizzi moderni, viene loro preferito l'Unicode.
Il KOI8 ed i sistemi da lui derivati hanno la particolarità di avere le lettere cirilliche disposte in ordine pseudo-latino piuttosto che nel comune ordine dell'alfabeto cirillico come hanno per esempio l'ISO 8859-5 e l'Unicode. Sebbene questo possa sembrare anti intuitivo, questa caratteristica risulta utile per il fatto che se l'ottavo bit viene eliminato, il testo è parzialmente leggibile utilizzando il sistema ASCII e può essere convertito in un testo in KOI7 sintatticamente corretto. Per esempio se dalla scritta in KOI8-T "Русский Текст" viene eliminato l'ottavo bit, essa diventa rUSSKIJ tEKST ("Testo russo") ed un tentativo di interpretare tale stringa con il KOI7 porta a "РУССКИЙ ТЕКСТ". Il KOI8 fu creato basandosi sul codice Morse russo (che a sua volta fu creato dal codice Morse internazionale basandosi sulle assonanze) e la connessione riguardante l'ordine delle lettere tra il codice Morse russo e quello internazionale è la stessa che esiste tra il KOI8 e l'ASCII.
Tabella[modifica | modifica wikitesto]
La seguente tabella mostra il sistema di codifica KOI8-T. Ogni carattere è rappresentato al centro della cella con il suo equivalente Unicode in alto e il suo codice decimale in basso.
Caratteri di controllo | Punteggiatura | ||
Cifre numeriche | Caratteri alfabetici | ||
Caratteri internazionali | Caratteri non definiti | ||
Caratteri grafici | Punteggiatura estesa |
-0 | -1 | -2 | -3 | -4 | -5 | -6 | -7 | -8 | -9 | -A | -B | -C | -D | -E | -F | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
0- | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 |
1- | 16 | 17 | 18 | 19 | 20 | 21 | 22 | 23 | 24 | 25 | 26 | 27 | 28 | 29 | 30 | 31 |
2- | 0020 SP 32 | 0021 ! 33 | 0022 " 34 | 0023 # 35 | 0024 $ 36 | 0025 % 37 | 0026 & 38 | 0027 ' 39 | 0028 ( 40 | 0029 ) 41 | 002A * 42 | 002B + 43 | 002C , 44 | 002D - 45 | 002E . 46 | 002F / 47 |
3- | 0030 0 48 | 0031 1 49 | 0032 2 50 | 0033 3 51 | 0034 4 52 | 0035 5 53 | 0036 6 54 | 0037 7 55 | 0038 8 56 | 0039 9 57 | 003A : 58 | 003B ; 59 | 003C < 60 | 003D = 61 | 003E > 62 | 003F ? 63 |
4- | 0040 @ 64 | 0041 A 65 | 0042 B 66 | 0043 C 67 | 0044 D 68 | 0045 E 69 | 0046 F 70 | 0047 G 71 | 0048 H 72 | 0049 I 73 | 004A J 74 | 004B K 75 | 004C L 76 | 004D M 77 | 004E N 78 | 004F O 79 |
5- | 0050 P 80 | 0051 Q 81 | 0052 R 82 | 0053 S 83 | 0054 T 84 | 0055 U 85 | 0056 V 86 | 0057 W 87 | 0058 X 88 | 0059 Y 89 | 005A Z 90 | 005B [ 91 | 005C \ 92 | 005D ] 93 | 005E ^ 94 | 005F _ 95 |
6- | 0060 ` 96 | 0061 a 97 | 0062 b 98 | 0063 c 99 | 0064 d 100 | 0065 e 101 | 0066 f 102 | 0067 g 103 | 0068 h 104 | 0069 i 105 | 006A j 106 | 006B k 107 | 006C l 108 | 006D m 109 | 006E n 110 | 006F o 111 |
7- | 0070 p 112 | 0071 q 113 | 0072 r 114 | 0073 s 115 | 0074 t 116 | 0075 u 117 | 0076 v 118 | 0077 w 119 | 0078 x 120 | 0079 y 121 | 007A z 122 | 007B { 123 | 007C | 124 | 007D } 125 | 007E ~ 126 | 127 |
8- | 049B қ 128 | 0493 ғ 129 | 201A ‚ 130 | 0492 Ғ 131 | 201E „ 132 | 2026 … 133 | 2020 † 134 | 2021 ‡ 135 | 136 | 2030 ‰ 137 | 04B3 ң 138 | 2039 ‹ 139 | 04B2 Ң 140 | 04B7 ҷ 141 | 04B6 Ҷ 142 | 143 |
9- | 049A Қ 144 | 2018 ‘ 145 | 2019 ’ 146 | 201C “ 147 | 201D ” 148 | 2022 • 149 | 2013 – 150 | 2014 — 151 | 152 | 2122 ™ 153 | 154 | 203A › 155 | 156 | 157 | 158 | 159 |
A- | 160 | 04EF ӯ 161 | 04EE Ӯ 162 | 0451 ё 163 | 00A4 ¤ 164 | 04E2 ӣ 165 | 00A6 ¦ 166 | 00A7 § 167 | 168 | 169 | 170 | 00AB « 171 | 00AC ¬ 172 | 00AD SHY 173 | 00AE ® 174 | 175 |
B- | 00B0 ° 176 | 00B1 ± 177 | 00B2 ² 178 | 0401 Ё 179 | 180 | 04E1 Ӣ 181 | 00B6 ¶ 182 | 00B7 · 183 | 184 | 2122 № 185 | 186 | 00BB » 187 | 188 | 189 | 190 | 00A9 © 191 |
C- | 044E ю 192 | 0430 а 193 | 0431 б 194 | 0446 ц 195 | 0434 д 196 | 0435 е 197 | 0444 ф 198 | 0433 г 199 | 0445 х 200 | 0438 и 201 | 0439 й 202 | 043A к 203 | 043B л 204 | 043C м 205 | 043D н 206 | 043E о 207 |
D- | 043F п 208 | 044F я 209 | 0440 р 210 | 0441 с 211 | 0442 т 212 | 0443 у 213 | 0436 ж 214 | 0432 в 215 | 044C ь 216 | 044B ы 217 | 0437 з 218 | 0448 ш 219 | 044D э 220 | 0449 щ 221 | 0447 ч 222 | 044A ъ 223 |
E- | 042E Ю 224 | 0410 А 225 | 0411 Б 226 | 0426 Ц 227 | 0414 Д 228 | 0415 Е 229 | 0424 Ф 230 | 0413 Г 231 | 0425 Х 232 | 0418 И 233 | 0419 Й 234 | 041A К 235 | 041B Л 236 | 041C М 237 | 041D Н 238 | 041E О 239 |
F- | 041F П 240 | 042F Я 241 | 0420 Р 242 | 0421 С 243 | 0422 Т 244 | 0423 У 245 | 0416 Ж 246 | 0412 В 247 | 042C Ь 248 | 042B Ы 249 | 0417 З 250 | 0428 Ш 251 | 042D Э 252 | 0429 Щ 253 | 0427 Ч 254 | 042A Ъ 255 |
-0 | -1 | -2 | -3 | -4 | -5 | -6 | -7 | -8 | -9 | -A | -B | -C | -D | -E | -F |
Nella tabella soprastante, il corrispettivo del codice Unicode 20 è il carattere spazio mentre del codice Unicode A0 è lo spazio unificatore.
Note[modifica | modifica wikitesto]
- ^ Guido Flohr, Locale::RecodeData::KOI8_T - Conversion routines for KOI8-T, su metacpan.org, CPAN.
- ^ Michael Davis, Tajiki TrueType fonts for the Web: Frequently Asked Questions, su traveltajikistan.com, Travel Tajikistan, 21 novembre 2000 (archiviato dall'url originale il 5 ottobre 2001).
Voci correlate[modifica | modifica wikitesto]
Collegamenti esterni[modifica | modifica wikitesto]
- Tutto sul KOI8-R
- Universal Cyrillic decoder, Un'applicazione online che può aiutare nel recupero di testi illeggibili in cirillico creati con il sistema di codifica KOI8-R.
- Una breve storia dei sistemi di codifica per il cirillico
- IBM CDRA