『文字コード技術入門』を読んで勉強中

kwatari
·

Amazon.co.jp: [改訂新版]プログラマのための文字コード技術入門 WEB+DB PRESS plus eBook : 矢野 啓介: Kindleストア

第2章 文字コードの変遷まで読んだけど、変遷がだいぶ紆余曲折で面白い。

大きな流れは、ASCII → ISO/IEC 2022 → Unicode、かな。

大雑把な自分の理解:

  • 最も基本的な文字コードは、 1960年代に開発されたアメリカの規格 ASCII: American Standard Code for Information Interchange、7ビットの 1バイトコード。

  • 7ビットのASCIIを拡張するための枠組みがISO/IEC 2022、8ビットコードやマルチバイトコード、また複数の符号化文字集合を組み合わせて運用する符号化方式を定義。

    • JIS X 0208などISO/IEC 2022に則った2バイトコードが東アジアで普及、ただし既存の1バイトコードの上位互換ではない。

    • ヨーロッパでは地域ごとの8ビットの1バイトコードが普及、ISO/IEC 8859。

    • 2バイトコードをASCIIなど1バイトコードと組み合わせて運用する方式が開発されて広く普及、Shift_JIS、EUC-JP、ISO-2022-JPなど。

  • ISOが4バイトの国際符号化文字集合ISO/IEC 10646、同時期に企業グループが2バイトの国際文字コード仕様Unicodeの開発を開始、統合のためにISOがUnicode仕様を反映。

    • 16ビットの最大65,536文字では不十分になりUnicodeを拡張、UTF-16とUTF-8という符号化方式を開発。UTFはUnicode(またはUCS) Transformation Formatの略。