私が歌川です

@utgwkk が書いている

『プログラマのための文字コード技術入門』を読んだ

プログラマのための文字コード技術入門 (WEB+DB PRESS plus) (WEB+DB PRESS plusシリーズ)

プログラマのための文字コード技術入門 (WEB+DB PRESS plus) (WEB+DB PRESS plusシリーズ)

読んだ。これ一冊で文字コードのことがだいたい分かるというボリュームでかつてなかった。やや情報が古いところもあるので適宜調べていくとよさそう*1

Shift-JIS のダメ文字や幽霊文字の話は知っていたけど、符号化文字集合と文字符号化形式の違いとか、UnicodeUTF-8UTF-16 の違いとか、今まであいまいにしていてライブラリに頼っていたところの話が全部書いてあった。 RFC に準拠しているメーラーと準拠していないメーラーとの間で添付ファイルの名前が文字化けするのでうまくやっていくという話があって、大変という感じだった。ぜんぶ準拠していればこんなことにはならなさそう?

UnicodeError に悩まされた経験のある人は絶対に一度は読んでおいたほうがいいと思う。ぼく自身はたぶん一度読んだだけではまだ理解しきれていなくて、何度も読み返して噛み砕かないといけなさそう。

*1:たとえば Ruby 1.9 の内部処理について解説しているところとか