日本語の扱いに関して、文字コードとかエンコード方式とか

Windowsなら(普通にテキストエディタを使用している限りは)文字のエンコード方式なんてまったく気にしないのだけれど、LinuxとかUnixは違う。たぶんMacでもまた事情が違ってくるんだろう。はっきり言ってめんどくさい。そんなことで悩んで時間使いたくない。なんとなくはわかっているのだけれど、「なんとなく」の理解なのでたびたび悩むのだ。もうやだ。まとめてしまおう。

まずは文字コード。文字を数値で表すための決まりみたいなもの。詳しくは以下を参照。
文字コード - Wikipedia
つぎはシフトJISWindowsで使われてるのはこれ。詳しくは以下。
Shift_JIS - Wikipedia
ま、ここまではいい。UNICODEとUTFほげほげの違いがよくわかってない。
UNICODEってのは文字コード
Unicode - Wikipedia
UTFっていうのはUnicode Translation Formatのことで要するに符号化方式だ。なるほど。そう言われるとUTF-8とかUTF-16とかいろいろあっても納得じゃん。UTF-8ってのはASCIIと同じ部分は1バイト、日本語は3バイトになるらしい。UTF-16は2バイトが基本。うーん。納得。WindowsアプリケーションでUNICODE使ってプログラム書くっていったらそれはきっとUTF-16のことだ。うむ。よいよい。
UTF-8 - Wikipedia
UTF-16 - Wikipedia
EUCってなんだ?
Extended Unix CodeのことでUNIXでよく使われる。日本語を扱うEUCを特にEUC-JPなどと呼ぶらしい。
EUC-JP - Wikipedia

    • -

エンコードって符号化ってことなんだからさ・・・と、これ書いてて思いました。だめだなオレ。っていうか日本人て不利だよね。

    • -

で、Emacsを使ってUTF-8で保存する方法はよくわからなかったけれどviはわかった。
ホームディレクトリの.virmrcってファイルになんか書けばよいらしい。
http://park15.wakwak.com/~unixlife/linux/app-utf-8.html