UNICODEの正規化2013年05月07日 18:52

java.text.Normalizerクラスを使って、JISX0201(158文字)とJISX0213(11,233文字)がどのように正規化されるのか調べてみました。

「が」(U+304C)が「が」(U+304B+3099)に分解されることはネット上の解説記事にもよく例として出てきますが、「㌫」(U+332B)が「パーセント」(U+30CF+309A+30FC+30BB+30F3+30C8)になったり、「㍻」(U+337B)が「平成」(U+5E73+6210)になるのを見ると改めてなるほどと思ったりします。

そこで、NFD,NFKD,NFC,NFKCのいずれかで他の文字に置き換えられるもの(647文字)だけを表にしてみました。興味のある方はご覧ください。

表の置き場所は『http://www.ne.jp/asahi/yuan-jiu/home/』