ReadJEncを使って文字エンコーディングを推定するには？［C#、VB］

「JP」インスタンスでは、UTF-8ではない他言語のサイトは正しく推定できない上は「JP」インスタンスで、下は「CN」インスタンスでデコードした。どちらも、Webページの文字エンコーディングはGB2312（中国簡体字）である。日本語用の「JP」インスタンスは、他言語のサイトではエンコーディングを正しく推定できない。中国語簡体字用の「CN」インスタンスを使えば、簡体字のエンコーディングを推定できる（その代わりに日本語のサイトが推定できない）。ReadJEncクラスにはその他に、中国語繁体字用「TW」インスタンス／韓国語用「KR」インスタンス／欧文用「ANSI」インスタンスも用意されている。なお、下の画像で中国語の一部が文字化けしているように見えるが、これはエンコードに失敗しているわけではなく、実行環境のフォント（＝MSゴシック）に該当するグリフが存在しないためである。

「JP」インスタンスでは、UTF-8ではない他言語のサイトは正しく推定できない上は「JP」インスタンスで、下は「CN」インスタンスでデコードした。どちらも、Webページの文字エンコーディングはGB2312（中国簡体字）である。日本語用の「JP」インスタンスは、他言語のサイトではエンコーディングを正しく推定できない。中国語簡体字用の「CN」インスタンスを使えば、簡体字のエンコーディングを推定できる（その代わりに日本語のサイトが推定できない）。ReadJEncクラスにはその他に、中国語繁体字用「TW」インスタンス／韓国語用「KR」インスタンス／欧文用「ANSI」インスタンスも用意されている。なお、下の画像で中国語の一部が文字化けしているように見えるが、これはエンコードに失敗しているわけではなく、実行環境のフォント（＝MSゴシック）に該当するグリフが存在しないためである。

記事に戻る