webサイトの文字コードとは

webサイトの文字コードとは

webサイト制作を行う際文字コードを何にするかというのは以前は非常に重要なことでした。
webサイト制作以外でも利用される文字コードとは文字がコンピューター内で利用される際に文字ごとに割り振られる番号の事です。
例えばアルファベットの「A」という文字を利用したい場合の番号は1、「B」であれば2というように文字に番号を振っていくわけです。
文字とコードの対応関係、いわゆる文字集合が一つしかなければ特に気にする必要なくそれを利用すればよかったのですが、世の中にはいくつかの文字集合が存在するため、webサイト制作などで文字と文字コードの対応関係が違っている場合、意図したものとは違う文字が表示されてしまうことがあります。
例えば漢字の「赤」という字に309番という番号を割り振る文字コードを利用してテキストファイルを作成した場合、このファイルを閲覧するときに同じ文字集合を利用して閲覧すれば「赤」と表示されるのですが、違う文字集合を利用して表示してしまうと全然違う文字が表示されるようになってしまいます。
この文字集合が違うため製作者の意図とは違う文字が表示される現象がいわゆる文字化けと呼ばれる現象になります。
最近ではこの文字集合の事を指して文字コードと呼ぶことが多いようです。
文字集合にはいくつかの種類があります。
なぜ複数あるのかというと国ごとで使用する文字が違っている事や、システムごとで必要とされるコードが変わっていることなどが理由としては考えられます。
アメリカなどではアルファベットと数字のみで済むため非常に少ないコード数で事足ります。
このアルファベットと数字のみの文字集合の事をASCIIと呼びます。
英語と違い日本語の場合は平仮名だけでなく片仮名・漢字など使用される文字非常に多いのですが、厄介なことにそんな文字数の多い日本語には複数の文字集合が存在します。
UNIX系システムで利用されているEUC-JP、Windows系システムで利用されるshift−jis、電子メールで利用されるISO-2022-JPなどが代表的な文字集合です。
このように同じ日本語という言語を表すための文字集合が複数存在するため、文字集が合わないことで発生する文字化けがwebサイト制作で以前は結構多く発生しました。
しかし最近では全世界で利用される文字とコードを一つの文字集合にすることを目的に制作されたUnicodeという文字集合のうちのUTF-8という文字集合が主流になってきたためコードが原因で発生する文字化けは起こりづらくなっています。