2007/01/26 多言語文字表記

多言語文字表記

1. ポルトガル語と日本語を使ってホームページを書く方法

update:2001,2,25(sat)

1.1. 問題

  • ポルトガル語の文字(アクセント記号付きアルファベット、欧米特殊文字、ラテン語)と日本語を併記する方法について。

1.2. 解決方法

  • 文字入力の問題と、ブラウザでの文字表示の問題があり、手軽な方法は残念ながらありませんが、以下のいずれかの方法であれば可能です。
    1. UNICODEで記述する
    2. 画像ファイルを埋め込む
    3. フレームを使う
  • UNICODEで記述する方法
    • 文字コードにUNICODEを使う方法がインターネット標準ということになると思います。しかし、UNICODEで作成されたホームページを読むことは容易ですが、作成するのは少し面倒です。日本で普及しているWindowsパソコンやMacパソコンの文字コードはシフトJIS(S-JIS)であり、UNIXも日本語EUC或いはシフトJISを初期設定するのが普通なので、普通に文字を入力してもUNICODEにはなりません。  
    • また、UNICODEでの記述以前に、日本語キーボードではポルトガル語の文字を簡便に入力する方法がなくて不便です。しかし、これについては数値表記文字(コードで書く)がよいでしょう。
    • 尚、Internet Exploreの場合、文字コードがUNICODEでなくシフトJIS等一般的な文字コードであっても、数値表記文字を使ってポルトガル語を書けば上手く表示できます。但し、Netscapeでは上手く表示できないので問題があります。
  • 画像ファイルを埋め込む方法
    • 文字を確実に表示させるという意味では最も確実な方法ですが、ホームページの作成が不便です。文字の画像ファイルを埋め込むんだり、文字の画像ファイルを取り揃えたりするのが不便です。
    • また、画像で埋め込んだ文字については文字検索が不可能になりますし、文字の大きさの微妙な調整が難しく、見る人の側での調整もできません。
  • フレームを使う方法
    • フレームを使う方法は日本語のページとポルトガル語のページを1つのブラウザのウインドウで表示させることが可能で、見る側は一度に日本語もポルトガル語も見ることが可能ですが、一つのフレーム内で両方の文字を記述することはできません。つまり、文章内で混ぜてことができません。

1.3. 具体的記述方法

  • UNICODEで記述する方法
    • UNICODEでの入力は難しいので私は普通にシフトJISで記述し、保存後にUNICODEに変換します。変換ソフトはフリーウェアで多く公開されてますし、変換機能付きのテキストエディタもあります。フリーウェアの「テキストエディタ」(http://hp.vector.co.jp/authors/VA016528/)などが便利でしょう。有料のホームページ作成ソフトウェアであれば大抵UNICODEで保存する機能があるでしょうが、MicrosoftのFrontPage2000でもUNICODEで保存する設定が可能であることは確認しました。
    • ポルトガル語の入力方法は数値表記がお奨めで、例えば鋭いアクセント付きの小文字"a"(Small a, acute accent)であれば「&224」と書けばよいのです。数字でなく名前で書くことも可能でその場合は「&aacute」と書きます。書く要領はコードを書いて終わりに区切りのセミコロンを書けばよいので「&224;」と書きます。

1.4. なぜ日本語のページにポルトガル語の文字が書けないのか

1.4.1. 必要性
  • 複数言語の文字を同じページで表現したいという要望はかなりあります。インターネットで世界中からアクセスできるのなら、旅行ガイドや言語教育に関するページを作りたくなるのも当然ですが、現在のところこれが難しいのです。
  • 英語のページでポルトガル語を併記することは割合に簡単で、ポルトガル語のページに英語を書けばよく、問題はポルトガル語の入力だけです。
1.4.2. なぜ書けないのか
  • 一般的な日本語の文字セットにアクセント記号付きアルファベット、欧米特殊文字が含まれていないからです。シフトJIS(S-JIS)、JIS(JISX0208)、日本語EUCには平仮名、片仮名、漢字、英数字、記号が含まれてますが、所謂アルファベット26文字は大文字、小文字ともありますが、欧米特殊文字はありません。故に日本語とポルトガル語などの文字を同時に表示することが結果的に難しくなります。ちなみにインターネット上での日本語はISO-2022-JPという規格があり、JISコードが推奨されてます。インターネットメールではWindowsやMacのシフトJISコードを、メールソフト或いはメールサーバがJISコードに変換して送信し、受信する際は逆にJISコードからシフトJISに変換して表示します。
  • ポルトガル語の文字だけを書くには
    • ポルトガル語(欧米特殊文字)を含む文字セットを使えば可能です。Latin1(ラテン1)と呼ばれる文字セットを利用するのが普通で、インターネット上でも規格化されISO-8859-1と呼ばれます。但し、日本語環境のWindowsやMacではこれの利用も難しいです。ワープロソフトでは特殊文字も簡単に書けますが、所謂テキストファイル(Windowsのメモ帳などで作るファイル)では使えません。Webページはテキストファイルでなければならないので、ワープロソフトで書けても駄目なのです。
    • ポルトガル語を書く為には例えばポルトガル語版のWindowsを買ってポルトガル語用キーボートを用意すれば簡単にポルトガル語が書けますが、この環境では日本語は書きにくくなります。
  • 日本語環境のPC上で書く簡単な方法が下記のページに紹介されてますのでご参照ください。
    • 「日本語版Windows 95でLatin 1を入力する方法」 (http://www.sekine.nerima.tokyo.jp/multi/lat1nyur.html)
    • このページでは面倒な方法とされてますが、私は文字コード(数値表記文字)で書くのがシンプルで他のソフトウェアも必要なく、非常に良い方法だと思います。すぐに慣れるので問題ないと思います。
1.4.3. ポルトガル語ページを日本語環境のパソコンで表示できるのはなぜか
  • 書けなくても表示はできます。それはブラウザがポルトガル語でも表示できるように作られているからです。正確にはポルトガル語のページは大抵、"iso-8859-1"や"iso-8859-2"という欧米特殊文字が含まれる文字セットを使っているからです。このページを日本語の文字セット(シフトJIS等)で読めば無茶苦茶に文字化けしますが、通常、ポームページの最初に"charset=iso-8859-1"と指定してあるかブラウザが自動認識し上手く表示させてます。指定が無ければ文字化けする場合がありますが、ブラウザの文字セットに変更すれば解決します。Netscape Communicatorなら[表示(V)]-[文字コード セット(E)]で簡単に変更できます。1つのファイルを2種類の文字セットを使って読むことはできません。それを識別する仕組みが(規則)がないからです。ちなみに"iso-8859-1"等はポルトガル語専用の文字セットではなく、欧州で広く使われる文字セットです。
1.4.4. 日本語の文字セットに他の言語を加えることはできないのか
  • 技術的にはできると言ってよいですが、その新しい文字セットを普及させる必要があります。また、北京語など中国の文字は数が多いので付け加えると言っても簡単にはできません。他の国から見れば、日本、中国、タイ、アラビア、ペルシャなど文字も多く、数が決まっていない言語がとても厄介に思えるでしょう。
  • とは言え、コンピュータ技術の進歩した現在、文字の数だけなら処理速度からすれば問題にならないという考えもあり、日本のTRONプロジェクトなどは幾らでも付け加えるという構えです。先ほどのUUencodeはいろいろな考慮の末、現在の各国の文字セットに入っているものは全て加えましたが、無制限に追加するという方向性はありません。
  • 漢字の数に制限があると聞けば、反対の声を上げる人も出てきます。しかし、無制限に増やすというのは難しく、例えば文字コードはじゃんじゃん割り振ればよいですが、フォント(=文字の形、明朝体、ゴシック体など)は一つ一つ手作業で作り、目で確認しなければなりません。現在のように漢字が数千文字ならばよいですが、数万となれば新たなフォントを作るのは困難です。またフォント作りと言うのはデザインだけでなく、フォントサイズが小さくなれば、適当に画数を省略しないと潰れて見えなくなるので、そのような作業も必要です。数万もの漢字を使うには膨大な労力が必要になり、使われなくなった漢字もコード表に残ってしまいますので、ちょっと現実的とは思えません。ではありません。
  • 漢字と言うのはそもそも生まれては消え、その時代の書体でしか表現されませんから、歴史上に現れた漢字を全て新しい書体である明朝体で作成してコード化するのは、漢字という文字の本質から外れるような気がします。文字表現が目的であれば1万字程度がよいと思います。
  • 一方、文字表現以外に古い書物を翻刻したいとか、現代語訳する際に古い漢字も添えて書きたいなどの要求もあると思います。文字コード化すれば検索も高速に行えるので便利です。しかし、上述のような文字の生まれては消える性質に即せばやはり全ての文字の文字コード化は無理があるように思えるので、画像検索等の技術が発展すればよいなと思います。

1.5. どのような工夫をしているか

  • 作家の場合
    • 漢字が制限されたら文学が表現できないと感情的に叫ぶ人もいます。しかし、所詮はコンピュータという道具の使い方に過ぎないので、冷静に考えている作家は制限のある中でそれなりに表現して、芸術作品を生み出しています。筒井康隆などは文字論争を逆手に取ったような文字コードの弱点自体を生かす作品を書いています。
    • 文学などは工夫次第ですので、多少不便であっても、アイデアのある人にとっては、コンピュータという道具の仕様がどうであれ関係ありません。
  • 文学研究者の場合
    • 翻刻の問題について先述しましたが、過去の文学作品に使われた文字をコンピュータにインプットしたいので、フォントセットを配布したりして研究の便宜を図ってます。専門的な内容であれば研究者間のネットワークで普及すれば、研究を発展させることができそうです。
-- (y:2005-11-12)

コメント

このブログの人気の投稿

systemd-resolveの設定(Ubuntuなどの動的DNS設定)

GRUB起動メニューのタイムアウト時間、起動するOSの変更

Salesforce Trailheadチャレンジメモ(Apex の基礎とデータベース)