ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ
              _/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/
             _/_/ メールマガジン 『語ろうか、手話について』   _/_/
            _/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/
No. 105                                             2005年 6月29日発行
ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ

  こんにちは、各種振り込みが完了して、なんとなくすっきりしている徳田で
す。皆さんは終わりましたか? 7月16日の手話学会と、8月26日からの全通研夏
集会。どちらも申し込みは明日の6月30日までです。
  もっとも、手話学会の記念講演は無料なんで、当日受付でも大丈夫らしいで
すけど。でも、大会全部を見たい方は、申し込みが必要です。学生割引きも設
定したそうなので、是非。私も2日間参加してます。なぜか、公認でつっこみ
を入れる役(座長とも言う)を一部引き受けてしまったので、ちょっとだけ気が
重いです。
  全通研夏集会は、実は初参加。夏休みついでに、北信越をフラフラしてこよ
うと思っています。8月下旬あたりで、北信越で例会を開く予定があるサーク
ルがあれば、ひょっこり見学してみたいと思うので、タイミング的に都合がつ
きそうなサークルがあればご連絡ください。

  手話学会大会
  http://www.jasl.jp/info/taikai.htm

  全通研夏集会
  http://www.zentsuken.net/shukai.html

----------------------------------------------------------------------

  先々週から手話の自然言語処理学について語っています。
  前回は前口上で終わってしまいましたが、いよいよ理論に入っていきます。

  目的は手話と日本語の自動変換(通訳・翻訳)です。そのためには何をしたら
いいのでしょうか?

  自然言語処理学で使う道具は、計算機(コンピュータ、いわゆるパソコン)で
す。計算機はプログラムの指示に従って真正直に動くだけです。これは、ドラ
クエも緑の窓口も原子力発電所もすべて同じです。計算機はプログラム以上の
ことも、以下のこともしません。やることはプログラムそのものなのです。
  ですから、手話と日本語変換を行うためには、変換するプログラムを書いて
あげればいいのです。

  でも、それが難しいんですけどね。

  ちなみに、ここでは変換と言っていますが、これは通訳と翻訳の総称と考え
てください。計算機で処理する以上、翻訳と通訳には内容に差がありません。
あえて差を考えれば、のんびり処理できるのが翻訳、リアルタイムのケツカッ
チンでどんどん処理していかなければならないのが通訳という程度です。「変
換」という言葉なら、どちらにでも使えます。

----------------------------------------------------------------------

  では、ちょっと自然言語処理学の勉強をしましょう。

  文系の本流の言語学でも、言葉は単語と構造から成り立っていると考えられ
ています。これは工学で亜流である自然言語処理学でも同じです。

                    言葉 = 単語 + 構造

  「+」というより「×」かもしれません。単純な関係ではありませんから
ね。とにかく、ある言葉から、別の言葉に変換するためには、単語と構造をそ
れぞれの言語のやり方に置き換えればいいというわけです。

  例えば                 She ripped the letter into pieces.

  単語を置き換えると、   彼女  破いた  その  手紙  に  粉々
  順番を変えると、       彼女  その  手紙  粉々  に  破いた
  微調整して、           彼女は、その手紙を粉々に破いた。

  順番を変えることが構文の操作と考えると、まさに単語と構文を変えるだけ
で、別の言葉に変換できるわけです。

  となれば、日本語と英語の変換プログラムは、単語と構文を変えるプログラ
ムを作ればいいわけです。事実、現在ある翻訳ソフトは、だいたい以下の流れ
で処理を行います。

  (1) 日本語を入力 
  (2)     -> 単語に分割する
  (3)           -> 文の構造を確定する
  (4)                -> 英語の構造に変換する
  (5)                      -> 英語の単語に置き換える
  (6)                           -> 英語を出力

  専門用語で言うと、(2)と(5)が形態素処理、(3)と(4)が構文処理解析と言わ
れる部分です。特に入力の方だけは(2)を形態素解析、(4)を構文解析と呼ぶこ
とが多いです。
  なぜ、入力の方だけに名前があるかって? それは、出力の方はあんまり研究
している人がいないからです。というのも、まだ入力だけでいっぱいいっぱい
で、出力の方はろくな成果が出ていないんですよ。

  もっとも、出力は入力の逆変換プログラムを作ってやるだけでいい、という
事情もあります。つまり、入力がうまく処理できれば、あとは逆をやればいい
だけじゃん、ということです。車が前にまっすぐ走るなら、タイヤを逆回転さ
せれば後ろに走らせるのは簡単だ、というわけです。いえ、世の中そううまく
いかないことはよくわかっております。でも、とりあえず、今のところはそう
いうことで話を進めさせてください。

  では、ここで大前提として、今回のシリーズでは、日本語を入力して、手話
を出力することのみに集中して考えましょう。日本語の原稿なので、その方が
都合がいいのです。

----------------------------------------------------------------------

  先ほどの例はごく簡単なものでした。一般的には、それぞれの段階で非常に
困難な問題があります。

  例えば、単語の置き換え。
  「letter」を辞書を引いてみてください。色々な意味が載っています。「文
字」「手紙」「字句」「証書」「活字」。
  「rip」はどうでしょう? 「引き裂く」「非難する」「まっしぐらに進む」
「激流」「やくざ者」
  これらを間違えるだけで、わけがわからなくなります。「She ripped the 
letter into pieces. は、彼女、激流、文字がこなごな。なんじゃそりゃ?」

  そこで、単語をうまく置き換える必要があります。そのためには、辞書をい
くら眺めていてもわかりません。他の部分から情報を取ってきます。

  情報源は大きく分けて2種類あります。1つは変換しようとしている文そのも
の。もう1つは辞書などに過去の実績を蓄積して、そこから引き出してくる方
法です。これ以外の方法が思いついたら、すごい論文が書けるでしょう。

  1つ目の方法の、変換する文そのものというのは、一般に構文解析や意味解
析、文脈解析と呼ばれるものです。はい、構文解析はすでに出てきましたね。
つまり、(2)の単語までバラバラにしたら、(3)の結果を使って(5)を処理しよ
うと言うわけです。「she」の後は動詞だろうから、「やくざ者」「激流」と
いう訳語はおかしいから除外しよう、というわけです。
  他には、前後の単語を見ながら、意味を推定する文脈解析などもよく使われ
ます。先ほどの例ですと、「she」とあるから「rip」は「やくざ者」ってこと
はないよなぁ、これは候補から消そうとか、「rip」と「letter」が一緒に出
てくるのなら、「破る」「手紙」という意味の可能性が高いよなぁ、というわ
けです。このような単語の組み合わせに確率を付けていって、一番確率の高い
順番で結果を出していくと、うまくいくぞ、というわけです。

  もう一つの方法である過去の実績を蓄積するというのは、辞書にお役立ち情
報を書いてしまうのが代表的な例です。先の例文ですと「○○ into pieces」
は「○○を細かくする」という規則(定型句)を辞書に書いておきます。で、
「○○は粉々になる物だよ」ということも辞書に書いておくわけです。
  すると、自然と、今回の○○である「letter」は粉々になる物なので、「手
紙」か「証書」だろうと推測できるわけです。
  まぁ、推測するために、色々と小技を使う必要はあるのですが、大筋として
は、以上のような考え方で、プログラムを作ります。

  こんなふうにすれば、計算機で「She ripped the letter into pieces.」を
「彼女は、その手紙を粉々に破いた。」に変換できるわけです。

----------------------------------------------------------------------

  では、いよいよ本題。

  手話の翻訳で最も難しいのは何でしょう? 最も難しく、それが解決できた
ら、すごく改善できそうなポイントは何でしょう?

  私は、それは単語の意味の同定だと思います。つまり(5)の部分。ここが解
決できれば、勝ったも同然と思っています。

  でも、そのためには(2)も(3)も(4)もうまくいかなくてはなりません。なん
だ、結局全部解決しなければならないじゃん。と思うわけですが、それは確か
にそうなんですが、この(2)〜(5)を貫く、一つのキーワードがあります。

  それが「意味」です。単語の「意味」さえ決定できれば、(2)〜(5)それぞれ
の段階で役に立ち、そして目標まで到達できると思うのです。

  というのも、手話では「単語」の意味の扱いは、日本語と事情が違うところ
があると思うのです。それを一気に解決しつつ、意味の同定までやってしまう
アイデアが、この論文のキモとなります。

----------------------------------------------------------------------

  と、今回はここらへんで。自然言語処理学の話ばかりで退屈だったと思いま
す。どうもお疲れ様。次回は手話の話が出てきます。

  では、次回の語ろうかをお楽しみに。

----------------------------------------------------------------------
このメールマガジンは、インターネットの本屋さん『まぐまぐ』 を利用して
発行しています。http://www.mag2.com/ (マガジンID: 0000038270)
----------------------------------------------------------------------
■登録/解除の方法
  メールマガジン「語ろうか、手話について」は、以下のURLよりいつでも
  登録/解除可能です。
    http://www.mag2.com/m/0000038270.htm
    http://www.rr.iij4u.or.jp/~tokudama/kataro/
■バックナンバーの参照
    http://www.rr.iij4u.or.jp/~tokudama/kataro/
    http://backno.mag2.com/reader/Back?id=0000038270
■掲示板
    http://www64.tcup.com/6411/tokudama.html
    補助的な情報を掲載しています。編集者への連絡はMailをお使い下さい。
■苦情、文句、提案、意見など
    Subjectに[kataro]を入れて、以下のアドレスまでMailをお送り下さい。
    個別には返事ができないかもしれませんので、ご了承下さい。
      tokudama@rr.iij4u.or.jp
======================================================================
○メールマガジン「語ろうか、手話について」(月1回以上 発行)

発行: 手話サークル活性化推進対策資料室
編集: 徳田昌晃
協力: 五里、おじゃまる子、くぅ(ヘッダ作成)
発行システム: インターネットの本屋さん『まぐまぐ』http://www.mag2.com/
マガジンID: 0000038270

■意見、文句、提案、投稿は、居住都道府県名と氏名(匿名可)を添えて
  tokudama@rr.iij4u.or.jpまで送って下さい。
■メールマガジン「語ろうか、手話について」は、著作権は徳田昌晃に所属し
  ますが、基本的には転載・複写自由です。有効にご活用下さい。
======================================================================