• HOME
  • 会社概要
  • サイトマップ

MTシステムのことを知りたい

かんたん解説

マハラノビス距離も分ったぞ問答集

Q.
総合的に一つの結論を出すと言っても、行なうのは難しそうだね。
A.

原理や原則が必要になってきます。コンピュータになにかをさせるわけですから、どうしても数学を利用することになります。

Q.
私はとにかく数学は不得意なんだ。難しいところは避けて説明をしてよ。
A.

人間の脳の中に数式はありませんよね。それでもちゃんと文字を読んだり、商品の売上を予測するんですから、数学は必要ないはずなんです。
でも、だからと言って人間の脳が無茶苦茶やっている訳ではありません。人間も含めて生物は、ある原理、原則に基づいて行動し、賢くなり、進化してきたと言えます。

Q.
そこは不思議だよね。誰が教えたわけでもないのに、どんな生物も自分が生きるための原則に従って行動しているね。
A.

原則を神様が創ったものなのか、宇宙の神秘なのかは分りませんけどね。ともかく、コンピュータは黙って放っておいても何もしません。コンピュータに処理の原理、原則を与えるのは差し当たって人間しか居ません。ですから、総合的な結論を出すための原則を人間が与える必要があります。

Q.
だから数学が出てきても仕方がない、と言いたいんだろう?
A.

できるだけかんたんに説明します。
まず、雨が降った量、つまり降水量と傘の売上の関係を考えます。

Q.
文字の話から始まって、レントゲン写真、弁当が出てきて、次は傘かい。
A.

傘の例が一番簡単なので、まあ聞いてください。
雨が多く降る時期は傘の売上が多くなる・・・これは一般的に言えますよね。

Q.
にわか雨が降ると、駅の売店の傘はよく売れるみたいだ。
A.

そうですね。たとえば1ヶ月単位で降水量と傘の売上の関係を図にすると、この図のようになりますね。

Q.
この1点1点は何を意味するの?
A.

ある月の降水量を横軸に、傘の売上を縦軸にとってあります。一番左下にある点は、1月の実績値です。つまり、あまり雨が降らないので、傘の売上も少ないですね。一番右上の点は、6月の実績値です。梅雨どきで降水量が多くて、傘もたくさん売れたということです。

Q.
なるほど。右上がりの関係があるんだ。これは考えてみれば当然だね。
A.

その"関係"のことを"相関"と呼びます。これは良いですよね。

Q.
ああ、だいたいわかるよ。でも、私は専門用語は嫌いだ・・・相関ねえ。政治家の相関図くらいならわかるけどなあ。
A.

かんたんに言えば、関係とか関連のことですね。でも、ここでは数学の用語を使う必要があるので、相関とか相関係数という言葉を使わせてください。
降水量と傘の売上はほぼ正の相関がありますね。横軸と縦軸の関係がきれいに直線の上に整列すると、相関係数は"1"ということになりますが、普通は多少ばらつくので1より小さくなります。この図の場合の相関係数は約0.9です。

Q.
相関はわかるけど、相関係数のことは忘れたなあ。
A.

相関係数は、相関の強さを示す指標です。全く相関がなければ相関係数は"0"です。

Q.
ということは、降水量と傘の売上の相関係数が0.9ということは、かなり強い相関があるということになるんだね。
A.

そうです。それで、このような関係が雨と傘の"普通の関係"ですよね。
次に、こうした"普通の関係"を前提として、ある月の降水量と傘の売上が点Bになり、別の月では点Cになったとします。

Q.
今、"普通の関係"と2回言ったね。何かたくらみがありそうだな・・・。
A.

たくらみを感じますか。それを感じるということは、私の説明の予知と言うか、予測をしていることになりますね。
それで、点BとCとが普通の関係と比較したときに、その"普通の関係の仲間"と言えるかどうかを考えてみてください。

Q.
やっぱり何か企んでいる。"仲間と言えるかどうか"なんて、裏切り者かどうかを試しているみたいだ。
話がすぐにそれるな。ええと、点Bはほかの点の中に混じっているような印象だけど、点Cは孤立しているかな?
A.

そうですね。点Bだと、降水量が多めで傘の売上もそれに見合って多くなっています。ところが、点Cは降水量が少ないのに、傘の売上がかなり多いことになります。通常とは違う何かの現象があったと考えた方が良さそうですね。

Q.
通常とは違う現象ねえ。雨が少ないのに傘が売れるというのはどんな場合だろう?
A.

普通は考えにくいですよね。携帯電話付きの傘が発明されたとか。降水量とは別の売れる原因があったと考えるべきでしょう。
それで、図の中に円を1個描いてみます。円の中心は、元の12個の点の平均の位置です。

Q.
円を描いた意味は何なの?
A.

円は中心からの"長さ"が等しい点の集まりですね。定規で測ると、中心からの長さは皆同じです。実は、点BもCもこの円上にあるのです。

Q.
ああ、分った。長さの話をしようとしているね。さっきから"普通の関係"だとか、"仲間"だとか妙なことを言っていたよね。
A.

かなり核心を突いています。もう、MTシステムを分っているんじゃないですか?

Q.
何を言ってるんだ。説明が始まったばかりじゃないか。
A.

私が話している言葉の中に、普段と違う言葉というか、妙だなということを感じてくれていますよね・・・。それ自体がMTシステムの中心の考え方なのです・・・。いや、後で説明します。
話をまっすぐに続けましょう。 点BもCもこの円の上にありますね。ですから、中心から定規で測った長さは同じです。

Q.
うん、長さは同じだ。しかし、だ。BとCとでは"仲間と言えるかどうか"の程度が違う。つまり、仲間と言えるかどうかは定規で測った長さとは違う考えで定義しなければならない・・・。だいたい、こんなストーリーかな?
A.

想像力が豊かですね。その通りのストーリーです。 では、どうやって定義するかです。 さきほどは円を描きましたが、今度は楕円を描いてみます。元の12個の点群をすっぽり囲む楕円を描くと、こんなふうになりますよね。

Q.
あ、ホントだ。言われてから気付いたけど、右上がりに細長く点がちらばっているんだから、楕円で囲むことができるね。
A.

囲むだけなら四角でもひし形でも良いのかもしれませんが、やはり円の親戚である楕円で囲むのが一番自然でしょう。
こうして楕円を描いてみると、その内側であれば、どこに点を置いても元の12個の点群の"仲間"と言えそうですね。

Q.
そうすると、点Cは楕円の外にあって仲間とは言えない感じだ。楕円で囲むと感覚的にも納得できるね。
そうすると、こういう楕円をうまく描くことで、"普通の関係"の"仲間"と言えるかどうかが分るという訳かい?
A.

その通りです。
では、この楕円をどういう理屈で描くのが良いかということになりますね。楕円ですから、細長いものや円に近いものまでいろいろとあります。

Q.
この傘の図では、わりとつぶれた楕円になっている。楕円のつぶれ方は何によって決まるんだろう?
A.

先ほど、「相関係数」という言葉が出てきましたね。降水量と傘の売上の相関係数は0.9でした。相関係数は1以下ですから、0.9はかなり高いと言えます。

 

Q.
じゃあ、相関係数が0のときは楕円はどうなるの?
A.

完全な円になります。ですから、相関係数が0から1に向かって大きくなるほど、楕円は次第につぶれていくことになります。

Q.
なるほど、分ったような気がする。つまり、楕円の形は相関係数によって決まるんだ。
A.

そうです。そこは良いですよね。
次に、さきほど"長さの話をしたいのか?"と言ってましたね。実は、きちんと計算して描いた楕円の周上では、降水量と傘の売上の平均つまり中心からの"距離"が同じということになります。

Q.
長さということは、当てずっぽうで言ったけど、この図の3本の矢印の長さが同じということになるのかい?
A.

"長さ"ではありません。"距離"が同じになるのです。言い方を変えると、"仲間の程度"が同じということです。楕円上では全部仲間の程度が同じになります。その妥当性は、さきほど納得してくれましたよね。

Q.
しかし、長さと言ったら普通は距離のことだろう。仲間の程度と言うのならいいけど、距離と言われるとしっくり来ないなあ。
A.

「二人の間の心の距離」とは言いますが、「心の長さ」とは言いませんよね。心の長さなんて言ってしまうと、全然雰囲気が出ません。

Q.
なるほど。まあ、意味するところはだいたい分ったよ。
A.

ここで言う"距離"というのが、"仲間の程度"を表すと理解してください。楕円上では"仲間の程度"すなわち"距離"が同じです。そうすると、いろいろな距離の楕円を描くことができます。

Q.
いろいろな距離?
A.

はい。距離なんですから、近い距離もあれば遠い距離もあります。今まで見てきた楕円は近い距離の楕円ということになります。仲間の程度が近いわけですから。
いくつか楕円を描いてみます。一番内側が距離1、その次が2、一番外側が3です。

Q.
地図で見かける等高線みたいだな。
A.

そうです。このことを立体的に説明すると、等高線と同じになります。

Q.
ふーん。そうすると、さきほどの点Cの距離はどうなるんだい?
A.

数式に基づいて計算すると、約10になります(*)。元になった12個の点やBは皆距離が0から2程度ですから、Cは仲間とは言えないことが分ります。

(*)ここでは二乗の距離で解説しています。詳しくは後で解説します

Q.
「数式に基づいて説明すると」か。難しくなければ説明してよ。
A.

相関係数を利用して、仲間の程度、つまり距離がうまく定義できる数式で、この数式から求められる距離を、「マハラノビス距離」と言います。数式を考案したのがインドの数学者マハラノビス博士なので、そう呼ばれています。
インドでは、いろいろの動物の骨が出土するのですが、骨の特徴を用いてうまく分類する方法がないかと考えた末に、距離の導き方を発見したのです。

Q.
マハラノビスさんか。言いにくいな。その自動車殿堂入りをされた田口博士は、マハラノビスさんの数式が仲間の程度を扱うことに適用できると考えたわけかい?
A.

そうです。実は、田口博士とマハラノビス博士はきわめて親しいお付き合いがあったのです。マハラノビス博士は私財を投げ打って、カルカッタにインド統計研究所を設立されました。そして、田口博士がこの研究所に客員教授として招かれて以来、親交があったそうです。

Q.
なるほど。お二人のマハラノビス距離は近かったんだ。仲間であり友人であり・・・そんな出会いがあったの。
A.

ときどき、すごいこと言いますね。
出会いだけなら我々にもありますが、その出会いからすごいものを残すところが偉い方々の素晴らしいところです。

Q.
ところで、さっきから少し考えていたんだけど、降水量と傘の売上は2つの関係だけだろう? ところが、文字の場合には変化の箇所やら石の数やらがたくさんあるよね。確か14種類あったはずだ。こんな場合、その相関係数とやらはどうなるの?
A.

2つだけの関係は"2次元"ですね。もっと多くの場合は"多次元"と呼びます。多次元は、2次元の関係の集まりですよね。つまり、全ての2つの組ごとに相関を求めれば良いわけです。

Q.
うーん。つまりこういうことかい?
多次元であっても、2つずつのペアで相関係数を計算するといい。合ってる?
A.

そうです。その通りです。
前に出てきた5という文字から取り出した14個の値を改めて見直してみます。

Q.
だけど、14個もあると全部のペアの数ってかなりの数になるね。
A.

そうですね。しかし、ルールは同じですからプログラムを組めば大丈夫です。現場で使われている問題の中には変数が数百とか数千というものもありますが、コンピュータが計算しますので、全然心配は要りません。
それで、14個の変数について全部の組の相関係数を求めたら、以下の表のようになります。

Q.
うわあ、なんだこりゃあ!
A.

そんなに驚かないでください。さきほど出てきた14個の特徴の2個ずつのペアの相関係数を求めたらこうなるだけです。さきほどの表の1列目と2列目の相関係数は0.18と言いましたが、それが上の表の1行目と2列目の位置にありますね。1列目と5列目の相関係数は −0.39と言いましたが、1行目と5列目の位置にあります。ほかも全部同じです。

Q.
色にびっくりしたこともあるけどね。ああ、汗かいた。
A.

では、とっておきの例で説明しましょう。絵を使いますから、わかりやすいと思います。 下の絵はモナリザの絵ですね。

Q.
おっと、次はモナリザか。まあいいや、わかりやすければ。でも、うまい絵だな。誰が描いたの?
A.

札幌に住むデザイナで、子供たちに夢をあげたりもしている人です。

Q.
ふーん。札幌に住んでいるのか。時計台、ポプラ並木・・・素敵な街だ。 ところで、左の絵はよく見るモナリザだけど、右の絵はどこかがおかしくない?
A.

おかしいと感じるでしょう。実は、右の絵では目も鼻も口も、皆大きさと形は同じですが、位置関係が異なっています。

Q.
ああ、本当だ。えーと、鼻と口が下にずれていて、目の間隔も広いね。そうか、相対関係が違う例だと言いたいんだね?目、鼻、口となると3つあることになる。
A.

そうですね。両目の間隔も含めると4つの相対関係ということになります。人間は相手が誰かを認識するときに、目鼻の形という情報も使いますが、それらの相対関係という情報も使っていますね。この場合、相対関係が大変重要なことがよくわかります。

Q.
言い方が堅苦しいというか理屈っぽいけど、言っていることはわかる。
A.

ここでは、複数の部分どうしの相対位置、つまり相対関係が異なることがわかりますね。この例は顔だけですけど、人間が相手を認識するときは、そのほかに背の高さや体つき、声など多くの情報を使いますね。一つひとつも判断材料ですけど、相対関係も重要な判断材料になります。

Q.
そう説明してもらえると、納得しやすいね。さっきの色付きの"行列"を見せられるとパニックだよ。
A.

これからも、いろいろと織り交ぜて説明しますから、辛抱してください。

Q.
相対関係かあ。じゃあ、文字の石の置き方と言うか、変化の数なんかの場合も相関関係で決まるたくさんの楕円がそこにあると考えればいいのかい?
A.

そうです。ちょっと難しいのですが、コンピュータがどんな計算をしているかと言うと、"行列"計算をやっています。マハラノビス博士は、この計算方法で動物の骨の分類がうまく行くことを確認したのです。

Q.
"行列"は確かに数学の授業でやったけど、さっぱりわからなかった。
A.

私も同じです。"単位行列"とかが出てきて、数字の"1"に相当するなどと説明されて、さっぱりわかりませんでした。ところが不思議なもので、自分がパターンとか予測とかをやる必要性が大きくなってくると、何とか知りたいという気持ちになるものです。

Q.
へえ、そんなもんかい。
A.

必要は発明の母と言いますが、思いや願いが強いほど努力を惜しまないでしょう。彼女に会うためなら10キロの道でも、走ってでも何でも目的地に行きますよね。

Q.
また人生訓が出てきた。どうも、技術とか理論の話をしているつもりなのに、そっちに行ってしまうね。そうか。マハラノビスさんが君の彼女だったというわけか。
A.

行列についての、私の理解のプロセスがそうだったという話をしたかっただけです。 また話を戻して、特徴量・・・そうですね、一応数学らしく"変数"と言うことにしましょうか。ある状態を説明するためには、通常複数の変数を必要とします。それら変数の2個のペアずつの相関係数を求めて、全体のパターンの判定をしようというのが、マハラノビス博士の発見した方法です。
降水量と傘の事例は2次元、つまり変数が2個でした。そして、相関を考慮した"距離"が成立する、という話もしましたね。変数がたくさんあっても、変数間の相関に基づいた距離が計算できます。

Q.
ちょっと待って。あまりいっぺんに説明しないでくれ。フー。
えーと、相関係数ね。相関が大切。相関が崩れると顔も崩れる・・・、福笑いだね?
A.

まあ・・・。あ、そうだ。相関以外にも大事なことを言うのを忘れてました。
相対位置が同じでも目や口の形が変わると表情が変わるということもあります。次の2枚の絵を見てください。

Q.
ん・・・? よく見ると、右の絵はあまり微笑んでいないような・・・。ああ、口が真一文字だ。
A.

そうです。目や眉毛の形が変わると、これもまた表情が変わりますね。
相対位置が変わると顔つきが変わるという話をしましたが、口や目など、それぞれの形や大きさが変わると、やはり元の表情とは違うものになったり、別人になります。 降水量と傘の関係で言いますと、相関関係が正常のときと似ていると言っても、度を過ぎると仲間とは言えなくなることに相当します。次の図を見てください。

Q.
点Dは楕円のかなり外側にあるね。つまり距離が離れているということだ。度を過ぎるとというのは、降水量も傘の売上も例年より多いという意味かな?
A.

そうです。距離という概念は、「普通の、あるいはいつも通りの関係に近いかどうか」が基本になりますが、それは相関関係が同じ傾向にあるかということと、もう一つ、程度もいつも通りか、ということの両方を含みます。
降水量の例では、点Dは降水量と傘の売上の相関関係という点では元のデータ群とほぼ同じなのですが、いずれも量がかなり増加しています。つまり元のデータ群からの距離は大きいことになります。

Q.

なるほど。その考えをモナリザに当てはめると、こんな絵になるかな。相対位置は変わらないけど、鼻を大きくしちゃった。ちょっと品が無くなるね。でも、この理解でいいんだろう?

A.

うまい。
だいたい理解してもらえたようですので、そろそろまとめましょう。
パターンが同じかどうかは、変数の相関関係や値の大きさによって決まります。パターンの近さを計算する手段として、マハラノビス距離があります。どんなに変数が多くても、マハラノビス距離の計算ルールを用いると、妥当なパターンの距離を求めることができます。
マハラノビス距離は、基準となるデータ群からの距離を測る数理的手段です。

 

Q.
イメージはわかったけど、その"距離"なるものをまだ具体的に見ていないなあ。
A.

では、最後に文字パターンの距離をお見せします。整理の意味も含めて、順を追って説明します。
この"5"という文字は前に書いた16個の文字ですね。碁石は使っていませんが、意味は同じです。

 

これらの16個の文字から14種類の"変化の数"と"石の数"とを求めると以下の表が出来ます。この表は前にも見てもらいましたね。

 

さらに全ての2組の列の相関係数を計算すると、さきほどびっくりした相関行列を求めることができます。

 

ここまでで準備は出来ました。数理手順としては"逆行列"という少し専門的な計算が行なわれますけど、それはコンピュータに任せるとして、下の4個の数字パターンのマハラノビス距離を計算してみます。これらは、先の16個のパターンには無いパターンです。

Q.
なんだい、左の3つは"5"と読めるけど、右端は6じゃないか。
A.

人間はパッとわかるんですがね。コンピュータにうまくわかるかどうかです。では計算してみましょう。マハラノビス距離は以下の通りとなります。

Q.
値の大小はわかるけど、いま一つ実感が湧かない。数字だけではよくわからんから、絵にしてみよう。文科系の人間は絵にすると理解しやすいんだ。
左側にごちゃごちゃ重ねて書いたのが、基準となる5だ。こんなので良いのかい?

A.

絵にして分り易いのは理科系も同じと思いますけどねえ。最近は理科系も文科系も関係ないことが多いんですけど。
それはそれとして、この図はまったく正しいです。こうすると、距離という概念がよくわかりますね。

Q.
そうか。私の理解は正しかったのかい?
A.

ええ。わかってくると楽しいでしょう。
降水量と傘の売上の場合は、2次元で表せるので、距離が楕円のようにつぶれるという感覚が何となくは理解できましたよね。しかし、文字の場合は14次元ですね。相関のペアの数をちゃんと数えると、楕円が91個あることになります。91個の楕円を使って5という文字のパターンの距離を出した結果が、この図ということになります。

Q.
何、楕円が91個もあったの?
A.

たった14個の変数でも、ペアの数は91個になります。何度も言いますが、考え方は一つで、定義通りの計算はコンピュータがやってくれます。
それで、あとはどこかに5と読めるかどうかの境界線を決めれば、パターン認識が完成します。一般論ですが、マハラノビス距離の境界線は、4あたりと言われています。つまり、4より小さければ元のデータ群の仲間と言えますし、それより大きければ仲間とは言いにくいということです。

Q.
どう見ても6という文字の距離が110になっているから、これは5とは言えないということだ。かなりいい線行っていることになるね。
A.

その「かなりいい線」ということがパターン認識では重要なのです。パターン認識の良さを評価する方法にはいくつか方法がありますけど、人間が持つ"距離感"に近いことが一番大切なことです。人間の判断を置き換えるわけですから。

Q.
そう聞くと少し安心するな。人間の感覚に近い結果を生む技術というのは、親しみを感じるよ。
A.

そう感じてもらえるとうれしいです。

Q.
だいぶ分かってきたので、良い本を紹介してくれないか? もっと知って、何かに使いたくなってきた。
A.

では、その本を紹介しましょう。「入門MTシステム」 いう本です。詳しくは、このホームページの2008/12/04のお知らせを見てください。本屋さんで売っていますよ。


お問い合わせ
 
ページの先頭に戻る