機械学習におけるMT法と深層学習の違い
機械学習の定義
「機械学習」「人工知能(AI)」などの定義は人により異なるようです。いずれも1950年代以降に登場しましたが、それらの関係は左図のように定義することが多いようです。
MT法も深層学習も人工知能に含まれる技術です。MT法は統計数理を用いた人工知能であり、パターン認識の技術です。
ものづくりにおける両者の特性
機械学習を製造プロセスの監視や製品検査などで利用する場合には、以下の事項が重要となります。
・処理速度:監視・検査のリアルタイム性、および短時間での学習
(深層学習の数百分の1)
・認識精度:異常やその兆しを敏感に捉える能力
・原因診断:異常原因となった項目の特定
・分り易さ:技術者にとり結果が理解しやすいこと
・更新性: 季節など環境変化への対応が容易であること
MT法は上記のいずれについても優れた能力を有しています。深層学習は膨大で複雑なパターンを学習したり、推定することを得意としています。
適用領域の違い

MT法は深層学習と比較して計算量が極めて少ないのですが、ものづくりの現場で重要となる異常検出感度が良好です。しかし、後述のようにネットワーク構造が簡素なため、膨大かつ複雑なパターンを扱うことは困難です。
両者の適用領域は図に示すようになっており、言語処理や画像分類などには深層学習、機器監視や検査などの課題にはMT法の利用が推奨されます。
構造の違い
MT法の構造
正常からの距離
MT法の構造
MT法は左図のようなネットワーク構造を持ちます。〇が項目、線は項目間の相関を示します。MT法は、この構造を利用してパターンの相違を判別します。相関とは、二つの項目間の関係の大きさです。たとえば蛇口の開度と水量には大きな相関があります。相関(係数)は、全ての項目間で計算することができます。
この相関ネットワークは、正常データのみで作られます。そして、このネットワークから対象までの距離を計算します。もし距離が遠ければ、その対象は正常なパターンとして定義されていない、すなわち非正常(≒異常)であることを意味します。ですから、MT法は従来経験したことがない「未知の異常」も検出します。
距離の計算手段として、マハラノビス距離が利用されます。一般には距離が4を超えると異常と判定されます。つまり、距離が4より大きければ、正常の仲間である確率が小さくなるということです。
MT法の構造は一通りですが、深層学習では後に述べるように一通りではありません。MT法のシンプルな構造により、少ないメモリ量で高速な計算が可能です。
深層学習の構造
(オートエンコーダの場合)
深層学習の構造
深層学習は入力層、隠れ層、出力層からなる構造を持っています。〇は人間の脳細胞、直線は細胞間の結合強度を示します。入力層と出力層に“教師データ”と呼ばれる既知のデータを与え、数千回から数万回の繰り返し学習により、結合強度が定まります。左図の構造ではMT法と同様に正常データのみを学習することができ、この構造はオートエンコーダと呼ばれます。
学習したパターンと類似したパターンが入力されると、出力層に現れる誤差が小さくなり、類似していないパターンでは大きくなります。誤差の総和で正常・異常を判別します。
隠れ層の層数や細胞の数は、利用者が任意に設定します。つまり、隠れ層を10層にも100層にもすることができますし、細胞(〇)の数も任意です。構造の規模が大きくなるほど、学習できるパターンの数は多くなります。
MT法:ホワイトボックス
深層学習:ブラックボックス
ホワイトボックスとブラックボックス
MT法では異常が発生した場合に明示的な原因診断を行うことができます。どの項目が正常と異なっていたのか、あるいはバランスを崩していたかが明らかになります。ですから、ホワイトボックス型AIと呼ばれています。これに対して深層学習では、技術者が理解しやすい診断結果を提示することが不得意です。ブラックボックスと言われる理由の一つです。賢いのですが、コミュニケーション能力に難があるといえます。
この相違は、ネットワーク構造に起因します。私たちは相関を理解していますから、異常時の診断結果も理解しやすいのです。これに対して深層学習は脳の構造を模擬しており、学習時には誤差が収束するように計算が進みます。収束した結果(脳細胞間の結合強度)がどのような意味を持つかを理解することは、頭のよい人の脳を見ても分らないことと同様に困難です。
特性の違い

学習データ
MT法は正常状態だけを学習し、深層学習は多くの場合で複数の状態を学習します。
ものづくりの現場では、正常と異常のどちらのデータ数が多いでしょうか。正常の方でしょう。異常は少なく、めったにないことさえあり、未知の異常もあるはずです。つまり、異常を網羅することは不可能と言えます。そのため、”正常以外”に反応するMT法の考え方は、ものづくりの場面では合理的です。学習に準備するデータも少なくて済みます。
深層学習は一般に、一つのネットワークが多くのパターンを学習します。そのため、画像・文字・言語などの分類問題で威力を発揮します。深層学習でも正常なデータだけを学習する構造があります。しかしネットワーク規模は大きく、計算負荷はMT法より相当に大きくなります。
計算速度
MT法と深層学習とはネットワーク構造の複雑さが違いますので、簡素なMT法の方が計算速度は高速です。特に学習速度は、100倍、1000倍(*)異なります。
用途が正常/異常の判定だとするなら、MT法の方が高速ですし、原因診断の計算もリアルタイムで可能です。以下は、パソコン(intel core i7)による計算速度の例です。
・学習時間(1,000項目×3,000サンプル) : 2.0 秒
・マハラノビス距離計算時間(1,000項目) : 0.002秒
(*)MT法は項目数で計算量がほぼ定まりますが、深層学習はネットワークの規模が任意ですので、計算量は幅があります。最も簡素な構造でも学習時の計算量はMT法の100倍以上になります。
異常への感度
ものづくりで最も重要なことは「異常を明瞭に検出すること」です。左図は文字パターンの認識結果で、1~16が学習データ、17~20が未知データです。未知データの中で、17~19は正常、20は異常パターンです。
MT法(上のグラフ)では、学習データの距離(異常の程度)はおしなべて小さく、異常パターンでは極端に大きくなっています。これに対して深層学習では、正常と異常は判別していますが、異常の場合の数値はそれほど大きくはありません。
異常への感度という点では、MT法のほうがベターなことが多いようです。これは、MT法が正常状態のみを学習し、構造が簡素であるためと考えられます。

異常原因の診断
左の二つの棒グラフは、MT法および深層学習の異常診断の結果です。横軸がデータの項目番号で、どちらも同じ異常データでの結果です。
MT法では項目4と10が大きな原因であることを示しています。実際に、この二つは異常原因として理解できる項目です。深層学習では4つの項目が大きくなっていますが、人間には理解は容易ではありません。MT法は相関を利用したシンプルな数理なのに対し、深層学習では人間の理解を越えた”特別な脳”が学習したためです。
人間に理解容易な原因診断ができれば、異常対応も容易になりますので、MT法の方が有利といえます。
補足
MT法+特徴化技術=深層学習
MT法では特徴化技術も提供されていますが、それらを組み合わせることで深層学習と同じことができることがしばしばあります。特に時系列波形の問題です。
ここでは詳細を割愛しますが、深層学習というブラックボックスに委ねるより、技術者がプロセスを理解しながらMT法を適用する方が、技術は着実に蓄積することができます。

MT法は正規分布が前提ではない
「MT法は項目が正規分布でなければ使えない」とのコメントを時折見かけますが、それは正しくありません。MT法やMTシステムは分布を前提とせず利用することができます。こうしたコメントは、計測値が環状な分布や複数の塊状の分布を意識していると考えられますが、それらはMT法を利用する際の前処理で解決できます。
世の中に完璧に正規分布するデータは存在しません。ただし、正規分布を仮定しないと様々な統計式の展開ができません。私たちは数理を道具として尊重しながら、現実課題に対峙していると言えます。
ホテリングT2とMT法の相違
監視などを目的にマハラノビス距離を利用する手法として、ホテリングT2があります。ホテリングT2は認識・予測の実務で必要となる「原因診断」や「多重共線性対策」はありません。統計数学の一つとして提案された古典的な手法とされ、MT法のように深層学習との比較対象として位置づけられることはありません。
ホテリングT2のほかに、多変量管理図という統計手法があります。マハラノビス距離を利用していますが、やはり認識・予測を意図した手法ではない点がMT法と異なります。