機械学習におけるMT法と深層学習の違い
機械学習の定義
機械学習の定義はそれほど明確ではありません。1950年代に造語として登場しましたたが、回帰分析なども機械学習とされており、計算機に依存する計算は全て機械学習でした。人工知能(AI)は最近の発展や話題性が大きいのですが、用語自体はやはり1950年代に提示されました。人間の知的判断を代行する技術がAIであり、人工頭脳と呼ばれたこともあります。
生物の神経回路を模したニューラルネットワーク(ANN)が1980年代にブームとなり、いよいよ本格的AIが現実のものになると期待されました。あたかも子供が字を覚えてゆくように、繰り返しでパターンを学習したのです。しかし、わずか3層構造だったため能力に限界があり、ブームは沈静化しました。
MTシステム(MT法)が提示されたのが1995年です。統計数理を利用したパターン認識手段であり、当然機械学習の仲間です。その応用領域はANNと重なるので、MTシステムもまたAIの一つと言えます。
深層学習は2006年以降に登場しましたが、以前のANNが3層構造であったのが数十層やそれ以上の規模に拡張できるようになりました。膨大で複雑なデータを扱えるようになり利用のリスクさえ危惧されるようになったため、2023年5月のG7広島サミットでもルール作りの必要性が議題となったことは記憶に新しいところです。
機械学習、人工知能、統計解析の関係を表すと図のようになります。人工知能にはサポートベクターマシン(SVM)や決定木、統計解析理論としてクラスター分析などもあります。
ものづくりにおける両者の特性

機械学習を製造プロセスの監視や製品検査などで利用する場合には、以下事項が重要となります。
・処理速度:監視・検査のリアルタイム性、および短時間での学習
(MT法の計算量は深層学習の数百分の1)
・認識精度:異常やその兆しを敏感に捉える能力
・原因診断:異常原因となった項目の特定
・分り易さ:技術者にとり結果が理解しやすいこと
・更新性: 季節など環境変化への対応が容易であること
MT法はものづくりや監視で重要となる、これら事項について優れた能力を有しています。複雑性については、先に述べたように深層学習が圧倒的に高い能力を持ちます。
適用領域
MT法は深層学習と比較して計算量が少ない反面、異常検出感度は良好です。MT法は正常状態のみを学習します。深層学習でもオートエンコーダ型で正常のみの学習が可能ですが、後述のように感度はやや鈍く、原因診断の結果も人間には解釈が困難です。
MT法と深層学習の適用領域は図に示すようになっています。検査や監視など、軽快さや原因診断を必要とする課題には、MT法が適する場合が多いと言えます。さらに画像検査では、特徴化技術との併用により「少ない学習データで高い感度」を実現できる、という利点があります。
構造の違い
MT法の構造
正常からの距離
MT法の構造
MT法は左図のようなネットワーク構造を持ちます。〇が項目、線は項目間の相関を示します。MT法は、この構造を利用してパターンの相違を判別します。相関とは、二つの項目間の関係の大きさです。たとえば蛇口の開度と水量には大きな相関があります。相関(係数)は、全ての項目間で計算することができます。
この相関ネットワークは、正常データのみで作られます。そして、このネットワークから対象までの距離を計算します。もし距離が遠ければ、その対象は正常なパターンとして定義されていない、すなわち非正常(≒異常)であることを意味します。ですから、MT法は従来経験したことがない「未知の異常」も検出します。
距離の計算手段として、マハラノビス距離が利用されます。一般には距離が4を超えると異常と判定されます。つまり、距離が4より大きければ、正常の仲間である確率が小さくなるということです。
MT法の構造は一通りですが、深層学習では後に述べるように一通りではありません。MT法のシンプルな構造により、少ないメモリ量で高速な計算が可能です。
深層学習の構造
(オートエンコーダの場合)
深層学習の構造
深層学習は入力層、隠れ層、出力層からなる構造を持っています。〇は人間の脳細胞、直線は細胞間の結合強度を示します。入力層と出力層に“教師データ”と呼ばれる既知のデータを与え、数千回から数万回の繰り返し学習により、結合強度が定まります。左図の構造ではMT法と同様に正常データのみを学習することができ、この構造はオートエンコーダと呼ばれます。
学習したパターンと類似したパターンが入力されると、出力層に現れる誤差が小さくなり、類似していないパターンでは大きくなります。誤差の総和が小さければ、正常に近いと判定されます。
隠れ層の層数や細胞の数は、利用者が任意に設定します。つまり、隠れ層の数を10層にも100層にもすることができますし、細胞(〇)の数も任意です。構造の規模が大きくなるほど、学習できるパターンの数は多くなります。
MT法:ホワイトボックス
深層学習:ブラックボックス
ホワイトボックスとブラックボックス
MT法では異常が発生した場合に明示的な原因診断を行うことができます。どの項目が正常と異なっていたのか、あるいはバランスを崩していたかが明らかになります。ですから、ホワイトボックス型AIと呼ばれています。これに対して深層学習では、技術者が解釈しやすい診断結果を提示することが不得意です。ブラックボックスと言われる理由の一つです。賢いのですが、コミュニケーション能力に難があるといえます。
この相違は、ネットワーク構造に起因します。私たちは相関を理解していますから、異常時の診断結果も理解しやすいのです。これに対して深層学習は脳の構造を模擬しており、学習時には誤差が収束するように計算が進みます。収束した結果や判定結果がどのような意味を持つかを解明・解釈することは、現時点では有効な手立てがありません。
特性の違い

学習データ
MT法は正常状態だけを学習し、深層学習は多くの場合で複数の状態を学習します。
ものづくりの現場では、正常データは数多く存在しますが、異常は少なく、めったにないことさえあり、未知の異常もあるはずです。つまり、異常を網羅することは不可能と言えます。そのため、”正常以外”に反応するMT法の考え方は、ものづくりの場面では合理的です。学習に準備するデータも少なくて済みます。
深層学習は一般に、一つのネットワークが多くのパターンを学習します。そのため、画像・文字・言語などの分類問題で威力を発揮します。深層学習でも正常なデータだけを学習する構造があります。しかしネットワーク規模は大きく、計算負荷はMT法より相当に大きくなります。
計算速度
MT法と深層学習とはネットワーク構造の複雑さが違いますので、簡素なMT法の方が計算速度は高速です。特に学習速度は、100倍、1000倍(*)異なります。
用途が正常/異常の判定だとするなら、MT法の方が高速ですし、原因診断の計算もリアルタイムで可能です。以下は、パソコン(intel core i7)による計算速度の例です。
・学習時間(1,000項目×3,000サンプル) : 2.0 秒
・マハラノビス距離計算時間(1,000項目) : 0.002秒
(*)MT法は項目数で計算量がほぼ定まりますが、深層学習はネットワークの規模が任意ですので、計算量は幅があります。最も簡素な構造でも学習時の計算量はMT法の100倍以上になります。
異常への感度
ものづくりで最も重要なことは「異常を明瞭に検出すること」です。左図は文字パターンの認識結果で、1~16が学習データ、17~20が未知データです。未知データの中で、17~19は正常、20は異常パターンです。
MT法(上のグラフ)では、学習データの距離(異常の程度)はおしなべて小さく、異常パターンでは極端に大きくなっています。これに対して深層学習では、正常と異常は判別していますが、異常の場合の数値はそれほど大きくはありません。
異常への感度という点では、MT法のほうが優れていることが多いようです。これは、MT法が正常状態のみを学習し、構造が簡素であるためと考えられます。

異常原因の診断
左の二つの棒グラフは、MT法および深層学習の異常診断の結果です。横軸がデータの項目番号で、どちらも同じ異常データでの結果です。
MT法では項目4と10が大きな原因であることを示しています。実際に、この二つは異常原因として理解できる項目です。深層学習では4つの項目が大きくなっていますが、人間には理解は容易ではありません。MT法は相関を利用したシンプルな数理なのに対し、深層学習では人間の理解を越えた”特別な脳”が学習したためです。
人間に理解容易な原因診断ができれば、異常対応も容易になりますので、MT法の方が有利といえます。
補足
MT法+特徴化技術=深層学習
MT法では特徴化技術も提供されていますが、それらを組み合わせることで深層学習と同じことができることがしばしばあります。特に画像検査や時系列波形の問題です。
深層学習というブラックボックスに委ねる方が技術者の負担が小さい面もありますが、技術者がプロセスを理解しながら利用できるMT法の方が、中長期的には技術の継続性を保つことができます。

MT法は正規分布が前提ではない
「MT法は項目が正規分布でなければ使えない」とのコメントを時折見かけますが、それは正しくありません。MT法やMTシステムは分布を前提とせず利用することができます。こうしたコメントは、計測値が環状な分布や複数の塊状の分布を意識していると考えられますが、それらはMT法を利用する際の前処理で解決できます。
世の中に完璧に正規分布するデータは存在しません。ただし、正規分布を仮定しないと様々な統計式の展開ができません。私たちは数理を道具として尊重しながら、現実課題に対峙していると言えます。