機械学習におけるMT法と深層学習の違い

機械学習の定義

機械学習

機械学習という用語は1950年代に造語として登場しましたが、統計解析など計算機に依存する計算も全て機械学習とされました。人工知能(AIという用語もほぼ同時代に登場しています。

神経回路を模したニューラルネットワーク(ANNが1980年代にブームとなり、大きな期待が寄せられました。しかし、わずか3層構造のため能力に限界があり、ブームは沈静化しました。

MTシステム(MT法)が提示されたのが1995年です。統計数理を利用した認識や予測技術であり、すなわちAIの仲間です。その特徴は正常状態のみを学習する点です。深層学習は2000年代に登場し、ANNの層数拡張が可能となりました。後述のオートエンコーダ型式のANNが層数拡張のキーとなりましたが、正常状態のみを学習するというMT法の考え方が着想の起点になったのかもしれません。

言葉の定義は人により異なりますが、歴史的経緯から整理すると図のようになります。

ものづくりにおける両者の特性(MT法の利点)

機械学習

機械学習を製造プロセスの監視や製品検査などで利用する場合には、以下事項が重要となります。

処理速度:監視・検査のリアルタイム性、および短時間での学習(MT法の計算量は深層学習の数百分の1)
認識精度:異常やその兆しを敏感に捉える能力
学習データ量:学習(教師)データが少ないこと
解釈可能性:技術者にとり原因を解釈し、対処に繋げやすいこと
更新性: 季節など環境変化への対応が容易であること

MT法はものづくりや監視で重要となる、これら事項について優れた能力を有しています。複雑性については、先に述べたように深層学習が圧倒的に高い能力を持ちます。

適用領域

 

深層学習とMT法

MT法は深層学習と比較して計算量が少ない反面、異常検出感度は良好です。MT法は正常状態のみを学習します。深層学習でもオートエンコーダ型で正常のみの学習が可能ですが、後述のように感度はやや鈍く、原因診断の結果も人間には解釈が困難です。

MT法と深層学習の適用領域は図に示すようになっています。検査や監視など、軽快さや原因診断を必要とする課題には、MT法が適する場合が多いと言えます。さらに画像検査では、特徴化技術との併用により「少ない学習データで高い感度」を実現できる、という利点があります。

構造の違い

MT法構造図MT法の構造
MT法の距離正常からの距離

MT法の構造

MT法は左図のようなネットワーク構造を持ちます。〇が項目、線は項目間の相関を示します。MT法は、この構造を利用してパターンの相違を判別します。相関とは、二つの項目間の関係の大きさです。たとえば蛇口の開度と水量には大きな相関があります。相関(係数)は、全ての項目間で計算することができます。

この相関ネットワークは、正常データのみで作られます。そして、このネットワークから対象までの距離を計算します。もし距離が遠ければ、その対象は正常なパターンとして定義されていない、すなわち非正常(≒異常)であることを意味します。ですから、MT法は従来経験したことがない「未知の異常」も検出します。

距離の計算手段として、マハラノビス距離が利用されます。一般には距離が4を超えると異常と判定されます。つまり、距離が4より大きければ、正常の仲間である確率が小さくなるということです。

MT法の構造は一通りですが、深層学習では後に述べるように一通りではありません。MT法のシンプルな構造により、少ないメモリ量で高速な計算が可能です。

オートエンコーダ構造図深層学習の構造
(オートエンコーダの場合)

深層学習の構造

深層学習は入力層、隠れ層、出力層からなる構造を持っています。〇は人間の脳細胞、直線は細胞間の結合強度を示します。入力層と出力層に“教師データ”と呼ばれる既知のデータを与え、数千回から数万回の繰り返し学習により、結合強度が定まります。左図の構造ではMT法と同様に正常データのみを学習することができ、この構造はオートエンコーダと呼ばれます。

学習したパターンと類似したパターンが入力されると、出力層に現れる誤差が小さくなり、類似していないパターンでは大きくなります。誤差の総和が小さければ、正常に近いと判定されます。

隠れ層の層数や細胞の数は、利用者が任意に設定します。つまり、隠れ層の数を10層にも100層にもすることができますし、細胞(〇)の数も任意です。構造の規模が大きくなるほど、学習できるパターンの数は多くなります。

ホワイトボックス

MT法:ホワイトボックス

ブラックボックス

深層学習:ブラックボックス

ホワイトボックスとブラックボックス

MT法では異常が発生した場合に明示的な原因診断を行うことができます。どの項目が正常と異なっていたのか、あるいはバランスを崩していたかが明らかになります。ですから、ホワイトボックス型AIと呼ばれています。これに対して深層学習では、技術者が解釈しやすい診断結果を提示することが不得意です。ブラックボックスと言われる理由の一つです。賢いのですが、コミュニケーション能力に難があるといえます。

この相違は、ネットワーク構造に起因します。私たちは相関を理解していますから、異常時の診断結果も理解しやすいのです。これに対して深層学習は脳の構造を模擬しており、学習時には誤差が収束するように計算が進みます。収束した結果や判定結果がどのような意味を持つかを解明・解釈することは、現時点では有効な手立てがありません。

特性の違い

Difference of Teaching data

 

Speed of MT

 

学習データ

MT法は正常状態だけを学習し、深層学習は多くの場合で複数の状態を学習します。

ものづくりの現場では、正常データは数多く存在しますが、異常は少なく、めったにないことさえあり、未知の異常もあるはずです。つまり、異常を網羅することは不可能と言えます。そのため、”正常以外”に反応するMT法の考え方は、ものづくりの場面では合理的です。学習に準備するデータも少なくて済みます。

深層学習は一般に、一つのネットワークが多くのパターンを学習します。そのため、画像・文字・言語などの分類問題で威力を発揮します。深層学習でも正常なデータだけを学習する構造があります。しかしネットワーク規模は大きく、計算負荷はMT法より相当に大きくなります。

計算速度

MT法と深層学習とはネットワーク構造の複雑さが違いますので、簡素なMT法の方が計算速度は高速です。特に学習速度は、100倍、1000倍(*)異なります。

用途が正常/異常の判定だとするなら、MT法の方が高速ですし、原因診断の計算もリアルタイムで可能です。以下は、パソコン(intel core i7)による計算速度の例です。

・学習時間(1,000項目×3,000サンプル)   :   2.0 秒

・マハラノビス距離計算時間(1,000項目)   :   0.002秒

(*)MT法は項目数で計算量がほぼ定まりますが、深層学習はネットワークの規模が任意ですので、計算量は幅があります。最も簡素な構造でも学習時の計算量はMT法の100倍以上になります。

MT法と深層学習の距離結果比較

異常への感度

ものづくりで最も重要なことは「異常を明瞭に検出すること」です。左図は文字パターンの認識結果で、1~16が学習データ、17~20が未知データです。未知データの中で、17~19は正常、20は異常パターンです。

MT法(上のグラフ)では、学習データの距離(異常の程度)はおしなべて小さく、異常パターンでは極端に大きくなっています。これに対して深層学習では、正常と異常は判別していますが、異常の場合の数値はそれほど大きくはありません。

異常への感度という点では、MT法のほうが優れていることが多いようです。これは、MT法が正常状態のみを学習し、構造が簡素であるためと考えられます。

異常診断

異常原因の診断

左の二つの棒グラフは、MT法および深層学習の異常診断の結果です。横軸がデータの項目番号で、どちらも同じ異常データでの結果です。

MT法では項目4と10が大きな原因であることを示しています。実際に、この二つは異常原因として理解できる項目です。深層学習では4つの項目が大きくなっていますが、人間には理解は容易ではありません。MT法は相関を利用したシンプルな数理なのに対し、深層学習では人間の理解を越えた”特別な脳”が学習したためです。

人間に理解容易な原因診断ができれば、異常対応も容易になりますので、MT法の方が有利といえます。

補足

 

 

特徴化技術

MT法では特徴化技術も提供されていますが、それらを組み合わせることで深層学習と同じことができることがしばしばあります。特に画像検査や時系列波形の問題です。

深層学習というブラックボックスに委ねる方が技術者の負担が小さい面もありますが、技術者がプロセスを理解しながら利用できるMT法の方が、中長期的には技術の継続性を保つことができます。

© 2024 アングルトライ株式会社