機械学習におけるMT法と深層学習の違い

機械学習の定義

機械学習

 

「機械学習」「人工知能(AI)」などの定義は人により異なるようです。いずれも1950年代以降に使われるようになりましたが、ここでは左図のように定義しています。

MT法も深層学習も人工知能に含まれる技術です。MT法は統計数理を用いた人工知能であり、パターン認識の技術です。

適用領域の違い

MTDLグラフ

MT法は監視や検査問題など、ものづくりに関わる課題を得意とし、深層学習は画像や言語処理などの課題を得意とすると言うことができます。

MT法がものづくりに適する理由は、主に以下3点にあります。
異常検出感度の高さ
的確な原因診断
高速処理
深層学習は一つの頭脳(ネットワーク)で膨大な情報量を包含することが、最大のメリットと言えます。しかし、深層学習の性質が次第に明らかになり、必ずしもオールマイティではなく、MT法などと使い分けることの重要性が認識されるようになってきました。

構造の違い

MT法構造図MT法の構造
MT法の距離正常からの距離

MT法の構造

MT法は左図のようなネットワーク構造を持ちます。〇が項目、線は項目間の相関を示します。MT法は、この構造を利用してパターンの相違を判別します。相関とは、二つの項目間の関係の大きさです。たとえば蛇口の開度と水量には大きな相関があります。相関(係数)は、全ての項目間で計算することができます。

この相関ネットワークは、正常データのみで作られます。そして、このネットワークから対象までの距離を計算します。もし距離が遠ければ、その対象は正常なパターンとして定義されていない、すなわち非正常(≒異常)であることを意味します。ですから、MT法は従来経験したことがない「未知の異常」も検出します。

距離の計算手段として、マハラノビス距離が利用されます。一般には距離が4を超えると異常と判定されます。つまり、距離が4より大きければ、正常の仲間である確率が小さくなるということです。
MT法の構造は一通りですが、深層学習では後に述べるように一通りではありません。MT法のシンプルな構造により、少ないメモリ量で高速な計算が可能です。

オートエンコーダ構造図深層学習の構造
(オートエンコーダの場合)

深層学習の構造

深層学習は入力層、隠れ層、出力層からなる構造を持っています。〇は人間の脳細胞、直線は細胞間の結合強度を示します。入力層と出力層に“教師データ”と呼ばれる既知のデータを与え、数千回から数万回の繰り返し学習により、結合強度が定まります。左図の構造ではMT法と同様に正常データのみを学習することができ、この構造はオートエンコーダと呼ばれます。

学習したパターンと類似したパターンが入力されると、出力層に現れる誤差が小さくなり、類似していないパターンでは大きくなります。誤差の総和で正常・異常を判別します。

隠れ層の層数や細胞の数は、利用者が任意に設定します。つまり、隠れ層を10層にも100層にもすることができますし、細胞(〇)の数も任意です。構造の規模が大きくなるほど、学習できるパターンの数は多くなります。

ホワイトボックス

MT法:ホワイトボックス

ブラックボックス

深層学習:ブラックボックス

ホワイトボックスとブラックボックス

MT法では異常が発生した場合に明示的な原因診断を行うことができます。どの項目が正常と異なっていたのか、あるいはバランスを崩していたかが明らかになります。ですから、ホワイトボックス型AIと呼ばれています。これに対して深層学習では、技術者が理解しやすい診断結果を提示することが不得意です。ブラックボックスと言われる理由の一つです。賢いが、コミュニケーション能力に難があるのです。

この相違は、ネットワーク構造に起因します。私たちは相関を理解していますから、異常時の診断結果も理解しやすいのです。これに対して深層学習は脳の構造を模擬しており、学習時には誤差が収束するように計算が進みます。収束した結果(脳細胞間の結合強度)がどのような意味を持つかを理解することは困難です。

特性の違い

Difference of Teaching data

 

Speed of MT

学習データ

MT法は正常状態だけを学習し、深層学習は多くの場合で複数の状態を学習します。

ものづくりの現場では、正常と異常のどちらのデータ数が多いでしょうか。正常の方でしょう。異常は少なく、めったにないことさえあり、未知の異常もあるはずです。つまり、異常を網羅することは不可能と言えます。そのため、”正常以外”に反応するMT法の考え方は、ものづくりの場面では合理的です。学習に準備するデータも少なくて済みます。

深層学習は一般に、一つのネットワークが多くのパターンを学習します。そのため、画像・文字・言語などの分類問題で威力を発揮します。深層学習でも正常なデータだけを学習する構造があります。しかしネットワーク規模は大きく、計算負荷はMT法より相当に大きくなります。

計算速度

MT法と深層学習とはネットワーク構造の複雑さが違いますので、簡素なMT法の方が計算速度は高速です。特に学習速度は、100倍、1000倍(*)異なります。

用途が正常/異常の判定だとするなら、MT法の方が高速ですし、原因診断の計算もリアルタイムで可能です。以下は、パソコン(intel core i7)による計算速度の例です。

・学習時間(1,000項目×3,000サンプル)   :   2.0 秒

・マハラノビス距離計算時間(1,000項目)   :   0.002秒

(*)MT法は項目数で計算量がほぼ定まりますが、深層学習はネットワークの規模が任意ですので、計算量は幅があります。最も簡素な構造でも学習時の計算量はMT法の100倍以上になります。

MT法と深層学習の距離結果比較

異常への感度

ものづくりで最も重要なことは「異常を明瞭に検出すること」です。左図は文字パターンの認識結果で、1~16が学習データ、17~20が未知データです。未知データの中で、17~19は正常、20は異常パターンです。

MT法(上のグラフ)では、学習データの距離(異常の程度)はおしなべて小さく、異常パターンでは極端に大きくなっています。これに対して深層学習では、正常と異常は判別していますが、異常の場合の数値はそれほど大きくはありません。

異常への感度という点では、MT法のほうがベターなことが多いようです。これは、MT法が正常状態のみを学習し、構造が簡素であるためと言われています。

異常診断

異常原因の診断

左の図は、異常診断の結果です。横軸がデータの項目番号で、どちらも同じ異常データでの結果です。

MT法(上)では4と10が大きな原因と示しています。実際に、この二つは異常原因として理解できる項目です。深層学習(下)では4つの項目が大きくなっていますが、人間には理解は容易ではありません。MT法は相関を利用したシンプルな数理なのに対し、深層学習では特別な”脳”で学習したためです。

原因診断が明示できれば、異常対応も容易になります。

補足

 

 

MT法+特徴化技術=深層学習

MT法では特徴化技術も提供されていますが、それらを組み合わせることで深層学習と同じか、それ以上の結果となることがしばしばあります。特に振動波形や画像では、他のどの手段でもできなかった課題を解決した例があります(応用事例のページをご参照ください)。

ここでは詳細を割愛しますが、深層学習というブラックボックスに委ねるより、技術者がプロセスを理解しながらMT法を適用する方法もあるのです。

正規分布×

MT法は正規分布が前提ではない

「MT法は項目(変数)が正規分布でなければ使えない」とのコメントを時折見かけますが、それは間違いです。MT法やMTシステムは分布を前提とせず利用することができます。正規分布でなければとのコメントは、計測値が環状な分布や複数の塊状の分布などを意識していると思われますが、それらはMT法を利用する際の前処理で解決できます。多くの場合、前処理も必要がありません。

世の中に完璧に正規分布するデータは存在しないのですが、いったん正規分布を仮定しないと様々な統計式の展開ができません。マハラノビス距離もその一つです。また、手元に得られたデータから情報を見出すためには、統計は不可欠です。私たちは数理という純粋な存在と実世界の両方をにらみながら”現実解”を探求していると言えるのです。

© 2022 アングルトライ株式会社