システム運用における予防保全の実現性検証。
従来の閾値監視では見つけられない複雑なシステム障害の予兆検知を実現!

お客様概要

ユニアデックス株式会社
お客様名 ユニアデックス株式会社
ご担当部署 エクセレントサービス創生本部 未来サービス研究所 室長 藤田 勝貫様
プラットフォーム統括部 Windowsサポート部 第二課 椎名 武史様
導入製品 Impulse
検証実施時期 2015年2月-3月

ユニアデックス株式会社ホームページ


実現検証に取り組んだきっかけについて、教えてください。

背景(課題認識)

ユニアデックスは、日経コンピュータ 顧客満足度調査 「システム運用関連サービス(情報サービス会社)部門」では、4年連続1位を獲得していますが、これはシステム運用の現場でプライドを持って活躍する熟練技術者の高い技術に支えられて成り立っています。
一方、このような高い技術は継承が難しく、また世代交代の波と共に、大きな課題の一つとなっていました。


検討のアプローチ

そのような背景のもと、2014年春に、IP&Aの基盤更改や改修に合わせて「機器故障の予知保全を実現する」というミッションを掲げ、自動化への道を模索し始めたところ、Sparkベースで機械学習を活用したブレインズテクノロジーのImpulseに出会いました。

(写真左:弊社濱中、写真右:藤田様)


具体的な技術検証内容について、教えてください。

選定理由

複数の製品を検討していましたが、当時、機械学習を本格活用した製品はまだ少なく、先端OSSでインテグレートでされたImpulseの可能性に注目し、重大な障害に対してどこまで予兆検知が可能かを検証する事にしました。


検証内容

検証対象にしたのは、社内文書の検索システムで実際に起きた以下2つのインシデントです。

  • インデックスDBのスローダウンによる障害発生
  • 負荷分散された3台のWebサーバのうちの1台の障害発生

(椎名様)   


検証の結果は、いかがでしたか?

DBサーバーの異常検知

一つ目のテーマは、「インデックスDBのスローダウンによる障害発生の検知」です。
DBの処理時間のデータにどのような特徴があるかは、Impulseが自動的に検出し、わかり易い周期の波形が確認できました。
この検知アルゴリズムを元に実際のデータで検証を行った結果、障害発生の7日前に、予測から逸脱する異常状態を検知することができました。

周期特性の分析

(例.周期特性を持つデータに対する異常検知)

Webサーバの異常検知

二つ目のテーマは、「負荷分散された3台のWebサーバのうちの1台の障害発生の検知」です。
Webサーバのログからは明確な相関関係の特徴を取得する事ができ、障害発生の12日前に障害の予兆が検知できました。

相関関係の分析

(例.多軸でのデータ分析による異常検知)

検証結果を振り返って(考察)

Impulseは、過去データから状態を学習し、いつもとの違いを検知する。
まさに熟練の技術者と同じ検知を実現しました。
システム運用における問題を、機械学習を活用して解決できた事実は、次世代のシステム運用のあり方を考える上で大きなインプットとなりました。


今後の展開を教えてください。

(藤田様)  

システム運用分野

今後は、過去の保守・運用で蓄積した大量のログデータやノウハウを活用し、システム運用の予防保全の仕組みに繋げていきたいと思います。


IoT分野

ユニアデックスとしては、IoTビジネス共創の場として、現在「IoTエコシステムラボ」を開設しています。
その中で、機械学習を活用した問題解決のアプローチ方法の1つに、Impulseを採用しています。

IoTエコシステムラボ(ユニアデックス株式会社)


御社から見たブレインズテクノロジーとは?

ブレインズテクノロジーは高度な機械学習やデータ分析技術で当社ビジネスの新たな可能性を共に拓いて頂ける技術者集団であり、先端技術のナビゲーターです。
ブレインズテクノロジー社の機械学習技術と当社のシステムインテグレータとしてのノウハウを組合せ、様々なシナリオに活用していきたいと考えています。

Top