発見困難な通信障害(サイレント障害)の監視基盤としてImpulseを採用

お客様概要

株式会社ケイ・オプティコム
お客様名 株式会社ケイ・オプティコム
ご担当部署 技術本部 サービスプラットフォームグループ 監視制御システムチーム リーダー 谷岡 弘規様
技術本部 サービスプラットフォームグループ 監視制御システムチーム 赤井 夢佳様
導入製品 Impulse
導入時期 2016年6月

株式会社ケイ・オプティコムホームページ


Impulseを導入したきっかけについて、教えてください。

導入の背景

ケイ・オプティコムは、法人、個人向けに情報通信サービスを幅広く提供し、個人向け光回線は関西一円で150万超の加入件数を持っており、ネットワークを基盤にインターネット・電話・テレビ・コンテンツ配信等の総合的な情報通信事業を推進しています。あらゆるサービスの基盤となるネットワークは、事業の根幹でもあり、高い品質と信頼性が求められています。

従来より様々な管理手法を導入・強化して高いネットワーク品質(信頼性の維持・向上)に取り組んできましたが、そのような取り組みの中で解決すべき課題としてあがっていたのが、「サイレント障害」と呼ばれる従来の障害検知手法では発見できない問題でした。

サイレント障害は「障害の発生に気づくことが難しく、問題の特定に膨大な時間がかかってしまう」という性質があり、該当障害発生時の影響が非常に大きいことから、従来の閾値監視という仕組みの中でシビアな検知を採用していました。
しかしその結果として膨大な誤検知(実際には正常な状態であるにも関わらず、異常と判定してしまう検知、約200件/日)を招いてしまうという副次的な問題も抱えていました。

導入のきっかけ

過去に発生した大きなサイレント障害がきっかけです。
従来の閾値ベースの監視方法では発見ができず、障害箇所の特定および復旧までに数時間を要してしまいました。

サイレント障害への有力なアプローチとして機械学習を活用した異常検知への取り組みを検討・着手しました。
異常検知・予兆検知によって以下を実現したいと考えました。

  • ネットワークインフラのサイレント障害の検知
  • トラフィックの特性を考慮した、早朝夜間帯に発生する誤検知(下限閾値による大量のアラート)の抑止

(写真:谷岡様、赤井様)


Impulseを選んだ経緯・理由について教えてください。

製品評価

重要なインフラ基盤に対する取り組みでしたので、慎重にソリューションの検討をし、複数の大手ベンダー製品など、Impulseを含む5つの製品を評価しました。
将来、対象機器を増やす計画があったため、監視対象の機器が増えると追加費用がかかるライセンス体系の製品を候補から外したり、検知性能面で劣る候補を除くなどして、最終的には大手ベンダーの中の1製品とImpulseの2製品に絞り込みました。

実現性の検証(PoC)

単なる机上の製品比較だけではなく、約2ヶ月間のPoC(実際のデータを使った実現性検証)を実施しました。その検証結果を比較評価した上で採用するソリューションを決定しました。

PoCで過去の実データを使って検証した結果Impulseは、

  • 誤検知99%削減・検知漏れ無し
  • トラフィック急減の発生を10分以内に検知(5分間隔の測定データ)

という異常検知の機能として極めて高い検知精度を発揮していました。

【PoC例】サイレント障害の発生を10分以内に検知

選定理由

Impulseはサイレント障害を確実に検知する点で要件を満たしていました。

大手ベンダーの製品では正しく検知できなかったポートの振り替え作業によるトラフィックの落ち込みを、Impulseは検知できていたのが決め手になりましたが、他社製品と比較して下記の点も評価し、採用を決定しました。

  • 「検知手法(アルゴリズム)」が豊富であり、既存の運用環境にも柔軟に連携することができた
  • 自動で「モデル学習・更新」を行う機能を備えており、導入後の運用負荷軽減が見込めた
  • ネットワークの監視だけでなく、システム障害の検知やサーバーリソースのトレンド分析等、他の業務にも展開可能な拡張性を備えていた

導入効果はいかがでしたか?

導入状況

監視制御システムチームは性能向上や誤検知の削減のため、ブレインズテクノロジー社と一体となってプロジェクトを推進しました。
適用範囲をコアネットワーク部分から段階的に拡げながら、検知精度の向上や誤検知の抑止効果を見極めていきました。
その過程で発生した誤検知の増加という問題に対しては、ネットワーク運用部門の知見をアルゴリズムに組み込み、問題を解消できました。

こうした共同での取り組みによって、高い検知精度を備えた監視基盤を作り上げることができたと感じています。

導入効果

発生から障害箇所特定が困難であった「サイレント障害」を検知可能な体制が整いました。
導入後、まだサイレント障害は発生していませんが、日々発生するトラフィックの急減をタイムリーに検知できています。

また、膨大に発生していた誤検知も抑止することができました。

  • 平日と祝日(土日)、早朝夜間帯等、データの特性(周期特性)に応じて異常を検知
  • スイッチの切替作業等に伴うトラフィックの変化を正しく検知
  • 早朝夜間帯における障害ではない誤検知(アラート)を99%抑止

(谷岡様)


今後の展開を教えてください。

業界全体の通信安定性向上へ

機械学習を活用したデータ分析の仕組みを別の部署にも横展開していきたいと考えています。
また、サイレント障害対策は通信事業者共通の課題ですので、業界全体で通信の安定性を高めていくことに貢献できればと思います。


御社から見たブレインズテクノロジーとは?

新分野で手探りをしながら、新しいモノを創造する、かけがえのないパートナーです。

処理性能の大幅向上(10倍)、独自の誤検知抑止ロジック追加、等の厳しい要望に対して、オープンソースの深い知識を元に、真摯に対応して頂いています。
「世の中からシステム障害を少しでも減らしたい」という大きな目標に向け、これからも協力していきたいと思います。

(谷岡様・赤井様/ハンドサインは自社のeo(イオ)サービス)

(参考)ケイ・オプティコム様のこの取り組みは、「IT Pro(日経コンピューター)」にも掲載されました。

Top