ITサービスマネージャ試験(PM2_H21-3)

〇論文設計テンプレート

太字:問題文抜粋箇所

設問ア

1.私が携わったITサービスの概要

・〇〇サービスの運用

○○業を展開している大手

○○を活用した当該サービスを営業部へ提供

通販事業者(加盟店):〇〇のリスクを低減し〇〇が可能

購入者:多様な〇〇が可能

○○サービス:ITサービスマネージャ

負荷分散装置(LB)、WebAPサーバ1.2(2台)、DBサーバ1.2(2台)

外部連携機関:I社Sシステム

エラー監視専門ベンダー:N社

 

2.分析して判明したインシデントなどの発生の傾向や頻度

・○○サービスとI社Sシステム間でのタイムアウトが増加傾向であることが判明

(CPU使用率のしきい値越えのインシデントが増えたことが判明)

〇発生の傾向や頻度

2021年:120件(月間平均10件)

2022年:240件(月間平均20件)

2023年:360件(月間平均90件) ※2023年4月末時点

 

設問イ

1.タイムアウトの発生傾向や頻度に対しどのように考察を深め、潜在する問題を発見したか

1.1時系列分析

トランザクション数に変化はないか:×

②プログラムに変更はなかったか:×

クラウド基盤の設定変更はなかったか:相関有

 └④設定変更の影響調査は妥当であったか:問題

 └⑤設定変更の連絡体制は妥当であったか:〇

1.2発生要因分析

大半のタイムアウトがHTTPステータス520エラーに該当

①○○サービスに起因(当社)

②Sシステムに起因(I社)

 └クラウド基盤:判別不能(米国)

 └WebAPサーバ、負荷分散装置(LB)間:改善の余地有

 

2.発見した問題を解決するためにどのような対策を実施したか

2.1時系列分析

クラウド基盤の設定変更はなかったか

 └設定変更の影響調査は妥当であったか

⇒影響調査の手順を定め当社への連絡体制を見直す。

2.2発生要因分析

・I社Sシステムに起因

 └WebAPサーバ、負荷分散装置(LB)間

⇒I社Sシステムのメンテナンスを実施

 └KeepAlive Timeoutの見直し

 └WebAPサーバ(5秒⇒30秒)とLB(900秒)の差異

 

設問ウ

1.事前予防的な問題管理を定着させるためにどのような取組を行ったか

①インシデント(タイムアウト)の件数が基準値を超えた場合に分析を義務付ける。

・月間基準件数設定

基準件数設定方法:前年同月発生件数+直近1か月の平均件数を考慮し算出

・分析/仮説検証実施

日次会議の次第に追加

②実施した分析や対策の発表の場を設けて、優れた分析や対策を行った者を表彰する。

 

2.今後改善すべき点

①発生原因別調査の実施

MTR情報の取得

 └通信経路上のパケットロス特定

③分析ツールの導入(Wireshark)

ネットワーク上を通過するパケットをキャプチャして分析するツール。

通信の監視やトラブルシューティングマルウェアやウイルス解析などに利用。