Man On a Mission

システム運用屋が、日々のあれこれや情報処理技術者試験の攻略を記録していくITブログ…というのも昔の話。今や歴史メインでたまに軍事。別に詳しくないので過大な期待は禁物。

ITサービスマネージャ合格体験記 おまけ

練習論文

前回述べたとおり、私の書いた練習論文を掲載します*1

平成22年度の午後2問3に対しての論文となります。

実試験と同じく2時間で作成した手書き論文を、テキストデータに落としたものです。
見ての通り、大したことは書いてません。ごちゃごちゃ回りくどく書いてますが、要約すると、サーバ障害からの復旧が遅れないように定期的に訓練してます、というだけの論文です。設問イに対する充足度が微妙な感もあるんですが、まあ、私の実力だとこんなもんです。

 ちなみに、システム構成とかがかなり適当な記述となってますが、この辺にこだわると収拾がつかなくなるので、このくらい単純化した方が論述しやすいです。なんせ、2時間以内かつ2千〜3千文字程度で論述しないといけませんので。

なお、試験本番では、プレッシャーからさらに論文の質が低くなります。この程度のレベルの奴でも合格できるということですね。

平成22年度問3「インシデント発生時に想定される問題への対策について」 練習論文

1.ITサービスの概要とインシデント発生時に想定される問題
1.1 ITサービスの概要
 私が勤務するA社は、システム構築やアウトソーシングサービスを提供するITサービス企業である。
 A社では、地方自治体が実施するIT講座事業について、システム構築・運用、および事業運営を受託している。IT講座事業では、インターネット上で開催講座の案内や会員登録、受講申し込みの受付などを行なっており、これらのITサービスは、講座運営管理システム(以下、Kシステムという)により提供されている。私は、A社のシステム運用部門に所属するITサービスマネージャであり、Kシステムの運用を統括している。KシステムはWebサーバ、アプリケーションサーバ(以下、APサーバという)、データベースサーバ(以下、DBサーバという)で構成される。DBサーバは本番系、待機系の2台構成となっており、本番系に障害が発生した際には、自動的に待機系に切り替えて運行される。Webサーバ、APサーバ並びに各ネットワーク機器では、障害に備えて予備機を用意しており、いずれもコールドスタンバイである。
1.2 インシデント発生時に想定される問題
 Kシステムの提供するITサービスは、委託元の地方自治体とサービスレベル合意(以下、SLAという)を定めている。当該SLAにおいて、障害時は5時間以内の復旧が定められており、障害箇所の特定や予備機への切替えが円滑に行われない場合、SLAの順守に影響を与える可能性がある。障害からの復旧作業は、日常的には行わない不慣れな作業であるため、円滑に復旧出来ずITサービスの回復が遅れるリスクが想定された。

2.インシデント発生時に想定される問題への対策および検討に当たって留意した点
 私は、SLAにおける復旧時間を順守するためには円滑な復旧作業を行えることが重要であると考え、定期的に障害復旧訓練を行うこととした。障害復旧訓練では、主にWebサーバ、APサーバ及び各ネットワーク機器の障害と予備機への切り替えを想定した訓練を行なった。なぜならば、DBサーバでは待機系への切替えが自動で行われるため、サービス復旧に向けた作業はほとんど必要としないのに対し、Webサーバ等では、手動による予備機への切替えが行われない限りサービス復旧ができないからである。障害復旧訓練は、一つまたは複数の障害が発生したと仮定して、机上演習または実機使用による以下の訓練を実施することとしている。
1.障害内容の確認と障害箇所の切り分け
2.特定した障害箇所の回復対応
3.障害箇所回復後の動作確認とITサービス復旧判定
上記に挙げた訓練1においては、当初どの箇所で障害が発生したとは説明せず、状況の説明を元に障害部位の特定を行う。これは、円滑な障害切り分けを行う訓練とするためである。2、3では、事前に定められている復旧手順に従い回復対応等を行うが、復旧手順の不備の洗い出しを行うことも目的に含め、継続的改善が行われるようにしている。また、障害発生時のSLAの順守への影響を最小化することを企図し、実機を使用した訓練では、各手順にかかった所要時間を計測し、時間短縮が必要と判断された場合は復旧手順の見直しを行うよう定めている。
 なお、対策の検討に当たっては、障害復旧訓練の実施がSLAの順守へ影響を与えないよう留意した。具体的には、障害復旧訓練が稼働率に影響を与えないよう、実施時期を工夫している。障害復旧訓練は月に一度、机上演習による訓練を、半年に一度、実機を使用した訓練を行う。実機を使用した訓練では、Kシステムのサービス停止が必要となるが、当該訓練は、Kシステムを設置したデータセンターの設備点検日に合わせて実施する。設備点検日は、元々外部へのサービスを停止する計画停止日となっており、この日に障害復旧訓練を行うことで、稼働率に影響が出ることを回避している。

3.インシデント発生時に判明した不備と対策の改善
3.1 インシデント発生時の対応で判明した不備
 ある日、Kシステムで使用しているファイアウォール(以下、FWという)が故障し、サービスが停止した。障害箇所の特定とFW予備機への切替えは迅速に行われ、約2時間後にはサービスが復旧した。しかし、その後しばらくして、Kシステムの提供するWebサイトが非常に接続し難くなっていることが判明した。原因は、外部からのサービス不能攻撃(以下、DoS攻撃という)によるものだった。数日前より、外部からのDoS攻撃が発生しており、その対策として、FWの設定を変更していた。しかし、当該変更はFW本番機のみに行われ、FW予備機には適用されていなかった。
3.2 対策の改善
 先述した、予備機への変更適用漏れについて、システムに変更があった際は、予備機に対しても確実に変更を実施するよう、教育やチェックシートの整備等による対策を行った。しかし私は、それら対策だけでは不十分と考え、障害復旧訓練にも対策を組み込むこととした。なぜならば、上記対策で100%適用漏れを防ぐことは困難であり、また当該事象は復旧後のリスク発現となるため、復旧作業を行う要員は、復旧中から復旧後にわたって、当該リスクを念頭においておく必要があると考えたからである。障害復旧訓練への組み込みは、一部の変更が反映されていないことを仮定して、復旧中の確認や、復旧後の監視を実施することとし、これらの作業を訓練内容に追加した。また、このような不測の事態に対する対応力向上のため、障害復旧訓練の実施後、訓練参加者によるディスカッションを行い、復旧時に何らかの問題が発生した場合、どのように対応すべきか、話しあうようにした。
                            ー以上ー

 

 

*1:本来、合格時の復元論文を載せるところなのですが、そちらは実業務で行った改善について論述しており、身バレがこわいので掲載出来ません。