【連載】佐野正弘のITインサイト 第66回

KDDIの大規模通信障害から約1年、進んだ通信障害への対処と浮上する行政への疑問

2022年7月2日に発生し、その後およそ3日間にわたって続いたKDDIの通信障害。主として、音声通話に関する部分に障害が起きたことから緊急通報ができなくなっただけでなく、一部銀行のATMや気象観測所などさまざまなところにまで通信障害の影響が及び、大きな社会問題となったことは記憶に新しいところだろう。

2022年7月2日から約3日間にわたって発生したKDDIの大規模通信障害は、スマートフォンだけでなくさまざまな設備にまで影響が及び、社会的な影響が非常に大きなものとなった

それから、およそ1年が経過した先日7月10日、KDDIは東京都多摩市にある同社のネットワーク拠点の1つ、KDDI多摩第5ネットワークセンターにてネットワークの運用に関する取り組みの説明会を実施。その中で昨年の通信障害に向けた対処などについて説明している。

KDDIの想定を超えた大規模障害。1年間にわたる対策案の実施

ネットワークセンターは文字通り、携帯電話などのネットワークを運用・管理する拠点のことで、通信事業者にとっては最も重要な施設の1つ。KDDIでは2021年度に、東京と大阪の2箇所に全国のネットワークを統合監視する拠点を設置するとともに、他にも全国10箇所のネットワークセンターを設けて運用に当たっている。

東京都多摩市にあるKDDIの弾第5ネットワークセンター。KDDIのネットワーク全体を監視・運用している重要な拠点の1つだ

それゆえ、通信障害などでネットワークに何らかの問題が発生した場合は、ネットワークセンターに何らかの通知がなされ、どのような障害が起きており、どの程度サービスに影響が及んでいるのかを調査した上で、対処が進められるというのが一般的だ。もちろん昨年の通信障害でも、同様のプロセスを踏んで対処がなされていたのだが、KDDI側の想定を超えたかたちで障害が発生、その規模が急速に拡大したことで対処が思うように進められず、結果大規模障害へと至っている。

改めて振り返ると、通信障害発生はコアネットワークのメンテナンスで音声通話の通信ルートを変更したところ、古い手順書に従って作業したことで音声通話が15分間できなくなってしまったことが発端となっている。その間のアクセスが、音声通話を処理する「VoLTE交換機」に集中して輻輳が発生し、それが契約者の情報などを管理する「加入者データベース」へと波及したことで、障害の規模が大きくなってしまった、というのが主な経緯だ。

そこでKDDIでは1年をかけ、同様の通信障害を発生させないよういくつかの対策を実施している。1つ目は、通信障害の発端となった手順書の問題への対処であり、マスターとなる手順書をシステムで統一管理することでバージョンの管理を厳格化。さらにヒューマンエラーを減らす対策として、作業時に事故未遂となったいわゆる「ヒヤリハット」を分析し、それをシステムで共有することで作業員の気づきや啓発も進めるとしている。

通信障害発生の発端となった手順書の誤りを回避するため、手順書のバージョンをシステムで厳格に管理する仕組みを構築した

2つ目は、輻輳が全国に急速に波及する要因となったネットワーク構造の見直しだ。従来KDDIのネットワークは、全国のネットワークを網目状に結ぶことで負荷を分散し、通信障害の影響を軽減するフルメッシュ構成となっていたが、それが昨年の障害では裏目に出て、全国に輻輳を一気に広げる要因にもなってしまった。そこでメッシュを東西に分離することにより、地域を超えて輻輳の影響が波及しないよう構成を大きく変更したという。

負荷分散のため全国一律で構成していたメッシュ構造のネットワークが、昨年の障害では輻輳を波及させる要因となってしまったことから、あえて東西にメッシュを分けることで輻輳が全国に広がらないようにしている

そして3つ目は、輻輳から早期復旧するため、対処を自動化することだ。実はKDDIは、ネットワークセンターの2拠点化を進めたのと同じタイミングで、監視や運用、障害への対処などを自動化し、ワンタッチ、あるいはゼロタッチで実施できる「スマートオペレーション」という仕組みを導入。従来技術者の経験と手作業に基づいて対処してきた、ネットワーク運用の手間を大幅に削減し、障害への対処を迅速化する取り組みを進めていた。

だがこの仕組みは、昨年の通信障害のように複数のシステムにまたがって発生した、輻輳のようなケースでは有効に機能しなかったため、人の手で対処する必要があったことから復旧に時間がかかってしまっていた。そこで新たに、複数システムにまたがった輻輳に対処するツールをスマートオペレーションの基盤に追加、ワンタッチで対処できるようにしたとのことだ。

KDDIは障害への対処を自動化する仕組みを構築していたが、複数のシステムにまたがる輻輳には対応できていなかったことからその対処も進めたとのこと

今後はさらに、AI技術などを活用して障害検知から復旧を自動化する取り組みなども進めていくというが、昨年の通信障害ではネットワークだけでなく、顧客などへの通知広報が遅れたことが、とりわけ行政から問題視されるに至っている。そこでKDDIでは、一連のシステムと連携することにより、通信障害発生時の周知広報に関しても改善を図り、通信障害が発生したら顧客や行政、関係機関などへの通知を自動で実施する体制を整えたとしている。

それ以外にも、同社はさまざまなかたちで通信障害への対処は進めており、サービス面ではすでにソフトバンク、法人向けにはNTTドコモの回線も加えた「副回線サービス」の提供を開始している。また総務省で議論が進められている、非常時に他社ネットワークに乗り入れる事業者間ローミングの構築や、公衆Wi-Fiの開放なども検討を進めているとのことだ。

ただその非常時ローミングの議論で、ここ最近気になっているのがお金の問題だ。KDDIの通信障害を受けるかたちで昨年より実施されている、「非常時における事業者間ローミング等に関する検討会」では、非常時であっても緊急通報機関が通報者に折り返し電話をする「呼び返し」が可能であり、実現のハードルが高い「フルローミング方式」が採用されたのに加え、フルローミングができない場合にも緊急通報の発信だけを可能とするローミング(以前「SIM無し端末発信」と呼ばれていた仕組みを改良したもの)を導入することが決められている。

総務省「非常時における事業者間ローミング等に関する検討会」第9回会合資料より。総務省での議論の結果、導入ハードルが高いフルローミング方式の導入が決められたのに加え、緊急通報の発信だけが可能なローミングの導入も決定している

だが総務省は、携帯各社のトップが過去、各社が費用を負担して対処を進めると発言したことから、一連の対処に国は一切補助を出さないとの方針を示している。だが各社の発言を振り返るに、元々事業者間ローミングの早期実現のため、呼び返しはできないが技術的ハードルが低く、その分費用負担も少なくて早く導入できる「緊急呼発信のみローミング方式」の導入を念頭に置いていたと見られる。

だが、一連の総務省での議論によって、技術的ハードルが高く費用もかかるフルローミング方式の導入へと舵が切られてしまったわけで、その実現には携帯各社の想定を超えた費用負担が発生する可能性が高い。それゆえ、6月30日に実施された先の検討会の第9回会合にでも、携帯各社からは国からの補助を求める声が挙がっていたのだが、総務省側は全く応じず事業者の全額負担で取り組むべきという姿勢を崩さなかった。

ネットワークが高度化し複雑さを増すであろう今後、携帯電話会社がどれだけ万全に準備をしたとしても、いつ、どのような形で通信障害が発生するか分からない。また非常時の事業者間ローミングは通信障害時だけでなく、近年激甚化が進む自然災害の被災者の通信手段を確保するためのものでもあるはずだ。国民を守るための取り組みであるにもかかわらず、国が協力を拒むというのは正直首をかしげてしまう。

関連キーワード: