obniz experienced a major incident on September 21, 2023 affecting obnizCloud: Console and Device Connection Request and obnizCloud: GraphQL API and 1 more component, lasting 44m. The incident has been resolved; the full update timeline is below.
Affected components
Update timeline
- identified Sep 21, 2023, 03:47 AM UTC
発生時刻:2023/9/21 11:50:00(JST) 復旧時刻:進行中 影響範囲: obnizCloudの開発者コンソール デバイス接続 obnizCloud pipeline 原因:一部データベースへの接続失敗
- identified Sep 21, 2023, 03:56 AM UTC
現在原因を特定し、順次対策を行っております。 センサーデータの履歴保存量の増加による接続エラーと負荷上昇が原因でした。 履歴保存量を増やしていた処理を削減しており、データベースについては状態リセットを行い回復しました。 現在は残りの負荷軽減を順次行っております。 開発者コンソールの閲覧とAPIに影響があり、pipeline, hubapisを利用したサービスにも影響があり現在回復中です。
- monitoring Sep 21, 2023, 04:10 AM UTC
発生時刻:2023/9/21 11:50:00(JST) 復旧時刻:2023/9/21 13:08:00(JST) 影響範囲: obnizCloudの開発者コンソール デバイス接続 obnizCloud pipeline 原因:センサーログの記録の負荷を原因とする一部データベースへの接続失敗。 対策:ログ記録機能のロールバック。データベースの再起動を含む回復処理。
- resolved Sep 21, 2023, 04:31 AM UTC
障害発生大変申し訳ございませんでした。 障害が回復したことをお知らせいたします。 発生時刻:2023/9/21 11:50:00(JST) (始めの記載が間違っておりました。こちらの時刻が正しいです) 復旧時刻:2023/9/21 13:08:00(JST) 影響範囲: ・obnizCloudの開発者コンソール ・デバイス接続 ・obnizCloud pipeline およびpipelineを活用するhubapis等の各種サービス 原因:センサーログの記録を負荷の原因とする一部データベースへの接続失敗。 対策:ログ記録機能のロールバック。データベースの再起動を含む回復処理。 今後の対策: ・データベース自動復旧の仕組み改善 ・データベース接続失敗時にも継続動作が行える仕組みへの変更を検討。 ・ログ記録に関して負荷上昇とならないアルゴリズムについて検討。