Karte.io incident

タグv1を使ったイベントトラッキングや接客の配信等で障害が発生しています

Major Resolved View vendor source →

Karte.io experienced a major incident on July 16, 2024 affecting イベントトラッキング and 接客の配信, lasting 8h 24m. The incident has been resolved; the full update timeline is below.

Started
Jul 16, 2024, 04:31 PM UTC
Resolved
Jul 17, 2024, 12:56 AM UTC
Duration
8h 24m
Detected by Pingoru
Jul 16, 2024, 04:31 PM UTC

Affected components

イベントトラッキング接客の配信

Update timeline

  1. monitoring Jul 16, 2024, 04:31 PM UTC

    障害が解消したのでご報告します。 ■ 発生していた期間 - 2024/7/17 0:00 - 1:15 頃 ■ 対象のプロジェクト - タグv1を用いて、KARTE InsightやKARTE Actionを利用中の全プロジェクト ■ 発生した現象 - タグv1を使った計測でイベントトラッキングに大幅に時間がかかっていた - その結果、一部のイベントを配信トリガーとする接客サービスの配信・実行が失敗した この度はご迷惑をおかけし、大変申し訳ございませんでした。 なお、本障害の詳細や事後対応については、追って記載します。

  2. resolved Jul 17, 2024, 12:56 AM UTC

    This incident has been resolved.

  3. postmortem Jul 17, 2024, 09:08 AM UTC

    この度発生したタグv1を使ったイベントトラッキングや接客の配信に関する障害について、下記の通りご報告致します。 ‌ --- **発生期間** 2024年7月17日0時0分頃 〜 1時15分頃 **対象のプロジェクト** タグv1を用いて、KARTE InsightやKARTE Actionを利用中の全プロジェクト **発生した現象** * KARTEのイベントトラッキング(計測)機能において、計測の遅延およびイベントログへの保存失敗が発生しました。 * 本イベントデータの欠損についてはイベントログ上の欠損となり、ユーザーデータの更新は行われています。 * 1日あたりに換算するとおよそ0.26%のイベントが欠損しました。 * KARTEの接客サービスの配信・実行に遅延および一部失敗がありました。 * 1日あたりに換算するとおよそ0.47%の接客サービスの配信・実行が失敗しました。 **発生原因** KARTEで利用している外部サービスにてインフラを起因とする一時的な障害が発生し、その影響を受けイベントトラッキングで利用しているサーバが高負荷を受けトラッキング処理の遅延が発生しました。 また、この処理遅延によってイベントが長時間にわたって処理できない場合に、イベントデータがログ上欠損する可能性がありました。 **実施した対応** KARTEのインフラとして利用しているサービスの提供会社への問い合わせを行い、外部サービスのインフラに問題があることを確認しました。‌ **今後の対応** * 外部サービスの監視と異常検知時に即時対応を行うための仕組みの強化を実施します。 * 一部のサーバ等が高負荷な状況下でも、イベントトラッキング失敗率・接客配信失敗率を最小限に抑えられるアーキテクチャを目指した改善を検討します。 --- ‌ この度はご迷惑をおかけしてしまい、誠に申し訳ございませんでした。