FinanzaPro incident

Se está presentando un problema de acceso a los servidores de aplicaciones

Critical Resolved View vendor source →

FinanzaPro experienced a critical incident on September 15, 2020 affecting Servicios de Aplicaciones, lasting 46m. The incident has been resolved; the full update timeline is below.

Started
Sep 15, 2020, 07:32 PM UTC
Resolved
Sep 15, 2020, 08:18 PM UTC
Duration
46m
Detected by Pingoru
Sep 15, 2020, 07:32 PM UTC

Affected components

Servicios de Aplicaciones

Update timeline

  1. investigating Sep 15, 2020, 07:32 PM UTC

    Estamos investigando el problema.

  2. investigating Sep 15, 2020, 07:49 PM UTC

    Continuamos investigando y haciendo todos los esfuerzos posibles para resolver este incidente.

  3. identified Sep 15, 2020, 07:53 PM UTC

    El problema ha sido identificado y estamos trabajando en una solución.

  4. identified Sep 15, 2020, 08:02 PM UTC

    Ya implementamos una solución para el problema y los servicios se están restableciendo lentamente. Continuamos trabajando en resolver esta situación lo más pronto posible.

  5. identified Sep 15, 2020, 08:07 PM UTC

    Los servicios de aplicaciones ya están en su mayoría restablecidos. Ya los usuarios deben poder ingresar y empezar a trabajar normalmente.

  6. monitoring Sep 15, 2020, 08:07 PM UTC

    Estamos monitoreando los servicios para asegurarnos que ya están todos operando normalmente.

  7. resolved Sep 15, 2020, 08:18 PM UTC

    Este incidente ha sido resuelto.

  8. postmortem Sep 15, 2020, 08:19 PM UTC

    Hoy detectamos una situación en donde el fallo en un servidor de base de datos, algo que debió afectar momentáneamente sólo a un grupo reducido de usuarios, generó una reacción en cadena que causó que todos los servidores de aplicaciones se detuvieran de manera simultánea y no pudieran volver a reiniciar. Lamentamos el tiempo de interrupción que esto pudo ocasionar en la operación diaria de nuestros usuarios. ## Situación Cuando falló el servidor de base de datos, el mismo se reinició como procedimiento estándar en estos casos. Sin embargo, al hacerlo perdió parte de su configuración e inició de manera parcial, lo que causó que nuestros sistemas de monitoreo y alarmas no detectaran que el servidor tenía problemas. Este tipo particular de fallo en este único servidor causó que todos los servidores de aplicaciones empezaran a tener problemas al conectarse a este servidor, se reiniciaran ellos mismos de manera automática como acción preventiva, pero que no pudieran volver a reiniciar. Como todos nuestros sistemas indicaban que todos los servidores de estaban operando normalmente, no nos fue posible detectar rápidamente que ese servidor de bases de datos no había podido leer bien la configuración y por lo tanto, estaba con problemas. Una vez detectado el fallo, configuramos correctamente el servidor de bases de datos y se empezaron a restablecer todos los servicios de aplicaciones. Este proceso tomó algún tiempo ya que todos los servicios estaban detenidos. ## Plan de remediación En la investigación, detectamos que si falla uno de los servidores de bases de datos, un cambio realizado hace algunos meses en los servicios de aplicaciones causa que estos servicios no puedan iniciar aún cuando todos los demás servidores de bases de datos estén funcionando bien. Vamos a proceder a cambiar esto de manera que si falla un servidor de base de datos, los servicios de aplicaciones puedan iniciar y dar servicio a los usuarios que no deberían verse afectados. De esta manera, podemos evitar que un fallo en un servidor impacte de manera severa al 100% de los usuarios de FinanzaPro.