Análisis árbol de fallas (FTA), qué es y cómo se utiliza

EL análisis de árbol de fallas (fault tree analysis: FTA) es un método de análisis sistemático y deductivo; en este artículo veremos qué es y cómo se utiliza.

¿Qué es el análisis de árbol de fallas?

El FTA es un método cuantitativo que parte de que los componentes de un sistema y su ambiente están interrelacionados y un fallo en cualquier parte puede afectar a las demás partes. Con esa idea se selecciona un suceso particular (accidente o fallo o situación que se pretende evitar) y  el análisis se centra en averiguar su origen. 

Este método se suele utilizar en sistemas o entornos donde existen procedimientos de actuación establecidos para responder a fallos específicos; ya que el FTA de manera descendente y lógica representa las combinaciones de situaciones o hechos que pueden dar lugar al suceso a evitar, formando una sucesión de niveles o ramas.  Cada nivel está generado a partir de niveles inferiores – por eso se denomina árbol – que se unen a partir de operadores o puertas lógicas, de las que hablamos más adelante. El árbol se desarrolla en estas ramas hasta que se alcanzan o bien los denominados “niveles o ramas básicas” que son los que no precisan de otros inferiores para ser explicados, o bien los “niveles o ramas no desarrollados” que son los que no se pueden desglosar por falta de información de las causas que los producen.

El suceso que inicia el proceso puede ser una avería, un error de operación o humano, un accidente más o menos grave, etc. Según los procedimientos de actuación de seguridad y emergencia establecidos y de las circunstancias del suceso, las reacciones y consecuencias pueden ser muy diferentes.

¿Cuál es el objetivo del análisis de árbol de fallas?

Si bien los objetivos fundamentales del FTA son evitar el fallo antes de que se produzca y mejorar la operación del conjunto, otra de las ventajas del uso del FTA es la obtención de datos valiosos que permiten mejorar la fiabilidad general del sistema y evaluar la necesidad de redundancia. De hecho, el análisis de árbol de fallos es una herramienta utilizada para realizar evaluación probabilística del riesgo o de seguridad ya que el FTA es un método cuantitativo, que asocia a cada una de las ramas índices de probabilidad y estadísticos. La evaluación de riesgos permite estimar los riesgos de un sistema, la probabilidad de que ocurran y la magnitud de las consecuencias.

Un poco de historia

Los ingenieros de los laboratorios de Bell en la década de 1950 fueron los primeros en usar la teoría de la confiabilidad y el algebra booleana para conseguir un modelo con símbolos lógicos que mostrara el comportamiento anormal de sistemas.

El primer test práctico del FTA se hizo en Boing en los 60, adaptándose en las décadas posteriores a las industrias nucleares, aeroespaciales, químicas, robóticas, automotrices y de software en un primer momento, para llegar luego al resto.

El procedimiento

El análisis FTA, que se suele comparar con el análisis FMEA del que puedes encontrar un artículo en nuestro blog,  es un análisis cuya metodología está descrita en varios estándares industriales

Sin entrar al detalle en el estándar específico, un proyecto FTA sigue en líneas generales un mismo procedimiento que se suele resumir en varios pasos:

  • Preparación, incluyendo el análisis del sistema.
  • Definición del fallo que se pretende evitar.
  • Desarrollo del árbol
  • Definición cuantitativa del árbol
  • Establecer la necesidad de acción(es) y monitorización
  • Documentación

Primer paso: Preparación

Esta fase incluye acciones para asegurar el éxito de las etapas posteriores. Incluye:

Creación del equipo de trabajo. Los miembros  se relacionan con la actividad, se realiza sesiones de trabajo reuniéndose el equipo y se introduce la metodología.

Obtención de la información. Se recopila la información. Por ejemplo, información técnica de cada equipo, funciones, parámetros de trabajo, sistemas, datos de fallos correspondientes a un período al menos de dos años si es posible e histórico de mantenimiento. El uso de un sistema de gestión de activos, como el software AMOS, es particularmente útil en esta etapa. Se recopilan los indicadores disponibilidad y fallos, como el MTTR, el MTBF  y la disponibilidad.

Determinación de los equipos u operaciones conflictivas. Se analiza la criticidad y se determinan niveles de jerarquía en los equipos de acuerdo a criterios previamente establecidos en una matriz que considere parámetros de operación, seguridad, medio ambiente y riesgos.

Cálculo de los indicadores de confiabilidad por cada equipo analizado. Se calcula en el período establecido, la confiabilidad de los equipos teniendo en cuenta el número de fallos, el tiempo medio entre fallos, el tiempo promedio de parada y la disponibilidad. 

Segundo paso: Definición del fallo que se pretende evitar

Es el evento que se va a analizar. Por ejemplo: la funcionalidad incorrecta de un equipo, una fuga, la rotura de una pieza crítica o que un equipo no cumple con sus especificaciones.

Se debe prestar atención a la descripción del evento tanto en sí mismo como en las condiciones que lo rodean, ya que el FTA depende de una buena definición.

Tercer paso: Desarrollo del árbol

Predefinido el “fallo que se pretende evitar”, se desciende, rama a rama, a los eventos o sucesos que, relacionados entre sí, contribuyen a la aparición del mismo. El árbol de fallos usa como comentábamos anteriormente,  puertas lógicas o puertas booleanas. Por ejemplo, si un sensor funciona incorrectamente, puede deberse

(rama-hipótesis 1) a que hay un fallo en el canal de entrada del sensor O (rama-hipótesis 2) a que hay un fallo en el circuito O (rama-hipótesis 3) a que hay un fallo en la alimentación externa del sensor

Esta deducción lógica se plasma en un diagrama usando símbolos específicos, como algunos de los que se ven en la siguiente imagen.

Diagrama FTA

 

Las puertas booleanas pueden ser:

Puerta Y. El evento salida ocurre si ocurren todos los eventos entrada. La lógica es todos los eventos deben ser verdaderos para que el output sea verdadero. Ejemplo: un operario cae de un andamio si el operario se cae accidentalmente y el equipo de seguridad falló. La probabilidad de una puerta O se calcula de este forma:  P = P1 · P2 · P….

Puerta O. El evento salida ocurre si ocurre uno de los eventos entrada. La lógica es si al menos un evento es verdadero, el output es verdadero. Si todos los eventos son falsos, el output es falso. Ejemplo: Se pierde control del dron si éste vuela muy alejado del rango de control o si ocurre una ráfaga fuerte de viento. La probabilidad en este caso se  calcula con esta fórmula : P=1-(1-P1) ·(1-P2) ·(1-P..)….

No-Puerta. El evento salida ocurre solamente si el evento entrada no ocurre. Una No-Puerta solo tiene un evento de entrada. La lógica es si el evento es verdadero, el output es falso; si el evento es falso, el output es verdadero. Ejemplo: La alarma de seguridad se activará si la puerta no está cerrada.

Puerta NY. Es una combinación de la No-Puerta y la Puerta Y. El evento salida ocurre cuando al menos uno de los eventos entrada no ocurre. La lógica es si al menos un evento es falso, el output es verdadero. Ejemplo: Un walkie de seguridad tiene dos baterías. Siempre que una de ellas esté cargada, el walkie funcionará. Si las dos están descargadas, el walkie no funcionará.

Puerta NO. Es una combinación de la No-Puerta y la Puerta O. El evento salida ocurre solamente si todos los eventos entrada no ocurren. La lógica es si un evento es verdadero, el output es falso. Ejemplo: si olvido cargar mi móvil o no recuerdo mi clave, no puedo usar mi teléfono.

Puerta inhibida. El evento salida ocurre solamente si todos los eventos entrada ocurren y se cumple una condición. La lógica es si todos los eventos y la condición son verdaderos, el output es verdadero. Ejemplo: si hay un apagón (condición), la bomba dejará de funcionar si no se activa el generador de emergencia.

Puerta Y prioritario. El evento salida ocurre solamente si todos los eventos de entrada ocurren en un orden específico. La lógica es si todos los eventos son verdaderos y ocurren en cierto orden, el output es verdadero. Ejemplo: La caldera se sobrecalentará si se pone en funcionamiento y el sensor de temperatura falla.

Puerta de votación.  El evento salida ocurre si un conjunto de eventos entrada ocurren. Si la puerta de votación es 2:3, 2 de los 3 posibles eventos entrada deben ocurrir. La lógica es si el número requerido de eventos de entrada es verdadero, el output es verdadero. Ejemplo: una barcaza tiene 3 motores, si 2 motores están en funcionamiento, se puede alcanzar la velocidad máxima.

Puerta O Exclusivo. El evento salida ocurre si solamente uno de los eventos entrada ocurre, pero no ambos. La lógica es si uno y solo un evento de entrada es verdadero, el output es verdadero. Ejemplo: Con la cámara infra rojos puedo filtrar con un filtro polarizado o con uno neutral. La imagen no saldrá bien si no uso ninguno o si uso los dos filtros  juntos. La probabilidad de este tipo de puerta se calcula de esta forma : P=1-(1-P1) ·(1-P2)- P1 · P2

Cuarto paso: Definición cuantitativa del árbol

Cada una de las ramas se definen con índices estadísticos, como:

  • La no-disponibilidad Q: describe la probabilidad de ocurrencia de un fallo al final del período que se analiza.  
  • La frecuencia de ocurrencia: describe el curso o gradiente matemática del Q sobre el tiempo
  • El medio tiempo hasta el fallo
  • El tiempo medio entre reparaciones
  • El tiempo medio entre fallos

Quinto paso: Establecer la necesidad de acción(es) y monitorización

La decisión de establecer una nueva acción de prevención o seguridad para evitar el fallo, vendrá determinada por los valores numéricos obtenidos usando medidas de importancia. En primer lugar, se hace la pregunta:

¿En qué medida las ramas básicas contribuyen a la ocurrencia del fallo que se pretende evitar?

Esta pregunta se puede contestar usando la medida de importancia FUSSEL-VESELY que representa la posibilidad de que una rama básica del árbol sea la causa de del evento que se pretende evitar; es decir, su contribución fraccional al fallo. Esta medida también se puede aplicar a grupos de ramas. Se calcula como la división del sumatorio del producto de la probabilidad de la rama por cada una de las otras ramas,  entre la probabilidad de ocurrencia del evento a evitar.

En segundo lugar, se pregunta:

¿Cuál es la probabilidad de que el fallo que se pretende evitar ocurra si la rama básica ha ocurrido?

Esta pregunta se contesta usando la medida de importancia de BIRNBAUM que se obtiene dividiendo el sumatorio del producto de la probabilidad de la rama por cada una de las otras ramas,  entre la probabilidad de ocurrencia de la rama.

Sexto paso: Documentación

No menos importante, es el último paso donde se realiza la documentación del análisis FTA, se documenta el equipo de trabajo, la información recabada, los cálculos, modelos, diagramas y conclusiones y recomendaciones.

Un ejemplo

El evento que queremos evitar ocurre si uno o más de las ramas básicas ocurren, por eso es importante identificar las ramas básicas y sus probabilidades de ocurrencia.

FTA ejemplo

Por ejemplo, el evento a evitar es el “Fallo de la bomba de trasvase de combustible”. Se determina que el fallo ocurre cuando ocurre una o cualquiera de una serie de combinaciones de eventos o ramas básicas. En otras palabras, cualquiera de las combinaciones de las siguientes ramas básicas pueden producir el fallo de la bomba:

  • B: Fallo de la propia válvula (1) y Fallo del cierre de la válvula (2)
  • C: Fallo del cierre de la válvula (2) y Fallo del indicador (5) y Fallo en el control de comandos (3)
  • D: Fallo de la propia válvula (1) y Fallo del indicador (5) y Fallo en el suministro eléctrico (4)
  • E: Fallo en el control de comandos (3) y Fallo en el suministro eléctrico (4)

En términos probabilísticos tendríamos  Puerta A : (1 y 2) O (3 y 4) O (1 y 5 y 4) O (2 y 5 y 3)

La probabilidad de ocurrencia cada uno de las ramas básicas en un año, es la siguiente: P1 = 0,05 P2 = 0,05 P3 = 0,03 P4 = 0,01 y P5 = 0,02

La probabilidad con una puerta lógica Y , como vimos anteriormente, se calcula de esta forma  P = P1xP2…. Por tanto, las probabilidades de cada puerta son Puerta B: 0,0025 Puerta C: 0,0003 Puerta D: 0,00001 y Puerta E: 0,00003

Con una puerta lógica O (Puerta A)  la probabilidad se calcula P = 1 –(1-P1) x (1-P2) … Por tanto, P = 1 –  (1-(Puerta B) x (1-(Puerta C)) x (1-(Puerta D)) x (1-(Puerta E))

Sustituyendo los valores, tenemos que P = 1 – 0,997160862 = 0,002839137731, es decir,  la probabilidad de que falle la bomba de motor de trasiego es de un 0,28% en un período de 1 año.

A tener en cuenta

A pesar de que el FTA es una herramienta muy potente, tiene algunas limitaciones. Puede ser rígido, cuando hay muchos condicionantes y fallos parciales. El FTA puede no ser útil cuando es imposible calcular la probabilidad de fallo y tampoco para determinar todos los posibles fallos iniciales. Por esos motivos, suele ser usado frecuentemente junto con métodos cualitativos como el FMEA.

Conclusión

EL análisis de árbol de fallos es un método cuantitativo y deductivo en análisis causa raíz, análisis de riesgos y confiabilidad de productos, sistemas e instalaciones.

Para un gestor de mantenimiento, el análisis FTA puede ser muy útil para analizar lo que ha fallado (falta de mantenimiento, equipo al final de su vida útil, equipo insuficiente para las necesidades actuales, etc.), para evaluar el riesgo de un posible fallo o para mejorar el sistema actual con nuevas medidas de seguridad y prevención.

 

Subscríbete a Nuestro Blog

Te enviamos por correo nuevos posts e invitaciones a eventos cada mes.

Este campo es obligatorio.

¡No enviamos spam! Lee nuestras condiciones de uso y política de privacidad para más información.