SISTEMA TOLERANTE A FALLOS

SISTEMA TOLERANTE A FALLOS

Sistema tolerante a fallos es un sistema capaz de continuar operando correctamente incluso en presencia de fallos en el hardware o errores en el software Cumputación tolerante a fallos describe el proceso de realizar cálculos, tal como los realizados por un computador, de una manera tolerante a fallos.

Orígenes de la computación tolerante a fallos

ü Uso extensivo de técnicas de detección de errores y de tolerancia a fallos

BRC (Bell Relay Computers) 2 CPUs, retry

UNIVAC, Whirlwind I, paridad transferencias de datos

EDVAC, 2 ALUs y comparación de resultados

inicialmente, dominio exclusivo de la industria con notables excepciones

Shannon y Hamming, Teoría de códigos

Von Neuman, Redundancia

En los años 60, tratamiento sistemático en la industria

ESS (Electronic Switching System) 2 horas no operativo en 40 años

IBM/360

un computador triplicado ayudó al hombre a aterrizar en la luna

ü Desarrollo rápido a partir de 1970

surgen compañias especializadas en sistemas fiables (Tandem)

creación de un comité de tolerancia a fallos en el IEEE

difusión en revistas y congresos: Computer, IEEE micro, IEEE trans. on computers, proceedings del IEEE, Journal of

design automation and fault tolerant computing

Miniaturización de las dimensiones de los dispositivos electronicos (transistores y otros)

* nuevas oportunidades

menores tamaños, potencia y coste implican viabilidad de usar redundancia

* nuevos problemas: se aplica redundancia nivel de circuito

mayor susceptibilidad a perturbaciones externas

incremento errores de diseño

mayor probabilidad de circuitos defectuosos

Ampliación de aplicaciones (desde el punto de vista de los sistema de computación)

entornos más duros

usuarios más inexpertos

incremento de los costes de mantenimiento

sistemas cada vez más complejos

FIABILIDAD (RELIABILITY), R(T)

* probabilidad condicional de que el sistema trabaje correctamente en el intervalo [t0, t], supuesto

que el sistema estaba trabajando correctamente en el tiempo t0

* infiabilidad Q(t) de un sistema es la probabilidad condicional de que el sistema falle en el intervalo

[t0, t], supuesto que el sistema estaba trabajando correctamente en el tiempo t0

* sistemas en los que incluso periodos momentáneos de funcionamiento incorrecto son inaceptables

* sistemas sin posibilidad de reparación

DISPONIBILIDAD (AVAILABILITY), A(T)

* probabilidad de que un sistema este operando correctamente y disponible para realizar sus funciones

en el instante de tiempo t

* un sistema puede ser altamente disponible experimentando periodos frecuentes de inoperabilidad, en

tanto que la duración de cada periodo sea suficientemente corta

* sistemas en los que el objetivo primario sea ofrecer servicios tan a menudo como sea posible

SEGURIDAD, S(T)

* probabilidad de que un sistema realice correctamente su función o deje de operar de manera que

no interfiera con la operación de otros sistemas o comprometa la seguridad de las personas relacionas

con el sistema

MANTENIBILIDAD, M(T)

* probabilidad de que un sistema que ha fallado sea restaurado a un estado operativo dentro de un

periodo de tiempo t

* el proceso de restauración incluye la localización del problema, la reparación fÍsica del problema

y la vuelta a su estado operativo original

TESTABILIDAD

* facilidad con la que ciertos atributos de un sistema pueden ser testado

Confiabilidad (Dependability)

* relaciona los conceptos anteriores

* calidad de servicio proporcionada por un sistema

Distintos requerimientos segun las aplicaciones:

LARGA DURACIÓN

* vuelos espaciales no tripulados, satélites

* R(10 años) = 0.95

* permite periodos largos de inoperatividad

* STAR/ Voyager

CÁLCULOS CRÍTICOS

* sistemas de control de vuelo, militares, ciertos controladores

industriales

* Q(10 horas) = 10-9 R(3 horas) = 0.97

* August System CS3001 / A129 IMS

* mantenimiento programado

APLAZAMIENTO DEL MANTENIMIENTO

* sistemas en localizaciones remotas, telefonía

* las operaciones de mantenimiento son

extremadamente costosas

ALTA DISPONIBILIDAD

* sistemas transacciones, de reservas de

billetes

* alta probabilidad de recibir el servicio

cuando se requiere

* Tandem / Stratus

Fallo Latente: un fallo presente en el sistema y que todavía no ha producido un error

Latencia de fallo: tiempo entre la ocurrencia de un fallo y la aparición de un error debido a ese fallo

Latencia de error: tiempo entre la ocurrencia de un error y la aparición del malfuncionamiento

Resultante

ü No todos los fallos producen errores

ü No todos los errores dan lugar a malfuncionamientos

Distintos estudios de Sistemas de Computación demuestran:

Los sistemas fallan por numerosas razones incluyendo fallo del hardware, diseño incorrecto del hardware o del software, operación o mantenimiento inadecuado y entornos

Inestables

ü La probabilidad de error se distribuye sobre este espectro sin una única causa dominante

Existen evidencias de que los fallos transitorios/intermitentes son más frecuentes

ü La tolerancia a fallos implica REDUNDANCIA recursos adicionales a los estrictamente necesarios

para la operación normal del sistema

ü La redundancia introducida incrementa el coste del sistema. Es importante elegir adecuadamente

el tipo de recurso adicional

ü Los computadores tolerantes a fallos aplican una combinación de distintos tipos de redundancia:

hardware, software, información y tiempo y en distintos niveles: nivel físico, nivel sistema

operativo, (nivel aplicación)

ü La asignatura se centra en el nivel físico