|
En los años 60,
tratamiento sistemático en la industria
ESS (Electronic Switching System) 2 horas no operativo en 40 años
IBM/360
un computador triplicado ayudó al hombre a aterrizar en la luna
ü Desarrollo rápido a partir de 1970
surgen compañias especializadas en sistemas fiables (Tandem)
creación de un comité de tolerancia a fallos en el IEEE
difusión en revistas y congresos: Computer, IEEE micro, IEEE trans. on
computers, proceedings del IEEE, Journal of
design automation and fault tolerant computing
Miniaturización de las dimensiones
de los dispositivos electronicos (transistores y otros)
* nuevas oportunidades
menores tamaños, potencia y coste implican viabilidad de usar redundancia
* nuevos problemas: se aplica redundancia nivel de circuito
mayor susceptibilidad a perturbaciones externas
incremento errores de diseño
mayor probabilidad de circuitos defectuosos
Ampliación de aplicaciones (desde el
punto de vista de los sistema de computación)
entornos más duros
usuarios más inexpertos
incremento de los costes de mantenimiento
sistemas cada vez más complejos
FIABILIDAD (RELIABILITY), R(T)
* probabilidad condicional de que el sistema trabaje correctamente en el
intervalo [t0, t], supuesto
que el sistema estaba trabajando correctamente en el tiempo t0
* infiabilidad Q(t) de un sistema es la probabilidad condicional de que el
sistema falle en el intervalo
[t0, t], supuesto que el sistema estaba trabajando correctamente en el
tiempo t0
* sistemas en los que incluso periodos momentáneos de funcionamiento
incorrecto son inaceptables
* sistemas sin posibilidad de reparación
DISPONIBILIDAD (AVAILABILITY), A(T)
* probabilidad de que un sistema este operando correctamente y disponible
para realizar sus funciones
en el instante de tiempo t
* un sistema puede ser altamente disponible experimentando periodos
frecuentes de inoperabilidad, en
tanto que la duración de cada periodo sea suficientemente corta
* sistemas en los que el objetivo primario sea ofrecer servicios tan a
menudo como sea posible
SEGURIDAD, S(T)
* probabilidad de que un sistema realice correctamente su función o deje de
operar de manera que
no interfiera con la operación de otros sistemas o comprometa la seguridad
de las personas relacionas
con el sistema
MANTENIBILIDAD, M(T)
* probabilidad de que un sistema que ha fallado sea restaurado a un estado
operativo dentro de un
periodo de tiempo t
* el proceso de restauración incluye la localización del problema, la
reparación fÍsica del problema
y la vuelta a su estado operativo original
TESTABILIDAD
* facilidad con la que ciertos atributos de un sistema pueden ser testado
Confiabilidad (Dependability)
* relaciona los conceptos anteriores
* calidad de servicio proporcionada por un sistema
Distintos requerimientos segun las aplicaciones:
LARGA DURACIÓN
* vuelos espaciales no tripulados, satélites
* R(10 años) = 0.95
* permite periodos largos de inoperatividad
* STAR/ Voyager
CÁLCULOS CRÍTICOS
* sistemas de control de vuelo, militares, ciertos controladores
industriales
* Q(10 horas) = 10-9 R(3 horas) = 0.97
* August System CS3001 / A129 IMS
* mantenimiento programado
APLAZAMIENTO DEL MANTENIMIENTO
* sistemas en localizaciones remotas, telefonía
* las operaciones de mantenimiento son
extremadamente costosas
ALTA DISPONIBILIDAD
* sistemas transacciones, de reservas de
billetes
* alta probabilidad de recibir el servicio
cuando se requiere
* Tandem / Stratus
Fallo Latente: un fallo presente en el sistema y que todavía no ha producido
un error
Latencia de fallo: tiempo entre la ocurrencia de un fallo y la aparición de
un error debido a ese fallo
Latencia de error: tiempo entre la ocurrencia de un error y la aparición del
malfuncionamiento
Resultante
ü No todos los fallos producen errores
ü No todos los errores dan lugar a malfuncionamientos
Distintos estudios de Sistemas de Computación demuestran:
Los sistemas fallan por numerosas razones incluyendo fallo del hardware,
diseño incorrecto del hardware o del software, operación o mantenimiento
inadecuado y entornos
Inestables
ü La probabilidad de error se distribuye sobre este espectro sin una única
causa dominante
Existen evidencias de que los fallos transitorios/intermitentes son más
frecuentes
ü La tolerancia a fallos implica REDUNDANCIA recursos adicionales a los
estrictamente necesarios
para la operación normal del sistema
ü La redundancia introducida incrementa el coste del sistema. Es importante
elegir adecuadamente
el tipo de recurso adicional
ü Los computadores tolerantes a fallos aplican una combinación de distintos
tipos de redundancia:
hardware, software, información y tiempo y en distintos niveles: nivel
físico, nivel sistema
operativo, (nivel aplicación)
ü La asignatura se centra en el nivel físico
|
|