L’ingénierie de la robustesse

Définition:

L’ingénierie de la robustesse a pour mission de stabiliser les performances d’un système.

La stabilité d’un système est la capacité d’un système à assurer ses fonctions sans discontinuité (principe de disponibilité) et sans danger (principe de sécurité) sur toute sa durée de vie et ce, quelques soient les sollicitations extérieures prévues: c’est un système robuste.

Le développement d’un système robuste, implique de supprimer les défaillances. Or une défaillance est entrainée par une erreur, elle-même générée par une faute qui n’est autre qu’un défaut d’un composant. Donc supprimer les défaillances d’un système c’est avant tout limiter les fautes: c’est le domaine de la sureté de fonctionnement.

Faute: défaut d’un composant. Ce défaut peut être natif, ou apparaitre avec le temps (vieillissement).
Erreur: activation d’une faute.
Défaillance: la fonction attendue n’est plus assurée par le système.

Toutes les défaillances ne sont pas égales dans leur conséquence, il existe une échelle de criticité des défaillances:

Criticité	Description
Catastrophique	Défaillance qui occasionne la perte d’au moins une fonction du système en causant des dommages irréversibles au système ou à son environnement
Critique	Défaillance qui entraine la perte d’au moins une fonction du système en causant des dommages réversibles au système ou à son environnement.
Majeur	Défaillance qui nuit au bon fonctionnement du système sans causer de dommage à son environnement.
Mineur	Défaillance qui occasionne la perte de fonction non essentielle, n’impactant pas le bon fonctionnement du système et ne causant aucun dommage à son environnement.

La sureté de fonctionnement:

La sureté de fonctionnement englobe 4 composantes (FDMS):

Fiabilité : Aptitude à ne présenter aucune défaillance.
Disponibilité : Aptitude à être en état de fonctionnement, c’est-à-dire fiable et maintenable.
Maintenabilité : Aptitude à être remis en état de fonctionnement.
Sécurité : Aptitude à ne présenter aucun danger, au sens des 4 lois d’Azimov,

Les 4 lois d'Azimov:

Loi Zéro : Un système ne peut pas porter atteinte à son environnement (vivant, matériels ou immatériel) ni par son inaction, permettre que son environnement soit exposé au danger.
1^ère loi : Un système ne peut porter atteinte à un individu, ni en restant passif, permettre qu’un être humain soit exposé au danger, sauf contradiction avec la loi zéro,
2^ème loi : Un système doit obéir aux ordres, sauf si de tels ordres entre en conflits avec la 1^ère loi,
3^ème loi : Un système doit protéger son intégrité tant que cette protection n’entre pas en conflit avec la 2^èmeloi.

Le concepteur dispose de 2 moyens pour assurer la sureté:

La prévision des fautes : éviter les fautes qui pourraient être introduites pendant le développement du système,
La tolérance aux fautes : capacité du système à ce qu’une faute résiduelle ne produise pas de défaillance.

La prévision des fautes:

Il est possible d’éliminer les fautes en utilisant des méthodologies de développement. Une méthodologie de développement est un cadre utilisé pour structurer, planifier et contrôler le développement d’un système.

Nous pouvons identifier 2 méthodes:

Cycle en V: C’est une méthode séquentielle. Chaque phase est terminée par une validation de la part du client donnant le feu vert pour passer à la phase suivante.
Cycle itératif: méthode où les fonctions sont développer et qualifier une après l’autre.

Pendant la phase de développement, l’idée est d’utiliser des techniques de vérification avancées de façon à détecter les fautes et les enlever avant envoi à la production.
Pendant l’utilisation, il faut tenir à jour les défaillances rencontrées et les retirer pendant les cycles de maintenance.

En identifiant le plus tot possible les défaillances possibles, le concepteur sera capable de concevoir un système sans défaut de composant. Des outils comme l’AMDEC ou le plan de qualification, permettent d’identifier les défaillances, leurs causes et de vérifier que la conception supprime les défauts à l’origine de ces défaillances.

Analyse des Mode de Défaillances, de leurs Effets et de leur Criticité (AMDEC):

C’est une démarche dont le principe fondamental est d’analyser pour chaque composant d’un système les conséquences d’une défaillance et sa probabilité d’occurrence. Cette démarche doit être systématique et collective par un groupe pluri-disciplinaire englobant tous les aspects du système afin d’examiner avec précision chaque mode de défaillance. Ainsi pour chaque mode de défaillance il faut identifier et évaluer :

Sa cause et son indice de fréquence.
Ses effets et leur indice de gravité.
Les mesures mises en place pour détecter la défaillance et l’indice de détection.

On calcule à partir de ces indices la criticité du mode de défaillance comme le produit des trois indices précédents. En fonction de cette criticité les concepteurs du système peuvent faire des choix d’architecture, définir des mécanismes de protection et de tolérance aux fautes ou encore imaginer des modes de fonctionnement dégradés.
Les indices sont définis suivant des échelles arbitraires qui dépendent du type de système étudié et qui varient généralement de 1 à 10.

Fréquence	Notation	Description
Fréquent	10	apparait continuellement
Probable	5	apparait plusieurs fois au cours.
Improbable	3	peu probable mais possible.
Eliminé	1	Ne peut jamais apparaitre.

Gravité	Notation	Description
Catastrophique	10	Peut résulter d’un décès, de l’inaptitude totale permanente d’au moins une personne, de l’impact environnemental irréversibles ou une perte financière entrainant la faillite de l’entreprise.
Critique	5	Peut résulter de l’inaptitude partielle permanente d’au moins une personne, de l’impacts environnemental réversibles, ou une perte financière impactant l’investissement futur de l’entreprise.
Marginal	3	Peut résulter de blessures réversibles
Négligeable	1	Peut résulter de blessures ne nécessitant pas plus de 10 jours d’arrêt de travail.

Détection	Notation	Description
Impossible	10	Le défaut n’est pas détectable avant l’apparition de la défaillance.
Difficile	3	La détection est possible mais demande des moyens importants (Arrêt maintenance, analyse par un spécialiste…).
Evident	1	Le défaut est détecté dés son apparition (détrompeur, arret automatique, capteur…).

A partir de ces données on peut calculer pour chaque mode de défaillance un indice de criticité. Par exemple un mode de défaillance probable, sans gravité mais non détectable possède un indice de priorité de risque de 5x1x10=50.
Une autre capacité des AMDEC est de classer les modes de défaillance en fonction de leur criticité.

Fréquence	Catastrophique	Critique	Marginal	Négligeable
	Gravité
Fréquent	Inacceptable	Inacceptable	Indésirable	Indésirable
Probable	Inacceptable	Inacceptable	Indésirable	Acceptable
Improbable	Inacceptable	Indésirable	Acceptable	Acceptable
Eliminé	Eliminé

La tolérance aux fautes:

Ne pouvant être sûr d’avoir éradiqué tous les défauts du système, le système doit avoir la capacité d’alerter en cas de défauts et de déclencher un mode dégradé, évitant la génération d’erreur système.
Cette capacité repose sur l’utilisation de mécanismes de redondance, nous distinguons plusieurs types de redondance :

- Redondance homogène : on réplique plusieurs composants identiques,
- Redondance avec dissemblance : les sous-systèmes réalisent les mêmes fonctions mais sont différents (ex: plusieurs équipes de conception, double sourcing),
- Redondance froide : les composants sont activés quand ceux déja actifs tombent en panne,
- Redondance chaude : les composants fonctionnent en parallèle, avec une politique de prise en main,
- Redondance par les comparateurs ou les voteurs. L’idée est de récupérer plusieurs valeurs calculées par redondance et de déterminer quelle est la plus proche de la réalité,
- Redondance par watchdog : il s’agit d’un mécanisme destiné à s’assurer qu’un système ne reste pas bloqué à une étape.

Si la conception du système englobe l’ensemble des fautes subies par le système alors l’association du système avec son mécanisme de sureté de fonctionnement est cohérent.

A : l’ensemble des fautes couverte par le mécanisme de tolérance aux fautes,
B : l’ensemble des fautes du système.

Le niveau de robustesse est donc corrélé au niveau de cohérence du système. Cette valeur est calculée à partir de 3 indicateurs :

TRI (Time to Repair Inconsistency) : temps pour réparer une incohérence,
TTI (Time To Inconsistency) : temps durant lequel le système est incohérent,
TBI (Time Between Inconsistencies) : temps qui sépare deux événements qui entrainent une incohérence.

La notion de robustesse caractérise l’aptitude du système à résister à un ensemble prévisible de perturbations. Mais que ce passe-t-il lorsque le système est en déquation suite à un changement imprévisible durant son cycle de vie? C’est la raison d’être des systèmes résilients.

Les systèmes incohérents:

La robustesse a pour objectif de maintenir les performances du système jusqu’à la rupture en cas de changement exogène trop important.
La résilience a pour objectif la viabilité des fonctions du système au détriment des performances