Lead-analytics

Les plans de secours informatique à l’heure du Cloud | Sécurité
Lost Password?

A password will be emailed to you. You will be able to change your password and other profile details once you have logged in.

Les plans de secours informatique à l’heure du Cloud

NTT Communications - Samuel CharlesAvis d'expert par Samuel Charles, responsable Architecture et Support chez NTT Communications

Le rôle de l’informatique est devenu fondamental dans les processus métiers de l’entreprise. L’interruption du fonctionnement du système d’information a aujourd’hui des conséquences importantes, qui se concrétisent généralement par une perte nette de chiffre d’affaires. Malgré cela, près d’un tiers des entreprises de plus de 200 salariés n’ont mis aucun plan en place pour gérer la continuité de leur activité[1], et ceci malgré la poussée des obligations réglementaires (SOX, SSAE16, ISAE 3402, Bâle II, LSF).

Pourtant, les risques sont bien réels : avec le développement du BYOD[2], la progression du nomadisme, les attaques virales, sans oublier les catastrophes naturelles subies ces dernières années dans plusieurs pays, les systèmes d’information (SI) sont de plus en plus exposés. Une simple panne informatique ou de réseau peut affecter sérieusement la disponibilité du SI.

En dehors des grands groupes et des activités soumises à des contraintes réglementaires fortes, les entreprises sont souvent freinées par le coût non négligeable de la mise en place d’un Plan de Reprise d’Activité (PRA) ou d’un Plan de Continuité d’Activité (PCA). Mais des solutions existent pour adapter le dispositif au risque encouru, avec des coûts optimisés, en profitant notamment du Cloud.

Quantifier le risque
Le coût d’un plan de secours, qu’il s’agisse d’un PRA ou d’un PCA, doit être mis en regard du coût des dommages subis lors d’un sinistre, jusqu’au retour à l’état nominal. Il ne faut pas oublier de regarder aussi les conséquences indirectes sur le revenu et sur la dégradation de l’image de l’entreprise suite au temps perdu et à l’interruption de services critiques tels que logistiques, financiers. Pour quantifier ces dommages potentiels et choisir le plan le mieux adapté, la première étape est de recenser les applications ou domaines les plus critiques, dont l’impact est le plus important sur l’activité de l’entreprise.

Prenons le cas, par exemple, de la plateforme e-commerce d’une entreprise, grande ou petite. Le risque est facilement quantifiable : il s’agit de la perte de chiffre d’affaires générée par l’interruption de services, à laquelle s’ajoute le dommage subi par la marque (une interruption trop longue décourage les internautes de revenir sur le site). Plusieurs solutions s’offrent à elle pour répondre aux effets d’une interruption de services :

Externaliser sur une plateforme redondante
Généralement, l’entreprise externalise sa plateforme chez un hébergeur, dans un data center pour bénéficier d’un environnement technique à l’état de l’art ainsi que de connexion performante à Internet. Ceci permet également de séparer une plateforme « ouverte » d’avec d’autres systèmes internes de l’entreprise.

Au-delà du risque de perte de données, il est important de définir le temps de rétablissement du service, RTO – Recovery Time Objective – qui peut être différent selon la criticité (2h, 4h ou 24h). Le premier élément est donc de disposer d’une architecture redondante au sein du data center primaire et, en cas d’interruption, de pouvoir restaurer rapidement l’environnement et les données.

Envisager la virtualisation et les architectures hybrides
La virtualisation est une solution à envisager : plus grande est la part virtualisée de votre plateforme, plus vous pouvez bénéficier de la haute disponibilité du Cloud. Avec l’économie réalisée, vous pouvez augmenter la résilience de la part non virtualisable de votre plateforme. Vous obtenez une architecture hybride composée de Cloud, d’éléments dédiées et d’une interconnexion réseau performante : c’est le Cloud Hybride ou « Hybrid Cloud ».

Le cloud permet de bénéficier d’une mise à disposition de la puissance non utilisée pour d’autres machines virtuelles et donc d’augmenter le ROI de la plateforme.

Plan de Secours en mode actif/passif
Si le coût d’une interruption de services est élevé, il faut alors envisager un plan de secours mobilisant deux data centers, en mode actif/passif ou voire même atteindre un mode actif/actif, où la résilience est plus élevée et si l’application supporte un tel dispositif.

En mode actif/passif, le mode de réplication des données est, en général, asynchrone. Une attention particulière devra être portée sur le système de réplication afin de prendre éventuellement en compte une hétérogénéité des solutions de stockages.

Si le client souhaite limiter la perte des données il est possible de mettre en place une réplication synchrone même en architecture active – passive.

A titre d’exemple, NTT Communications choisit le data center de secours approprié (en France, en Europe ou dans le monde) en fonction du RPO[3] (Recovery Point Objective) défini avec le client et de la technologie de stockage choisie.

Le plan de secours sera d’autant plus facile et économique, que la part du cloud privé virtuel sera importante. En effet, le cloud permet d’ajuster les coûts aux ressources réellement nécessaires. Ainsi, lorsque ce plan se déclenche, il est possible d’activer très rapidement davantage de ressources, pour prendre en compte l’augmentation de charge. L’intérêt est de pouvoir ajuster la puissance du système en quelques clics.

En mode actif/passif, nous faisons face au problème de l’informatique « dormante » : le côté passif – i.e. la plateforme de secours en attente - doit être diminuée au maximum, ou alors on doit veiller à l’utiliser à un autre usage, en régime normal, comme la pré-production.

Profiter des plateformes de pré-production
En effet, pour les plateformes en production vitales (e-commerce, ERP, etc.), les nouvelles versions des sites ne peuvent plus être publiées directement. Des environnements sont utilisés, pour tester et valider les nouvelles versions avant leur mise en production. Ce système, appelé plateforme de pré-production, peut être hébergé sur un autre data center. Or, ces plateformes de pré-production ne sont pas critiques – puisqu’elles ne jouent pas de rôle opérationnel.

Une astuce est donc d’attribuer à ces plateformes un double rôle : celui de plateforme de pré-production et celui de plateforme de secours. Grâce aux techniques au Cloud, et à des procédures bien rôdées, il est possible, en cas de sinistre, de transformer rapidement la plateforme de pré-production en plateforme de secours, le temps de remettre en service le système principal.

Pour pousser plus loin l’exercice, il est possible de mettre sur deux data centers différents, deux plateformes de production correspondants à deux applications différentes de telle manière à ce qu’une plateforme puisse accueillir l’autre.

Plan de secours en mode Actif/Actif
En effet, si l’impact économique d’un arrêt de la disponibilité de la plateforme est encore plus important, il faut envisager de mettre en place une double-plateforme, répartie sur deux data centers en mode actif/actif. Les deux plateformes restent continuellement actives et le trafic est alors réparti sur les deux centres en permanence. Bien entendu, des contraintes supplémentaires apparaissent :

le dimensionnement est calculé de façon à ce que les deux plateformes puissent, en cas de sinistre, accueillir le trafic du data center indisponible,

Un système d’équilibrage de charge global doit être mis en place entre les deux sites,

la réplication des bases de données entre les deux data centers doit se faire en quasi-temps réel. La mise en place d'un lien haut-débit à latence faible entre les deux centres est nécessaire. La distance peut atteindre aujourd’hui 100 km.

La gestion des sinistres au cœur de l’ADN du groupe NTT
En tant qu’entreprise japonaise, NTT est particulièrement sensible aux risques majeurs qui peuvent affecter les réseaux et les systèmes d’information. Les dispositifs existants ont fait leurs preuves notamment lors du tremblement de terre de 2011. Le PCA mis en place mondialement depuis de nombreuses années a permis de limiter fortement les conséquences de cette catastrophe sur les services proposés par l’opérateur, en mobilisant notamment près de 5 000 personnes pour activer les solutions de secours et garantir la continuité de services.

Une nouvelle ère
La virtualisation et les technologies de Cloud ont changé la donne car la virtualisation simplifie considérablement la tâche de création d’images miroir des serveurs critiques, et de duplication des données sur un autre lieu. Certains Cloud Privé Virtuel, comme Enterprise Cloud chez NTT, offre des services automatiques de réplication de données entre un data center du Cloud et un autre. Cette option « Global Data Back-Up » est gérée par le client et ne mobilise qu’un nombre minimal de ressources : du stockage et de la bande passante, facturée à la minute près, pour l’interconnexion entre les deux data center.

Ainsi, grâce au Cloud, les plans de continuité de services qui n’étaient accessibles qu’aux seules grandes entreprises, peuvent être proposés désormais aux entreprises de toute taille.


[1] Selon le rapport du Clusif

[2] Bring Your Own Device : Viens avec ton périphérique préféré
[3] RPO : Recovery Point Objective : Période maximale acceptable de perte de données


Partager cet article




Sur le même sujet...

Aucun Commentaire