juillet 24, 2024

CrowdStrike : La Leçon à Retenir pour Éviter les Bugs Majeurs

Start-ups, Technologie Avancée
4 min de lecture
Modifier l'Article
519 Vues
Steven Soarez
0 Comments

Imaginez : aéroports à l'arrêt, services d'urgence injoignables, hôpitaux paralysés... Le tout à cause d'un simple patch logiciel. C'est le scénario cauchemardesque qu'a vécu l'éditeur de cybersécurité CrowdStrike la semaine dernière. Un patch relativement mineur a en effet semé la pagaille dans de nombreux services critiques tournant sous Windows. Si l'origine du problème - un bug - est connue, la façon dont ce code défectueux a pu passer entre les mailles du filet reste un mystère. Mais une chose est sûre : même avec des processus de déploiement rodés, le risque zéro n'existe pas. Alors comment s'en approcher le plus possible ? Éléments de réponse avec des experts du déploiement logiciel.

Débriefing express du "CrowdStrike Gate"

Vendredi dernier, les équipes de CrowdStrike déploient ce qui semble être un patch de routine. Rapidement, c'est la douche froide : le patch cause des dysfonctionnements majeurs sur de nombreux systèmes Windows. Aéroports, hôpitaux, centres d'appels d'urgence... Des services critiques tombent les uns après les autres. CrowdStrike réagit rapidement en déployant un correctif, mais le mal est fait. Sa réputation en prend un coup, comme en témoigne la chute brutale de son cours de bourse.

Dans un communiqué, l'entreprise a reconnu la gravité de l'incident et identifié la cause racine, sans donner plus de détails sur la façon dont ce bug a pu passer les contrôles qualité. Un point qui devra sans doute être clarifié en interne pour éviter que cela ne se reproduise.

Déploiement logiciel : des garde-fous existent

Pour Dan Rogers, CEO de LaunchDarkly, spécialiste des feature flags (ou feature toggles), la plupart des bugs logiciels sont évitables :

Les bugs logiciels arrivent, mais la plupart des problèmes que les utilisateurs rencontrent ne sont pas liés à l'infrastructure. Ils viennent du déploiement d'un logiciel qui ne fonctionne pas, et ça, c'est très contrôlable.
– Dan Rogers, CEO de LaunchDarkly

Son conseil : utiliser des feature flags pour contrôler finement le déploiement des nouvelles fonctionnalités. Cela permet de les activer progressivement et de les désactiver rapidement en cas de problème, limitant ainsi la casse.

Le nerf de la guerre : les tests

Jyoti Bansal, fondateur et CEO de Harness Labs, spécialiste des outils de pipeline DevOps, pointe quant à lui l'importance des tests poussés avant tout déploiement. Mais il constate que dans les grosses structures, certaines équipes ont parfois tendance à les négliger pour les mises à jour mineures. Un raccourci qui peut coûter cher !

Son autre conseil : standardiser les pratiques DevOps, en particulier dans les entreprises comptant de nombreuses équipes de développement. Histoire d'éviter que chacun n'y aille de sa propre "recette".

Du bon usage des déploiements "canari"

Outre les bons réflexes en termes de tests et de feature flags, Dan Rogers et Jyoti Bansal recommandent tous deux le recours aux déploiements "canari". Le principe : déployer d'abord auprès d'un petit groupe d'utilisateurs, observer, puis élargir progressivement. Comme les fameux canaris envoyés dans les mines pour détecter les fuites de gaz toxiques.

Jyoti Bansal souligne qu'un logiciel peut très bien passer les tests en labo et poser problème une fois dans la nature. D'où l'intérêt de combiner tests poussés et déploiement progressif pour rattraper ce que les tests en labo auraient manqué.

Trouver le bon équilibre

Si des processus de déploiement robustes sont indispensables, nos deux experts mettent en garde contre la tentation de mettre en place des procédures trop rigides en réaction à un incident. Cela risquerait de freiner l'innovation en rallongeant démesurément les cycles de tests.

Le défi est donc de trouver le bon équilibre entre sécurité/gouvernance et vélocité de déploiement. Des approches "shift-left" intégrant les contrôles qualité et sécurité très en amont peuvent aider. À condition de veiller à ne pas trop alourdir les pipelines et décourager les équipes de les utiliser.

Tirer les leçons d'un incident comme celui de CrowdStrike prendra du temps. Mais une chose est sûre : des approches existent pour minimiser les risques liés aux déploiements logiciels. En combinant bonnes pratiques de tests, feature flags et déploiements canari, il est possible de s'approcher du risque zéro. Même s'il n'existera jamais vraiment dans un monde aussi complexe que celui du logiciel.

CrowdStrike : La Leçon à Retenir pour Éviter les Bugs Majeurs

CrowdStrike : La Leçon à Retenir pour Éviter les Bugs Majeurs

Débriefing express du "CrowdStrike Gate"