Le marché de la transformation digitale est colossal: selon IDC, les investissements technologiques pour la soutenir atteindraient à l’échelle mondiale 2,3 billions de dollars dans les trois prochaines années. Cependant, maintenir une visibilité dans les environnements dynamiques, cloud hybrides ou natifs qui résultent de cette transformation peut être un véritable défi pour les organisations. Ces environnements sont par nature difficiles à observer, au point aujourd’hui de ne plus correspondre au scope des outils de monitoring traditionnels, et de ne plus pouvoir être totalement maitrisés par les équipes techniques. Compte tenu de l’échelle et de la complexité croissantes des environnements cloud d’entreprise actuels, les organisations doivent trouver de nouvelles façons de monitorer et de gérer les performances de leurs services digitaux. A défaut, elles courent le risque de passer à côté de problèmes imprévisibles, et d’en subir les conséquences.
De la visibilité à l’observabilité
Pour s’assurer de pouvoir résoudre les incidents avant qu’ils n’impactent l’expérience des utilisateurs, les équipes IT doivent avoir une visibilité transverse et exhaustive sur chaque brique de leur environnement technique, de leurs infrastructures multi-cloud à leurs plateformes d’orchestration de conteneurs comme Kubernetes, en passant par les services Mesh, les Functions-as-a-service et les Workloads de conteneurs. Jusqu’ici, les entreprises parvenaient généralement à maintenir un certain niveau de visibilité en définissant des tableaux de bord ainsi que des alertes en dur basées sur des seuils que leurs outils pouvaient détecter en cas de déviation. Une approche valable pour les architectures relativement statiques d’autrefois, mais totalement inadaptée aux environnements dynamiques et imprévisibles sur lesquels elles s’appuient aujourd’hui.
Pour les équipes IT, il s’agit donc de parvenir à qualifier et analyser des problèmes aléatoires ou uniques et non reproductibles, et ceci dans un environnement agile. C’est ce que permet l’observabilité, via une approche consistant à collecter des données sur tous les composants du système, afin de maintenir une visibilité continue. Cette approche se concentre sur trois types de données clés : les métriques, les logs, et les traces, aussi appelés les trois piliers de l’observabilité.
Bien que cette approche ne soit pas encore adoptée à grande échelle, les acteurs du marché s’efforcent de faire en sorte que les infrastructures et les logiciels cloud natifs soient intrinsèquement plus observables, comme en témoigne le projet OpenTelemetry (https://bit.ly/3ijDQWS), dirigé par la Cloud Native Computing Foundation (CNCF). L’observabilité est indéniablement bien plus efficace que les méthodes de monitoring traditionnelles, mais bien trop souvent, les données restent collectées et stockées en silos, ce qui empêche une bonne compréhension du contexte qui se cache derrière les anomalies. En effet, il ne suffit pas « d’observer » les données en silos : les entreprises doivent pouvoir les utiliser pour obtenir des informations contextualisées, et améliorer les résultats business.
Automatiser une approche plus clairvoyante
Comme la plupart des approches en matière d’observabilité se contentent d’accumuler des données dans des tableaux de bord, les développeurs se retrouvent à devoir manipuler ces données manuellement pour en tirer les informations pertinentes et utiles à une meilleure prise de décision des métiers. D’où l’importance d’automatiser, d’une part la découverte et l’instrumentation de tous les composants IT sur la stack technologique complète, d’autre part la collecte et l’analyse des données de bout en bout. Ce n’est qu’à cette condition que l’observabilité deviendra une approche véritablement efficace dans des environnements cloud par nature étendus et dynamiques. Ces données doivent par ailleurs être analysées selon un modèle transverse, pour supprimer les silos et fournir le contexte complet des anomalies ayant un impact sur le business.
L’intelligence artificielle (IA) constitue également un élément clé, en permettant aux équipes IT de voir évoluer automatiquement les baselines au fur et à mesure que les environnements évoluent. Cet apprentissage automatique permet de qualifier un comportement « normal » et d’analyser sa déviation avant l’apparition du problème critique. Grâce à l’IA, l’observabilité va jusqu’à fournir des réponses suffisamment précises pour que les équipes IT puissent répondre et résoudre très rapidement les problèmes avant qu’ils n’impactent trop l’expérience utilisateur.
Observer un futur plus prometteur
L’ampleur et la rapidité de la transformation numérique ne semblent pas vouloir s’atténuer et les organisations se débattent de plus en plus pour maintenir une observabilité de bout en bout dans des environnements dynamiques en perpétuelle évolution. De même qu’il est devenu impossible d’analyser ces volumes exponentiels de données de monitoring et de les traduire en réponses concrètes, l’objectif étant d’avoir une vision à 360° et d’être proactif pour limiter l’impact des problèmes.
Passer de la visibilité à l’observabilité : voilà l’étape cruciale que les organisations doivent franchir pour surmonter ces défis. Combinées à l’IA et à l’automatisation, les approches d’observabilité peuvent alors fournir les bases d’un monitoring efficace dans des environnements IT dynamiques et complexes. Les équipes IT n’ont ainsi plus besoin de se soucier de ce qu’elles ne voient pas, et peuvent consacrer plus de temps à des activités plus valorisantes et innovantes, le but étant de satisfaire les utilisateurs finaux et fournir aux équipes métiers un service de qualité.