La visibilité à 100 % Daniel Maher (@phrawzty) Datadog (@datadoghq)
Slide 3
La perspective est importante Les fameux « cylindres ambigus » de l’artist japonais Kokichi Sugihara.
Slide 4
Daniel Maher Developer Relations chez Datadog @phrawzty
Slide 5
●
Platforme « SaaS » de monitoring, métriques, APM, logs…
●
Des millions de milliards de points de données par jour
●
Bon citoyens libre logiciels
●
Nous embauchons ! http://datadoghq.com/careers
●
@datadoghq
Slide 6
Le « Stack » Vue traditionnelle de l’organisation des diverses « couches » d’un service.
Slide 7
Repenser le « stack »
Slide 8
Récupérons quoi, alors ?
Métriques Pratique afin de déterminer des tendances. Utile dans le contexte des alertes. Aide à identifier les « inconnues connues ».
Slide 9
Récupérons quoi, alors ?
Métriques
Traçage
Pratique afin de déterminer des tendances.
« Tracing » en anglais.
Utile dans le contexte des alertes. Aide à identifier les « inconnues connues ».
Basé sur des requêtes. Suivre l’activité des requêtes à travers les appels fonction et service. Aide à comprendre le comportement du code.
Slide 10
Récupérons quoi, alors ?
Métriques
Traçage
Pratique afin de déterminer des tendances.
« Tracing » en anglais.
Utile dans le contexte des alertes. Aide à identifier les « inconnues connues ».
Basé sur des requêtes. Suivre l’activité des requêtes à travers les appels fonction et service. Aide à comprendre le comportement de code.
Journaux d’ évènements « Logs » en anglais. Basé sur des évènements, donc utile afin de poursuivre les petits détails. Verbose; structuré. Aide à identifier les « inconnues inconnues ».
Slide 11
La visibilité sur l’infra Le données: ● ●
Métriques Journaux d’évènements
Les outils : ● ●
Surveillance niveau infra Gestion des journaux
Slide 12
La visibilité sur le back Le données: ● ● ●
Métriques Journaux d’évènements Traçage
Les outils : ● ● ●
Surveillance niveau applicatif Gestion des journaux « APM »
Slide 13
La visibilité sur le front Le données: ● ● ●
Métriques Journaux d’évènements Traçage
Les outils : ● ●
Synthétiques « RUM »
Slide 14
Comment obtenir de la visibilité ? Intelligence Business
Intelligence Technique
Qui ? Quoi ? Où ? Quand ? Comment ? Combien ? Pourquoi ?
Slide 15
Date-a-Dog Sortir avec un chiot. C’est une blague.
Slide 16
C’est top, cette appli ! Trop mignon ! J’adore les chiots ! Tout le monde l’utilise !
Slide 17
Ben alors ? Mes favoris ? Mes followers ? MES CHIOTS ?!
Slide 18
C’est drôle, parce que c’est vrai.
Slide 19
Comment pouvons-nous savoir si quelque chose c’est mal passé ? Vos utilisateurs le sauront - c’est certain.
Slide 20
RUM et Synthétiques « Real User Monitoring »
Slide 21
Scénario : panne de service RDC
(CDN)
●
Nous hébergeons les photos des chiots sur un réseau de diffusion de contenu (RDC, ou « CDN » en anglais), ce qui est un service tier.
●
L’application mobile télécharge les images directement à partir de ce service.
●
Le RDC devient la cible d’une attaque par déni de service distribué (DDoS) massive.
Slide 22
RUM « Real User Monitoring »
Slide 23
Synthétiques
Slide 24
Scénario : panne de service RDC
(CDN)
●
Selon la supervision d’infrastructure : OK
●
Selon la supervision d’application : OK
●
Selon APM : OK
●
Selon RUM et Synthétiques : ALERTE ! Possibilité de montrer aussi les actifs lents ou inaccessibles.
Slide 25
Traçage et APM « Tracing and Application Performance Monitoring »
Slide 26
Scénario : panne de service du
●
Nous utilisons un service de redimensionnement et optimisation d’image qui redimensionne les images de manière asynchrone.
●
Le service fonctionne d’une manière aléatoire - certaines images sont traitées rapidement, d’autres mettre beaucoup plus de temps.
●
Impossible de régler nous mêmes car la situation et hors de notre contrôle.
redimensionnement
Slide 27
Traçage & APM
Slide 28
Traçage & APM
Slide 29
Traçage & APM
Slide 30
Scénario : panne de service du
redimensionnement
●
Selon la surveillance d’infrastructure : OK
●
Selon la surveillance d’application : ALERTE ? Possible si il y a un impact sur des métriques dont des moniteurs sont déjà configurés.
●
Selon APM : ALERTE ! De plus, capable de montrer la latence, et de préciser exactement où le problème se trouve dans le code et la requête.
●
Selon RUM et Synthétiques : OK
Scénario : du code bogué est déployé
●
Une section de code qui interagit avec le mécanisme de connexion.
●
Utilise la mauvaise technique de hachage - les utilisateurs ne peuvent plus s’authentifier ! Catastrophe !
●
Entièrement possible que le code est structuré correctement et donc indétectable par les tests automatisés.
Slide 33
Surveillance d’Application
Slide 34
Scénario : du code bogué est déployé
●
Selon la surveillance d’infrastructure : OK
●
Selon la surveillance d’application : ALERTE ! De plus, elle identifiera l’impact sur les mesures personnalisées et peut aider à identifier le « pourquoi » .
●
Selon APM : OK
●
Selon RUM et Synthétiques : OK
Scénario : juste trop populaire !
●
Les gens adorent les chiots et l’application est un succès monumentale (bravo) !
●
Oups - nous n’avons plus de ressources côté serveur pour répondre à toutes les demandes!
●
C’est un bon problème à subir, mais ça reste un problème quand même.
Slide 37
Surveillance d’Infrastructure
Slide 38
Scénario : juste trop populaire !
●
Selon la surveillance d’infrastructure : ALERTE ! Identifiera le problème, son endroit précis dans l’infra, et peut même déclencher une remédiation automatique.
●
Selon la surveillance d’application : OK
●
Selon APM : OK
●
Selon RUM et Synthétiques : OK
Slide 39
métriques
La Triforce ! c.f. The Legend of Zelda (1986)
traçage
journal d’ évènements
Slide 40
Quand ?
Où ?
Quoi ? métriques
La Triforce ! c.f. The Legend of Zelda (1986)
SYSTÈME
Comment ?
Pourquoi ?
traçage
journal d’ évènements
Slide 41
Ben alors ? Mes favoris ? Mes followers ? MES CHIOTS ?!
Slide 42
Slide 43
Slide 44
Slide 45
Slide 46
Les clés de la visibilité à 100 %
●
Considérez l’ensemble. Les composants n’existent pas dans le vide. L’éco-système n’est pas fermé. Utilisez une approche holistique.
●
Obtenez des multiples perspectives en exploitant toutes les sources de données.
●
Préférez les outils « holistiques » qui vous permet de vous déplacer facilement entre les différentes couches et perspectives.
Slide 47
Slide 48
Visibilité :: DevOps
Slide 49
Visibilité :: DevOps
Slide 50
Visibilité :: DevOps
Slide 51
100 % visibilité 100 % devops Merci !
Slide 52
Come and join us at Next London ‘18! October 10th -11th, 2018 ExCeL, London Register at g.co/NextLondon18/Paris
Thank you.