La Visibilité à 100 %

A presentation at Google Cloud Summit Paris 2018 in June 2018 in Paris, France by Daniel "phrawzty" Maher

Slide 1

Slide 1

#GoogleCloudSummit @GoogleCloud_FR

Slide 2

Slide 2

La visibilité à 100 % Daniel Maher (@phrawzty) Datadog (@datadoghq)

Slide 3

Slide 3

La perspective est importante Les fameux « cylindres ambigus » de l’artist japonais Kokichi Sugihara.

Slide 4

Slide 4

Daniel Maher Developer Relations chez Datadog @phrawzty

Slide 5

Slide 5

● Platforme « SaaS » de monitoring, métriques, APM, logs… ● Des millions de milliards de points de données par jour ● Bon citoyens libre logiciels ● Nous embauchons ! http://datadoghq.com/careers ● @datadoghq

Slide 6

Slide 6

Le « Stack » Vue traditionnelle de l’organisation des diverses « couches » d’un service.

Slide 7

Slide 7

Repenser le « stack »

Slide 8

Slide 8

Récupérons quoi, alors ? Métriques Pratique afin de déterminer des tendances. Utile dans le contexte des alertes. Aide à identifier les « inconnues connues ».

Slide 9

Slide 9

Récupérons quoi, alors ? Métriques Traçage Pratique afin de déterminer des tendances. « Tracing » en anglais. Utile dans le contexte des alertes. Aide à identifier les « inconnues connues ». Basé sur des requêtes. Suivre l’activité des requêtes à travers les appels fonction et service. Aide à comprendre le comportement du code.

Slide 10

Slide 10

Récupérons quoi, alors ? Métriques Traçage Pratique afin de déterminer des tendances. « Tracing » en anglais. Utile dans le contexte des alertes. Aide à identifier les « inconnues connues ». Basé sur des requêtes. Suivre l’activité des requêtes à travers les appels fonction et service. Aide à comprendre le comportement de code. Journaux d’ évènements « Logs » en anglais. Basé sur des évènements, donc utile afin de poursuivre les petits détails. Verbose; structuré. Aide à identifier les « inconnues inconnues ».

Slide 11

Slide 11

La visibilité sur l’infra Le données: ● ● Métriques Journaux d’évènements Les outils : ● ● Surveillance niveau infra Gestion des journaux

Slide 12

Slide 12

La visibilité sur le back Le données: ● ● ● Métriques Journaux d’évènements Traçage Les outils : ● ● ● Surveillance niveau applicatif Gestion des journaux « APM »

Slide 13

Slide 13

La visibilité sur le front Le données: ● ● ● Métriques Journaux d’évènements Traçage Les outils : ● ● Synthétiques « RUM »

Slide 14

Slide 14

Comment obtenir de la visibilité ? Intelligence Business Intelligence Technique Qui ? Quoi ? Où ? Quand ? Comment ? Combien ? Pourquoi ?

Slide 15

Slide 15

Date-a-Dog Sortir avec un chiot. C’est une blague.

Slide 16

Slide 16

C’est top, cette appli ! Trop mignon ! J’adore les chiots ! Tout le monde l’utilise !

Slide 17

Slide 17

Ben alors ? Mes favoris ? Mes followers ? MES CHIOTS ?!

Slide 18

Slide 18

C’est drôle, parce que c’est vrai.

Slide 19

Slide 19

Comment pouvons-nous savoir si quelque chose c’est mal passé ? Vos utilisateurs le sauront - c’est certain.

Slide 20

Slide 20

RUM et Synthétiques « Real User Monitoring »

Slide 21

Slide 21

Scénario : panne de service RDC (CDN) ● Nous hébergeons les photos des chiots sur un réseau de diffusion de contenu (RDC, ou « CDN » en anglais), ce qui est un service tier. ● L’application mobile télécharge les images directement à partir de ce service. ● Le RDC devient la cible d’une attaque par déni de service distribué (DDoS) massive.

Slide 22

Slide 22

RUM « Real User Monitoring »

Slide 23

Slide 23

Synthétiques

Slide 24

Slide 24

Scénario : panne de service RDC (CDN) ● Selon la supervision d’infrastructure : OK ● Selon la supervision d’application : OK ● Selon APM : OK ● Selon RUM et Synthétiques : ALERTE ! Possibilité de montrer aussi les actifs lents ou inaccessibles.

Slide 25

Slide 25

Traçage et APM « Tracing and Application Performance Monitoring »

Slide 26

Slide 26

Scénario : panne de service du ● Nous utilisons un service de redimensionnement et optimisation d’image qui redimensionne les images de manière asynchrone. ● Le service fonctionne d’une manière aléatoire - certaines images sont traitées rapidement, d’autres mettre beaucoup plus de temps. ● Impossible de régler nous mêmes car la situation et hors de notre contrôle. redimensionnement

Slide 27

Slide 27

Traçage & APM

Slide 28

Slide 28

Traçage & APM

Slide 29

Slide 29

Traçage & APM

Slide 30

Slide 30

Scénario : panne de service du redimensionnement ● Selon la surveillance d’infrastructure : OK ● Selon la surveillance d’application : ALERTE ? Possible si il y a un impact sur des métriques dont des moniteurs sont déjà configurés. ● Selon APM : ALERTE ! De plus, capable de montrer la latence, et de préciser exactement où le problème se trouve dans le code et la requête. ● Selon RUM et Synthétiques : OK

Slide 31

Slide 31

Surveillance d’Application « Application Monitoring »

Slide 32

Slide 32

Scénario : du code bogué est déployé ● Une section de code qui interagit avec le mécanisme de connexion. ● Utilise la mauvaise technique de hachage - les utilisateurs ne peuvent plus s’authentifier ! Catastrophe ! ● Entièrement possible que le code est structuré correctement et donc indétectable par les tests automatisés.

Slide 33

Slide 33

Surveillance d’Application

Slide 34

Slide 34

Scénario : du code bogué est déployé ● Selon la surveillance d’infrastructure : OK ● Selon la surveillance d’application : ALERTE ! De plus, elle identifiera l’impact sur les mesures personnalisées et peut aider à identifier le « pourquoi » . ● Selon APM : OK ● Selon RUM et Synthétiques : OK

Slide 35

Slide 35

Surveillance d’Infrastructure « Infrastructure Monitoring »

Slide 36

Slide 36

Scénario : juste trop populaire ! ● Les gens adorent les chiots et l’application est un succès monumentale (bravo) ! ● Oups - nous n’avons plus de ressources côté serveur pour répondre à toutes les demandes! ● C’est un bon problème à subir, mais ça reste un problème quand même.

Slide 37

Slide 37

Surveillance d’Infrastructure

Slide 38

Slide 38

Scénario : juste trop populaire ! ● Selon la surveillance d’infrastructure : ALERTE ! Identifiera le problème, son endroit précis dans l’infra, et peut même déclencher une remédiation automatique. ● Selon la surveillance d’application : OK ● Selon APM : OK ● Selon RUM et Synthétiques : OK

Slide 39

Slide 39

métriques La Triforce ! c.f. The Legend of Zelda (1986) traçage journal d’ évènements

Slide 40

Slide 40

Quand ? Où ? Quoi ? métriques La Triforce ! c.f. The Legend of Zelda (1986) SYSTÈME Comment ? Pourquoi ? traçage journal d’ évènements

Slide 41

Slide 41

Ben alors ? Mes favoris ? Mes followers ? MES CHIOTS ?!

Slide 42

Slide 42

Slide 43

Slide 43

Slide 44

Slide 44

Slide 45

Slide 45

Slide 46

Slide 46

Les clés de la visibilité à 100 % ● Considérez l’ensemble. Les composants n’existent pas dans le vide. L’éco-système n’est pas fermé. Utilisez une approche holistique. ● Obtenez des multiples perspectives en exploitant toutes les sources de données. ● Préférez les outils « holistiques » qui vous permet de vous déplacer facilement entre les différentes couches et perspectives.

Slide 47

Slide 47

Slide 48

Slide 48

Visibilité :: DevOps

Slide 49

Slide 49

Visibilité :: DevOps

Slide 50

Slide 50

Visibilité :: DevOps

Slide 51

Slide 51

100 % visibilité 100 % devops Merci !

Slide 52

Slide 52

Come and join us at Next London ‘18! October 10th -11th, 2018 ExCeL, London Register at g.co/NextLondon18/Paris Thank you.