Transformez votre Data Warehouse avec Azure Synapse Analytics

Microsoft a annoncé Azure Synapse Analytics, la prochaine évolution d'Azure SQL Data Warehouse. Dans cet article nous découvrirons les fonctionnalités d’Azure Synapse Analytics, et son intérêt pour votre entreprise.

Le 4 novembre 2019, Microsoft annoncait Azure Synapse Analytics, la prochaine évolution d’Azure SQL Data Warehouse. Depuis le 3 décembre 2020, cette solution est enfin disponible. Dans cet article, nous nous intéresserons aux fonctionnalités d’Azure Synapse Analytics, et nous verrons son intérêt pour votre entreprise.

Qu’est-ce qu’Azure Synapse Analytics ?

Azure Synapse Analytics est « un service d’analytique illimité qui regroupe l’entreposage de données d’entreprise et l’analytique du Big Data. »

Cela signifie qu’Azure Synapse Analytics (Synapse) est un entrepôt de données dans le cloud, très similaire à Azure SQL Data Warehouse. La principale différence entre Synapse et son prédécesseur réside dans le fait qu’il rassemble au sein d’un seul service et de manière homogène, plusieurs technologies, charges de travail et rôles.

Synapse est organisé autour du Data Lake comme une source d’enregistrement pour toutes les données organisationnelles. L’architecture de Synapse repose sur trois elements principaux :

Une puissance de calculs similaire à celle d’Azure SQL Data Warehouse, nécessaire aux analyses.
L’intégration d’Apache Spark fournit un moteur de traitement massivement parallèle (MPP) capable de traiter des données volumineuses et des charges de travail de Machine Learning à grande échelle.
Un moteur SQL à la demande pour l’exploration, l’extraction, le chargement, la transformation (ELT), le tout alimenté de puissantes fonctionnalités intégrées au pipeline de Synapse.

Avec cette solution, Microsoft a réalisé sa vision d’une plateforme consolidée qui combine une interface utilisateur (IU) élégante et unifiée avec une intégration profonde dans l’ensemble de l’écosystème Azure. Synapse est la preuve que l’évolution des données modernes a permis aux entreprises, d’avoir de nouvelles informations.

Quoi de neuf dans Azure Synapse Analytics ?

Synapse regorge de fonctionnalités innovantes, si nombreuses que nous ne pourrions pas toutes les mentionner dans un seul article. Cela dit, quatre éléments méritent une analyse plus approfondie :

Studio

Studio est l’interface utilisateur de Synapse, à laquelle vous pouvez accéder depuis le portail Azure en cliquant sur l’URL de l’espace de travail. Lorsque vous accédez à l’outil, vous obtenez une surface de conception unifiée organisée autour de plusieurs domaines fonctionnels appelés « hubs ». Vous pouvez trouver les activités principales dans les hubs Data, Develop et Integrate, et les activités de configuration dans les hubs Monitor et Manage.

L’interface utilisateur de Synapse a été décrite en détail, mais en général, cette solution excelle en regroupant un large éventail de technologies complexes.

Plus en detail:

Le hub Data est dédié à la navigation et à la mise en relation de diverses ressources, tant dans l’espace de travail qu’à l’extérieur. Accédez et gérez directement votre Data Lake à partir de cette zone, explorez les tableaux Spark ou accédez aux ensembles de données d’intégration.
Le hub Develop est le lieu où se déroulent les diverses activités d’ingénierie, d’analyse et d’exploration des données ; c’est là que la majorité des utilisateurs passeront probablement leur temps. Parmi les points forts du hub Develop, citons les éditeurs IntelliSense intégrés pour les artefacts de code (Notebooks et scripts SQL), l’intégration de Power BI pour la manipulation des rapports et les flux de données. La nouvelle intégration de Git, longtemps attendue lors de la présentation, apporte le contrôle de la source et des modèles de type Data Factory au flux de développement pour une intégration facile dans les modèles CI/CD.
Le hub Integrate est l’endroit où vous pouvez accéder à la fonctionnalité Synapse Pipelines. Les utilisateurs de Data Factory se sentiront très à l’aise dans cet environnement. Il est facile de manipuler visuellement les pipelines, et la sélection des activités et des blocs de construction logiques vous permet de construire des tâches d’orchestration complexes, de les intégrer à des applications logiques et de les programmer pour qu’elles se déclenchent automatiquement selon les besoins. Pour commencer, consultez la Galerie, qui contient des astuces de démarrage utiles, ainsi que des exemples plus sophistiqués pour des tâches courantes telles que le changement lent des dimensions. Comme le hub Develop, le hub Integrate offre une intégration transparente avec Git.

Enfin, vous pouvez accéder aux tâches administratives via le hub Manage. Grâce à ce hub, vous pouvez approvisionner et manipuler les pools, ainsi que configurer diverses fonctionnalités telles que les Runtimes d’intégration.
Les tâches administratives sont complétées par le hub Monitor, qui permet de suivre et d’analyser le fonctionnement des pipelines et d’autres activités.

Synapse SQL (SQL Pools) & SQL On-demand

Synapse SQL est le moteur d’analyse standard T-SQL de la solution, conçu pour une manipulation performante de données structurées. Nouveau dans Synapse, ce moteur est disponible à la fois dans sa version traditionnelle et dans une nouvelle offre « à la demande ».

Le calcul provisionné dans les pools SQL est la prochaine génération d’entrepôt de données SQL. Cette fonctionnalité n’a sans doute pas la même renommée que le reste de la solution, peut-être parce que son succès en tant qu’entrepôt de données robuste et fiable est déjà faite sur le secteur. Malgré cela, Synapse a apporté une série d’améliorations aux pools SQL qu’il ne faut pas négliger, à commencer par ses capacités sophistiquées de gestion de la charge de travail, qui permettent aux utilisateurs d’affiner l’allocation des ressources dans les différents groupes de travail. Il existe également la fonction COPY, très performante, qui permet de charger des données à partir de comptes de stockage externes. Enfin, des améliorations telles que la clause PREDICT intègrent l’IA et le Machine Learning en permettant la l’évaluation du modèle en natif à partir de Transact-SQL. Le thème d’une plateforme unifiée se poursuit avec les capacités spécialisées des Notebooks Spark, qui permettent des chargements de données échelonnées (PolyBase) à grande vitesse et une sécurité simplifiée.

L’annonce de SQL à la demande est importante car elle comble une lacune qui, dans le passé, constituait un compromis inhérent à la conception des systèmes de données d’entreprise. La réalité des écosystèmes de données complexes est que les modèles de demande varient en fonction de la charge de travail, des utilisateurs, etc… Cette réalité peut être difficile à gérer car vous devez prendre des décisions architecturales en fonction de la quantité de calculs provisionnés dont vous avez besoin pour effectuer les analyses et gérer les tâches auxiliaires, telles que le nettoyage, l’ingénierie et l’exploration des données, et de leur place dans l’architecture. Pour le calcul provisionné, si vous provisionnez trop, vous pourriez finir par payer trop cher ; si vous ne provisionnez pas assez, vous pourriez avoir des performances imprévisibles et d’autres problèmes de qualité.

Le calcul « à la demande » permet de faire face à des charges de travail importantes et imprévisibles en étant toujours disponible et fournit un ensemble d’outils supplémentaires au sein de l’architecture des données. L’exploration du Data Lake, qu’il soit stocké en Parquet, ORCou CSV (valeurs séparées par des virgules), est aussi simple qu’un clic droit, sans outil ou travail supplémentaire. SQL à la demande comprend également de nouvelles améliorations pour les tâches ELT/Extract, Transform, Load, avec des fonctionnalités telles que des analyseurs de texte délimité aux performances optimisées ; cela ajoute une autre fonction à Synapse Pipelines. La puissance naturelle et la connaissance de SQL Server peuvent être mises à profit lors du prototypage de requêtes ou de la réalisation d’autres tâches ad hoc sans avoir à se rapprocher de la charge prévue sur le calcul primaire. SQL à la demande est facturé en fonction de la quantité de données traitées et peut être contrôlé si nécessaire, par des restrictions quotidiennes, hebdomadaires et mensuelles.

Apache Spark

Les pools Apache Spark complètent la liste des options de calcul d’Azure Synapse Analytics avec un puissant moteur MPP (Massive Parallel Processing) conçu pour le traitement en mémoire du Big Data. Les systèmes MPP vous permettent d’exploiter le calcul en parallèle et sont parfaitement adaptés aux charges de travail semi-structurées ou non structurées typiques de l’utilisation des Objets Connectés (IoT) et du Machine Learning.

L’implémentation de Synapse est disponible nativement depuis le hub Develop, où vous pouvez directement écrire des Notebooks à l’aide d’un éditeur puissant. Les services cognitifs et le Machine Learning sont également intégrés de manière native. Un clic droit dans le hub Data, qui est alimenté par des assistants intelligemment configurés à partir de services liés et d’autres produits de configuration, permet de créer des Notebooks de démarrage qui utilisent ces services.

Il est clair qu’avec Synapse, Microsoft a beaucoup réfléchi à la manière d’accroître la productivité, que l’utilisateur soit un scientifique ou un ingénieur en données ou encore un commercial. Synapse facilite l’exploration des données de base grâce à une cartographie et une agrégation intégrées. IntelliSense est diffusé par tous les éditeurs, et vous pouvez utiliser plusieurs langues dans le même Notebook, y compris Python (PySpark), C#, Scala ou Spark SQL.

Synapse Pipelines

Synapse Pipelines est analogue à Azure Data Factory, le service d’intégration de données hybrides bien connu d’Azure. Les pipelines se trouvent logiquement au cœur de l’écosystème Synapse et fournissent un cadre d’orchestration et de mouvement des données permettant d’ingérer des données provenant de multiples sources, ou d’atterrir dans le stock de données approprié prêt pour les activités de calcul. Vous pouvez accéder aux pipelines via leur propre hub dans l’interface utilisateur de Synapse.

Evidemment, vous pouvez transférer des données dans le Data Lake depuis presque n’importe quel système source en utilisant plus de 90 connecteurs de service différents, d’Oracle aux API REST ou l’utiliser pour orchestrer l’ingestion dans le Data Warehouse. Vous pouvez intégrer les Notebooks Spark à n’importe quel pipeline, complétant ainsi les options d’ingénierie des données des pipelines.

Pour ceux qui connaissent Azure Data Factory, les flux de données sont notamment absents des pipelines. Soyez assuré que cette fonctionnalité d’enrichissement des données est disponible dans Synapse et peut être trouvée dans le hub Develop.

Fonctionnalité Phare d’Azure Synapse Analytics : Synapse Link

Comme vu précédemment, Azure Synapse Analytics dispose d’une liste étendue de fonctionnalités et de capacités, et nous nous attendons à de nombreuses autres innovations passionnantes dans les mois à venir. L’une des principales fonctionnalités actuellement disponibles est Synapse Link.

L’un des défis couramment associés aux solutions d’entreposage de données est la déconnexion entre les données de séquence à chaud et celles de séquence à froid. Il faut une quantité incroyable de travail pour intégrer de grandes quantités de données dans un modèle sémantique adapté à l’analyse, et ce processus impose une latence dans la conception. Lorsque les données en question entrent dans un système à l’échelle, comme c’est le cas avec les charges de travail de l’IoT, cette architecture a souvent du mal à suivre. Synapse introduit une nouvelle fonctionnalité appelée Synapse Link qui exploite le traitement hybride transactionnel/analytique pour explorer les données du côté entrepôt analytique sans affecter la performance du système de données source. En effet, Synapse Link offre une fenêtre en temps réel sur le flux de données et l’analyse opportune, à l’instar des technologies de capture de données.

Synapse Link est actuellement disponible uniquement pour Cosmos DB, mais il sera sans doute ajouté à d’autres SGBD à l’avenir.

Comment tirer profit de l’analyse de données de synapse Azure dans votre entreprise ?

Azure Synapse Analytics est, en un sens, à la fois une redynamisation des produits et services clés au sein de l’écosystème Azure Data Services et une réinvention. Toute entreprise cherchant à moderniser son approche des données gagnerait à mettre en œuvre Synapse, qu’elle soit dans les débuts de sa transformation digitale ou déjà avancée dans son parcours.

Pour les entreprises de taille moyenne qui ont déjà investi dans Data Lake, qui ont construit des entrepôts de données SQL ou qui reposent déjà sur une plateforme Power BI importante, vous pouvez démocratiser radicalement ces investissements grâce à l’intégration complète et étroite de Synapse avec l’écosystème Azure existant. En général, la voie de migration est simple, et Synapse peut tirer parti de ces investissements presque dès le départ. Les entreprises plus avancées dans le projet peuvent également bénéficier de Synapse par son intégration aux capacités les plus convaincantes d’Azure, notamment le Machine Learning et les services cognitifs. Vous pouvez déployer Synapse comme une évolution naturelle de ces investissements, comme un moyen de rationaliser votre architecture en réduisant le nombre de composants, et comme un moyen de simplifier l’accès.

Synapse est un atout majeur pour les entreprises qui sont relativement nouvelles sur le marché du cloud car il permet de simplifier le processus d’adoption du cloud et de réduire une grande partie de la complexité associée à l’approche traditionnelle des applications multiples en silos. En associant différentes sources de données et technologies, Synapse élimine non seulement ces obstacles, mais favorise également une approche agile de l’expérimentation.

Si vous êtes prêt à profiter des avantages d’Azure Synapse Analytics, Hitachi Solutions peut vous accompagner. Notre relation étroite avec Microsoft nous confère une compréhension approfondie de ces outils, ce qui nous rend parfaitement aptes à fournir des visions à long terme et des solutions concrètes pour l’ensemble de la solution Azure. Nous avons prouvé notre expertise à travers nos multiples collaborations sur des projets similaires de Modern Data Platform, de l’introduction de nouveaux utilisateurs aux outils Azure à la conduite des migrations Azure les plus complexes. En outre, notre propriété intellectuelle et nos accélérateurs peuvent vous aider à réaliser votre vision plus rapidement et avec moins de risques.

La transformation Métiers commence avec une I.D.E.A

Nicolas Bouchet

Nicolas travaille depuis 4 ans dans la data. Il a accompagné plusieurs sociétés dans leur transformation digitale, notamment dans l'implémentation et l'audit de rapports Power BI, la mise en place de bonnes pratiques en termes de modélisation de données, de sécurité ou de gouvernance ou encore la gestion d'un entrepôt de donnée.

Cookie	Durée	Description
cookielawinfo-checkbox-advertisement	1 an	Défini par le plugin GDPR Cookie Consent, ce cookie est utilisé pour enregistrer le consentement de l'utilisateur pour les cookies de la catégorie " Publicité " .
cookielawinfo-checkbox-analytics	1 an	Défini par le plugin GDPR Cookie Consent, ce cookie est utilisé pour enregistrer le consentement de l'utilisateur pour les cookies de la catégorie "Analytics" ou "Analytique".
cookielawinfo-checkbox-functional	1 an	Le cookie est défini par le plugin de consentement aux cookies GDPR pour enregistrer le consentement de l'utilisateur pour les cookies de la catégorie "Fonctionnel".
cookielawinfo-checkbox-necessary	1 an	Défini par le plugin GDPR Cookie Consent, ce cookie est utilisé pour enregistrer le consentement de l'utilisateur pour les cookies de la catégorie " Obligatoire".
JSESSIONID	session	Le cookie JSESSIONID est utilisé par New Relic pour stocker un identifiant de session afin que New Relic puisse surveiller le nombre de sessions pour une application.
viewed_cookie_policy	1 an	Ce cookie est défini par le plugin GDPR Cookie Consent pour stocker si l'utilisateur a consenti ou non à l'utilisation de cookies. Il ne conserve aucune donnée personnelle.
wordpress_monolith_access_gated_content	30 Jours	Un cookie pour mémoriser les entrées du contenu réservé

Cookie	Durée	Description
__cf_bm	30 minutes	Ce cookie, défini par Cloudflare, est utilisé pour prendre en charge la gestion des robots Cloudflare.
AnalyticsSyncHistory	1 Mois	Utilisé par LinkedIn pour stocker des informations sur le moment où une synchronisation a eu lieu avec le cookie lms_analytics.
bcookie	1 an	LinkedIn définit ce cookie à partir des boutons de partage LinkedIn et des balises publicitaires pour reconnaître l'ID du navigateur.
bscookie	1 an	LinkedIn définit ce cookie pour mémoriser les actions effectuées sur le site Web.
lang	session	LinkedIn définit ce cookie pour se souvenir du paramètre de langue d'un utilisateur.
li_gc	5 Mois 27 Jours	Utilisé par LinkedIn pour stocker le consentement des internautes concernant l'utilisation de cookies à des fins non essentielles.
lidc	1 Jour	LinkedIn définit le cookie lidc pour faciliter la sélection du centre de données.
ln_or	1 Jour	Utilisé par LinkedIn pour déterminer si les analyses Oribi peuvent être effectuées sur un domaine spécifique.
pll_language	1 an	Le cookie pll _language est utilisé par Polylang pour se souvenir de la langue sélectionnée par l'utilisateur lorsqu'il revient sur le site Web, et également pour obtenir les informations relatives à la langue lorsqu'elles ne sont pas disponibles d'une autre manière.
UserMatchHistory	1 Mois	LinkedIn définit ce cookie pour la synchronisation des identifiants de LinkedIn Ads.

Cookie	Durée	Description
_ga	2 ans	Le cookie _ga, installé par Google Analytics, calcule les données relatives aux visiteurs, aux sessions et aux campagnes et assure également le suivi de l'utilisation du site pour le rapport d'analyse du site. Le cookie enregistre les informations de manière anonyme et attribue un numéro généré de manière aléatoire pour reconnaître les visiteurs uniques.
_gat_UA-97336965-1	1 minute	Une variante du cookie _gat défini par Google Analytics et Google Tag Manager pour permettre aux propriétaires de sites Web de suivre le comportement des visiteurs et de mesurer les performances du site. Le motif du nom contient le numéro d'identité unique du compte ou du site Web auquel il se rapporte.
_gid	1 Jour	Installé par Google Analytics, le cookie _gid stocke des informations sur la façon dont les visiteurs utilisent un site Web, tout en créant un rapport analytique des performances du site. Parmi les données collectées figurent le nombre de visiteurs, leur provenance et les pages qu'ils visitent de manière anonyme.
CONSENT	2 ans	YouTube place ce cookie par le biais de vidéos youtube intégrées et enregistre des données statistiques anonymes.
cusid	30 minutes	ClickDimensions définit ce cookie pour établir et poursuivre une session utilisateur avec le site.
cuvid	2 ans	Ce cookie, défini par ClickDimensions, est inscrit dans le navigateur lors de la première visite du site à partir de ce navigateur Web.
cuvon	30 minutes	ClickDimensions définit ce cookie pour stocker la dernière fois qu'un visiteur a consulté une page.
eqy_sessionid	session	Ce cookie attribue un numéro d'identification aléatoire au visiteur. Cette information peut être utilisée pour identifier le visiteur lorsqu'il revient sur le site et utilise les préférences utilisateur afin d'optimiser l'expérience du visiteur sur le site.
eqy_siteid	session	Ce cookie attribue un numéro d'identification aléatoire au visiteur. Cette information peut être utilisée pour identifier le visiteur lorsqu'il revient sur le site et utilise les préférences utilisateur afin d'optimiser l'expérience du visiteur sur le site.
gq_utm	session	Ce cookie attribue un numéro d'identification aléatoire au visiteur. Cette information peut être utilisée pour identifier le visiteur lorsqu'il revient sur le site et utilise les préférences utilisateur afin d'optimiser l'expérience du visiteur sur le site.
vuid	2 ans	Vimeo installe ce cookie pour collecter des informations de suivi en définissant un identifiant unique pour intégrer des vidéos sur le site Web.

Cookie	Durée	Description
VISITOR_INFO1_LIVE	5 Mois 27 Jours	Un cookie défini par YouTube pour mesurer la bande passante qui détermine si l'utilisateur obtient la nouvelle ou l'ancienne interface du lecteur.
YSC	session	Le cookie YSC est défini par Youtube et est utilisé pour suivre les vues des vidéos intégrées dans les pages Youtube.
yt-remote-connected-devices	jamais	YouTube définit ce cookie pour stocker les préférences vidéo de l'utilisateur qui utilise une vidéo YouTube intégrée.
yt-remote-device-id	jamais	YouTube définit ce cookie pour stocker les préférences vidéo de l'utilisateur qui utilise une vidéo YouTube intégrée.

Transformez votre Data Warehouse avec Azure Synapse Analytics

Qu’est-ce qu’Azure Synapse Analytics ?

Quoi de neuf dans Azure Synapse Analytics ?

Fonctionnalité Phare d’Azure Synapse Analytics : Synapse Link

Comment tirer profit de l’analyse de données de synapse Azure dans votre entreprise ?

La transformation Métiers commence avec une I.D.E.A

Atelier d’idéation

La transformation Métiers commence avec une I.D.E.A

Ressources associées

Nicolas Bouchet