Cet article traite de la nouvelle version désormais disponible de la plateforme Azure Synapse Analytics. Comment a-t-elle été créée, qu’apporte-t-elle et comment permet-elle de déterminer et d’exploiter la valeur des données.
Il est fréquent qu'une évolution technologique change la donne, modifie la façon dont les gens travaillent et permette d’envisager un nouveau mode de travail jusqu’alors impossible. C'est le changement de paradigme qui fait l'objet de nombreux clichés, une expression souvent tournée en dérision comme un jargon d'entreprise dénué de sens. Toutefois, avec l'introduction de Synapse Analytics de Microsoft, on assiste bel et bien à un nouveau paradigme dans le monde du Big Data. La toute dernière nouveauté de la plateforme Azure, est un ensemble de nouvelles technologies qui offre une plateforme technologique d'analytique moderne totalement mature dans une gamme complète de fonctionnalités. Azure Synapse Analytics rassemble les technologies existantes en un seul service qui promet d’interroger les données plus rapidement et plus efficacement.
Le monde de la gestion des données (data wharehousing) à grande échelle sur la plateforme Microsoft a fait beaucoup de chemin depuis le premier rachat de DATAllegro par Microsoft en 2008. À l'origine, c’était une solution d'entrepôt de données qui, comme de nombreuses solutions techniques sur le marché, fonctionnait initialement sur un hardware OEM de base, apportant le Traitement Massivement Parallèle (MPP) à la plateforme Microsoft. À l'époque (12 ans semblent une éternité dans le monde technologique actuel en constante évolution), SQL Server 2012 Parallel Data Warehouse (PWD) était livré comme un système applicatif et matériel d‘un entrepôt de données intégré dans votre datacenter.
Avec l’arrivée du Cloud, et désormais sous le nom de SQL Server Data Warehouse, cette technologie a été ajoutée dans Azure comme plateforme en tant que service (PaaS). Cela a permis de supprimer les frais liés à la gestion de matériel et d’introduire le concept de traitement flexible et extensible des capacités de calcul liées à la gestion de données (les clients n'avaient plus besoin d'acheter des configurations matérielles puissantes en espérant qu'ils aient correctement estimé la capacité en fonction de la taille de leurs besoins pour exploiter la technologie). Grâce aux améliorations significatives des performances de la deuxième génération de SQL DW, Microsoft a développé un produit de pointe en termes de coût et de performances pour le traitement de grandes quantités de données à une vitesse fulgurante - les clients pourraient ainsi gouverner l'usage de leurs systèmes en fonction de l'avantage qu'ils en retirent plutôt que de la dépréciation du matériel physique.
Aujourd’hui, la dernière génération, rebaptisée Azure Synapse Analytics offre une nouvelle approche de l’entreposage des données et des processus analytiques en général.
Parmi les autres acquisitions notables qui ont renforcé la capacité de Microsoft Analytics, citons ProClarity en 2006, qui a donné les origines de l'arbre de décomposition visuel dans Power BI; Revolution Analytics en 2015, qui nous a apporté une modélisation statistique des données R et Python très performante; et Datazen également en 2015, qui a contribué à développer les capacités mobiles BI de Microsoft.
Aujourd'hui, la troisième génération de Synapse Analytics est disponible. Elle offre une nouvelle plateforme d'analytique de bout en bout sous la forme d'un service unifié basé dans le Cloud. Cette nouvelle version de Synapse Analytics réunit tous les composants nécessaires à une plateforme de données moderne tels qu’Azure Data Lake Store gen 2, Azure Data Factory et l'entrepôt de données Synapse Analytics.
Le nouvel élément le plus remarquable est le Studio Synapse qui propose un espace de travail unifié permettant d'accéder aux sources de données, aux pipelines et à tout code d'analyse et de transformation en un seul endroit. Mais cela va plus loin, il existe maintenant un choix d’environnement d’exécution d’applications analytiques, SQL et Apache Spark, permettant un plus grand choix d’approches architecturales pour répondre aux défis d’entreprise. L’environnement d’exécution SQL est toujours disponible avec des ressources dédiées ou non, pour des requêtes ponctuelles et des traitements de données imprévus. Enfin, l'interopérabilité de SQL et de Spark avec le Data Lake, permettant l'exploration et l'analyse immédiate de données structurées ou non au format de fichier Parquet, CSV, JSON, apporte l’ensemble nécessaire au développement d’une plateforme de données moderne dans un environnement unifié.
La façon dont Synapse Analytics est architecturé est un autre élément clé qui le distingue.
Les charges de calcul et de stockage sont effectivement séparées sur le plan fonctionnel, ce qui signifie que vous n'utilisez (et donc ne payez) les services de calcul que lorsque vous en avez besoin et qu'ils peuvent être mis en pause lorsqu'ils ne sont pas utilisés. Cela est particulièrement nécessaire pour les analyses où la charge de travail est souvent élevée.
De plus, Synapse utilise des technologies comme Polybase qui permettent d'accéder aux données dans des tableaux externes, ce qui augmente considérablement la flexibilité globale de la solution. Lorsque l'on utilise Azure Data Lake pour le stockage, il devient pratiquement illimité, ce qui optimise l’investissement dans la capacité de stockage pour une future demande. Cette gestion dynamique des coûts rendra l'analyse à grande échelle beaucoup plus accessible pour de nombreuses entreprises, ce qui est particulièrement important dans un monde où la croissance des flux de données est exponentielle.
Quelle est l’idée principale ?
Pour faire simple, Synapse Analytics est rapide, TRÈS rapide à répondre aux requêtes sur vos données. L'une des principales raisons est son Traitement Massivement Parallèle (MPP) où l'exécution des requêtes est répartie sur de nombreux nœuds de calcul fonctionnant en simultané et dont les résultats sont rassemblés par un nœud de contrôle central. Les données nécessaires à ces calculs peuvent également être réparties, ce qui permet l’optimisation des requêtes et des performances pour l’entreposage de données à très grande échelle. De plus, les nœuds de Synapse Analytics peuvent être automatiquement adapté pour répondre aux exigences de performances dynamiques. Pour plus de performances aux heures de pointe, il suffit d'augmenter le cadran et il y aura plus de puissance pour exécuter les requêtes.
En tant que professionnels des données, nous construisons généralement des entrepôts de données pour fournir aux entreprises une vue d’ensemble unique. Cela permet de fournir un langage cohérent et universel pour décrire les performances des entreprises et répondre aux enjeux commerciaux. La tendance observée ces dernières années est la poursuite de cet objectif, mais avec la convergence de l'entreposage et l’intégration des données et du Data Lake, le Cloud occupe désormais une place prédominante. Comme la coexistence des insights et des analyses est nécessaire aux activités quotidiennes, l'objectif principal est d'avoir accès à toutes vos données et analyses à partir d'une seule plateforme pour répondre à de multiples besoins.
Le défi de le faire sur une seule plateforme est en fait plus difficile qu'il n'y paraît, car des données relationnelles soigneusement traitées doivent être rassemblées avec un éventail plus large de données variables et semi-structurées et réunies de manière significative. Au-delà de cela, un autre défi est que la plateforme de données doit généralement s'adresser à plusieurs services au sein d’une entreprise, par exemple des ingénieurs, des analystes, des data scientits, etc. Ces derniers ont des demandes qui sont souvent très opposées les unes aux autres et il peut être très difficile de fournir un ensemble d'outils unique capable de les soutenir toutes. C'est là que la plateforme Azure Synapse Analytics, avec son interface unifiée et ses possibilités d’accès multiples, montre son efficacité.
Chez Hitachi Solutions, nous fournissons des solutions de plateformes de données modernes à nos clients depuis de nombreuses années. Utiliser les avantages du Cloud pour adapter les performances tout en contrôlant les coûts est essentiel pour notre accélérateur de plateforme de données moderne. Depuis l'annonce de Synapse Analytics fin 2019, nous avons travaillé à la mise à jour de notre système et de nos outils concernant la plateforme Synapse Analytics. Cela signifie que nous pouvons continuer à aider nos clients à extraire plus de valeur et d'insight de leurs données, sur un délai très réduit avec des projets dont l'exécution prend des semaines plutôt que des mois ou des années. Très souvent, nous travaillons aux côtés des équipes internes de BI de nos clients pour les aider à s'adapter à la nouvelle technologie ou à apprendre de nouvelles méthodes de travail. Pour la plupart des utilisateurs de Synapse, il y a certainement encore du travail. Il n'est pas nécessaire d'être expert en analyse de données Python pour utiliser Synapse, choisir SQL est parfaitement valable, mais l'important est de choisir la bonne technologie au sein de la plateforme Synapse pour répondre à vos besoins, puis d'adopter les meilleures pratiques de conception pour implémenter une solution robuste et de qualité.
Nous proposons un atelier d'une journée qui permet aux participants de se familiariser avec la nouvelle technologie et d'apprendre les meilleures pratiques avec notre équipe d'experts. Nous faisons partie d'un groupe restreint de partenaires Microsoft capables de dispenser cette formation. Si vous souhaitez en bénéficier, contactez-nous.
Participer à un atelier ou contacter un expert