Atelier d’idéation
La transformation Métiers commence avec une I.D.E.A
Donnez une nouvelle envergure à votre entreprise – rencontrez nos directeurs et vice-présidents lors d’un atelier d’idéation dédié.
Microsoft a annoncé Azure Synapse Analytics, la prochaine évolution d'Azure SQL Data Warehouse. Dans cet article nous découvrirons les fonctionnalités d’Azure Synapse Analytics, et son intérêt pour votre entreprise.
Le 4 novembre 2019, Microsoft annoncait Azure Synapse Analytics, la prochaine évolution d’Azure SQL Data Warehouse. Depuis le 3 décembre 2020, cette solution est enfin disponible. Dans cet article, nous nous intéresserons aux fonctionnalités d’Azure Synapse Analytics, et nous verrons son intérêt pour votre entreprise.
Azure Synapse Analytics est « un service d’analytique illimité qui regroupe l’entreposage de données d’entreprise et l’analytique du Big Data. »
Cela signifie qu’Azure Synapse Analytics (Synapse) est un entrepôt de données dans le cloud, très similaire à Azure SQL Data Warehouse. La principale différence entre Synapse et son prédécesseur réside dans le fait qu’il rassemble au sein d’un seul service et de manière homogène, plusieurs technologies, charges de travail et rôles.
Synapse est organisé autour du Data Lake comme une source d’enregistrement pour toutes les données organisationnelles. L’architecture de Synapse repose sur trois elements principaux :
Avec cette solution, Microsoft a réalisé sa vision d’une plateforme consolidée qui combine une interface utilisateur (IU) élégante et unifiée avec une intégration profonde dans l’ensemble de l’écosystème Azure. Synapse est la preuve que l’évolution des données modernes a permis aux entreprises, d’avoir de nouvelles informations.
Synapse regorge de fonctionnalités innovantes, si nombreuses que nous ne pourrions pas toutes les mentionner dans un seul article. Cela dit, quatre éléments méritent une analyse plus approfondie :
Studio
Studio est l’interface utilisateur de Synapse, à laquelle vous pouvez accéder depuis le portail Azure en cliquant sur l’URL de l’espace de travail. Lorsque vous accédez à l’outil, vous obtenez une surface de conception unifiée organisée autour de plusieurs domaines fonctionnels appelés « hubs ». Vous pouvez trouver les activités principales dans les hubs Data, Develop et Integrate, et les activités de configuration dans les hubs Monitor et Manage.
L’interface utilisateur de Synapse a été décrite en détail, mais en général, cette solution excelle en regroupant un large éventail de technologies complexes.
Plus en detail:
Enfin, vous pouvez accéder aux tâches administratives via le hub Manage. Grâce à ce hub, vous pouvez approvisionner et manipuler les pools, ainsi que configurer diverses fonctionnalités telles que les Runtimes d’intégration.
Les tâches administratives sont complétées par le hub Monitor, qui permet de suivre et d’analyser le fonctionnement des pipelines et d’autres activités.
Synapse SQL (SQL Pools) & SQL On-demand
Synapse SQL est le moteur d’analyse standard T-SQL de la solution, conçu pour une manipulation performante de données structurées. Nouveau dans Synapse, ce moteur est disponible à la fois dans sa version traditionnelle et dans une nouvelle offre « à la demande ».
Le calcul provisionné dans les pools SQL est la prochaine génération d’entrepôt de données SQL. Cette fonctionnalité n’a sans doute pas la même renommée que le reste de la solution, peut-être parce que son succès en tant qu’entrepôt de données robuste et fiable est déjà faite sur le secteur. Malgré cela, Synapse a apporté une série d’améliorations aux pools SQL qu’il ne faut pas négliger, à commencer par ses capacités sophistiquées de gestion de la charge de travail, qui permettent aux utilisateurs d’affiner l’allocation des ressources dans les différents groupes de travail. Il existe également la fonction COPY, très performante, qui permet de charger des données à partir de comptes de stockage externes. Enfin, des améliorations telles que la clause PREDICT intègrent l’IA et le Machine Learning en permettant la l’évaluation du modèle en natif à partir de Transact-SQL. Le thème d’une plateforme unifiée se poursuit avec les capacités spécialisées des Notebooks Spark, qui permettent des chargements de données échelonnées (PolyBase) à grande vitesse et une sécurité simplifiée.
L’annonce de SQL à la demande est importante car elle comble une lacune qui, dans le passé, constituait un compromis inhérent à la conception des systèmes de données d’entreprise. La réalité des écosystèmes de données complexes est que les modèles de demande varient en fonction de la charge de travail, des utilisateurs, etc… Cette réalité peut être difficile à gérer car vous devez prendre des décisions architecturales en fonction de la quantité de calculs provisionnés dont vous avez besoin pour effectuer les analyses et gérer les tâches auxiliaires, telles que le nettoyage, l’ingénierie et l’exploration des données, et de leur place dans l’architecture. Pour le calcul provisionné, si vous provisionnez trop, vous pourriez finir par payer trop cher ; si vous ne provisionnez pas assez, vous pourriez avoir des performances imprévisibles et d’autres problèmes de qualité.
Le calcul « à la demande » permet de faire face à des charges de travail importantes et imprévisibles en étant toujours disponible et fournit un ensemble d’outils supplémentaires au sein de l’architecture des données. L’exploration du Data Lake, qu’il soit stocké en Parquet, ORCou CSV (valeurs séparées par des virgules), est aussi simple qu’un clic droit, sans outil ou travail supplémentaire. SQL à la demande comprend également de nouvelles améliorations pour les tâches ELT/Extract, Transform, Load, avec des fonctionnalités telles que des analyseurs de texte délimité aux performances optimisées ; cela ajoute une autre fonction à Synapse Pipelines. La puissance naturelle et la connaissance de SQL Server peuvent être mises à profit lors du prototypage de requêtes ou de la réalisation d’autres tâches ad hoc sans avoir à se rapprocher de la charge prévue sur le calcul primaire. SQL à la demande est facturé en fonction de la quantité de données traitées et peut être contrôlé si nécessaire, par des restrictions quotidiennes, hebdomadaires et mensuelles.
Apache Spark
Les pools Apache Spark complètent la liste des options de calcul d’Azure Synapse Analytics avec un puissant moteur MPP (Massive Parallel Processing) conçu pour le traitement en mémoire du Big Data. Les systèmes MPP vous permettent d’exploiter le calcul en parallèle et sont parfaitement adaptés aux charges de travail semi-structurées ou non structurées typiques de l’utilisation des Objets Connectés (IoT) et du Machine Learning.
L’implémentation de Synapse est disponible nativement depuis le hub Develop, où vous pouvez directement écrire des Notebooks à l’aide d’un éditeur puissant. Les services cognitifs et le Machine Learning sont également intégrés de manière native. Un clic droit dans le hub Data, qui est alimenté par des assistants intelligemment configurés à partir de services liés et d’autres produits de configuration, permet de créer des Notebooks de démarrage qui utilisent ces services.
Il est clair qu’avec Synapse, Microsoft a beaucoup réfléchi à la manière d’accroître la productivité, que l’utilisateur soit un scientifique ou un ingénieur en données ou encore un commercial. Synapse facilite l’exploration des données de base grâce à une cartographie et une agrégation intégrées. IntelliSense est diffusé par tous les éditeurs, et vous pouvez utiliser plusieurs langues dans le même Notebook, y compris Python (PySpark), C#, Scala ou Spark SQL.
Synapse Pipelines
Synapse Pipelines est analogue à Azure Data Factory, le service d’intégration de données hybrides bien connu d’Azure. Les pipelines se trouvent logiquement au cœur de l’écosystème Synapse et fournissent un cadre d’orchestration et de mouvement des données permettant d’ingérer des données provenant de multiples sources, ou d’atterrir dans le stock de données approprié prêt pour les activités de calcul. Vous pouvez accéder aux pipelines via leur propre hub dans l’interface utilisateur de Synapse.
Evidemment, vous pouvez transférer des données dans le Data Lake depuis presque n’importe quel système source en utilisant plus de 90 connecteurs de service différents, d’Oracle aux API REST ou l’utiliser pour orchestrer l’ingestion dans le Data Warehouse. Vous pouvez intégrer les Notebooks Spark à n’importe quel pipeline, complétant ainsi les options d’ingénierie des données des pipelines.
Pour ceux qui connaissent Azure Data Factory, les flux de données sont notamment absents des pipelines. Soyez assuré que cette fonctionnalité d’enrichissement des données est disponible dans Synapse et peut être trouvée dans le hub Develop.
Comme vu précédemment, Azure Synapse Analytics dispose d’une liste étendue de fonctionnalités et de capacités, et nous nous attendons à de nombreuses autres innovations passionnantes dans les mois à venir. L’une des principales fonctionnalités actuellement disponibles est Synapse Link.
L’un des défis couramment associés aux solutions d’entreposage de données est la déconnexion entre les données de séquence à chaud et celles de séquence à froid. Il faut une quantité incroyable de travail pour intégrer de grandes quantités de données dans un modèle sémantique adapté à l’analyse, et ce processus impose une latence dans la conception. Lorsque les données en question entrent dans un système à l’échelle, comme c’est le cas avec les charges de travail de l’IoT, cette architecture a souvent du mal à suivre. Synapse introduit une nouvelle fonctionnalité appelée Synapse Link qui exploite le traitement hybride transactionnel/analytique pour explorer les données du côté entrepôt analytique sans affecter la performance du système de données source. En effet, Synapse Link offre une fenêtre en temps réel sur le flux de données et l’analyse opportune, à l’instar des technologies de capture de données.
Synapse Link est actuellement disponible uniquement pour Cosmos DB, mais il sera sans doute ajouté à d’autres SGBD à l’avenir.
Azure Synapse Analytics est, en un sens, à la fois une redynamisation des produits et services clés au sein de l’écosystème Azure Data Services et une réinvention. Toute entreprise cherchant à moderniser son approche des données gagnerait à mettre en œuvre Synapse, qu’elle soit dans les débuts de sa transformation digitale ou déjà avancée dans son parcours.
Pour les entreprises de taille moyenne qui ont déjà investi dans Data Lake, qui ont construit des entrepôts de données SQL ou qui reposent déjà sur une plateforme Power BI importante, vous pouvez démocratiser radicalement ces investissements grâce à l’intégration complète et étroite de Synapse avec l’écosystème Azure existant. En général, la voie de migration est simple, et Synapse peut tirer parti de ces investissements presque dès le départ. Les entreprises plus avancées dans le projet peuvent également bénéficier de Synapse par son intégration aux capacités les plus convaincantes d’Azure, notamment le Machine Learning et les services cognitifs. Vous pouvez déployer Synapse comme une évolution naturelle de ces investissements, comme un moyen de rationaliser votre architecture en réduisant le nombre de composants, et comme un moyen de simplifier l’accès.
Synapse est un atout majeur pour les entreprises qui sont relativement nouvelles sur le marché du cloud car il permet de simplifier le processus d’adoption du cloud et de réduire une grande partie de la complexité associée à l’approche traditionnelle des applications multiples en silos. En associant différentes sources de données et technologies, Synapse élimine non seulement ces obstacles, mais favorise également une approche agile de l’expérimentation.
Si vous êtes prêt à profiter des avantages d’Azure Synapse Analytics, Hitachi Solutions peut vous accompagner. Notre relation étroite avec Microsoft nous confère une compréhension approfondie de ces outils, ce qui nous rend parfaitement aptes à fournir des visions à long terme et des solutions concrètes pour l’ensemble de la solution Azure. Nous avons prouvé notre expertise à travers nos multiples collaborations sur des projets similaires de Modern Data Platform, de l’introduction de nouveaux utilisateurs aux outils Azure à la conduite des migrations Azure les plus complexes. En outre, notre propriété intellectuelle et nos accélérateurs peuvent vous aider à réaliser votre vision plus rapidement et avec moins de risques.