Google complète son offre Cloud avec BigLake, sa nouvelle plateforme de stockage unifié
Google a annoncé sur son site le lancement de BigLake, une plateforme nouvelle de stockage unifié qui permet de simplifier l’accès aux données pour les entrepôts et les lacs, en fournissant un «contrôle d’accès finement granulé sur l’ensemble du stockage multi-cloud et sur les formats ouverts». Le but de ce nouveau service est d’unifier les datawarehouses et les datalakes en ouvrant un nouveau canal d’accès aux données à la fois sécurisé et modulable.
«Les données de toutes natures sont historiquement stockées à des endroits différents dans les organisations. Au fur et à mesure, ces dernières sont devenues de plus en plus concernées par les problématiques de gouvernance, les risques et les coûts associés. BigLake brise ces silos et facilite la gouvernance», résume Sudhir Hasbe, Directeur Senior Produit chez Google Cloud.
«BigLake étend le niveau de granularité fine de BigQuery et la sécurité en colonnes à niveau aux tables, aux mémoires d’objets de données stockées tels qu’Amazon S3, Azure Data Lake Storage Gen2, ainsi qu’à Google Cloud Storage. BigLake vient détacher l’accès à la table des données de stockage sur cloud sous-jacente via la délégation d’accès. Cette fonctionnalité permet d’accorder un niveau de manière sécurisée ainsi qu’un accès aux colonnes à niveau aux utilisateurs et pipelines dans l’organisation sans avoir à fournir un accès total à la table,», explique Google sur son site.
Concrètement, l’utilisateur doit créer une table sur BigLake puis l’interroger comme pour les autres tables; BigQuery applique alors un contrôle d’accès à niveau et aux colonnes à niveau; chaque utilisateur n’a alors accès qu’à une fraction de données.
«Les règlements de gouvernance sont appliqués sur l’ensemble de l’accès aux données via les APIs de BigQuery. Par exemple, l’API BigQuery Storage permet aux utilisateurs d’avoir accès aux données autorisées en utilisant des moteurs d’interrogation open source comme Apache Sparks,», détaille Google sur son site.

Du côté de l’administrateur de données (en datalake ou en datawarehouse), BigLake permet de faire abstraction de la gestion d’accès aux données des fichiers aux tables, et permet à l’administrateur de gérer l’accès aux données à l’utilisateur dans les lacs.
«Parce que les tables BigLake sur les objets de stockage sont conçues pour simplifier le modèle d’accès aux tables qui sont connectées à ces objets, nous recommandons d’utiliser les tables BigLake pour bâtir et maintenir les connexions entre ces objets».
Sur son site, Google souligne également les limitations de son nouveau service cloud, et qui concernent surtout l’intégration de la nouvelle plateforme sur l’entrepôt de données actuel de Google, BigQuery. Ainsi les APIs BigQuery Storage Read ne prendront en charge que les formats CSV, Parquet et JSON. Google précise aussi que les tables de BigLake auront les mêmes limitations que celles de BigQuery. Autre info importante à connaître, BigQuery Storage Read API ne pourra pas être utilisée pour lire les tables BigLakes créées en utilisant les lieux d’emplacement de données de BigQuery.
Crédit photo : DR