O Data Mesh é uma nova arquitetura de gerenciamento de dados que ganhou muita popularidade nos últimos anos. Ele pode trazer maior estabilidade e eficiência aos dados de uma empresa. No entanto, é fundamental entendê-lo completamente, suas vantagens e as considerações necessárias antes de decidir o que é melhor para sua empresa.
O que é um Data Mesh
O Data Mesh é uma arquitetura descentralizada e um conceito de governança que coloca a responsabilidade pelos dados nas equipes que produzem — e realmente possuem — os dados. Por exemplo, os membros da equipe financeira seriam responsáveis pelos dados no domínio financeiro. Não haverá propriedade centralizada dos dados. Em vez disso, cada equipe monitorará seus dados, analisará e os transformará.
Embora não haja necessariamente regras de governança centralizadas para toda a organização, cada equipe preparará seus dados de tal forma que, se outra filial ou departamento precisar, esteja pronta para trabalhar. Isso permite que o Data Mesh distribua a propriedade sem que os dados fiquem isolados.
Os pilares do Data Mesh
Ainda não tem certeza do que significa ter um Data Mesh? Talvez seja mais fácil de entender se o quebrarmos ainda mais.
Descentralização orientada por domínio
O objetivo desse princípio é colocar a responsabilidade pelos dados nas equipes que geram e possuem esses dados. Em vez do status quo atual: dar a responsabilidade pelos dados a "equipes externas" de engenheiros de dados e equipes DWH que levariam esses dados a um data warehouse central ou data lake.
As pessoas (equipes de domínio de dados) que trabalham com os dados (inserindo-os, perfilando-os, compartilhando-os com a organização, etc.) devem assumir total responsabilidade por manter seus dados dentro dos padrões da empresa, geralmente criando produtos de dados.
Embora a estrutura dessas equipes possa variar dependendo do domínio, da equipe e da organização, elas quase sempre terão alguém nas funções de "proprietário do produto de dados" e "desenvolvedor do produto de dados". O proprietário de um produto de dados é responsável por fornecer medidas que garantam que os dados sejam entregues como um produto. Um desenvolvedor de produtos de dados é responsável por construir, monitorar e fornecer os produtos de dados — mais informações sobre produtos de dados abaixo.
Dados como produto
Os dados como produto são um princípio que força as equipes de domínio a aplicar o pensamento do produto aos dados que possuem, ou seja, garantir que seus dados sejam utilizáveis. O resultado da aplicação desse princípio é criar, possuir e manter produtos de dados que todos vão adorar. Esse, pode-se argumentar, é o alfa e o ômega do Data Mesh, e não só... Aqui na Ataccama, achamos que as empresas devem pensar em seus dados como um produto, independentemente de estarem construindo uma organização de malha de dados.
Então, quais características permitem que você considere um conjunto de dados regular um "produto de dados"? De acordo com o fundador do Data Mesh, Zhamak Dehghani, eles são os seguintes:
- Compartilhável e detectável: publique produtos de dados para o resto da organização usar.
- Autodescrição: os produtos de dados devem ser muito bem definidos.
- Endereçável (mesmo local, previsível no futuro): os produtos de dados devem poder ser acessados.
- Confiável: os produtos de dados devem ter alta qualidade de dados.
- Interoperável: os produtos de dados devem funcionar com outros produtos de dados.
- Seguro: protegido contra acesso não autorizado.
Para obter todas essas características, os produtos de dados precisam ter todos os seguintes recursos internos:
- Uma maneira de extrair novos dados de fontes
- Uma maneira de gerar dados em uma interface bem definida
- O código que ele precisa executar para transformar os dados
- Infraestrutura de armazenamento
- Controlar portas onde você pode chamar o produto de dados, executar transformações e solicitar os dados
"[Eles devem ter a] capacidade de executar de forma independente, sem depender de outros produtos de dados ou infraestrutura. Essa unidade deve ser construída, mantida e implantada como um componente."
- Zhamak Dehghan, fundador da Data Mesh
Para resumir, um produto de dados é uma maneira de descrever um conjunto de dados que está totalmente de acordo com os padrões de usabilidade e governança organizacionais e pronto para uso sem a necessidade de trabalho adicional. Dessa forma, independentemente de onde as informações estão armazenadas ou de quem é responsável por elas, todos na empresa poderão utilizá-las. Todos os dados da empresa estarão acessíveis mediante solicitação, sem qualquer esforço ou preparação adicional.
Infraestrutura de dados de autoatendimento
Para manter a natureza descentralizada do Data Mesh, as equipes de dados de domínio devem ser autônomas na criação de produtos de dados. Para que isso funcione, as equipes de dados precisam ter infraestrutura de dados como um serviço. Essa infraestrutura deve ser fácil de usar, ou seja, em vez de as equipes construírem suas próprias, elas têm todas as ferramentas e tecnologia necessárias para criar um produto de dados.
Isso vai contra o conceito de Data Mesh exigir que as equipes usem qualquer coisa que não queiram. A malha depende da maioria deles usando a infraestrutura por escolha, então as empresas precisam de algo que gostem, estejam familiarizadas e possam ver o valor em usar o mesmo padrão que outras equipes na organização.
O Data Mesh estrutura essa infraestrutura por meio de três planos:
- Plano de infraestrutura de dados
- Plano de experiência do desenvolvedor de produtos de dados
- Plano de experiência de Data Meshs
Primeira camada: plano de infraestrutura de dados
Fornecer a infraestrutura subjacente necessária para criar, executar e monitorar seus produtos de dados.
Segunda camada: plano de experiência do desenvolvedor do produto de dados
Abstração da infraestrutura de dados projetada para dar suporte à jornada de desenvolvimento do produto de dados — provisionando itens como pontos de extremidade de saída, qualidade de dados, controle de versão e segurança para produtos de dados. Isso deve funcionar porque os desenvolvedores de produtos de dados podem usar facilmente — ou solicitar (novamente, de maneira de autoatendimento) — esses recursos e a infraestrutura subjacente fornecerão essa funcionalidade.
Terceira camada: plano de experiência de malha
Procure produtos de dados existentes, verifique se a documentação está em ordem e veja como os produtos de dados se relacionam entre si — acesso mais conveniente aos recursos para os cidadãos de dados.
Governança federada
Como esse é um conceito descentralizado, os princípios de governança que se aplicam aos produtos de dados podem variar de departamento para departamento. No entanto, riscos ou "dívidas de governança" podem surgir se as equipes não tiverem um terreno comum para se apoiar. Alguns problemas de governança que as equipes de Data Mesh correm o risco de encontrar são:
- Os metadados e os padrões de catalogação diferem
- Documentação ausente/incompleta
- Janelas de disponibilidade
- Baixa qualidade/diferentes padrões de qualidade
- Formatos incompatíveis
- Diferentes padrões e políticas de segurança
Para mitigar esses riscos, as empresas devem aderir ao conceito de governança global baseado em alguns padrões abertos. As equipes entenderão imediatamente a vantagem de ter alguns princípios em comum em toda a organização.
O Data Mesh, portanto, depende de equipes seguindo um conjunto de princípios globais para governança de dados, que devem ser documentados como em qualquer programa de governança de dados. No entanto, para simplificar a aplicação dessas políticas, os comandos de malha de dados para automatizar, automatizar e automatizar. E a maneira de fazer isso é, é claro, incorporá-los aos processos. Por exemplo, automatize o processamento de qualidade de dados, o mascaramento de dados ou a atribuição de fluxos de trabalho para solicitações de acesso a dados.
Benefícios e considerações do Data Mesh
Antes de decidir que o Data Mesh é adequada para o seu negócio, pondere os seguintes benefícios e considerações.
Benefícios
Produz equipes motivadas e eficientes. As equipes de domínio de dados se concentram em um domínio específico e têm conhecimento e habilidades técnicas para serem autônomas. A liberdade de usar as ferramentas de sua escolha e a independência da aplicação vigorosa da governança os incentivam a assumir mais propriedade e se tornarem mais motivados.
Acelera a entrega de produtos de dados. Por todas as razões mencionadas, essas equipes motivadas e eficientes são melhores na criação de produtos de dados.
Confiável e extensível. À medida que as organizações crescem, a infraestrutura de autoatendimento facilita a integração de novos usuários e as regras de governança compartilhada são claramente documentadas, permitindo que elas se expandam sem ter que retrabalhar constantemente os princípios administrativos.
Considerações
Dívida de governança (se as normas não forem aplicadas). Se seus padrões de governança global forem muito frouxos, você pode acabar com alguns dos problemas de dívida de governança que mencionamos anteriormente.
Possibilidade de recriar silos. O pior cenário para umo Data Mesh é que ninguém segue as diretrizes de governança e você acaba com produtos de dados que não são interoperáveis, detectáveis ou endereçáveis – silos de dados. Você deve manter padrões de governança entre todos os domínios para evitar o silo de dados.
Data Mesh versus Data Mesh
O Data Meshs é outra estrutura emergente de gerenciamento de dados que fez muito barulho nos últimos 12 meses. Na superfície, pode parecer que é um conceito concorrente para Data Mesh. Mas será mesmo assim? O fato é que esses novos projetos não são mutuamente exclusivos.
Um Data Mesh tem tudo a ver com acesso sem atrito a dados corporativos para todos os consumidores. Ele funciona conectando todas as fontes de dados, componentes de gerenciamento de dados e consumidores de dados em um sistema unificado fortemente impulsionado pela IA para automatizar o fornecimento de dados.
O Data Mesh, por outro lado (como já discutimos), é focada na produção de dados de alta qualidade — produtos de dados.
Se combinarmos esses dois, teremos acesso sem atrito a dados de alta qualidade. Em essência, o Data Mesh capacita as pessoas de dados a criar ótimos produtos de dados (enquanto gerenciam a dívida de governança).
Se você examinar mais de perto a infraestrutura de dados de autoatendimento e os pilares de governança federada do Data Mesh, verá que um Data Mesh pode ser a camada que os garante, com estas características específicas:
- Governança Global
- Documentação Automática
- Detectabilidade & Shareability
- Interoperabilidade
- Processamento eficiente
- Segurança
- Qualidade
Ter esses princípios em vigor permitirá que as equipes de domínio criem produtos de dados que são:
- Fácil de descobrir
- Fácil de usar e combinar
- Confiável e documentado
- Desonerado pelo provisionamento
- Padrões aplicados automaticamente
- Rápido para criar
A conclusão é:
O Data Mesh permite que as pessoas de dados criem ótimos produtos de dados enquanto gerenciam a dívida de governança.
Crie seu Data Mesh com o Elengeafrika
Se você acha que o Data Mesh é a arquitetura certa para você, a Ataccama pode ajudar. Fornecemos uma plataforma unificada de gerenciamento de dados, Ataccama ONE, para que as equipes criem, publiquem e descubram produtos de dados.
O PowerfulCRM-ONE vem com um catálogo de dados, qualidade de dados automatizada, MDM e governança de dados perfeitamente conectados com metadados compartilhados.
Ele se integra facilmente ao seu cenário de dados e pode ser implantado em qualquer infraestrutura. Se quiser saber mais, agende uma ligação conosco.