Data Mesh - Além do Convencional. MBA em Big Data e Inteligência Competitiva.
Data Mesh. O poder dos dados dentro das empresas tem sido mantido nas mãos de poucas pessoas, geralmente nos departamentos de TI. As unidades de negócio, como marketing, analistas de negócio e executivos usam os dados para tomarem decisões importantes, mas geralmente tem que requisitar estes dados ao departamento de TI. Esta situação centraliza a coleta e transformação dos dados nas mãos de equipes que, em muitos casos, estão desalinhadas das necessidades das áreas de negócio da empresa. Por exemplo: A área de marketing necessita visualizar o volume de vendas por categorias de produtos para expandir suas campanhas, dinamicamente todos os dias. A área de ciência de dados está construindo o sistema de recomendação de produtos e precisam ter os dados atualizados para o treinamento dos modelos. A área de gestão da empresa precisa visualizar os resultados agregados de cada área e de toda a empresa..
Data Mesh. Problemática. Cross funcional Equipes de origem orientada a domínio Engenheiros de plataforma de dados e ML hiperespecializados Cross funcional Equipes de consumidores orientadas ao domínio.
Data Mesh. É centralizada, monolítica e agnóstica de domínio, também conhecido como Data Lake. Quase todas as empresas com quem trabalhei estão planejando ou construindo sua plataforma de dados e inteligência de 3ª geração, admitindo as falhas das gerações passadas: A primeira geração: plataformas proprietárias de armazenamento de dados corporativos e inteligência de negócios; soluções com preços elevados que deixaram as empresas com dívidas técnicas igualmente grandes; Dívida técnica em milhares de jobs , tabelas e relatórios de ETL insustentáveis que apenas um pequeno grupo de pessoas especializadas entende, resultando em um impacto negativo, sub-realizado no negócio. A segunda geração: ecossistema de big data com um data lake como uma bala de prata; ecossistema de big data complexo e trabalhos em lote de longa duração operados por uma equipe central de engenheiros de dados hiperespecializados criaram monstros de data lake que, na melhor das hipóteses, permitiram bolsões de análise de P&D; mais prometido e menos realizado..
Data Mesh. O sistema operacional se comunica por meio de conexões de serviço, ignorando o data lake Sistemas operacionais alimentam dados no Data Lake usando seus próprios schemas Alguns cientistas de dados investigam o Data Lake em busca de possíveis insights Os mercados da Lakeshore selecionam e organizam os dados para a maioria dos usos de análises.
Data Mesh. O Data Mesh foi proposto por Zhamak Dehghani (diretora de tecnologia na ThoughtWorks ) no artigo “ How to Move Beyond a Monolithic Data Lake to a Distributed Data Mesh ” como uma nova abordagem para projetar e desenvolver arquiteturas de dados com o objetivo de facilitar a democratização em escala dos dados na empresa. Ao contrário de arquiteturas centralizadas e monolíticas baseados em um data warehouse (armazém de dados) e/ou um data lake (lago de dados), um data mesh é um paradigma arquitetural e organizacional que desafia a antiga suposição de que devemos centralizar grandes volumes de dados analíticos para usá-los, manter todos os dados em um só lugar ou gerenciá-los por meio de um time de dados centralizado para entregar valor às áreas de negócio..
https://miro.medium.com/max/875/0*38m3O0I87QCJFYno.
Data Mesh. Arquitetura de dados descentralizada orientada ao domínio – o domínio define o contexto de negócio no qual os times de produtos de dados operam. Eles passam a ser os donos do ciclo de vida dos dados, garantido a qualidade e são responsáveis pela entrega de valor. Dados disponibilizados como produto – os dados de cada domínio são oferecidos como produto (data set), que podem ser acessados (consumidos) por outros domínios por meio de APIs. Infraestrutura para disponibilizar os dados como self- service – tecnologias descentralizadas, generalistas, plataforma integrada para gerenciar os dados do início ao fim (operacional e analítico), e ainda permitir que novos times de domínio sejam criados sem a dependência de um outro time centralizado. Governança federada para permitir interoperabilidade dos domínios – padrões, políticas, códigos, regras, responsabilidades, ou seja, a governança operacional desse modelo precisa ser conduzida por representantes de cada time de domínio..