A nova lógica da computação: a nuvem de dados distribuídos

Para fortalecer ainda mais nosso compromisso de fornecer cobertura de tecnologia de dados líder do setor, a VentureBeat tem o prazer de receber Andrew Brust e Tony Baer como colaboradores regulares. Fique de olho nos seus artigos sobre Data Pipeline.

Um padrão comum nos ecossistemas de análise hoje é que os dados produzidos em diferentes áreas da empresa são enviados para um local central. Os dados fluem para os data lakes e são isolados em data warehouses, gerenciados pela equipe de TI. Os produtores originais dos dados, geralmente especialistas no assunto dentro do domínio de negócios, efetivamente perdem o controle ou removem camadas de dados significativas para seu trabalho. Essa separação diminui o valor dos dados ao longo do tempo e os dados são desviados dos consumidores empresariais. Imagine um novo modelo que vire esse ecossistema de cabeça para baixo, derrubando barreiras e aplicando padrões comuns em todos os lugares.

Considere uma pilha de análise que pode ser implementada em um domínio de negócios; ele permanece lá, de propriedade dos membros da equipe nesse domínio de negócios, mas operado centralmente e com suporte de TI. E se todos os produtos de dados gerados lá fossem gerenciados inteiramente dentro desse domínio? E se outras equipes de negócios pudessem apenas assinar esses produtos de dados ou obter acesso à API para eles? Recentemente, muita atenção foi dada a um padrão organizacional (grade de dados) que promove essa descentralização da propriedade de produtos de dados. No entanto, quais arquiteturas de ecossistema são adequadas para fornecer a espinha dorsal técnica para permitir uma malha de dados e lidar com padrões emergentes de crescimento de dados?

À medida que os volumes de dados crescem, a ideia de mover os dados para um local centralizado para processamento se torna mais cara e demorada, principalmente se os dados forem gerados fora de um data center tradicional ou nuvem pública. Em vez disso, as empresas preferirão cada vez mais implementar o processamento analítico nos locais onde os dados são gerados. A capacidade de geolocalizar dados facilmente por motivos de latência, conformidade ou segurança transformará a maneira como computamos em uma realidade mais sustentável, eficiente e lógica: esse é o território da nuvem de dados distribuídos. Controlar dados perfeitamente em qualquer lugar é como as empresas aproveitam o incrível crescimento de dados à frente.

A nuvem de dados distribuídos não é uma ferramenta ou plataforma única, mas um padrão de ecossistema que leva os dados ao lugar certo e à pessoa certa na hora certa de maneira segura, governada e confiável. Ele inclui uma coleção federada de serviços de gerenciamento e análise de dados abrangendo nuvens públicas, nuvens privadas e a borda.

Gerenciada a partir de um único plano de controle, uma nuvem de dados distribuída permite que os aplicativos analíticos sejam provisionados no ponto de necessidade em uma combinação do tamanho certo de infraestrutura física e virtualizada, com base na gravidade dos dados, dados, governança de dados e requisitos de latência.

Várias tendências importantes levarão as empresas a liberar todo o valor de seus dados com esse modelo, onde a infraestrutura funciona para democratizar os dados, não para aprisioná-los.

Edge Computing pressiona a capacidade da Internet

Prevê-se com segurança que até 2025, 75% dos dados gerados pela empresa serão criados e processados ​​fora do tradicional data center centralizado ou nuvem, contra menos de 10% em 2019. A explosão de dados e dispositivos na borda 5G e a implantação e planejamento para 6G (redes de 100 Gbps para os próximos 10 anos) aceleraram a percepção de que o backbone da Internet não tem capacidade suficiente para transportar todas as atividades de dados na borda para os data centers.dados centralizados para análise.

Nuvem distribuída aborda desvantagens híbridas

O relatório Gartner Top Strategic Technology Trends for 2021 sugere que a nuvem distribuída, a infraestrutura necessária como precursora do serviço de uma implementação de plataforma de nuvem de dados distribuída discutida neste artigo, está surgindo para lidar com a latência afetada pela localização. A implantação de pilhas de software e hardware em nuvem fora do data center de um provedor de nuvem pública para fornecer uma malha de recursos de nuvem interconectados é o que se entende por nuvem distribuída. Suas pilhas permitem que as empresas executem aplicativos criados para a nuvem pública no próprio data center da empresa e em outros locais, como centros de computação multiacesso conectados a grupos de torres de celular 5G ou no chão de fábrica em suporte a aplicativos IoT na fabricação. Mas as empresas ainda se beneficiam da proposta de valor da nuvem pública e dos SLAs garantidos.

Tanto a nuvem híbrida quanto a TI híbrida quebram as proposições fundamentais de valor da nuvem. Em outras palavras, o híbrido é muito difícil de executar com eficiência, aproveitando ao máximo a escala e a elasticidade dos serviços oferecidos pela nuvem pública. O híbrido não produz eficiências nas operações de nuvem, governança e atualizações que a nuvem pública oferece, nem esses sistemas acompanham a inovação da nuvem pública. Nuvem distribuída significa a mesma experiência de nuvem perfeita em todos os lugares.

Hiperpersonalização e multi-experiência da empresa móvel

Em última análise, as empresas querem colocar análises interativas e preditivas nas mãos do consumidor real. Para esse fim, em vez de armazenamentos de dados atendendo a uma comunidade de milhares de usuários, os armazenamentos de dados atenderão a uma comunidade de usuários de milhões de consumidores finais. A atual onipresença do uso de dispositivos móveis dá uma ideia de onde as experiências de negócios multissensoriais, multidispositivos e multitoque com dados estão indo. O computador está rapidamente se tornando o ambiente que cerca o usuário.

Uma cultura cada vez mais orientada por API em todos os lugares, UX/UI contínuo e acesso a dados democratizado em todas as empresas impulsionarão a mudança para interações hiperpersonalizadas em tempo real entre pessoas, lugares e coisas.

Entre os primeiros casos de uso

Com essas tendências impulsionando o advento da nuvem de dados distribuídos, vários casos de uso estão no horizonte imediato.

Primeiro, há uma necessidade generalizada de operações híbridas e multicloud simplificadas que apresentem um ambiente consistente na nuvem pública, no local e na borda. Uma razão convincente para isso, especialmente em setores regulamentados como bancos, é ajudar a reduzir o risco de concentração de nuvem distribuindo dados e análises em mais de um provedor de nuvem ou data center. Para fazer isso usando uma nuvem de dados distribuída, uma empresa pode provisionar aplicativos de análise e gerenciamento de dados em contêineres e executá-los em qualquer lugar onde o Kubernetes seja implantado: em uma nuvem pública, no local ou na borda. Tudo acontece através dos mesmos processos de UX e gestão devops e a partir do mesmo console web e API.

Em segundo lugar, o processamento de informações de identificação pessoal (PII) em um país de residência é um cenário em que o acesso localizado e a conformidade regulatória tornam a migração da computação para os dados a melhor solução. A execução de uma instância otimizada para nuvem de dados distribuídos em hospitais individuais em uma pilha de nuvem pública localizada próxima ao hospital permite que os dados do paciente permaneçam na origem.

Um terceiro caso de uso em que a necessidade já está disparando envolve a análise de IoT. A capacidade de realizar análises seguras na borda da rede e perto dos consumidores por meio de uma nuvem de dados distribuída significa respostas em tempo real para carros conectados, cidades inteligentes, redes de energia e muito mais. A execução de análises otimizadas no AWS Wavelength, por exemplo, em um ambiente de borda multiacesso para monitorar a qualidade da rede em tempo real será totalmente viável.

Dar vida a uma nuvem de dados distribuídos, onde os dados em qualquer lugar são facilmente gerenciados e colocados em funcionamento, não é um jogo de um único fornecedor e provavelmente nunca será. Em vez disso, um consórcio de empresas se unindo a essa ideia e trabalhando em simbiose levará a festa aos dados e ao sucesso das empresas prontas para entender um futuro mais lógico.

Mark Cusack é o CTO da Yellowbrick

Tomadores de decisão de dados

Bem-vindo à comunidade VentureBeat!

DataDecisionMakers é onde especialistas, incluindo técnicos de dados, podem compartilhar insights e inovações relacionadas a dados.

Se você quiser ler sobre ideias de ponta e informações atualizadas, melhores práticas e o futuro dos dados e da tecnologia de dados, junte-se a nós no DataDecisionMakers.

Você pode até considerar contribuir com um artigo seu!

Leia mais sobre DataDecisionMakers

Leave a Comment