Não tome dados como garantidos

Estamos empolgados em trazer de volta o Transform 2022 pessoalmente em 19 de julho e virtualmente de 20 de julho a 3 de agosto. Junte-se a líderes de IA e dados para conversas perspicazes e oportunidades de networking empolgantes. Saber mais


Há muito brincamos que o mundo estava ficando sem dados. É certamente o tipo de declaração que recebe um aumento. Mas pode-se argumentar que, após o surgimento do big data há mais de uma década, os dados finalmente recuaram das manchetes, em favor da IA, nuvem e microsserviços. Com a nuvem tornando quase trivial colocar esses terabytes no armazenamento de objetos e desligar os núcleos de computação em curto prazo, é tentador nos perguntar se estamos começando a considerar os dados como garantidos.

Os dados importam mais do que nunca. É dado como certo que os chamados três Vs do big data não são mais excepcionais. Big data é tão 2014: na década de 2020, chamamos apenas de “dados”. E os dados vêm de mais fontes e lugares. Isso levou a um cenário de galinha e ovo à medida que os bancos de dados distribuídos se tornaram mais comuns. A nuvem permite isso, e os casos de uso para implantação global exigem isso. E a propósito, nós mencionamos o aro? Em muitos casos, esses dados não vão a lugar nenhum e o processamento precisa chegar até eles.

Não há bala de prata para estender o processamento de dados até a borda. Mover-se para a borda significa reduzir muita inteligência porque não haverá largura de banda suficiente para trazer torrents de dados, muitos deles de baixa densidade (por exemplo, leituras de instrumentos), onde o valor vem apenas da agregação. E no back-end, ou deveríamos dizer o hub (em um ambiente distribuído, vários hubs), criará a necessidade de convergir dados em tempo real (por exemplo, streaming, dados em movimento) com dados históricos (por exemplo, dados em descanso). ).

Eliminando a complexidade dos dados

Isso é um sonho desde os primórdios do que costumávamos chamar de big data, onde a única solução prática na época era a arquitetura Lambda, que separava as camadas de tempo real e de lote. Como resultado, o streaming normalmente exigia plataformas separadas, onde os resultados seriam alimentados no banco de dados ou data lake. Essa era uma arquitetura complexa que exigia várias ferramentas, muita movimentação de dados e etapas adicionais para combinar os resultados.

Graças ao surgimento da arquitetura nativa da nuvem, onde conteinerizamos, implantamos microsserviços e separamos dados e camadas de computação, agora reunimos tudo isso e perdemos a complexidade. Dedique alguns nós como coletores Kafka, gere fontes de captura de dados alterados em outros nós e dados persistentes em outros nós, e tudo isso está sob um guarda-chuva no mesmo cluster físico ou virtual.

E assim, à medida que os dados se tornam globais, temos que nos preocupar em governá-los. Cada vez mais, há mandatos para manter os dados no país de origem e, dependendo da jurisdição, vários direitos de privacidade e requisitos de retenção de dados.

Indiretamente, as restrições à movimentação de dados através das fronteiras nacionais estão impulsionando a questão da nuvem híbrida. Existem outras razões para a gravidade dos dados, especialmente com sistemas de back-office estabelecidos que gerenciam registros financeiros e de clientes, onde as interdependências entre aplicativos legados podem tornar impraticável a movimentação de dados para uma nuvem pública. Esses sistemas ERP bem enraizados e similares representam a fronteira final para a adoção da nuvem.

Os dados vivem no limite

Portanto, os data centers locais não vão desaparecer tão cedo, mas cada vez mais, como é o lema da HPE, a nuvem pode chegar até você. O apelo é a simplicidade operacional e a flexibilidade de ter um plano de controle comum e um modelo de precificação sob demanda associado a nuvens públicas. É por isso que, inaugurando a nova década, prevemos que a década de 2020 se torne a era da inadimplência híbrida. É por isso que o spin-off de negócios da HPE viu seus negócios de nuvem híbrida/privada sob demanda mais que dobrarem ano após ano.

A demanda na nuvem não é um jogo de soma zero; a crescente demanda por nuvem híbrida ou nuvem privada é não ele vem às custas da nuvem pública. E é aí que as coisas ficam loucas, pois os provedores de nuvem criaram uma gama cada vez mais desconcertante de opções.

Quando contamos pela última vez, a AWS tinha mais de 250 serviços e, olhando para a pista de dados e análises, existem 16 bancos de dados e 30 serviços de machine learning (ML). Juntar as peças fica por conta do cliente, como quando você usa um serviço como Redshift ou BigQuery e deseja executar pipelines de dados para ingerir e transformar dados em movimento, visualização para fornecer análises ad hoc e, claro, máquinas avançadas. Aprendendo.

A ajuda está a caminho. Por exemplo, agora você pode, em alguns casos, executar modelos de ML no Redshift ou BigQuery e pode se comunicar com outros bancos de dados da AWS ou do Google para consultas federadas. O Azure, por sua vez, vem se esforçando para oferecer um serviço mais abrangente com o Synapse, onde as peças são integradas ou ativadas com um único clique. Mas estas são apenas as primeiras fotos: os provedores de nuvem e, esperançosamente, com um ecossistema de parceiros, precisam juntar mais peças.

A magia das malhas de dados

Em tudo isso, até agora pulamos um dos tópicos mais animados do ano passado: a discussão de malhas de dados. Eles surgiram em resposta às deficiências dos data lakes, ou seja, que é muito fácil que os dados sejam perdidos ou enterrados, e que as equipes que consomem os dados devem assumir a propriedade ativa deles. Contra isso, há preocupações de que tais práticas não possam escalar ou construir novos silos de dados.[sobretudocontraapreocupaçãodequetaispráticasnãopossamserdimensionadasouretificaraindanovossilosdedados[overitAgainstthatareconcernsthatsuchpracticesmaynotscaleorerectyetnewdatasilos

E assim, contra o pano de fundo de tudo isso, estamos empolgados em começar a residir aqui no VentureBeat no Data Pipeline, junto com colegas parceiros no crime Andrew Brust e Hyoun Park. Espere, uma carona nos espera.

A missão VentureBeat é ser uma praça pública digital para os tomadores de decisões técnicas aprenderem sobre tecnologia de negócios transformadora e realizar transações. Saber mais

Leave a Comment