Data Lake na AWS: descubra por onde começar

Data Lake na AWS: descubra por onde começar

Os dados são um ativo estratégico na atualidade e organizações que buscam perenidade e evolução precisam considerar esse tema de forma estratégica. Como parte de uma cultura, o data lake é uma solução atraente para o armazenamento e uso estratégico dos dados e ainda com a nuvem permite uma escalabilidade massiva.

Em razão das inúmeras dúvidas que surgem ao redor do tema, o Developer & A.I da BRLink, Rafael Campana, e o Big Data e Analytics Specialist Solution Architect da AWS, Hugo Rozestraten, apresentaram os passos típicos e eficientes para construir uma arquitetura de lake de sucesso na AWS. Confira:

Organize o Storage

O primeiro passo na construção de um data lake é considerar a organização dos buckets de arquivos. O Simple Storage Service (Amazon S3) é uma ferramenta bastante útil e permite que se tenha um ou mais buckets no seu lake, sendo eles globais. Com o S3, é possível ainda fazer o armazenamento já visando as demais camadas do seu lake, ou seja, deixar o dado preparado antecipadamente para a camada de Analytics, por exemplo. A vantagem de um serviço na nuvem como o S3, é ter um serviço virtualmente escalável ao infinito, extremamente flexível e econômico. O S3 é capaz de suportar uma excelente camada de segurança e de governança, não permitindo que o dado seja acessado por qualquer pessoa.

Faça a ingestão dos dados

Assim como existe uma variedade de dados e formatos, as fontes desses ativos também diferem. As mais comuns são streaming, sistemas legados, plataformas on premisses, mainframes e data warehouses. Dessa forma, o segundo passo é fazer a migração ou ingestão dessas informações para seu lake. Uma ferramenta versátil e muito recomendada para essa fase é o AWS Glue. Já para streaming, as mais utilizadas são AWS Kinesis ou AWS Kafka. Um ponto importante é que as ferramentas de streaming estão sendo cada vez mais usadas nessa etapa, porque elas dão a flexibilidade de rodar modelos de Machine Learning.

Prepare e catalogue os dados

Depois de mover os dados para seu lake, o próximo passo é fazer o catálogo dessas informações. A AWS utiliza o conceito de catálogo centralizado, de modo que o dono do dado, ou seja, a pessoa que fez a ingestão daquela informação, deixe-a disponível e muito bem descrita para as outras áreas que irão consumir esse dado no futuro. O AWS Glue, como já mencionado, é um componente completo e pode aparecer em várias etapas na arquitetura de um lake, sendo também útil na fase de preparação e catálogo. Esse serviço executa o crawling de fontes de dados e constrói um catálogo utilizando clasificadores predefinidos para variados formatos de fontes e tipos de dados conhecidos, como CSV, Parquet, JSON e outros.

Configure as políticas de segurança e compliance

Outra etapa da estratégia é fazer as configurações de segurança do lake pensando na governança desses dados. O AWS Identity and Access Management (IAM) é uma ferramenta que auxilia no controle de acesso e permissões quanto aos recursos e serviços da AWS. Essa ferramenta permite o controle granular de acesso a algum recurso específico e ainda dá recomendações de como utilizá-lo. Outro serviço da AWS nesse sentido é o Key Management Service (KMS), o qual se consegue utilizar de forma segura para gerar chaves de encriptação dos seus dados, mesmo que esses estejam em trânsito. Com toda essa suíte de serviços, a AWS mantém um destaque muito importante no mercado e consegue provar a máxima prioridade da companhia, a qual é a segurança.

Disponibilize os dados para análise

Seguido os passos anteriores, a última etapa da estratégia consiste em disponibilizar esses dados para serem consumidos para a área que irá executar os modelo de Inteligência Artificial, bem como para as demais que irão explorar esses dados. O AWS Glue também disponibiliza jobs Spark serverless, com menos preocupação com a operação dos clusters podemos focar na solução de negócio , transformar os dados com mais facilidade e em menos tempo .Uma vez catalogados por meio do Glue, os dados são disponibilizados imediatamente para consultas, pesquisas e ETL. Outro serviço para análises é o Amazon EMR, que é uma plataforma de big data em nuvem para processar grande volume de dados. Com essa plataforma, é possível realizar análises em escala de Petabytes a menos da metade do gasto das soluções tradicionais locais e três vezes mais rápido que o Apache Spark padrão.

Utilize boas práticas

Assim como o Well Architected, que consiste em um conjunto de boas práticas para uma arquitetura bem construída, a AWS lançou recentemente o Analytics Lens para o Well Architected Framework, que basicamente são melhores práticas dentro da AWS, mas com uma lente mais analítica. O Analytics Lens para o AWS Well-Architected fornece uma série de recomendações para garantir que aplicativos de análise sejam projetados segundo os padrões da AWS. As orientações abrangem também as etapas de armazenamento, gestão e catálogo, fornecendo alguns checklists essenciais para se construir uma excelente estrutura de dados.

Algumas soluções com o data lake:

  • Emissão de relatórios de negócios com o Amazon Redshift
  • Insights preditivos- com serviços de ML e AI da AWS
  • Configurar um catálogo e preparação com AWS Glue
  • Análise em tempo real para insights com o Amazon Kinesis

Se você possui algum desafio de criação de um Data Lake, nossos especialistas podem apoiá-o neste desafio.

Entre em contato com nossa equipe!

Compartilhe esta publicação:

Artigos Populares

Entre em
CONTATO

Para descobrir como nossos serviços auxiliam os seus negócios, entre em contato conosco.

Tem alguma dúvida?
LIGUE PRA NÓS!

Olá!

Gostaria de receber uma ligação?

NÓS TE LIGAMOS
Informe seu telefone que entraremos em contato o mais rápido possível.
Gostaria de agendar e receber uma chamada em outro horário?
Deixe sua mensagem! Entraremos em contato o mais rápido possível.