Case Eduzz

Sobre o
PROJETO

Publicado em: 23 de abril de 2021 às 14:36

Moderando conteúdo com inteligência artificial

Atualmente, diversas plataformas têm apostado em formatos onde o público pode criar e publicar conteúdo. Esse conteúdo varia de formato, podendo ser uma foto, um vídeo, um texto, um documento, dentre diversos outros. Entretanto, todas as plataformas com conteúdo proveniente de um público geral estão sujeitas ao mesmo problema: a moderação.

Existem diversos tipos de moderação de conteúdo, desde regras mais simples, como detecção de palavras impróprias até regras mais complexas, como as que envolvem o processamento de imagens e vídeos para detecção de certas características. A questão é: como definir o que deve ou não ser moderado? Cada empresa possui suas próprias regras de negócio acerca do conteúdo publicado em suas plataformas.

Muitas empresas buscam soluções manuais para a moderação do conteúdo em suas plataformas. Assim, equipes de moderação realizam essa tarefa de analisar os documentos enviados e dar um veredito quanto ao bloqueio ou não deles. O problema se torna então a escalabilidade da solução. Uma vez que essas empresas podem receber centenas de milhares de conteúdos mensalmente, a verificação manual não é capaz de acompanhar o ritmo crescente do uso da plataforma por produtores e nem o alto volume de dados a serem avaliados.
Neste post, vou contar como a BRLink criou um sistema de moderação de conteúdo automatizado, permitindo assim que o time de moderação tenha que analisar dados mais direcionados e pré-processados ao invés de ter que buscar informações manualmente em 100% do conteúdo publicado.

Introdução

Com uma vasta gama de produtos focados na educação, a Eduzz é uma plataforma online onde produtores de conteúdo transmitem o seu conhecimento para consumidores. A plataforma conta com diversos formatos de conteúdo, como arquivos de texto, imagens, vídeos, cursos presenciais, dentre outros. Por mês, essa plataforma recebe mais de 100.000 arquivos de texto de produtores por todo o Brasil.

O Desafio

A Eduzz conta com um time de moderação de conteúdo, que verifica manualmente cada um dos arquivos enviados à plataforma para detectar qualquer infração das normas de conteúdo da empresa. Assim, um membro da equipe de moderação deve analisar cada página de cada arquivo enviado procurando por imagens impróprias, links para sites que ferem as regras de moderação, dados de contatos ausentes, lista de contatos alheios, autoria inválida, dentre demais regras.

Tendo em vista a inviabilidade de moderar todo esse volume de conteúdos mensal de forma totalmente manual, a Eduzz buscou na BRLink uma forma de automatizar esse processo com a utilização de serviços da AWS.

A Solução

O time da BRLink analisou as necessidades do cliente e realizou o levantamento de requisitos para um sistema de moderação de conteúdo utilizando inteligência artificial. Após uma fase de experimentos, a BRLink desenvolveu uma arquitetura completamente serverless utilizando os serviços da AWS. A solução desenvolvida oferece alta escalabilidade, disponibilidade de serviços e tolerância a falhas, tudo isso a um baixo custo operacional.

Com o uso de Lambda Function, Simple Queue Service, CloudWatch EventBridge e Step Functions, construímos uma arquitetura desacoplada e orquestrada para o processamento de arquivos. Com as ferramentas de Machine Learning (ML) Rekognition, Textract e Comprehend, conseguimos processar os documentos e extrair informações valiosas para a moderação deles. Através do uso do DynamoDB, Kinesis Firehose, Simple Storage Service, AWS Glue e Athena, construímos uma base de dados de acesso rápido pela API, além de um data lake estruturado para análises dos dados gerados pelo sistema. Por fim, o sistema é disponibilizado por um API Gateway e é completamente estruturado dentro de uma Virtual Private Cloud.

Com a utilização de ML, o sistema é capaz de percorrer documentos e extrair imagens únicas (excluindo as repetidas) para processamento. Em cada imagem, o Rekognition detecta conteúdo explícito, violento, com apologia à tabaco ou alcoolismo, símbolos de ódio e gestos rudes. Através do uso combinado do Textract e Comprehend, conseguimos extrair o texto dos documentos permitindo a manipulação e processamento. Dessa forma, conseguimos identificar links para sites externos, nomes próprios, nomes de empresas, endereços físicos, e-mails, números de contato, dentre outros. Todas essas soluções de ML foram aplicadas para acelerar o processo de moderação humana, detectando as informações de maior impacto para as regras de negócio da Eduzz. Fora a moderação do conteúdo, a nossa arquitetura persiste os dados gerados nas análises em um banco noSQL e os exporta para um data lake no S3 através do Dynamo Streams. Assim, temos uma base de dados de baixa latência para a realização de leituras direcionadas e uma base eficiente para realização de análises avançadas dos dados.

Compartilhe esta publicação:

Essa arquitetura permite o processamento paralelo de diversos arquivos, utilizando alguns dos serviços de machine learning da AWS. Vale ressaltar que toda a arquitetura é encapsulada em uma VPC para a segurança da informação trafegando pela aplicação.

O Orquestrador do Sistema

A fim de desacoplar a arquitetura e permitir a execução paralela com bastante facilidade e controle, nós optamos pelo AWS Step Functions para a construção de um orquestrador do sistema. Assim, a máquina de estados é capaz de lidar com os diferentes tipos de documento no escopo do projeto, sejam imagens, arquivos de texto ou documentos.

Cada arquivo de um conteúdo é instanciado em paralelo em uma subseção da máquina de estados para que, ao final do processamento de todos os arquivos, as saídas do sistema sejam projetadas simultaneamente nas bases de dados. Além da paralelização de arquivos, um mesmo documento pode ter sua moderação feita em partes paralelas em um modelo de scatter-gather, onde funções lambda processam o mesmo arquivo buscando diferentes propriedade e os resultados são combinados ao final da execução delas.

Cada estado do orquestrador possui o seu próprio tratamento de erros, aplicando retries com exponential backoff para assegurar que as falhas não ocorreram por limites de concorrência ou qualquer tipo de indisponibilidade de algum serviço.

O Futuro do Projeto

O próximo passo na evolução do sistema de moderação é utilizar outros serviços gerenciados AWS e modelos personalizados. Assim, podemos utilizar serviços AWS como o Rekognition Video para a análise de vídeos, o Trascribe para a análise do conteúdo falado em vídeos enviados à plataforma. Além de utilizar os serviços de ML da AWS, a BRLink conta com um time de cientista de dados que trabalham em modelos de inteligência customizados. Dessa forma, o futuro do projeto inclui algoritmos para comparação do conteúdo com a descrição buscando inconsistências, avaliação de plágio entre documentos, detecção de profanidade em textos, dentre outros caminhos das regras de negócio da Eduzz.

A BRLink é um Parceiro AWS, de nível Premier (mais alto nível da AWS Partner Network), tem diversas Competências AWS, como DevOps, Migration e Education, e faz parte também dos programas AWS MSP, Well-Architected Partner Program e APN Immersion Days.