Case de sucesso: o passo a passo para desenvolver o maior acervo de audiobooks do país com inteligência artificial

Case de sucesso: o passo a passo para desenvolver o maior acervo de audiobooks do país com inteligência artificial

Por Miller Horvarth*

Atualmente, existem 7 milhões de pessoas cegas  ou com baixa visão em nosso país, como aponta a Organização Nacional de Cegos do Brasil (ONCB). Dadas às estatísticas e pensando em ampliar o acesso dessas pessoas à educação, que iniciamos a reunião de Design Thinking com a equipe da EdTech Gran Cursos Online.

Ao final da conferência, o nosso time – composto por 2 seniors do time de desenvolvimento, 2 estagiários, 3 cientistas de dados e eu, que atuo como líder dos cientistas de dados da BRLink – estava frenético com o desafio de transformar o conteúdo de 28 mil livros em áudio. Se desse certo, seríamos os responsáveis pelo planejamento e desenvolvimento técnico do maior acervo de audiobooks do Brasil, uma espécie de “Spotify dos Cursos”!

Normalmente, audiobooks são gravados em estúdio com o auxílio de microfones unidirecionais, amplificadores, computadores e a interpretação de atores e dubladores. Segundo o CEO do Auti Books, em média, leva-se 25 horas para gravar um audiobook de 300 páginas, fora o tempo de edição, totalizando um tempo de 45 a 60 dias.  A EdTech Gran Cursos Online, precisava de urgência e por isso, nos procurou.

Apesar da hesitação, sabíamos das dificuldades que esta tarefa demandaria e por isso, após um levantamento detalhado de requisitos da proposta, chegamos à conclusão de que, por se tratar de uma solução completa, e em produção, o melhor a fazer era utilizar diferentes serviços da AWS, proporcionando alta qualidade para o projeto.

Iniciamos a parte prática com uma prova de conceito (PoC) para provar a qualidade dos áudios gerados pelo Amazon Polly, sobretudo utilizando a engine Neural do serviço, que entrega uma voz muito mais natural. Depois, foi necessário desenvolver algoritmos em Python implementados em funções Lambda – serviço para computação Serverless da AWS -, para a extração e formatação dos textos das aulas em PDF.

O algoritmo elaborado também foi o responsável pela conversão do conteúdo para o formato Speech Synthesis Markup Language (SSML), que permite a customização dos áudios gerados, e pela limpeza dos textos para a remoção de dados pouco relevantes para os audiobooks como, por exemplo, textos do cabeçalho e rodapé, detecção e formatação de textos em tabelas.

A próxima etapa foi um extenso processo de revisão dos audiobooks gerados e exigiu muito empenho dos especialistas de língua portuguesa da EdTech Gran Cursos Online, que ouviram mais de 700 horas de áudios para identificar problemas de pronúncia de palavras, que podem ser corrigidos no Amazon Polly através dos Lexicons e de tags SSML.

Por último, mas não menos importante, fizemos a implantação da arquitetura em produção e geramos os audiobooks para todo o catálogo de aulas em PDF da EdTech Gran Cursos Online.

Em apenas dois meses transformamos o conteúdo de 28 mil livros em áudio. Como profissional que atuou desde a ideação até a implantação do projeto, posso afirmar que isso só foi possível devido ao alto comprometimento e qualidade técnica no time da BRLink, além da cooperação extensiva da EdTech Gran Cursos Online. Graças à assertividade no planejamento do projeto e à nossa eficiência operacional, todos os audiobooks foram gerados com menos de 1 semana de processamento. Com isso, pudemos alocar em torno de 7 semanas para melhorar ao máximo a qualidade dos áudios, que além de ser o maior desafio que enfrentamos, também é o aspecto mais impactante para os alunos.

A meu ver, o principal diferencial deste projeto, além da acessibilidade proporcionada para as pessoas que possuem algum grau de deficiência visual, é a capacidade de impactar os estudos em diversas situações. E adianto que os alunos podem esperar muitas novidades dessa parceria entre BRLink e Gran Cursos Online. Estamos trabalhando continuamente para trazer cada vez mais inovação tecnológica para a plataforma.

 

( * ) Miller Horvath é bacharel em Ciência da Computação e mestre em processamento de sinais e imagem pelo Centro Universitário FEI e atua como Lead Data Scientist da BRLink onde é responsável pelo gerenciamento de equipe e projetos de AI/ML, desenvolvimento de projetos de aprendizado de máquina ponta a ponta na nuvem AWS, construção de arquitetura de soluções AWS usando Sagemaker, serviços gerenciados de AI/ML e diversos outros serviços AWS, como Lambda, DynamoDB, RDS, SQS, Elasticsearch, S3, Glue, Athena, Kinesis Firehose, API Gateway, entre muitos outros.

Compartilhe esta publicação:

Artigos Populares

Entre em
CONTATO

Para descobrir como nossos serviços auxiliam os seus negócios, entre em contato conosco.

Tem alguma dúvida?
LIGUE PRA NÓS!

Olá!

Gostaria de receber uma ligação?

NÓS TE LIGAMOS
Informe seu telefone que entraremos em contato o mais rápido possível.
Gostaria de agendar e receber uma chamada em outro horário?
Deixe sua mensagem! Entraremos em contato o mais rápido possível.