IA cantora?

#Machine Learning
#Inteligência Artificial (IA)

Olá pessoal,

a última coisa com a qual estive envolvido foi me divertir testando o que uma IA poderia criar em relação a áudio.

Objetivo

O objetivo do projeto é criar, utilizando Gradio e o modelo AudioLDM hospedado na plataforma Huggingface, uma interface que permita gerar arquivos de áudio .wav via prompt, bem como possibilitar o download do arquivo.

Etapas

As etapas envolvem:

1. Transformar um dado texto para o formato de áudio.

2. Converter o que é gerado (tensor com uma série de números) em um arquivo .wav.

Pacotes

torch
Transformers
diffusers
gradio
scipy

Considerações

O código precisa de ajuste em relação a sua precisão (etapa ainda pedente) e também na estrutura, como a criação de uma função separada para tratar o áudio e outra para a criação da interface.
Realizar esse projeto sem GPU não é impossível, mas é inviável para debugar pela demora do processo.
O código no Github com outras informações, como de costume, está no meu Github.

Cllspy - Github