IA cantora?
- #Machine Learning
- #Inteligência Artificial (IA)
Olá pessoal,
a última coisa com a qual estive envolvido foi me divertir testando o que uma IA poderia criar em relação a áudio.
Objetivo
O objetivo do projeto é criar, utilizando Gradio e o modelo AudioLDM hospedado na plataforma Huggingface, uma interface que permita gerar arquivos de áudio .wav via prompt, bem como possibilitar o download do arquivo.
Etapas
As etapas envolvem:
1. Transformar um dado texto para o formato de áudio.
2. Converter o que é gerado (tensor com uma série de números) em um arquivo .wav.
Pacotes
torch
Transformers
diffusers
gradio
scipy
Considerações
- O código precisa de ajuste em relação a sua precisão (etapa ainda pedente) e também na estrutura, como a criação de uma função separada para tratar o áudio e outra para a criação da interface.
- Realizar esse projeto sem GPU não é impossível, mas é inviável para debugar pela demora do processo.
- O código no Github com outras informações, como de costume, está no meu Github.