Article image
Carlos Lima
Carlos Lima25/05/2024 18:30
Compartilhe

IA cantora?

  • #Machine Learning
  • #Inteligência Artificial (IA)

Olá pessoal,

a última coisa com a qual estive envolvido foi me divertir testando o que uma IA poderia criar em relação a áudio.

image

image

Objetivo

O objetivo do projeto é criar, utilizando Gradio e o modelo AudioLDM hospedado na plataforma Huggingface, uma interface que permita gerar arquivos de áudio .wav via prompt, bem como possibilitar o download do arquivo.

Etapas

As etapas envolvem:

1. Transformar um dado texto para o formato de áudio.

2. Converter o que é gerado (tensor com uma série de números) em um arquivo .wav.

Pacotes

torch
Transformers
diffusers
gradio
scipy

Considerações

  • O código precisa de ajuste em relação a sua precisão (etapa ainda pedente) e também na estrutura, como a criação de uma função separada para tratar o áudio e outra para a criação da interface.
  • Realizar esse projeto sem GPU não é impossível, mas é inviável para debugar pela demora do processo.
  • O código no Github com outras informações, como de costume, está no meu Github.

Cllspy - Github

Compartilhe
Comentários (0)