Article image
Edoardo Lobl
Edoardo Lobl02/05/2024 18:36
Compartilhe

Além do CRISPR-GPT: Explorando a Versatilidade das LLMs na Biologia Moderna

  • #Inteligência Artificial (IA)

Introdução

À medida que entramos numa era de convergência entre a computação e a biotecnologia, as fronteiras entre software e biologia tornam-se cada vez mais tênues. Um exemplo dessa convergência é o uso de algoritmos de inteligência artificial para acelerar a descoberta de medicamentos, demonstrando como a tecnologia computacional avançada está revolucionando campos variados, como o desenvolvimento de novos medicamentos e o melhoramento genético de culturas.

Large Language Models (LLMs), como o GPT-4, agora emergem como ferramentas poderosas não apenas em tarefas tradicionais de processamento de linguagem, mas também na interpretação e manipulação de sequências genéticas, que podem ser representadas como strings de texto. No contexto biológico, DNA e RNA, com suas sequências de nucleotídeos — adenina (A), citosina (C), guanina (G), timina (T) para DNA e uracil (U) substituindo timina em RNA — são analogamente interpretados como strings.

Fundamentos das LLMs na Biologia

As LLMs representam um avanço significativo da inteligência artificial, empregando redes neurais profundas para entender, gerar e manipular texto com uma eficiência impressionante. Estes modelos são treinados em grandes volumes de texto para desenvolver uma compreensão abrangente da linguagem humana, o que os capacita a realizar tarefas complexas de processamento de linguagem natural.

Estrutura e Funcionamento das LLMs

LLMs como o GPT (Generative Pre-trained Transformer) operam com base na arquitetura de transformers, que se destaca pelo seu mecanismo de atenção, permitindo que o modelo avalie a importância relativa de diferentes palavras em um texto. Essa capacidade de focar em partes relevantes do texto torna os LLMs extremamente eficientes para entender e gerar linguagem natural de maneira coerente e contextualizada.

Aplicação em Biologia

Na biologia, a capacidade dos LLMs de processar e gerar texto é diretamente aplicável ao trabalho com sequências genéticas. Isso permite que esses modelos realizem tarefas como:

  • Predição de Genes: LLMs podem ser treinadas com milhões de sequências genéticas anotadas disponíveis em bancos de dados como o GenBank do NCBI. Esses modelos aprendem padrões que distinguem regiões codificadoras de genes das não codificadoras, permitindo prever a localização de genes em novas sequências de DNA [1][2].
  • Desenho de Primers: LLMs podem analisar sequências de DNA e sugerir primers que maximizem a especificidade e minimizem a formação de estruturas secundárias. A inclusão de informações sobre protocolos de PCR e temperaturas de anelamento ajuda a ajustar os modelos para gerar primers ideais para condições experimentais específicas.

image

Desenho de Primers a partir de um Template de DNA. LLMs podem ser treinadas para sugerir primers com base em um template de DNA, considerando informações como temperatura de anelamento, tamanho do primer e o protocolo de PCR, além das características específicas da sequência a ser replicada (como microsatélites, genes, elementos de transposição, etc.).
  • Identificação de Elementos de Transposição (TE): A natureza repetitiva dos elementos transponíveis pode ser utilizada pelas LLMs para identificar e classificar essas sequências no genoma.

image

Tipos de Elementos de Transposição. Dada a natureza repetitiva dos elementos de transposição (TEs) ao longo do genoma, os diversos tipos apresentam características diagnósticas específicas. Essas características podem ser utilizadas em um LLM para treinamento na identificação ‘de novo’, anotação e classificação desses elementos.

Treinamento e Fine-Tuning

Para realizar essas tarefas específicas do domínio, os LLMs passam por um processo de fine-tuning, onde o modelo pré-treinado é ajustado com um conjunto de dados específico da biologia. Este processo permite que o modelo se adapte às nuances do texto biológico, tornando-o mais eficaz para tarefas especializadas dentro da biologia.

Estudo de Caso: CRISPR-GPT

CRISPR-GPT [3] é um exemplo pioneiro de como modelos de linguagem de grande escala podem ser adaptados para aplicações especializadas, como a edição genética usando a tecnologia CRISPR. Este modelo específico combina o poder computacional dos LLMs com conhecimento especializado e ferramentas computacionais externas para otimizar e automatizar o processo de design de experimentos de edição genética.

Funcionalidade do CRISPR-GPT

O CRISPR-GPT utiliza um LLM para aprimorar várias etapas críticas no design de experimentos com CRISPR, incluindo a seleção do sistema CRISPR mais adequado, otimização de gRNA, sugestão de métodos de entrega dos componentes do sistema CRISPR, e design de protocolos e validação de experimentos.

image

Visão geral do agente CRISPR-GPT. O CRISPR-GPT é construído sobre uma plataforma de design e planejamento impulsionada por LLM (à esquerda), que auxilia na execução de 4 meta-tarefas principais (à direita, no topo), além de outras funções auxiliares (Q&A livre e previsão de efeitos off-target). O CRISPR-GPT integrou um conjunto de habilidades úteis e ferramentas (à direita, embaixo) que o agente LLM pode acionar conforme necessário para facilitar o trabalho dos usuários humanos nas diversas tarefas e subtarefas.

Vantagens e Desafios das LLMs na Biologia Molecular

Vantagens:

  • Aumento da Eficiência em Escala: LLMs têm a capacidade de processar e analisar grandes volumes de dados biológicos rapidamente.
  • Redução de Erros e Aumento da Precisão: Automatizando cálculos complexos e análises de dados, LLMs reduzem o risco de erros humanos e aumentam a precisão nas previsões e interpretações biológicas.
  • Personalização de Pesquisas e Experimentos: LLMs podem ser treinados e ajustados para realizar tarefas específicas adaptadas às necessidades de projetos particulares.
  • Democratização do Acesso a Tecnologias Avançadas: Facilitando o acesso e o uso de tecnologias complexas, LLMs permitem que um espectro mais amplo de pesquisadores participe de avanços científicos.

Desafios:

  • Treinamento e Dados Específicos do Domínio: A eficácia dos LLMs depende fortemente da qualidade e relevância dos dados de treinamento.
  • Mitigação de ‘Halucinações’ e Erros de Dados: LLMs podem gerar informações imprecisas ou irrelevantes, requerendo validações rigorosas e frequentemente a intervenção de especialistas.
  • Integração com Ferramentas Externas e Manutenção da Segurança: A integração de LLMs com outras plataformas e ferramentas digitais requer interfaces robustas e seguras.
  • Atualização e Manutenção Contínua: A rápida evolução do campo da biologia molecular exige que os LLMs sejam continuamente atualizados.

Conclusão

Os modelos de linguagem de grande escala estão emergindo como ferramentas revolucionárias na biologia, marcando o início de uma nova era de descobertas científicas. Encorajamos a comunidade científica a explorar o potencial dessas ferramentas, integrando LLMs em seus trabalhos de pesquisa para explorar novas possibilidades que transcendam as fronteiras tradicionais da ciência. Ao embarcar nessa jornada, é crucial que continuemos a refinar e adaptar essas ferramentas para garantir sua precisão, confiabilidade e ética na aplicação. Com esses esforços, os LLMs em biologia estão preparados para serem não apenas auxiliares de pesquisa, mas também catalisadores de uma era dourada de descobertas científicas.

  1. LEVINE, Daniel et al. Cell2Sentence: Teaching Large Language Models the Language of Biology. bioRxiv, [s.l.], 11 set. 2023. Disponível em: https://doi.org/10.1101/2023.09.11.557287. Acesso em: 02/05/2024.
  2. FENG, Ruijun; ZHANG, Chi; ZHANG, Yang. Large language models for biomolecular analysis: From methods to applications. TrAC Trends in Analytical Chemistry, [s.l.], v. 171, 2024. ISSN 0165–9936. Disponível em: https://doi.org/10.1016/j.trac.2024.117540. Acesso em: 02/05/2024.
  3. QU, Yuanhao et al. CRISPR-GPT: An LLM Agent for Automated Design of Gene-Editing Experiments. bioRxiv, [s.l.], 25 abr. 2024. Disponível em: https://doi.org/10.1101/2024.04.25.591003. Acesso em: 02/05/2024.
Compartilhe
Comentários (1)
Afonso Simão
Afonso Simão - 02/05/2024 23:27

Artigo muito interessante.

Parabéns!