Como Python,BERTimbau,Kafka,TensorFlow me levaram da detecção de fraudes à construção de IA clínica.

17% dos médicos brasileiros já usam IA generativa na rotina clínica. Mas apenas 4% dos hospitais têm uso institucional formalizado [1]. E o Brasil tem um déficit de 87% de profissionais de Inteligência Artificial na saúde [2].

Lê esses números de novo.

Médicos usando IA sem estrutura. Hospitais sem governança. E quase ninguém treinado para construir as ferramentas que vão definir o futuro da medicina. O mercado de IA em saúde deve ultrapassar US$ 200 bilhões globalmente até 2030, e o CFM acabou de publicar, em fevereiro de 2026, a Resolução 2.454 — o primeiro marco regulatório federal sobre IA na prática médica brasileira [3].

A porta abriu. A demanda existe. Mas quem vai construir?

Eu decidi que seria uma dessas pessoas. E neste artigo, vou contar como projetos pessoais no GitHub me levaram de "mais um cientista de dados" para alguém que realmente constrói soluções de IA aplicada à saúde, e como você pode fazer o mesmo, começando hoje.

Este artigo segue os 12 passos da mentoria do DIO Campus Expert. Cada orientação, do gancho inicial ao call to action final, foi aplicada na prática. Vamos nessa! 🚀

Quem sou eu (versão curta, prometo)

Meu nome é Gabriel Demetrios Lafis, sou Cientista de Dados com foco em MLOps, LLMs e IA Generativa, baseado em Curitiba-PR. Trabalho com Python, SQL, TensorFlow, PyTorch, Scikit-learn, XGBoost, Spark, Kafka, MLflow, Docker e Kubernetes no dia a dia. Tenho mais de 420 repositórios no GitHub ..... e sim, esse número é real [4].

Passei pela EBANX, Sicredi (detecção de fraudes em tempo real), Mindrift (refinamento de LLMs com RLHF), Manus AI (P&D em Deep Learning) e trade2go (ML em produção). Atualmente inicio como Senior ML Engineer na SysMap/Natura.

No lado acadêmico: Pós-graduação em IA e Ciência de Dados em Saúde pelo Hospital Sírio-Libanês e MBA em Data Science pela USP/Esalq , ambos em andamento. Certificações pela Google, IBM, Johns Hopkins e Wharton.

Como a mentoria do Campus Expert ensinou: não precisa ser formal ao se apresentar. O importante é mostrar vivência no tema. Então vamos ao que interessa. 😉

Por que IA + Saúde é a maior oportunidade da década

Pense comigo: qual é o setor que mais impacta a vida de toda pessoa no planeta, que gera volumes absurdos de dados não-estruturados, e que ainda está nos estágios iniciais de adoção de IA?

Saúde.

Em 2026, IA deixou de ser tendência e virou infraestrutura essencial em hospitais de referência como Einstein e Sírio-Libanês, com modelos preditivos para controle de infecções, otimização de equipes e redução de custos [5]. Globalmente, a análise avançada com NLP de notas clínicas foi apontada como um dos principais casos de uso de IA no relatório da NVIDIA sobre o estado da IA em saúde [6].

Mas aqui está o paradoxo: a maioria das ferramentas de NLP clínico são treinadas em inglês. E o português brasileiro? Quase ninguém está construindo [7].

Foi aí que eu vi minha oportunidade — não numa vaga de emprego, mas no meu próprio GitHub.

O projeto que me fez pensar diferente: NLP Clínico em Português(BR)

Quando comecei minha pós em IA e Ciência de Dados em Saúde no Sírio-Libanês, um problema ficou evidente: prontuários médicos brasileiros são um caos de texto não-estruturado. Diagnósticos escritos de formas diferentes, abreviações que variam de hospital para hospital, medicamentos citados por nome comercial ou princípio ativo sem padrão algum.

Construí o Clinical NLP Pipeline PT-BR (github.com/galafis/clinical-nlp-pipeline-ptbr) — um pipeline completo de Processamento de Linguagem Natural clínico para português brasileiro.

Tecnologias utilizadas: Python, BERTimbau (modelo Transformer pré-treinado para PT-BR), NER (Named Entity Recognition), spaCy, Hugging Face Transformers, FastAPI para API REST, Docker para containerização.

O que ele faz:

🔹 Extrai automaticamente entidades médicas — diagnósticos CID-10, medicamentos, sintomas e procedimentos — de textos clínicos livres.

🔹 Usa modelos Transformer ajustados (BERTimbau) e Reconhecimento de Entidades Nomeadas (NER) com F1-score otimizado.

🔹 Integra pré-processamento de prontuários, tokenização médica especializada e uma API REST para inferência em tempo real.

Isso é aplicável a hospitais, operadoras de saúde e healthtechs. E está aberto, no GitHub, para qualquer pessoa estudar, clonar e melhorar. Porque se o problema é a falta de profissionais construindo IA para saúde no Brasil, a solução começa por tornar o conhecimento acessível.

Do DNA ao diagnóstico: analisando genomas com Python

Não parei no NLP. A medicina de precisão , onde o tratamento é personalizado com base no perfil genético do paciente , é a próxima fronteira [8]. A NVIDIA apontou a análise genômica como um dos pilares da IA em saúde para 2026 e além [6].

Construí o Genomic Data Analysis Pipeline (github.com/galafis/genomic-data-analysis-pipeline): um pipeline automatizado para processar e analisar dados de sequenciamento de nova geração (NGS), incluindo DNA e RNA.

Tecnologias utilizadas: Python, Biopython, Pandas, NumPy, Matplotlib, Scikit-learn, Snakemake/Nextflow para orquestração de pipelines, Docker.

O foco é reprodutibilidade e automação do fluxo analítico para cenários clínicos e de pesquisa.

Você pode pensar: "Mas Gabriel, você não é biólogo."

Exato.

E esse é o ponto.

Ciência de Dados é transferível. As mesmas skills de pipeline, processamento de dados, automação e qualidade que usei para detectar fraudes no setor financeiro (processando 30K+ transações por dia com AUC de 0.94) se aplicam a genômica, NLP clínico, ou qualquer domínio.

420+ repositórios: o que aprendi construindo meu portfólio no GitHub

Ninguém começa com 420 repositórios. Eu comecei com um notebook bagunçado do curso de IBM Data Science. Mas cada projeto que publiquei me ensinou algo que nenhum curso ensina: como ir do problema à solução, documentar, versionar e apresentar o resultado para o mundo.

Vou ser honesto sobre o que realmente funcionou na minha carreira:

Projetos pessoais abriram mais portas que certificados. Certificações são importantes , tenho várias. Mas em entrevistas, o que gerou as conversas mais longas e mais produtivas foram meus repositórios. Recrutadores querem ver como você pensa, não apenas o que você estudou.

Documentação é metade do projeto. Um repositório sem README é invisível [9]. Aprendi a escrever READMEs que contam uma história: qual era o problema, como abordei, quais tecnologias usei e qual foi o resultado. Se alguém não consegue entender seu projeto em 30 segundos olhando o README, ele precisa ser reescrito.

Diversidade de projetos mostra versatilidade. Meu portfólio inclui desde detecção de fraudes financeiras e plataformas de trading analytics até NLP clínico e análise genômica. Isso mostra que não sou "o cara de um nicho" , sou alguém que resolve problemas em qualquer domínio.

Alguns dos projetos que mais geram interesse:

🔹 AI Financial Fraud Detection System — Ensemble de 4 modelos (Random Forest, XGBoost, Redes Neurais, Autoencoders), pipeline MLOps end-to-end. Stack: Python, TensorFlow, Kafka, Spark Streaming, MLflow. AUC 0.94, latência < 200ms → github.com/galafis/ai-financial-fraud-detection

🔹 High-Frequency Trading Analytics — 10K+ eventos/segundo em tempo real. Stack: Python, PySpark, Kafka, PostgreSQL → github.com/galafis/high-frequency-trading-analytics

🔹 Rust HFT Trading Engine — Motor de trading de alta frequência com order matching e risk management. Stack: Rust → github.com/galafis/rust-hft-trading-engine

🔹 Rust WebSocket Feed — Feed de dados de mercado com latência de microssegundos. Stack: Rust → github.com/galafis/rust-websocket-feed

Cada um desses repositórios conta uma história. E juntos, eles contam a minha.

"Mas eu estou começando. Não tenho 420 repos."

Ótimo. Porque você não precisa de 420.

Precisa de um.

Um projeto real. Com um problema claro. Uma solução funcional. E um README que qualquer pessoa consiga entender.

Pode ser algo simples: analisar dados públicos de saúde do DataSUS com Pandas e Plotly, criar um classificador de sentimento com Scikit-learn, automatizar a extração de informações de bulas com spaCy. O tema não precisa ser revolucionário , a execução e a documentação precisam.

Eu aprendi isso na prática. Na DIO, concluí o bootcamp TOTVS de Engenharia de Dados e ML com 100% em todos os módulos. Cada desafio prático virou um repositório. Cada repositório virou uma história no meu portfólio. Cada história virou uma conversa em alguma entrevista.

É um ciclo virtuoso: aprenda → construa → publique → compartilhe → repita.

E agora? Qual vai ser o seu primeiro (ou próximo) projeto?

A mentoria do DIO Campus Expert ensinou que todo bom artigo termina convidando o leitor a agir. Então aqui vai o meu convite:

Se IA e saúde te interessam: clone meu Clinical NLP Pipeline, estude a arquitetura, e adapte para outro problema em saúde — existem dezenas esperando solução. O Brasil precisa desesperadamente de gente construindo IA em português para o contexto clínico local.

Se você quer fortalecer seu portfólio: escolha um problema que te incomode. Resolva com código. Documente bem. Publique no GitHub. Compartilhe no LinkedIn contando a história por trás do projeto. Repita.

Se você quer acelerar: participe de comunidades como a DIO. Bootcamps, mentorias e desafios como este do Campus Expert fazem mais pela sua evolução do que meses estudando isolado.

A porta da IA em saúde está aberta. O déficit de profissionais é real [2]. Os hospitais estão se movimentando [5]. A regulamentação acabou de chegar [3]. A pergunta é: você vai entrar por essa porta ou vai ficar assistindo?

Me encontre no LinkedIn (in/gabriel-demetrios-lafis) e no GitHub (github.com/galafis). Vamos construir juntos. 💡

Referências

[1] Comitê Gestor da Internet no Brasil. (2024). Pesquisa sobre o uso das tecnologias de informação e comunicação nos estabelecimentos de saúde brasileiros: TIC Saúde 2024. CGI.br/NIC.br.

[2] Associação Brasileira da Indústria de Dispositivos Médicos (ABIMED). (2025). Data Centers: o impacto da Inteligência Artificial no setor de saúde. Relatório técnico.

[3] Conselho Federal de Medicina. (2026). Resolução CFM nº 2.454/2026. Dispõe sobre o uso de inteligência artificial na prática médica. Diário Oficial da União, Seção 1, p. 123.

[4] Lafis, G. D. (2026). GitHub Profile. https://github.com/galafis

[5] Clínica Virtual de Pediatria. (2026). Como a Inteligência Artificial Está Transformando a Medicina Moderna em 2026. Publicado em 04/03/2026.

[6] NVIDIA Corporation. (2026). State of AI in Healthcare and Life Sciences: 2026 Trends. NVIDIA Healthcare Solutions Report.

[7] Revista Encontro. (2026). IA avança na saúde, mas uso indiscriminado ainda traz riscos. Publicado em 05/03/2026.

[8] Off Call. (2025). The Future of Medical AI: What's Coming in 2026 and Beyond. Publicado em 25/08/2025.

[9] GeeksforGeeks. (2024). Why GitHub Is The Best Portfolio for Developers? Atualizado em 17/09/2024.