Como os computadores conseguem compreender frases?

#Python

Para ser adequado ao machine learning ou deep learning, os dados geralmente precisam ser numéricos. Sons, imagens, ou informações quantitativas sobre produtos e clientes. Dados que não são numéricos podem ser mais desafiadores de treinar.

Com texto não poderia ser diferente, o objetivo desde artigo é falar sobre o conceito de "tokenização" e mostrar a implementação de um código simples onde este processo ocorre.

O que é tokenização?

Tokenização é um processo de pré-processamento de texto no qual cada palavra é decomposta em partes menores, chamadas tokens. Isso permite que a máquina reconheça e diferencie palavras, como verbos e substantivos, e até mesmo compreenda o significado semântico.

Por exemplo, a palavra 'Qualidade' pode* ser representada por uma sequência de números, como '11 22 33 44 55 66 33 66 77', o que facilita a compreensão da informação pelos computadores.

Exemplo simples

Existem várias maneiras de realizar a tokenização, cada uma com seus próprios prós e contras. Vou apresentar uma função simples que realiza essa tarefa de forma eficaz.

Resumidamente, este código mapeia cada palavra para um número e permite recuperar a palavra original usando o mesmo número. É um exemplo simples de tokenização.

Exclarecimentos

O código é parte de uma aula sobre transformers ministrada por Andrej Karpathy - Let's build GPT: from scratch, in code, spelled out.