Camada Zero · 37 · Como o LLM Lê: Tokens, Embeddings & Atenção
O modelo não lê palavras nem entende texto. Ele quebra tudo em tokens, vira cada um num vetor de números e pesa quais tokens importam pra quais via atenção. Digite uma frase, tokenize e clique num token pra ver no que ele presta atenção.
Clique em "Tokenizar". Depois clique num token pra ver a atenção dele sobre os anteriores.
Embedding do token selecionado (vetor de 8 dims)
—Tokens
—~Chars por token
—Pares de atenção (N²)
tokensubword (continuação ##)atenção (mais forte = mais escuro)
Tudo é token. Em inglês, ~4 caracteres viram 1 token; palavra rara quebra em vários subwords. O seu prompt, o histórico, a resposta: tudo conta como token, e você paga por cada um em latência, dinheiro e atenção.
Conceito
O que é
Token
A unidade que o modelo processa. Não é palavra, é pedaço.
Embedding
O token vira um vetor de números que captura significado.
Atenção
Pesa quanto cada token importa pra cada outro.
Custo N²
Cada token olha todos. Dobrar o contexto ~4x o compute.
Atenção em uma cabeça (conceitual)
funcatencao(q, k, v [][]float64) [][]float64 {
// scores: N x N, cada token contra cada token
scores := matmul(q, transpose(k))
scores = scale(scores, 1/sqrt(dk))
pesos := softmax(scores) // quanto cada um importareturnmatmul(pesos, v) // mistura ponderada
}
// N tokens geram matriz N x N: custo O(N²)
🧠 Desafio — Como o LLM Lê
Tokenize uma frase e brinque com a atenção antes de responder. As duas últimas são de reflexão: escreve a sua e só então revela o modelo.