Camada Zero · 37 · Como o LLM Lê: Tokens, Embeddings & Atenção

O modelo não lê palavras nem entende texto. Ele quebra tudo em tokens, vira cada um num vetor de números e pesa quais tokens importam pra quais via atenção. Digite uma frase, tokenize e clique num token pra ver no que ele presta atenção.
Clique em "Tokenizar". Depois clique num token pra ver a atenção dele sobre os anteriores.
Embedding do token selecionado (vetor de 8 dims)
Tokens
~Chars por token
Pares de atenção (N²)
token subword (continuação ##) atenção (mais forte = mais escuro)
Tudo é token. Em inglês, ~4 caracteres viram 1 token; palavra rara quebra em vários subwords. O seu prompt, o histórico, a resposta: tudo conta como token, e você paga por cada um em latência, dinheiro e atenção.
ConceitoO que é
TokenA unidade que o modelo processa. Não é palavra, é pedaço.
EmbeddingO token vira um vetor de números que captura significado.
AtençãoPesa quanto cada token importa pra cada outro.
Custo N²Cada token olha todos. Dobrar o contexto ~4x o compute.

Atenção em uma cabeça (conceitual)

func atencao(q, k, v [][]float64) [][]float64 {
    // scores: N x N, cada token contra cada token
    scores := matmul(q, transpose(k))
    scores = scale(scores, 1/sqrt(dk))
    pesos := softmax(scores)   // quanto cada um importa
    return matmul(pesos, v) // mistura ponderada
}
// N tokens geram matriz N x N: custo O(N²)

🧠 Desafio — Como o LLM Lê

Tokenize uma frase e brinque com a atenção antes de responder. As duas últimas são de reflexão: escreve a sua e só então revela o modelo.