Camada Zero · 37 · Como o LLM Lê: Tokens, Embeddings & Atenção

O modelo não lê palavras nem entende texto. Ele quebra tudo em tokens, vira cada um num vetor de números e pesa quais tokens importam pra quais via atenção. Digite uma frase, tokenize e clique num token pra ver no que ele presta atenção.

← voltar à trilha

Clique em "Tokenizar". Depois clique num token pra ver a atenção dele sobre os anteriores.

Embedding do token selecionado (vetor de 8 dims)

—Tokens

—~Chars por token

—Pares de atenção (N²)

token subword (continuação ##) atenção (mais forte = mais escuro)

Tudo é token. Em inglês, ~4 caracteres viram 1 token; palavra rara quebra em vários subwords. O seu prompt, o histórico, a resposta: tudo conta como token, e você paga por cada um em latência, dinheiro e atenção.

Conceito	O que é
Token	A unidade que o modelo processa. Não é palavra, é pedaço.
Embedding	O token vira um vetor de números que captura significado.
Atenção	Pesa quanto cada token importa pra cada outro.
Custo N²	Cada token olha todos. Dobrar o contexto ~4x o compute.

Atenção em uma cabeça (conceitual)

func atencao(q, k, v [][]float64) [][]float64 {
    // scores: N x N, cada token contra cada token
    scores := matmul(q, transpose(k))
    scores = scale(scores, 1/sqrt(dk))
    pesos := softmax(scores)   // quanto cada um importa
    return matmul(pesos, v) // mistura ponderada
}
// N tokens geram matriz N x N: custo O(N²)

🧠 Desafio — Como o LLM Lê

Tokenize uma frase e brinque com a atenção antes de responder. As duas últimas são de reflexão: escreve a sua e só então revela o modelo.