Tokens~4 chars
O modelo não lê letras, lê tokens, pedaços de ~4 caracteres. Prompt, contexto e resposta são tudo token, e tudo é cobrado. Conta texto por token, não por palavra.
// "consciência" ≈ 4 tokens
custo = tokens_in + tokens_out
Embeddingsvetor
Cada token vira um vetor de centenas de dimensões que carrega significado. Palavras próximas em sentido ficam próximas no espaço. É o que deixa a máquina comparar ideia, não string.
AtençãoO(N²)
Self-attention faz cada token olhar todos os outros pra decidir o que importa. O custo cresce com o quadrado do tamanho: dobrar o contexto quadruplica a conta.
// N tokens → N×N comparações
Context windowo orçamento
É o teto de tokens que cabe numa chamada: prompt mais histórico mais resposta. Estourou, o começo cai. Não é memória infinita: é um orçamento finito a ser gasto bem.
Lost in the middledegrada
O modelo presta mais atenção no começo e no fim do contexto. O que está enterrado no meio tende a ser ignorado. Encher a janela não é o mesmo que ser lido.
Context engineeringcurar
Não é escrever prompt bonito, é curar o orçamento de atenção: colocar só o necessário, nas posições certas, sem ruído. Menos contexto relevante bate mais contexto genérico.
RAGgrounding
Embed a pergunta, busca por similaridade nos seus dados, injeta os trechos no contexto. Ancora a resposta na sua fonte em vez de no que o modelo decorou. Reduz alucinação.
embed(q) → topK(docs) → prompt
Retrieval é o tetogarbage in
A resposta nunca passa da qualidade do que a busca trouxe. Recuperou trecho errado, a melhor LLM erra com confiança. Otimize a recuperação antes do prompt.
Evalsmedir
Não dá pra melhorar o que não se mede. Evals são casos com resposta esperada que pegam regressão antes do usuário. Sem eles, todo ajuste de prompt é palpite.
Agent loop & MCPreason→act→observe
Agente não responde e para: raciocina, age (chama ferramenta), observa o resultado e repete. O MCP é o padrão que conecta o modelo às ferramentas externas.
loop { reason; act(tool); observe }
Revisar código de IAo 70% problem
A IA tira você de 0 a 70% rápido; os 30% finais são seus. Cerca de 45% do gerado vem inseguro. Leia no split 40/20/40: 40% entender o pedido, 20% gerar, 40% revisar.
Prompt injectionOWASP LLM01
Dado externo vira instrução: um e-mail ou página manda o agente vazar ou agir. É o risco nº 1 de apps LLM. Sem bala de prata: defesa em profundidade, validar entrada, limitar poder, isolar.