Modulo 1.1 - Fundamentos tecnicos de LLMs

🔄 IA no fluxo de engenharia

O que e: Quando IA deixa de ser apoio e passa a compor o fluxo de engenharia como parte estrutural do processo de desenvolvimento.

Por que aprender: Entender onde a IA se encaixa no ciclo de dev evita sub-uso e dependencia cega. A diferenca entre um dev que usa IA como Google glorificado e um que integra IA no fluxo e produtividade e qualidade.

Conceitos-chave: Fluxo de engenharia, IA como co-piloto vs IA como componente, inner loop vs outer loop de desenvolvimento, automacao de tarefas de rotina.

🧬 Tipos de IA

O que e: Diferenca entre IA generativa, ML classico e sistemas assistidos por LLM. Saber o que cada tipo faz e onde cada um funciona melhor.

Por que aprender: Muita gente confunde categorias de IA e tenta resolver problemas de ML classico com LLMs ou vice-versa. Clareza aqui evita meses de trabalho desperdicado.

Conceitos-chave: IA generativa, machine learning supervisionado/nao-supervisionado, LLMs, transformers, modelos de linguagem vs modelos de classificacao.

⚙️ Anatomia dos modelos

O que e: Tokens, embeddings, attention, context window, inferencia e temperatura. Os mecanismos internos que determinam o que um LLM consegue e nao consegue fazer.

Por que aprender: Sem entender como funciona por dentro, voce nao consegue diagnosticar por que um prompt falha, por que uma resposta alucina, ou por que o modelo "esquece" algo no meio da conversa.

Conceitos-chave: Tokenizacao, embeddings, self-attention, context window, KV cache, temperatura, top-p, top-k, inferencia, next-token prediction.

⚖️ Trade-offs criticos

O que e: As decisoes que voce precisa tomar entre qualidade, custo, latencia, previsibilidade e seguranca ao usar LLMs em producao.

Por que aprender: Na pratica, nenhum modelo e perfeito em tudo. Saber o que priorizar em cada cenario e o que separa uso amador de uso profissional.

Conceitos-chave: Custo por token, latencia de inferencia, qualidade de output, previsibilidade, seguranca de dados, modelo caro vs modelo barato por tarefa.

🎯 Escolha de modelos

O que e: Quando usar API direta, copilotos integrados ao editor ou agentes autonomos. Cada modalidade tem vantagens e custos diferentes.

Por que aprender: A ferramenta errada pro problema certo desperdiça dinheiro e tempo. Saber quando um copiloto basta e quando voce precisa de um agente e decisao critica.

Conceitos-chave: API vs copiloto vs agente, latencia interativa, custo por sessao, autonomia do modelo, feedback loop humano-IA.

🏷️ Panorama 2026

O que e: Os modelos que importam em 2026: Claude Opus/Sonnet/Haiku, GPT-5.x, Gemini e modelos open-source. O que cada um faz de melhor.

Por que aprender: O cenario muda rapido. Saber o que esta disponivel, qual o custo e onde cada modelo se destaca evita escolhas desatualizadas.

Conceitos-chave: Claude Opus 4, Sonnet 4, Haiku 3.5, GPT-5.x, Gemini 2.5 Pro, Llama 4, DeepSeek R1, benchmarks, pricing tiers, modelo por caso de uso.

📝 Exercicios

LAB

Anatomia de um token (30 min)

Usar tokenizadores (tiktoken, Anthropic tokenizer) para contar tokens de trechos de codigo em Python, TypeScript e Go. Comparar: por que o mesmo codigo tem contagens diferentes? Quanto custa processar 1000 linhas?

LAB

Temperatura e determinismo (45 min)

Executar o mesmo prompt de geracao de codigo 10 vezes com temperatura 0, 0.3, 0.7 e 1.0. Em qual temperatura o codigo e mais previsivel? Em qual e mais criativo? Em qual quebra?

Benchmark de modelos (60 min)

5 tarefas de engenharia (refatorar funcao, escrever teste, explicar bug, gerar SQL, documentar API) executadas em 3 modelos. Tabela comparativa: qualidade, velocidade, custo, tokens usados.

Custo real de um projeto (30 min)

Calcular custo de API para: 100 code reviews/semana, 50 geracoes de teste/dia, 20 refatoracoes/sprint. Comparar com assinatura de ferramentas (Cursor Pro $20, Claude Max $100, Copilot $10).

Fundamentos tecnicos de LLMs para engenharia de software