Trilha 3 - Qualidade, Seguranca e Adocao em Escala

3.1

Padroes modernos para uso sustentavel de LLMs

Rules, skills, agents.md e padroes reutilizaveis. Do uso individual ao padrao de time versionado.

O que e:

A diferenca entre dar contexto ad-hoc ao modelo (copiar-colar manual) e estruturar esse contexto em artefatos versionados: rules files, skills directories, agents.md e bibliotecas de prompts. Cada formato tem um proposito e escopo diferente.

Por que aprender:

Contexto solto nao escala. Quando voce tem 5 devs usando IA, cada um dando instrucoes diferentes, o output e inconsistente. Padronizar contexto em artefatos versionados garante que todos os agentes se comportam da mesma forma.

Conceitos-chave:

CLAUDE.md, .cursorrules, agents.md, skills directories, prompt libraries, context-as-code, versionamento de contexto.

O que e:

Como encapsular comportamento de IA de forma previsivel. Definir contratos claros: dado este input e estas regras, o agente deve produzir este tipo de output. Transformar comportamento emergente em comportamento deterministico.

Por que aprender:

IA sem guardrails e imprevisivel. Encapsular comportamento em padroes claros reduz variancia e aumenta confianca. Times que fazem isso reportam 80%+ de aderencia nas primeiras 150 instrucoes.

Conceitos-chave:

Behavioral contracts, instruction compliance, output templates, guardrails, predictability vs flexibility trade-off, instruction budget (~150-200 rules).

O que e:

Definir explicitamente o que o agente pode e nao pode fazer. Quais decisoes ele toma sozinho, quais precisam de aprovacao humana, quais sao proibidas. Convencoes escritas que governam a interacao humano-IA.

Por que aprender:

Sem contratos claros, o agente toma decisoes que deveriam ser humanas e nao toma as que poderia. Definir limites formais reduz risco e aumenta a autonomia util do agente dentro de fronteiras seguras.

Conceitos-chave:

Autonomy levels, decision boundaries, approval workflows, prohibited actions, permission scoping, trust tiers, escalation policies.

O que e:

Skills sao unidades reutilizaveis de capacidade do agente. Cada skill encapsula um comportamento especifico (code review, geracao de testes, documentacao) com seu proprio prompt, ferramentas e criterios de validacao.

Por que aprender:

Em vez de reescrever o mesmo prompt toda vez, voce cria skills que qualquer membro do time pode invocar com resultado consistente. Skills bem feitas sao como funcoes: input definido, output previsivel, testavel.

Conceitos-chave:

Skill definition, trigger conditions, input/output contracts, skill testing, skill composition, skill versioning, skill discovery.

O que e:

Os trade-offs reais entre flexibilidade (cada dev configura como quer), consistencia (todos usam o mesmo padrao) e manutencao (quem atualiza os padroes). Nenhum extremo funciona.

Por que aprender:

Padronizacao excessiva engessa e gera resistencia. Flexibilidade total gera caos. O ponto ideal varia por time e maturidade. Saber calibrar e habilidade de tech lead.

Conceitos-chave:

Convention over configuration, shared vs personal rules, maintenance burden, adoption resistance, progressive standardization, escape hatches.

O que e:

Tratar CLAUDE.md e rules files como assets de time, versionados e revisados como codigo. Padronizacao cross-team com formato unico na organizacao para que agentes se comportem de forma consistente independente de quem invoca.

Por que aprender:

Sem padrao organizacional, cada time reinventa o formato de rules. Com padrao unico, um dev que muda de time ja sabe como funciona. Alem disso, permite metricas de aderencia e melhoria continua.

Conceitos-chave:

Organizational standards, template repositories, CLAUDE.md code review, CHANGELOG de regras, compliance metrics, cross-team sharing.

Ver Completo →

3.2

Qualidade de software com IA no ciclo completo

Testes, code review, CI/CD self-correcting e mutation testing. IA na qualidade do inicio ao deploy.

O que e:

Usar IA para gerar testes unitarios, de integracao e de contrato, e tambem para revisar testes existentes. A IA identifica edge cases que o dev nao pensou, gaps de cobertura e testes que nao testam nada util.

Por que aprender:

Testes sao a base de qualidade, mas escrever bons testes e tedioso e demorado. A IA acelera drasticamente a geracao e, mais importante, a revisao critica de testes existentes que podem estar dando falsa confianca.

Conceitos-chave:

Test generation prompts, edge case discovery, coverage gap analysis, contract testing, test review patterns, assertion quality.

O que e:

Ferramentas de code review automatizado com IA que operam em PRs reais. CodeRabbit (2M+ repos), PR-Agent, Anthropic Code Review e Snyk Code. Cada uma com abordagem diferente: semantica, seguranca, estilo.

Por que aprender:

Code review humano e gargalo em times de todos os tamanhos. AI code review nao substitui humanos mas filtra problemas obvios, libera reviewers para focar em logica e arquitetura. Times reportam 40-60% reducao em tempo de review.

Conceitos-chave:

Semantic review vs syntactic review, false positive rate, review fatigue, tool comparison, integration com GitHub/GitLab, customizacao de regras.

O que e:

Usar IA para detectar inconsistencias no codigo, gaps de cobertura de testes e riscos de regressao antes que cheguem a producao. Guardrails automatizados que impedem mudancas frageis de serem mergeadas.

Por que aprender:

Times que shipam mais rapido com IA mas sem guardrails quebram mais. O custo oculto de velocidade sem qualidade e incidentes, hotfixes e divida tecnica acelerada. Guardrails sao o que permitem velocidade sustentavel.

Conceitos-chave:

Quality gates automatizados, regression risk scoring, coverage threshold enforcement, fragile change detection, merge policies com IA.

O que e:

Manter rastreabilidade entre a intencao (requisito/spec), a implementacao (codigo) e a evidencia de qualidade (testes/review). Saber por que cada linha de codigo existe e como foi validada.

Por que aprender:

Quando um bug aparece em producao, voce precisa rastrear: qual era o requisito? O codigo implementa corretamente? Os testes cobrem o caso? Sem rastreabilidade, debug e arqueologia. Com ela, e navegacao.

Conceitos-chave:

Requirement traceability, spec-to-code linking, test coverage mapping, audit trail, change impact analysis, compliance evidence.

O que e:

Pipelines de CI/CD que, ao encontrar uma falha, usam IA para diagnosticar o problema e propor (ou aplicar) a correcao automaticamente. Em vez de apenas reportar "test failed", o pipeline tenta corrigir e re-executar.

Por que aprender:

80% das falhas de CI sao problemas simples: import faltando, tipo errado, assertion desatualizada. IA resolve esses em segundos. O dev so precisa intervir nos 20% que requerem julgamento humano. Isso reduz drasticamente o tempo de ciclo.

Conceitos-chave:

Self-healing pipelines, automated fix proposals, CI failure classification, auto-retry with correction, human escalation triggers, safety limits.

O que e:

Mutation testing injeta mudancas no codigo (mutantes) e verifica se os testes detectam. Se um mutante sobrevive, os testes tem um gap. Combinado com IA, voce nao so detecta gaps mas gera testes que matam os mutantes sobreviventes.

Por que aprender:

Code coverage mente. 100% coverage nao garante que os testes detectam bugs. Mutation testing mede a qualidade real dos testes. Com IA, o ciclo de melhorar testes baseado em mutantes sobreviventes e automatizado.

Conceitos-chave:

Mutation operators, mutant survival rate, mutation score, Stryker/Pitest, AI-generated tests para mutantes, coverage vs mutation score.

Ver Completo →

3.3

Seguranca, governanca e uso corporativo

Prompt injection, memory poisoning, EU AI Act e politicas de uso para times e empresas.

O que e:

Prompt injection e a tecnica de manipular o comportamento de um LLM atraves de inputs maliciosos. Inclui injecao direta (no prompt do usuario), indireta (via dados que o modelo le) e via tools (dados retornados por ferramentas contendo instrucoes maliciosas).

Por que aprender:

E o vetor de ataque mais relevante para aplicacoes LLM em 2026. Nenhuma defesa e 100% eficaz, mas entender os padroes de ataque permite construir camadas de protecao que reduzem drasticamente o risco.

Conceitos-chave:

Direct injection, indirect injection, tool poisoning, data exfiltration via prompts, jailbreaking, defense layers, input sanitization.

O que e:

Memory poisoning injeta informacao maliciosa na memoria persistente do agente. Embedding-level injection envenena pipelines RAG com documentos que contem instrucoes ocultas. Ambos sao ataques que persistem entre sessoes.

Por que aprender:

Estes ataques sao mais perigosos que prompt injection porque persistem. Uma vez que a memoria ou o indice RAG esta envenenado, todos os usuarios do sistema sao afetados ate a limpeza. Detectar e prevenir requer estrategias especificas.

Conceitos-chave:

Persistent poisoning, embedding manipulation, RAG pipeline security, memory validation, content integrity checks, source verification.

O que e:

O gap entre monitorar riscos de IA e efetivamente conte-los. Pesquisas mostram que 58% das organizacoes monitoram uso de IA, mas apenas 37% tem mecanismos de contencao efetivos. "Rules fail at the prompt, succeed at the boundary."

Por que aprender:

Monitoramento sem contencao e como ter alarme de incendio sem extintor. Voce sabe que algo deu errado mas nao consegue parar. Construir contencao efetiva e o que separa organizacoes maduras das que estao apenas checando uma caixa.

Conceitos-chave:

Monitoring vs containment, boundary enforcement, runtime guardrails, input/output validation, sandboxing, permission scoping, kill switches.

O que e:

A regulamentacao europeia de IA com fases de enforcement rolando em 2025-2026. Classifica sistemas de IA por risco (inaceitavel, alto, limitado, minimo) e impoe obrigacoes proporcionais. Afeta qualquer empresa que opera na UE.

Por que aprender:

Compliance nao e opcional para empresas que operam na UE. Multas podem chegar a 7% do faturamento global. Alem disso, os principios do AI Act (transparencia, explicabilidade, supervisao humana) sao boas praticas independente de regulacao.

Conceitos-chave:

Risk classification, transparency obligations, human oversight requirements, conformity assessment, documentation requirements, enforcement timeline.

O que e:

As defesas concretas que funcionam: validar inputs antes de enviar ao modelo, validar outputs antes de executar, sandboxing de execucao, principio do menor privilegio e separacao de dados sensiveis.

Por que aprender:

Regras no prompt falham. Defesas na fronteira do sistema funcionam. Input validation, output filtering e sandboxing sao as tres camadas que realmente protegem. Sem elas, qualquer sistema com LLM e vulneravel.

Conceitos-chave:

Input sanitization, output validation, execution sandboxing, least privilege, data classification, context scoping, anonimizacao.

O que e:

Criar politicas completas de uso de IA para times e empresas: o que pode ir para API, classificacao de dados, tarefas AI-appropriate vs human-required, como auditar e como medir compliance.

Por que aprender:

Sem politica formal, cada dev decide sozinho o que enviar para a API. Isso gera riscos de vazamento de dados, inconsistencia e problemas legais. Uma politica clara protege o time e a empresa.

Conceitos-chave:

Data classification (publico/interno/confidencial/restrito), API usage policies, audit procedures, compliance metrics, acceptable use guidelines.

Ver Completo →

3.4

Estrategia de adocao em times de engenharia

Numeros reais de adocao, metricas DORA + SPACE, planos de 90 dias e ROI calculavel.

O que e:

Os dados concretos de adocao em 2026: 92% dos devs usam IA no trabalho, 41% do codigo novo e gerado por IA. Produtividade medida: 3.6h/semana economizadas, +60% PRs mergeados, -24% cycle time.

Por que aprender:

Dados concretos vencem opinioes. Conhecer os numeros reais permite argumentar com lideranca, calibrar expectativas e identificar onde seu time esta em relacao ao mercado.

Conceitos-chave:

Adoption rates, code generation percentage, productivity metrics, quality tradeoffs (1.7x issues sem governanca), benchmark data.

O que e:

Os frameworks de metricas relevantes para medir impacto de IA em times de engenharia. DORA (deployment frequency, lead time, MTTR, change failure rate), SPACE (satisfaction, performance, activity, communication, efficiency), DX Core 4 e Flow metrics.

Por que aprender:

Sem metricas, voce nao sabe se IA esta ajudando ou atrapalhando. "Parece mais rapido" nao e metrica. Medir antes e depois com frameworks validados e o que permite decisoes informadas sobre investimento em ferramentas e treinamento.

Conceitos-chave:

DORA metrics, SPACE framework, developer experience, flow state, cycle time, review time, code churn, rework rate.

O que e:

O modelo de adocao progressiva que funciona: comecar com uso read-only (explicacao, documentacao, entendimento de codigo), depois assistido com review obrigatorio, depois agentes com guardrails definidos.

Por que aprender:

Pular direto para geracao de codigo sem dominar leitura assistida e context engineering gera resultados ruins e resistencia no time. A progressao read-only > assistido > agentic e o que funciona na pratica.

Conceitos-chave:

Progressive adoption, read-only phase, assisted phase, agentic phase, go/no-go criteria, rollback plan, champion model.

O que e:

Onboarding que ensina as habilidades certas: context engineering, prompt structure, validation practices, tool selection. Nao apenas "como instalar e usar" a ferramenta, mas como pensar sobre IA como parte do fluxo de engenharia.

Por que aprender:

O bloqueio real de adocao e skill gap, nao tecnologia (Deloitte 2026). Times que investem em onboarding estruturado reportam 3x mais retencao de praticas corretas vs times que so distribuem licencas.

Conceitos-chave:

Skill-based onboarding, context engineering training, validation habits, tool mastery path, mentoring program, pair programming com IA.

O que e:

Classificar cada tipo de tarefa do time: quais devem ser assistidas por IA, quais podem ser totalmente automatizadas e quais devem permanecer exclusivamente humanas. A classificacao depende do risco, complexidade e necessidade de julgamento.

Por que aprender:

Nem tudo deve ser automatizado e nem tudo precisa ser manual. A classificacao correta maximiza o ROI de IA concentrando investimento onde o retorno e maior e mantendo humanos onde o risco e critico.

Conceitos-chave:

Task classification matrix, risk-based categorization, automation candidates, human-only tasks, hybrid workflows, ROI per task type.

O que e:

Calcular o retorno sobre investimento real de IA em engenharia: custo das ferramentas + tokens vs horas dev economizadas + bugs evitados + tempo de review reduzido. Montar caso de negocio para lideranca tecnica.

Por que aprender:

Lideranca decide com numeros, nao com entusiasmo. Um caso de negocio solido com ROI calculado e o que transforma "queremos usar IA" em budget aprovado e suporte organizacional.

Conceitos-chave:

ROI calculation, total cost of ownership, productivity gains measurement, quality improvement metrics, business case template, executive presentation.

Ver Completo →

3.5

Projeto aplicado integrador (Capstone)

Do design doc a implementacao completa. Pipeline multiagente, spec-driven, com qualidade e governanca aplicadas.

O que e:

O processo completo de planejar e implementar uma feature real com IA: do design doc inicial, passando pela especificacao estruturada, decomposicao em tasks, implementacao assistida e validacao contra criterios de aceite.

Por que aprender:

O capstone integra todas as habilidades do curso num projeto real. Nao e exercicio descartavel - e uma ferramenta ou sistema que o aluno vai usar no dia a dia. A validacao e contra criterios reais de producao.

Conceitos-chave:

Design doc, spec-driven planning, task decomposition, iterative implementation, acceptance criteria, production readiness.

O que e:

Implementar um pipeline completo com agentes especializados: spec agent gera a especificacao, code agent implementa, test agent gera testes, review agent revisa e deploy agent integra. Cada estagio com quality gates.

Por que aprender:

Este e o padrao de producao para desenvolvimento com IA em 2026. Construir um pipeline funcional demonstra dominio de todas as disciplinas do curso: contexto, agentes, MCP, qualidade e governanca.

Conceitos-chave:

Multi-agent pipeline, stage gates, artifact passing, quality gates, feedback loops, rollback, end-to-end automation.

O que e:

Construir um assistente de desenvolvimento pessoal combinando: MCP server para seu repo principal, RAG sobre documentacao interna, agente de code review customizado e sistema de memoria com checkpoints.

Por que aprender:

Uma ferramenta real que o aluno vai usar no dia a dia. Integra MCP, RAG, agentes e context engineering num produto funcional, nao num exercicio descartavel.

Conceitos-chave:

Custom MCP server, personal RAG, code review agent, memory system, checkpoint/restore, daily workflow integration.

O que e:

Sistema que, dado um repo legado: analisa e mapeia codebase (agente de discovery), gera relatorio de divida tecnica com priorizacao, propoe plano de migracao em etapas, executa primeira etapa com supervisao humana e gera testes de regressao.

Por que aprender:

Modernizacao de legado e o problema mais comum em empresas reais. Um pipeline automatizado de analise e migracao tem valor imediato e demonstra dominio de leitura assistida, refatoracao e qualidade.

Conceitos-chave:

Codebase discovery agent, tech debt scoring, migration planning, supervised execution, regression test generation, incremental migration.

O que e:

RAG + agentes para time real: indexa documentacao, PRs, ADRs e postmortems. Interface via Slack ou Telegram. Responde perguntas tecnicas com citacao de fontes. Sabe quando nao sabe. Aprende com feedback.

Por que aprender:

Resolve o problema real de knowledge silos em times. Integra RAG, agentes, feedback loop e deployment. Tem valor imediato para qualquer time de engenharia.

Conceitos-chave:

Knowledge base indexing, source citation, confidence calibration, feedback loop, Slack/Telegram integration, continuous learning.

O que e:

Os criterios de avaliacao do capstone: funciona e resolve problema real, codigo revisado (nao vibe coded), testes com cobertura minima 70%, documentacao tecnica (ADR, README, diagramas), seguranca aplicada e apresentacao de 15 minutos.

Por que aprender:

Os criterios refletem o padrao de producao real. Nao basta funcionar - precisa ser mantivel, testado, documentado e seguro. A apresentacao de decisoes tecnicas e trade-offs e a habilidade que diferencia senior de junior.

Conceitos-chave:

Production readiness checklist, code review standards, test coverage requirements, documentation standards, security audit, technical presentation.

Ver Completo →