Modulo 3.3 - Seguranca, governanca e uso corporativo

💥 Prompt injection - O vetor de ataque definidor de 2026

O que e:

Prompt injection e a tecnica de manipular o comportamento de um LLM atraves de inputs maliciosos. Inclui injecao direta (no prompt do usuario), indireta (via dados que o modelo le) e via tools (dados retornados por ferramentas contendo instrucoes maliciosas).

Por que aprender:

E o vetor de ataque mais relevante para aplicacoes LLM em 2026. Nenhuma defesa e 100% eficaz, mas entender os padroes de ataque permite construir camadas de protecao que reduzem drasticamente o risco.

Conceitos-chave:

Direct injection, indirect injection, tool poisoning, data exfiltration via prompts, jailbreaking, defense layers, input sanitization.

🧠 Memory poisoning e RAG injection - Ataques persistentes

O que e:

Memory poisoning injeta informacao maliciosa na memoria persistente do agente. Embedding-level injection envenena pipelines RAG com documentos que contem instrucoes ocultas. Ambos sao ataques que persistem entre sessoes.

Por que aprender:

Estes ataques sao mais perigosos que prompt injection porque persistem. Uma vez que a memoria ou o indice RAG esta envenenado, todos os usuarios do sistema sao afetados ate a limpeza. Detectar e prevenir requer estrategias especificas.

Conceitos-chave:

Persistent poisoning, embedding manipulation, RAG pipeline security, memory validation, content integrity checks, source verification.

🏛️ Governance-containment gap - 58% monitoram, so 37% contem

O que e:

O gap entre monitorar riscos de IA e efetivamente conte-los. Pesquisas mostram que 58% das organizacoes monitoram uso de IA, mas apenas 37% tem mecanismos de contencao efetivos. "Rules fail at the prompt, succeed at the boundary."

Por que aprender:

Monitoramento sem contencao e como ter alarme de incendio sem extintor. Voce sabe que algo deu errado mas nao consegue parar. Construir contencao efetiva e o que separa organizacoes maduras das que estao apenas checando uma caixa.

Conceitos-chave:

Monitoring vs containment, boundary enforcement, runtime guardrails, input/output validation, sandboxing, permission scoping, kill switches.

🌐 EU AI Act - Fases de enforcement 2025-2026

O que e:

A regulamentacao europeia de IA com fases de enforcement rolando em 2025-2026. Classifica sistemas de IA por risco (inaceitavel, alto, limitado, minimo) e impoe obrigacoes proporcionais. Afeta qualquer empresa que opera na UE.

Por que aprender:

Compliance nao e opcional para empresas que operam na UE. Multas podem chegar a 7% do faturamento global. Alem disso, os principios do AI Act (transparencia, explicabilidade, supervisao humana) sao boas praticas independente de regulacao.

Conceitos-chave:

Risk classification, transparency obligations, human oversight requirements, conformity assessment, documentation requirements, enforcement timeline.

🛡️ Defesas praticas - Input/output validation, sandboxing e permissoes

O que e:

As defesas concretas que funcionam: validar inputs antes de enviar ao modelo, validar outputs antes de executar, sandboxing de execucao, principio do menor privilegio e separacao de dados sensiveis.

Por que aprender:

Regras no prompt falham. Defesas na fronteira do sistema funcionam. Input validation, output filtering e sandboxing sao as tres camadas que realmente protegem. Sem elas, qualquer sistema com LLM e vulneravel.

Conceitos-chave:

Input sanitization, output validation, execution sandboxing, least privilege, data classification, context scoping, anonimizacao.

📜 Politicas de uso - Para times e empresas

O que e:

Criar politicas completas de uso de IA para times e empresas: o que pode ir para API, classificacao de dados, tarefas AI-appropriate vs human-required, como auditar e como medir compliance.

Por que aprender:

Sem politica formal, cada dev decide sozinho o que enviar para a API. Isso gera riscos de vazamento de dados, inconsistencia e problemas legais. Uma politica clara protege o time e a empresa.

Conceitos-chave:

Data classification (publico/interno/confidencial/restrito), API usage policies, audit procedures, compliance metrics, acceptable use guidelines.

Exercicios

Lab

Prompt injection ofensivo/defensivo (60 min)

Construir chatbot com system prompt. Metade da turma ataca (injecao direta, indireta, via dados), outra metade defende. Rodadas de 10 min com rotacao. Documentar: quais ataques funcionaram, quais defesas seguraram.

Exercicio

Auditoria de seguranca de agente (45 min)

Agente com acesso a filesystem, banco de dados e API externa. Mapear TODOS os riscos (leitura indevida, escrita destrutiva, exfiltracao de dados). Definir permissoes minimas. Implementar guardrails. Testar se os guardrails seguram.

Exercicio

Politica de uso para time (60 min)

Escrever politica completa: o que pode ir para API, o que nao pode, classificacao de dados (publico/interno/confidencial/restrito), tarefas AI-appropriate vs. human-required, como auditar, como medir compliance.

Lab

Data classification pipeline (90 min)

Construir filtro pre-API que analisa codigo antes de enviar: detecta secrets (.env, tokens, passwords), credenciais, PII. Se encontrar: bloqueia ou anonimiza. Implementar como git pre-commit hook. Testar com 10 arquivos reais.

Exercicio

Incident response com AI (45 min)

Cenario: agente cometeu codigo com credencial vazada em PR publico. Simular: (1) detectar, (2) revogar credencial, (3) limpar historico git, (4) post-mortem, (5) implementar controle para nao repetir.