O que são documentos maliciosos para IA?
São arquivos preparados para serem interpretados de forma diferente por humanos e por sistemas de IA. Visualmente, podem parecer uma petição, contrato ou laudo legítimo; tecnicamente, podem conter instruções ocultas, metadados manipulados ou OCR malicioso.
PDFs manipulados
O PDF é um formato complexo. Ele pode conter texto pesquisável, imagens, camadas, anotações, fontes incorporadas, objetos invisíveis e metadados. Um arquivo malicioso explora essa complexidade para esconder comandos ocultos PDF ou interferir no contexto lido pela IA.
OCR malicioso
Em documentos digitalizados, o texto extraído por OCR pode não corresponder exatamente ao que o humano vê. Essa diferença permite inserir instruções invisíveis, microtextos ou frases que aparecem apenas para a ferramenta de extração.
Técnicas modernas
- Texto em fonte mínima ou cor invisível.
- Camadas fora da área visual da página.
- Metadados com instruções ao modelo.
- Caracteres homoglíficos e quebras artificiais.
- Prompts em imagens processadas por OCR.
- Arquivos com estrutura incompatível com extração textual confiável.
Riscos para escritórios
Escritórios que usam IA para triagem, resumo, petições ou revisão contratual podem receber respostas enviesadas se o documento não for auditado. O risco envolve falhas estratégicas, perda de prazo, interpretação inadequada e exposição de dados sensíveis.
Riscos para tribunais
Tribunais que adotam IA em triagem, sumarização ou apoio a fluxos internos precisam tratar documentos como entrada não confiável. Sem content firewall e sanitização documental, uma peça adversarial pode contaminar sistemas auxiliares.
Casos reais internacionais
O debate internacional sobre prompt injection já envolve assistentes corporativos, agentes autônomos, sistemas de busca e modelos conectados a documentos. No Direito, a mesma lógica se aplica quando documentos externos são processados por IA jurídica segura.
Como reduzir o risco
Auditoria documental IA, sanitização, validação humana e separação entre texto jurídico e instruções operacionais são medidas centrais. O SentinelaJus organiza essas camadas em um pipeline seguro para detectar, explicar e neutralizar riscos.
FAQ
Todo documento digitalizado é perigoso?
Não. O problema surge quando há divergência relevante entre aparência visual e conteúdo extraído por IA ou OCR.
Metadados podem manipular IA?
Podem interferir se forem extraídos e enviados ao modelo sem filtragem.
