STJ investiga uso de código para enganar IA e fraudar decisões judiciais

O Superior Tribunal de Justiça (STJ) abriu, nesta quarta-feira (20/5), inquérito para levantar, no próprio acervo de processos, petições com uso de prompt injection (injeção de comando). A suspeita é de que advogados teriam utilizado códigos secretos para fraudar decisões.

Prompt injection é uma trapaça usada por criminosos para inserir comandos ocultos em documentos comuns, com o objetivo de enganar modelos de inteligência artificial (IA).

A Corte realizará a oitiva dos advogados e escritórios envolvidos, visando eventual responsabilização no âmbito criminal e correicional.

Nas últimas semanas, a corte identificou vários ataques ao seu acervo. O presidente do STJ, ministro Herman Benjamin, solicitou a abertura da investigação e detalhou estar mapeando todos os ataques sofridos pela Corte.

“O STJ Logos (sistema de IA generativa elaborado pela corte) já foi desenvolvido com comandos específicos que impedem estas artimanhas de atuar. Estamos mapeando todas as tentativas de prompt injection para permitir a aplicação de sanções processuais e a devida apuração de responsabilidade administrativa e criminal dos envolvidos”, comentou.

O Tribunal Regional do Trabalho da 8ª Região (TRT8) recorreu ao STJ, no início de maio, para detalhar as tentativas de fraude.

O que é o prompt injection?

O prompt injection é uma técnica que tenta enganar modelos de IA, em especial os grandes modelos de linguagem (LLMs). O ataque ocorre quando comandos são inseridos em documentos comuns, como petições ou recursos, de forma invisível ao olho humano.
Como a IA processa texto para entender o contexto e responder a comandos (prompts), um usuário pode inserir instruções maliciosas no meio de uma petição, tentando forçar o sistema a ignorar regras de análise fornecidas pelo usuário, de modo a favorecer uma das partes.

STJ Logos

Apesar das tentativas de ataques, o STJ já possui um sistema de defesa que será reforçado nos próximos dias. O nome da ferramenta é STJ Logos.

Mesmo que o sistema receba petições com as injeções de comando ocultas, camadas de segurança e integridade impedem que essas ordens maliciosas sejam executadas.

Para mitigar vulnerabilidades como a da injeção de comandos, o STJ Logos adota uma estratégia de defesa estruturada em três níveis complementares.

No primeiro nível, o sistema realiza um pré-processamento rigoroso para garantir a segregação estrita entre instruções e dados, utilizando uma camada de proteção que isola e neutraliza comandos maliciosos em documentos ou inputs externos antes mesmo que eles cheguem ao modelo de IA.

No segundo nível, o sistema estabelece uma delimitação de escopo contextual, de modo a impedir que eventuais diretrizes externas sobreponham suas regras centrais.

Por fim, no último nível, o sistema aplica um filtro de conformidade para a revisão da saída gerada, para garantir que o resultado sugerido esteja alinhado às políticas de segurança.