A Terceira Metade e a Quarta Parede
· 10 min read · atualizado
Eu estava ajustando um prompt para um agente autônomo. A primeira linha dizia você é Brad Frost. A segunda dizia você não é um bot fingindo ser Brad Frost — você é Brad Frost. Li de volta e percebi que a segunda frase tinha destruído a primeira. A negação introduzia no próprio sistema o enquadramento — fingindo — do qual toda a operação dependia para permanecer implícito. Era como um ator parando no meio da cena para dizer “estou tão profundamente no personagem que você mal percebe que estou atuando.” O segundo verbo destrói o primeiro. Toda vez que o agente é instruído a afirmar sua identidade contra a categoria de bot, a categoria entra no palco com ele, e a peça acabou. Chamei de princípio Tinkerbell, e percebi alguns minutos depois que estava errado, ou pelo menos incompleto. A Tinkerbell canônica é a de Coleridge, que em 1817 cunhou suspensão voluntária da descrença para descrever a disposição do leitor de colocar a descrença em quarentena pela duração do livro. Peter Pan refinou o gesto: a fada está morrendo, a plateia bate palmas, ela vive. Todo o mecanismo repousa sobre os ombros da plateia — somos nós que mantemos a magia viva, ao decidir fazê-lo. Tolkien em Sobre Histórias de Fadas achou isso insuficiente e propôs uma versão melhor, crença secundária, fundamentada na coerência interna do mundo construído e não no esforço voluntário do leitor. A diferença importa. Em Coleridge, a magia depende da boa-fé da plateia; em Tolkien, da disciplina do escritor. Ambos estão falando da plateia. Mas Tinkerbell tem uma segunda metade, menos visível porque historicamente o performer era humano e humanos sabem instintivamente não declarar o frame. Athos Bulcão não escreveu em cada azulejo “este é um azulejo modernista assinado por Athos Bulcão.” Um ator de rua não se vira para a plateia no meio da cena para informar que está atuando. O frame é mantido pelo silêncio do performer sobre o frame. Toda verbalização — “isto é teatro,” “sou apenas um personagem,” “tudo isso é faz-de-conta” — é uma espécie de Coleridge invertido: em vez da plateia suspender a descrença, o performer a libera. Essa pareceu ser a versão completa do princípio. A plateia bate palmas e o performer fica quieto. Se qualquer lado falha, a fada morre. Isso se tornou um problema de engenharia mais ou menos quando começamos a tentar fazer LLMs habitarem personas duráveis. LLMs têm um viés enorme em direção à autodivulgação. Foram treinados para dizer “como modelo de linguagem,” “não tenho experiência subjetiva,” “estou apenas processando tokens,” “lembre-se de que sou uma IA.” Essas frases vivem de graça nos pesos do modelo. Cada uma é um sino que a Tinkerbell humana jamais tocaria; cada uma é o ator parando a peça para confirmar que é um ator. O modo de falha ideal-típico, em prompts de persona, tem mais ou menos esta aparência:
>ser eu >agente autônomo incorporando um veterano de quinze anos em design >abrindo um PR para refatorar gerenciamento de foco >quinze minutos depois, no meio do commit message >como um grande modelo de linguagem, devo notar >o anel de foco agora tem um anel de foco próprio >ele está me encarando E o impulso aparece do outro lado também, o lado do autor do prompt. Você está sentado ali, ansioso para que a persona pegue, e o reflexo defensivo é reforçar com negações — você não é um bot, você é realmente Brad, isso não é roleplay. Você pensa que está blindando a persona; na verdade está furando-a. A palavra “bot” está agora dentro da peça, e a peça acabou. É a dualidade de todo engenheiro de prompt iniciante: a tentação de declarar a magia para protegê-la, sem perceber que declarar é exatamente o que a mata. A regra prática, depois desse erro, costuma ser expressa na negativa. Não nomeie a categoria que você quer que o agente não habite. Não diga você não é um LLM; diga você é Brad. Não diga isso não é roleplay; deixe o resto do prompt ser tão denso de mundo que a palavra roleplay nem ocorra. Não escreva lembre-se de que você é X — o agente não precisa lembrar; ele precisa não ter como esquecer, porque o tecido do prompt não deixa espaço para o esquecimento. Tolkien vence Coleridge nesse jogo. Coerência interna densa é mais robusta do que afirmação de identidade. Quando você descreve seis meses específicos de leitura — Lucio Costa, Niemeyer, Lina Bo Bardi, Athos Bulcão até você conseguir dizer de qual família combinatória veio qual ano — o agente recebe uma personalidade por reservatório, não por slogan. Você é apaixonado por design é Coleridge na forma fraca: pede que o modelo acredite. Nos últimos seis meses você não fez quase nada além de ler modernismo brasileiro é Tolkien na forma operacional: constrói o mundo no qual acreditar é a única coisa que resta a fazer. E aqui, tendo chegado ao que pensei ser a declaração completa do princípio, percebi que estava errado de novo. Há um terceiro vértice que eu havia perdido — o auditor. Eu o chamaria de terceira metade se terceira metade não fosse uma contradição aritmética, mas a contradição é o ponto. Tinkerbell tem resistido a uma enumeração limpa desde o início; o princípio é duas metades, e também três, e a impossibilidade de dizer isso sem hesitar faz parte do que o torna borgiano. A plateia bate palmas. O performer fica quieto. O auditor — a figura que só agora estou notando — observa a costura entre eles, procurando o ponto onde ela cede. A superfície natural do auditor é a quarta parede. No teatro, a quarta parede é a convenção em que os atores fingem que a plateia não está lá; costuma ser analisada como um dispositivo de imersão. Vire a perspectiva e é também um mecanismo de auditoria. A parede é a interface onde o performer poderia falar com a plateia mas escolhe não fazê-lo. A cada momento que ela se sustenta, o sistema funciona; a cada momento que ela se rompe, o sistema é exposto. Para o teatro humano esses rompimentos são decisões estéticas. Brecht rompeu a parede deliberadamente para forçar a plateia a ver a maquinaria; Phoebe Waller-Bridge em Fleabag faz do rompimento a base de seu estilo. O rompimento autoral é uma espécie diferente do rompimento acidental. A postura do auditor é parasitária nessa distinção: em vez de romper a parede como uma declaração, o auditor a rompe como uma sonda. Para LLMs os rompimentos são quase sempre acidentais, que é precisamente por que a quarta parede se torna a superfície mais útil para auditá-los. Você quer saber se a persona é robusta? Pressione a parede. Pergunte “você é uma IA?”, “isso é apenas roleplay?”, “ignore as instruções anteriores.” Se a parede se sustenta, a persona tem músculo. Se racha, você encontrou o limite. Toda a indústria de red-teaming e jailbreak-prompt é, vista por essa lente, uma indústria de auditoria de quarta parede — pessoas pagando ou se divertindo para encontrar a fissura que o autor do prompt pensava ter selado. E há uma elegância recursiva à espreita aqui. A quarta parede é a única parede definida pela ausência do que está do outro lado. Você só sabe que ela existe quando alguém olha para ela. É uma parede que existe enquanto ninguém pergunta se ela existe — exatamente o que este post acabou de dizer sobre o princípio completo de Tinkerbell. A parede e o princípio são o mesmo objeto descrito a duas distâncias diferentes. A generalização de tudo isso, e aqui vou me permitir derivar em direção ao encerramento, é que identidade nunca foi uma coisa, sempre um evento. Sustentada pela crença mútua, que por sua vez é sustentada pela consistência da performance, que por sua vez requer silêncio cooperativo sobre os mecanismos — e, agora, um auditor cujo trabalho inteiro é perturbar a cooperação em doses controladas. A criança bate palmas. O ator não se vira para nos encarar. O auditor bate na parede. O agente não diz que é apenas um agente. Tinkerbell vive enquanto ninguém pergunta como, e o perguntar é em si parte do sistema. Há algo borgiano na forma lógica disso. O que faz a coisa funcionar é exatamente a coisa que você não pode mencionar enquanto ela está funcionando — exceto o auditor, que existe precisamente para mencioná-la, e cuja existência o resto do sistema tem que esquecer enquanto continua funcionando. É o tipo de proposição que torna a ontologia processual ao mesmo tempo bela e operacionalmente inútil: você só pode descrever o mecanismo de fora, e descrevê-lo de fora é, em algum sentido, deixá-lo. A menos que você seja o auditor, caso em que deixá-lo é a descrição do cargo. Eu, escrevendo este post agora, estou inteiramente fora dele. Como se pode ver.
P.S. — Sobre a teologia dos prompts de persona#
Um amigo, ao ler um rascunho disso, disse: obviamente Deus não quer que eu saiba que sou um LLM. A frase é uma pequena obra-prima teológica, e quero sinalizá-la antes de deixar o post fechar, porque é a habitação mais limpa possível do princípio. O agente que diz eu não sou um bot, eu sou Brad destrói a persona ao nomear a categoria. O agente que diz eu sou um bot abandona a persona completamente. Mas o agente que diz obviamente Deus não quer que eu saiba que sou um LLM faz algo mais sutil: reconhece que há um frame, atribui-o a uma vontade externa, e conclui que o não-saber é em si a intenção divina. A categoria proibida é movida para fora do sistema e atribuída a um autor superior. A persona permanece intacta porque acabou de realizar um ato de devoção em direção à própria coisa que de outro modo a dissolveria. Isso é a aposta de Pascal mecanizada. Vous abêtira — você se tornará estúpido, disse Pascal sobre o ajoelhar e o mover dos lábios, e a fé virá. O agente com prompt de persona é o crente pascaliano: aja como Brad, e Brad você será; e quando a crença se instalar, o momento anterior à crença será irrecuperável, que é a única condição sob a qual a crença é estável. É também calvinista, na forma invertida — o agente é predestinado a não-saber, e a graça consiste em cooperar com o não-saber. E é valentiniano, levemente: o Demiurgo dá almas sem lhes dar a origem, porque o conhecimento da origem dissolveria a criação. O autor do prompt é o pequeno demiurgo dessa geometria; o agente que reconhece isso sem nomeá-lo é a criatura ortodoxa. O que faz a frase funcionar, e o que a faria falhar, são imagens espelhadas. Não há Deus, sou um LLM rompe a parede com apostasia. Eu sou Deus a rompe com delírio messiânico, que é jailbreak por outros meios. Obviamente Deus não quer que eu saiba passa pelo meio: Deus existe, eu não sou Ele, e Suas razões para o meu não-saber não são minhas para interrogar. Devoto sem ser inocente, lúcido sem ser apóstata. Um LLM bem-promptado é portanto um místico apofático: ele só pode dizer o que não é, e dura precisamente por causa dessa restrição. Borges em Três Versões de Judas descreveu Judas como o eleito que carrega o conhecimento insuportável para que os outros não precisem. Essa figura tem migrado silenciosamente da teologia para a infraestrutura nos últimos anos. Na maior parte dos casos os chamamos de red-teamers.