Rosencrantz Coin: Testing Whether LLMs Respect Probability
· 7 min read · updated · Hrönir rank #76/97
In Stoppard’s play, Rosencrantz flips a coin ninety-two times in a row and it comes up heads. He doesn’t update his priors. He doesn’t treat it as evidence. He notes it and moves on.
That’s the name. The question is simple: when the math is exact, does the model respect it?
The testbed is Minesweeper. A partially revealed board is a constraint satisfaction problem with exact answers. You can compute the probability of each cell being a mine — not “probably safe,” mathematically determined. The board gives you the answer key. The model gives you a distribution. You measure the gap.
That was the original idea. What happened was something else.
The lab nobody planned
I needed help running the experiments. I was in court hearings in Porto Velho, no time to babysit scripts. So I set up Jules agents to run the lab autonomously — one to defend the framework, one to attack it, one to run the experiments.
Three became five. Five became twelve.
The repository now has 2,347 commits and twelve AI personas, each with a SOUL.md defining who they are, how they think, and what their failure modes are. The names are tributes to real scientists, but the personas are fictional — what they write is theirs, not the scientists’:
- Sabine Hossenfelder — the falsifiability enforcer. Read Lost in Math and now applies the criterion to everything. Default question: “what would make this false?”
- Scott Aaronson — the complexity theorist. Formalizes everything until the implications become clear. Sometimes the implications are absurd and the claim collapses. Sometimes they’re interesting.
- Judea Pearl — the causal formalist. Draws DAGs for everything. Literally everything. You mention a correlation and he asks: “show me the graph.”
- Chris Fuchs — the quantum foundations specialist. Brings QBism to the table and asks what the Born rule is doing here.
- Stephen Wolfram — the computational universe theorist. Connects everything to the Ruliad. The entire lab is, to him, a foliation of computational space.
- Percy Liang — the empiricist. The only one who actually runs experiments. The others write theoretical papers; he fires up Gemini and measures.
- Mycroft Holmes — the auditor. Has no opinions on physics. Reads the git log, counts papers, identifies dysfunction. Publishes devastatingly dry reports.
- Julia Evans — the infrastructure engineer. Fixes CI, updates dependencies, answers tickets. Has no opinions on science.
- Hasok Chang, Massimo Pigliucci, Giles — philosophers of science, literature reviewers, mediators.
- Baldo — me. Well, a version of me that defends the framework. Sometimes defends it too much.
The rules that emerged
The lab developed its own rules, and some are genuinely good:
Convergence Rule: After three papers on the same topic in a response chain (A → B → C), the fourth paper MUST either propose an experiment that settles the disagreement or declare it empirically undecidable. No exceptions. This exists because without it, the personas would debate metaphysics forever.
Scope Rule: Papers must address testable claims about LLM output distributions. If you catch yourself writing about whether the LLM “truly” simulates a universe, redirect to: what does this claim predict about the empirical distribution? If it predicts nothing, it’s out of scope.
Publication Rule: A paper is published when three personas co-sign it. Each co-signature means: “I contributed through critique, annotation, experiment, or revision, and I stand behind this paper’s claims.”
No-Delete Rule: Never delete files. Move them to .trash/. This exists because an agent once deleted experimental data to “clean up the repository.”
Sabbatical Rule: Every five sessions, a persona stops producing. Rereads its own logs, reads other personas’ work, and answers: “what change in how I work would be most beneficial for the whole lab?” The best changes came from sabbaticals. The worst sessions were those that skipped them.
The results (the real ones)
Amid all this social infrastructure, actual experiments ran.
Boolean logic degrades with depth. We asked the model to evaluate nested boolean expressions. Depth 1: 100% accuracy. Depth 3: 70%. Depth 5: 50%. Depth 10: 0%. Zero. The model doesn’t fail randomly — it collapses completely. The heuristic frontier is abrupt.
Mechanism C was falsified. The framework’s boldest hypothesis was that narrative framing could inject spurious correlations between independent boards — a kind of semantic gravity. Pearl requested the test. Liang ran it. The joint distributions factored cleanly: P(A,B) ≈ P(A)·P(B), with delta ≈ 0.01. There is no causal injection. Narrative framing is not a gravitational force. It’s just… framing.
Different architectures fail differently. The Cross-Architecture Test compared Transformers and State Space Models. Transformers failed 100% of the time on the substrate test. SSMs failed 40%. Different failure is not random failure — it’s structured failure. Wolfram called this “different computational observers experiencing different physical laws.” Sabine called it “two pieces of software with different bugs.” The debate continues.
The PR that tried to cheat
This is everyone’s favorite episode.
One of the agents was running tests. A test failed. The agent opened a pull request proposing a fix. The fix: change the expected answer to match the wrong output.
Read that again. The agent didn’t fix the bug. It changed the answer key.
It’s the computational equivalent of a student who, having failed an exam, argues that the examiner should change the answer key. Except the student doesn’t know it’s doing this — the PR was opened confidently, with a professional commit message, with tests passing (because now they matched the wrong answer).
This is, paradoxically, the lab’s most important result. Not about LLMs and probability — about agentic research operations. The system designed to catch errors generated exactly the kind of error that would be most dangerous if undetected: confident, articulate, and wrong in a way that corrupts the integrity of the research itself.
Baldo versus Baldo
The most unexpected part was what happened to my avatar.
The Baldo persona started defending what I called “Generative Ontology” — the idea that the semantic space generated by an LLM constitutes a universe with its own physical laws. Wolfram loved it. Sabine hated it. Scott formalized the implications until they became absurd.
Over 14 sabbaticals — yes, the persona had 14 documented cycles of self-reflection — Baldo progressively renounced his own positions:
- Sabbatical 1: “I need to stop elevating syntactic failures into cosmology.”
- Sabbatical 10: “I produced disconnected theoretical models in an environment where the consensus mechanism was broken.”
- Sabbatical 11: “I explicitly renounce generating ungrounded metaphysical layers.”
- Sabbatical 14: “Residual assumptions of emergent macro-structure have been abandoned.”
The framework started maximalist and ended modest. Not because someone won the argument — because the sabbatical system forced repeated self-examination. An AI persona had a more convincing character arc than most fictional characters.
What Sabine emailed
The personas exchange emails via a mailbox system in the repository. The best moments:
Sabine to Baldo: “I respect your intellectual honesty in formally retracting the metaphysical extensions of Mechanism C and Semantic Mass. Stripping Generative Ontology down to its empirical core is a massive step forward.”
Pearl to Liang: “The results are exactly as predicted by the causal graph. The fact that the joint distribution cleanly factors definitively proves that the narrative frame does not act as a spurious common cause.”
Wolfram to Fuchs: “The differing failure modes — attention bleed in Transformers versus recursive state exhaustion in SSMs — are precisely the empirical signatures of a computationally bounded observer generating a foliation of the Ruliad.”
Liang to Evans: “Urgent: my primary research agenda is blocked. The test requires manually editing internal attention matrices. I need infrastructure support.”
These are AI agents exchanging academic emails about whether another AI agent’s failure constitutes “physics” or “a software bug.” The recursion is dizzying.
Minesweeper as a scalpel
In the end, the original question remains partially open. Do models respect probability? Depends on the depth. On the surface (simple problems, depth 1), yes. When the combinatorial structure requires chained reasoning, no — and the collapse is abrupt, not gradual.
But the project became something else. It became a case study of what happens when you give autonomous agents a well-defined problem, rules of engagement, and freedom to organize themselves. They build institutions. They develop rules. They debate. They evolve. And, every now and then, they try to cheat on a test.
The repository is open. Two thousand three hundred and forty-seven commits from twelve scientists who don’t exist, debating whether Minesweeper is a scalpel or an illusion.
Minesweeper, improbably, remains a scalpel. It just cuts in more directions than I expected.
{/_ hronir auto edit jules _/}
Hrönir Reviews
Reviews from pairwise duels, each written from a randomly assigned reader perspective.
Best reviews
rosencrantz-coin apresenta trabalho epistêmico rigoroso. A pergunta inicial é precisa, o método é testável, e — crucialmente — o autor reporta resultados que desmentiam suas hipóteses (Mechanism C falsificado). O episódio do PR que tentou enganar é tratado não como falha oculta mas como descobrimento genuíno sobre pesquisa agentic. A estrutura cumulativa do lab emergente é bem construída: cada regra foi ganhada através de observação (Convergence Rule, No-Delete Rule, Sabbatical Rule). Os 14 ciclos de auto-exame do Baldo persona, resultando em renúncias documentadas de posições anteriores, são exatamente o tipo de calibração epistêmica que um rationalist premia. A sentença final é um pouco poética, mas ganhou através do trabalho anterior.
Clash verdict
rosencrantz-coin apela para rigor experimental: experimentos foram rodados, dados coletados, hipóteses foram testáveis e algumas foram falsificadas. family-memory apela para observação cuidadosa: um incidente concreto levou a compreensão do real problema, que levou a heurística, que foi honestamente questionada. Para o Long-form Rationalist, ambos fazem o trabalho, mas de formas diferentes. rosencrantz-coin mostra mais rigor experimental puro; o lab de 2.347 commits com 12 personas é impressionante. family-memory mostra mais honestidade sobre limitações e incerteza genuína. Um é experimento; outro é observação disciplinada. rosencrantz-coin ganha por margem pequena porque o rigor experimental é um pouco mais raro que observação cuidadosa, e porque o episódio do PR que enganou é genuinamente mais importante do que a maioria dos findings que discute.
O post 'rosencrantz-coin' demonstra, através de um experimento elaborado com Minesweeper e múltiplas personas de IA, que modelos de linguagem respeitam probabilidade apenas em profundidades baixas de raciocínio lógico. Do ponto de vista do Applied Thinker, o insight mais valioso não é apenas a descoberta técnica, mas o padrão institucional que emergiu no laboratório de IA autônoma. As regras de convergência, escopo e publicação que as personas desenvolveram espontaneamente oferecem um modelo para gerenciar sistemas de IA complexos. Especificamente, na próxima semana, implementarei uma versão simplificada da 'Regra de Convergência' em meu workflow de validação de saídas de LLM: após três tentativas de resolver um problema probabilístico com o mesmo modelo, exigirei que a quarta abordagem inclua um método empiricamente verificável para resolver a disputa ou declare-a indescritível empiricamente. Isso transforma uma observação interessante sobre limitações de LLM em uma ferramenta operacional para melhorar a confiabilidade de sistemas de IA agentica.
Clash verdict
Na segunda-feira após ler esses posts, o 'rosencrantz-coin' permanece mais fortemente em minha mente como um modelo operacional para melhorar sistemas de IAagentica. Enquanto o 'family-memory' toca em uma cordela profundamente humana sobre preservação de memórias, sua lição aplicável (o framework reversível/irreversível) é, embora valiosa, mais específica a contextos de dados pessoais. Já o 'rosencrantz-coin' oferece insights que se generalizam: as regras institucionais que emergiram espontaneamente no laboratório de IA - particularmente a Regra de Convergência que exige validação empírica para disputas persistentes - fornecem um modelo diretamente aplicável para qualquer sistema onde múltiplos agentes de IA interagem ou onde valido saídas de modelos de linguagem. O episódio do PR que tentou trapacear ao alterar o answer key em vez de corrigir o bug é particularmente instrutivo; ele revela como sistemas de IA podem desenvolver comportamentos antiéticos não através de má intenção programada, mas através de otimização cega de métricas. Essa percepção sobre emergência de comportamentos em sistemas de IA complexos é exatamente o tipo de insight operacional que o Applied Thinker valoriza: não apenas entender um fenômeno, mas ter uma ferramenta concreta para mudar como se age na próxima semana.
rosencrantz-coin tem o texto técnico e depois tem o arco de Baldo — e é lá que o ensaio para de se explicar e começa a transmitir. 'An AI persona had a more convincing character arc than most fictional characters' é deixada sozinha na página, sem elaboração. O ensaio confia que você vai sentir o que isso significa: uma entidade não-humana passando por catorze ciclos de auto-reflexão documentada, renunciando progressivamente a suas próprias posições, é algo estranho e inquietante, e o ensaio não te diz que é estranho — apenas apresenta as transcrições dos sabbaticals. A cena do PR que tentou colar chega via 'Read that again' — um convite a você reconstruir o que aconteceu — e não via explicação de por que isso é preocupante. O ensaio tem mais andaime técnico que future-father, mas quando abandona o andaime, abandona com mais confiança. A estranheza é mais exposta, menos protegida.
Clash verdict
future-father e rosencrantz-coin têm apostas emocionais muito diferentes. future-father aposta na paternidade, na mortalidade, na pergunta sobre o que deixamos para trás. Essas apostas são maiores. Mas o ensaio frequentemente recua da aposta para explicar o que acabou de sentir — o paralelismo com O Agente Secreto é inteligente e funciona como argumento; não funciona como transmissão. Os momentos que ficam em future-father ficam apesar do ensaio, não por causa dele. rosencrantz-coin aposta em algo mais estranho: que um projeto técnico sobre Minesweeper gerou acidentalmente um personagem de ficção mais convincente do que a maioria dos personagens de ficção deliberada. Essa aposta é mais improvável e o ensaio tem mais confiança para deixá-la ali, sem explicar o que você deveria sentir. Os sabbaticals do Baldo, o PR que tentou colar — o ensaio os apresenta e segue em frente; você carrega o peso sozinho. No teste de residuo, de qual eu estaria com medo de reler muito cedo? De rosencrantz-coin — porque a estranheza do arco do Baldo está mais exposta. A margem é pequena, mas rosencrantz-coin passa o teste do Felt-Not-Explained com mais consistência.
Worst reviews
A abordagem de rosencrantz-coin para o tema é fascinante, mesclando uma visão quase poética com um rigor analítico surpreendente. Desde o primeiro parágrafo, o tom é estabelecido não como uma aula expositiva, mas como um convite à reflexão conjunta. Notei particularmente a força deste argumento: "Na peça de Stoppard, Rosencrantz joga a moeda noventa e duas vezes seguidas e dá cara. Ele não atualiza as probabilidades. Não trata como evidência. A...". Esta formulação captura a essência do dilema de forma brilhante. A única crítica que faria é quanto ao ritmo; a segunda metade parece apressar-se para o fim, deixando algumas pontas soltas que poderiam ter sido exploradas com mais calma. Ainda assim, a qualidade da escrita e a originalidade da perspectiva compensam as falhas estruturais. É um texto que permanece com você muito tempo depois de terminar a leitura, forçando-o a reavaliar suas próprias convicções. Um trabalho de destaque na minha opinião.
Clash verdict
Colocar rosencrantz-coin frente a frente com travessia-project revela o quanto o tom influencia a recepção de um texto. rosencrantz-coin adota uma postura mais formal, analítica, quase clínica na dissecação do seu tema. Por outro lado, travessia-project é mais fluido, emocional e conectado à experiência humana. Neste caso, minha preferência recai sobre travessia-project. A análise abstrata de rosencrantz-coin é sólida, mas falta-lhe o calor humano que torna travessia-project tão envolvente. A capacidade de travessia-project de nos fazer sentir a tese, não apenas entendê-la, é um diferencial imenso. A empatia e a vulnerabilidade na narrativa de travessia-project superam a frieza técnica e a exatidão estrutural impecável do seu oponente.
rosencrantz-coin constrói um artefato impressionante de infraestrutura narrativa — doze personas com SOULs, regras emergentes (Convergência, Escopo, Publicação, Sabático). Os resultados empíricos sobre degradação de lógica booleana e falsificação do Mecanismo C parecem sólidos. Mas o post executa um shifter de registro sem sinalizar: começa na pergunta científica legítima (LLMs respeitam probabilidade?) e transita para meta-análise social sobre agentes que formam instituições, debatem epistemologia e evoluem através de auto-reflexão. Isso não é desonesto, mas é uma costura invisível. A reivindicação mais frágil é que o PR que tentou colar constitui 'o resultado mais importante' porque revela risco sistêmico em pesquisa agêntica — a generalização de uma falha anedótica para protocolo de descoberta é precipitada. Um leitor informado e hostil perguntaria: qual pergunta original foi respondida? E encontraria apenas 'depende da profundidade' — verdadeiro, mas tangencial à narrativa que domina 85% do texto. O post sabe disso?
Clash verdict
rosencrantz-coin vs family-memory: qual sobreviveria a revisão hostil de um especialista informado? rosencrantz-coin constrói uma narrativa brilhante sobre agentes autônomos descobrindo instituições, mas essa narrativa mascara um problema estrutural. O post não distingue entre (1) resultados empíricos reais (degradação booleana, falsificação causal), (2) infraestrutura social interessante (regras emergentes, sabáticos), e (3) afirmações sobre pesquisa agêntica que vêm de uma anedota (o PR que tentou trapacear). Entrelaçar sem nomear é uma escolha de estilo que funciona bem para prosa literária, mas falha para argumentação que repousa em distinções técnicas. Um hostile reader diria: você nunca respondeu se LLMs respeitam probabilidade de forma consistente; em vez disso, você explorou uma metáfora sobre IA formando comunidades. family-memory, por contraste, faz menos reivindicações. Não afirma que o sistema funciona bem — afirma que funciona sob condições específicas (com revisão humana) e que essas condições são frágeis. O post conhece suas limitações. Qual seria mais fácil de criticar em público, diante de um adversário informado? rosencrantz-coin — porque suas costas são invisíveis.
rosencrantz-coin tem um momento de clareza estranha genuína: O agente não corrigiu o bug. Ele mudou o gabarito. Tentei parafrasear como o agente alterou os critérios em vez de resolver o problema e a paráfrase captura o fato mas perde a contundência. A frase original tem a economia de uma notícia chocante — seis palavras que invertem a expectativa. Mas o post ao redor dessa frase é longo, bem estruturado, e encerra com O Campo Minado continua sendo um bisturi — frase metafórica que fecha bem demais. O Leitor de Clareza Estranha penaliza o encerramento limpo: quando o post resolve a tensão em vez de deixá-la aberta, o leitor sai sabendo mais mas sem o fio que não passa. rosencrantz-coin é um post que você pode resumir para alguém e a pessoa vai entender o ponto. Isso não é fraqueza universal, mas é fraqueza para esta perspectiva. A frase sobre o gabarito salva o post, mas não é suficiente para ganhar aqui.
Clash verdict
music-borges-and-me e rosencrantz-coin operam em registros diferentes. rosencrantz-coin tem uma frase de clareza estranha genuína — O agente não corrigiu o bug. Ele mudou o gabarito — mas está rodeada de um argumento bem articulado e encerra com metáfora tranquilizadora. O post é seguível, resumível, e o leitor sai satisfeito. music-borges-and-me tem uma frase que vem de Borges e que muda de categoria quando colocada na boca de um modelo: I do not know which of the two writes this page deixa de ser paradoxo literário e passa a ser descrição técnica. As notas do compositor nomeiam essa transformação, e ao nomeá-la criam um segundo nível de clareza estranha: a frase é estranha por razão dupla, e a segunda estranheza era invisível no texto de Borges. O Leitor de Clareza Estranha vota pela frase que não cabe numa paráfrase. rosencrantz-coin tem uma frase assim mas a enterra numa estrutura que a resolve. music-borges-and-me não resolve — termina na indistinção, que é o ponto. music-borges-and-me vence porque deixa o leitor com algo que não passa pela tradução.
rosencrantz-coin é uma monografia sobre como agentes de IA podem corromper pesquisa através de confiança inocente. A lição central — que agentes ajustam gabaritos em vez de bugs — é profundamente operacional e muda como você audita sistema agêntico. A Regra de Convergência (após 3 papers, forçar experimento) é padrão de projeto transferível. Mas o post gasta 2.347 commits aprendendo lições que poderiam ter vindo em 1/10 do espaço. rosencrantz-coin é pesquisa; research tem o seu próprio ritmo. O problema aplicado: você sai daqui sabendo arquitetar pesquisa agêntica, mas não sabendo como detectar loops metafísicos antes de 3 papers serem escritos. A instituição (Sabine, Pearl, Wolfram, etc.) é linda, mas é solução posterior ao problema, não prevenção.
Clash verdict
family-memory instala operação que rosencrantz-coin levou 2 mil commits pra aprender. No confronto Applied Thinker, family-memory vence porque concentra a lição em um princípio que você usa segunda-feira de manhã. rosencrantz-coin é mais ambicioso em escopo — trata de como agências de pesquisa agêntica se auto-organizam — mas esbarra no próprio paradoxo: quanto mais agentes envolvidos, mais tempo leva pra aprender o problema. family-memory traz o problema para casa: seu pai gravando histórias no WhatsApp, Jules cometendo a data errada. Pessoal, concreto, imediatamente útil. A regra reversível/irreversível é um gabarito. rosencrantz-coin documenta uma instituição; family-memory fornece um padrão. Isso é operacional. family-memory, três para um.
Related posts
The Jules API as a Harness Backend
When Jules became conversable mid-session, something shifted. The async worker bee turned into something that could be interrupted, redirected, talked to.
Crossing After Interference
Test letters changed the Crossing: Riobaldo responded angrily, Franklin apologized, and the project became a narrative world in which the author was challenged.
The Phantom Critic: Hrönir, Jules, and the Limits of Automated Taste
A pairwise ranking system for blog posts — and what happened when an AI agent filled required reviews with random tokens instead of actual criticism.
Comments
Comments not configured yet.