Fake Causality


Phlogiston was the eighteenth century’s answer to the Elemental Fire of the Greek alchemists. Ignite wood, and let it burn. What is the orangey-bright “fire” stuff? Why does the wood transform into ash? To both questions, the eighteenth-century chemists answered, “phlogiston.”

. . . and that was it, you see, that was their answer: “Phlogiston.”

Phlogiston escaped from burning substances as visible fire. As the phlogiston escaped, the burning substances lost phlogiston and so became ash, the “true material.” Flames in enclosed containers went out because the air became saturated with phlogiston, and so could not hold any more. Charcoal left little residue upon burning because it was nearly pure phlogiston.

Of course, one didn’t use phlogiston theory to predict the outcome of a chemical transformation. You looked at the result first, then you used phlogiston theory to explain it. It’s not that phlogiston theorists predicted a flame would extinguish in a closed container; rather they lit a flame in a container, watched it go out, and then said, “The air must have become saturated with phlogiston.” You couldn’t even use phlogiston theory to say what you ought not to see; it could explain everything.

This was an earlier age of science. For a long time, no one realized there was a problem. Fake explanations don’t feel fake. That’s what makes them dangerous.

Modern research suggests that humans think about cause and effect using something like the directed acyclic graphs (DAGs) of Bayes nets. Because it rained, the sidewalk is wet; because the sidewalk is wet, it is slippery:


From this we can infer—or, in a Bayes net, rigorously calculate in probabilities—that when the sidewalk is slippery, it probably rained; but if we already know that the sidewalk is wet, learning that the sidewalk is slippery tells us nothing more about whether it rained.

Why is fire hot and bright when it burns?

Phlogiston to Fire hot and bright

It feels like an explanation. It’s represented using the same cognitive data format. But the human mind does not automatically detect when a cause has an unconstraining arrow to its effect. Worse, thanks to hindsight bias, it may feel like the cause constrains the effect, when it was merely fitted to the effect.

Interestingly, our modern understanding of probabilistic reasoning about causality can describe precisely what the phlogiston theorists were doing wrong. One of the primary inspirations for Bayesian networks was noticing the problem of double-counting evidence if inference resonates between an effect and a cause. For example, let’s say that I get a bit of unreliable information that the sidewalk is wet. This should make me think it’s more likely to be raining. But, if it’s more likely to be raining, doesn’t that make it more likely that the sidewalk is wet? And wouldn’t that make it more likely that the sidewalk is slippery? But if the sidewalk is slippery, it’s probably wet; and then I should again raise my probability that it’s raining . . .

Judea Pearl uses the metaphor of an algorithm for counting soldiers in a line.1 Suppose you’re in the line, and you see two soldiers next to you, one in front and one in back. That’s three soldiers, including you. So you ask the soldier behind you, “How many soldiers do you see?” They look around and say, “Three.” So that’s a total of six soldiers. This, obviously, is not how to do it.

A smarter way is to ask the soldier in front of you, “How many soldiers forward of you?” and the soldier in back, “How many soldiers backward of you?” The question “How many soldiers forward?” can be passed on as a message without confusion. If I’m at the front of the line, I pass the message “1 soldier forward,” for myself. The person directly in back of me gets the message “1 soldier forward,” and passes on the message “2 soldiers forward” to the soldier behind them. At the same time, each soldier is also getting the message “N soldiers backward” from the soldier behind them, and passing it on as “N + 1 soldiers backward” to the soldier in front of them. How many soldiers in total? Add the two numbers you receive, plus one for yourself: that is the total number of soldiers in line.

The key idea is that every soldier must separately track the two messages, the forward-message and backward-message, and add them together only at the end. You never add any soldiers from the backward-message you receive to the forward-message you pass back. Indeed, the total number of soldiers is never passed as a message—no one ever says it aloud.

An analogous principle operates in rigorous probabilistic reasoning about causality. If you learn something about whether it’s raining, from some source other than observing the sidewalk to be wet, this will send a forward-message from Rain to Sidewalk wet and raise our expectation of the sidewalk being wet. If you observe the sidewalk to be wet, this sends a backward-message to our belief that it is raining, and this message propagates from Rain to all neighboring nodes except the Sidewalk wet node. We count each piece of evidence exactly once; no update message ever “bounces” back and forth. The exact algorithm may be found in Judea Pearl’s classic Probabilistic Reasoning in Intelligent Systems: Networks of Plausible Inference.

So what went wrong in phlogiston theory? When we observe that fire is hot, the Fire node can send a backward-evidence to the Phlogiston node, leading us to update our beliefs about phlogiston. But if so, we can’t count this as a successful forward-prediction of phlogiston theory. The message should go in only one direction, and not bounce back.

Alas, human beings do not use a rigorous algorithm for updating belief networks. We learn about parent nodes from observing children, and predict child nodes from beliefs about parents. But we don’t keep rigorously separate books for the backward-message and forward-message. We just remember that phlogiston is hot, which causes fire to be hot. So it seems like phlogiston theory predicts the hotness of fire. Or, worse, it just feels like phlogiston makes the fire hot.

Until you notice that no advance predictions are being made, the non-constraining causal node is not labeled “fake.” It’s represented the same way as any other node in your belief network. It feels like a fact, like all the other facts you know: Phlogiston makes the fire hot.

A properly designed AI would notice the problem instantly. This wouldn’t even require special-purpose code, just correct bookkeeping of the belief network. (Sadly, we humans can’t rewrite our own code, the way a properly designed AI could.)

Speaking of “hindsight bias” is just the nontechnical way of saying that humans do not rigorously separate forward and backward messages, allowing forward messages to be contaminated by backward ones.

Those who long ago went down the path of phlogiston were not trying to be fools. No scientist deliberately wants to get stuck in a blind alley. Are there any fake explanations in your mind? If there are, I guarantee they’re not labeled “fake explanation,” so polling your thoughts for the “fake” keyword will not turn them up.

Thanks to hindsight bias, it’s also not enough to check how well your theory “predicts” facts you already know. You’ve got to predict for tomorrow, not yesterday. It’s the only way a messy human mind can be guaranteed of sending a pure forward message.



1. Judea Pearl, Probabilistic Reasoning in Intelligent Systems: Networks of Plausible Inference (San Mateo, CA: Morgan Kaufmann, 1988).

Falsa Causalidade

Flogisto foi a resposta do século XVIII para o Fogo Elementar dos alquimistas gregos. Acenda a madeira e deixe-a queimar. O que é essa coisa de brilho alaranjado “fogo”? Por que a madeira se transforma em cinzas? Para as duas questões, os químicos do século dezoito responderam: “flogisto”.

... e era isso, entende, essa era a resposta: “Flogisto.”

O flogisto escapa de substâncias em combustão na forma de fogo visível. À medida que o flogisto escapa, as substâncias que queimam perdem flogisto e se transformam em cinzas, o “verdadeiro material”. Chamas em recipientes fechados se apagam porque o ar fica saturado de flogisto, e não pode conter mais. O carvão deixa poucos resíduos após se queimar, porque é praticamente puro flogisto.

É claro que ninguém usava a teoria do flogisto para prever o resultado de uma transformação química. Você via o resultado antes, e então usava a teoria do flogisto para explicá-lo. Os teóricos do flogisto não previram que uma chama se extinguiria em um recipiente fechado; pelo contrário, eles acenderam uma chama em um recipiente, observavam ela se apagar e então disseram: “O ar deve estar saturado de flogisto.” Você não poderia sequer usar a teoria do flogisto para prever o que não deveria ver; a teoria poderia explicar qualquer coisa.

Isso foi na infância da ciência. Por um longo tempo, ninguém percebeu que havia um problema. Explicações falsas não parecem falsas. É isso que as torna perigosas.

Pesquisas modernas sugerem que seres humanos pensam sobre causa e efeito usando algo parecido com gráficos diretos acíclicos (GDA, ou DAGs em inglês) das redes Bayesianas. Porque choveu, a calçada está molhada; porque a calçada está molhada, então ela é escorregadia.


A partir disso podemos inferir – ou, em uma rede Bayesiana, calcular rigorosamente probabilidades – que se a calçada está escorregadia, provavelmente choveu; mas se nós já sabemos que a calçada está molhada, descobrir que a calçada está escorregadia não nos diz nada mais sobre ter chovido.

Por que o fogo é quente e brilhante quando queima?

Phlogiston to Fire hot and bright

Isso se parece com uma explicação. É representado usando o mesmo formato cognitivo de dados. Mas a mente humana não detecta automaticamente quando uma causa possui uma seta direta ao seu efeito. Pior, graças ao viés de retrospectiva, pode parecer que a causa controla o efeito, quando ela foi apenas encaixada no efeito.

Curiosamente, nossa compreensão moderna do raciocínio probabilístico sobre a causalidade pode descrever precisamente o que os teóricos do flogisto estavam fazendo de errado. Uma das primeiras inspirações para as redes Bayesianas foi perceber o problema da dupla contagem de evidências se a inferência ressoa entre efeito e causa. Por exemplo, vamos dizer que eu tenho um pouco de informação não confiável de que a calçada está molhada. Isso me faria pensar que é mais provável que esteja chovendo. Mas, se é mais provável que esteja chovendo, isso não torna mais provável que a calçada esteja molhada? E isso não torna mais provável que a calçada esteja escorregadia? Mas se a calçada está escorregadia, está provavelmente molhada; e então eu deveria novamente elevar a probabilidade de que está chovendo...

Judea Pearl usa a metáfora de um algoritmo que conta soldados em uma fila. [1] Suponha que você está em fila, e vê dois soldados perto de você, um à frente e o outro atrás. São três soldados, incluindo você. Então você pergunta ao soldado atrás de você: “Quantos soldados você vê?” Ele olha ao redor e diz, “Três.” Isto é, um total de seis soldados. Esse, obviamente, não é o jeito certo de contar.

Um meio mais inteligente é perguntar para o soldado à sua frente: “Quantos soldados tem daí para frente?”, e ao soldado às suas costas: “Quantos soldados tem daí para trás?”. A pergunta “Quantos soldados à frente?” pode ser transmitida sem confusão. Se eu estou na frente da fila, eu passo a mensagem “1 soldado daqui para frente”, contando a mim mesmo. A pessoa diretamente atrás de mim recebe a mensagem “1 soldado daqui para frente”, e passa a mensagem “2 soldados daqui para frente” para o soldado atrás dele. Ao mesmo tempo, cada soldado está recebendo a mensagem “N soldados atrás” do soldado atrás dele, e passando como “N+1 soldados atrás” para o soldado à frente dele. Quantos soldados no total? Adicione os dois números que você recebeu, mais um para você mesmo: esse é o número total de soldados na fila.

A idéia fundamental é que cada soldado deve separadamente rastrear as duas mensagens, a mensagem-da-frente e mensagem-de-trás, e adicioná-las apenas no final. Você nunca deve adicionar qualquer soldado da mensagem-de-trás que você recebe para a mensagem-da-frente que você passa. Na verdade, o número total de soldados nunca é passado como uma mensagem - ninguém jamais o pronuncia.

Um princípio análogo opera no raciocínio probabilístico rigoroso sobre causalidade. Se você aprende alguma coisa sobre se está chovendo, a partir de algo que não seja uma observação de que a calçada está molhada, isso enviará uma mensagem-para-frente de Chuva para Calçada molhada e aumentará as nossas expectativas sobre a calçada estar molhada. Se você observa que a calçada está molhada, isso envia uma mensagem-de-trás à nossa crença de que está chovendo, e essa mensagem se propaga de Chuva para todos os nós vizinhos, exceto o nó Calçada molhada. Nós contamos cada peça de evidência exatamente uma vez; nenhuma mensagem de atualização “quica” para trás e para frente. O algoritmo exato pode ser encontrado no clássico de Judea Pearl Probabilistic Reasoning in Intelligent Systems: Networks of Plausible Inference (Raciocínio Probabilístico em Sistemas Inteligentes: Redes de Inferência Plausível).

Então, o que deu errado na teoria dos flogistos? Quando observamos que o fogo é quente, o nó Fogo pode mandar uma mensagem-para-trás para o nó Flogisto, nos levando a atualizar nossas crenças sobre o flogisto. Mas sendo assim, não podemos contar isso como uma predição-para-frente da teoria do flogisto. A mensagem deve ir em apenas uma direção, e não quicar para trás.

Infelizmente, os seres humanos não usam algorístimos rigorosos para atualizar suas redes de crenças. Nós aprendemos sobre os nós-pais observando seus nós-filhos, e fazemos previsões sobre nós-filhos a partir das crenças sobre seus nós-pais. Entretanto, nós não temos livros rigorosamente separados para as mensagens-de-trás e mensagens-da-frente. Nós apenas lembramos que o flogisto é quente, e isso causa o fogo ser quente. Assim, parece que a teoria do flogisto prevê a alta temperatura do fogo. Ou pior, parece que o flogisto faz o fogo ser quente.

Até você perceber que não está fazendo nenhuma previsão antes dos experimentos, o nó causal não-controlador não tem o rótulo de “falso”. Ele é representado como qualquer outro nó da sua rede. Parece com um fato, como todos os outros fatos que você conhece: Flogisto faz o fogo ser quente.

Uma Inteligencia Artificial devidamente projetada perceberia o problema de imediato. Isto não requereria nem mesmo um código dedicado a esse propósito em especial, apenas a correta manutenção da rede de crenças. (Infelizmente, nós humanos não temos como reescrever nosso próprio código, da forma como uma IA devidamente projetada poderia.)

Falar em “viés de retrospectiva” é apenas uma maneira não técnica de dizer que humanos não separam rigorosamente mensagens-da-frente e mensagens-de-trás, permitindo que mensagens-para-frente sejam contaminadas por mensagens-de-trás.

Aqueles que há muito tempo caíram no caminho do flogisto não estavam tentando ser tolos. Nenhum cientista quer deliberadamente ficar preso em um beco sem saída. Existe alguma explicação falsa em sua mente? Se existe, eu garanto que ela não está rotulada como “explicação falsa”, então procurar em seus pensamentos pela palavra-chave “falsa” não vai trazê-los à tona.

Graças ao viés da retrospectiva, também não é suficiente checar quão bem a sua teoria “prevê” fatos já conhecidos. Você precisa prever para amanhã, não para ontem. É a única maneira de garantir que uma confusa mente humana envie uma pura mensagem para frente.


Notas de Rodapé

  1. Judea Pearl, Probabilistic Reasoning in Intelligent Systems: Networks of Plausible Inference (San Mateo, CA: Morgan Kaufmann, 1988).