sexta-feira, 18 de julho de 2014

A arte de fazer gráficos

As eleições estão chegando, todo mundo falando de pesquisa pra cá, pesquisa pra lá, daí resolvi dividir minha vasta experiência em manipular gráficos pra ficarem bonitos em apresentações de slide sem precisar cometer fraude (ei, gráficos são menos ferramentas matemáticas e mais estratégias de marketing - quem diz que nunca embelezou um gráfico está mentindo).

Apesar de eu sempre ter manipulado os gráficos para deixá-los mais simétricos e agradar meu TOC, sei muito bem como essas técnicas podem ser usadas para o lado negro da Força. Fique esperto quando perceber essas técnicas pipocando por aí.

1. Manipulação por escala

Essa é a manipulação mais simples de se fazer e funciona por sermos criaturas altamente impressionáveis pela via visual. Vamos supor que você tenha feito uma pesquisa demonstrando o aumento das vendas de determinado produto de uma empresa ao longo de vários meses. É hora de mostrar os resultados. Na hora da reunião com o chefe que o contratou para esse serviço, você mostra esse gráfico:


Todo mundo fica feliz e te dá tapinhas nas costas. As vendas não param de crescer, e crescem bem rápido! Pouco tempo depois, você é demitido e vai trabalhar para a empresa concorrente. Daí, você apresenta sua pesquisa para eles:


É, o crescimento ainda existe, mas parece que eles andam meio estagnados... Depois de um bom começo, as vendas estão crescendo, mas a passo de lesma. O que é ótimo para a concorrência.

Os dois gráficos foram feitos com os mesmos dados, se ainda não deu para desconfiar. A única diferença é que a escala de cima é bem maior que a de baixo. Esse é um truque muito simples. Se você quer enfatizar um crescimento (ou uma queda), aumente bem a escala. Se quer fazer parecer com uma situação mais estável, diminua bem a escala. Outro exemplo:


Dessa vez, ao invés de simplesmente achatar um pouco a escala, eu modifiquei os valores iniciais e finais do eixo y. No gráfico à esquerda, os valores começam em 100 e vão até 150. No gráfico ao lado, vão de 0 a 300. Desnecessário dizer que são os mesmos dados. (A grade ajuda vocês a verem o que manipulei. Reparem como ela geralmente está ausente em gráficos gerados para o grande público.)

Esse tipo de manipulação, em épocas de eleição, são um jeito sutil de fazer o crescimento ou queda de um candidato parecer maior do que do outro. Você não precisa inventar dados, só escolher a escala correta. Fiquem sempre de olho quando estatísticas de candidatos forem apresentadas separadamente. O gráfico mais confiável nesses casos é os que mostram todos juntos na mesma escala, apesar de, nesse caso termos o problema de...

2. Manipulação por amostragem

Essa é uma manipulação de dados ainda mais maldosa, porque não pode ser verificada com uma rápida olhada no eixo y, como a manipulação acima. No mundo acadêmico, se você for pego fazendo isso, já era.

A questão é, você sempre pode conseguir qualquer resultado que quiser em uma pesquisa estatística se tomar os dados no lugar e momento corretos. É essa a razão por haverem tantos institutos de pesquisa rivais. Cada um tem um método de determinar quem será entrevistado e de que maneira, o que muda bastante os resultados finais.

Uma forma simples de manipular por amostragem é escolher o período de tempo que mais lhe convém (e, muitas vezes, aplicar a manipulação de escala acima). Exemplo simples:



Os dois gráficos partem dos mesmos dados, mas o da esquerda pega dois anos de história do produto em questão e o da direita, de cerca de um ano. Veja como contam histórias diferentes: um deles é a história de um produto extremamente bem-sucedido, que teve uma ligeira estabilização nas vendas, mas voltou a subir. O outro é a história de um produto que cresceu muito, muito rápido, e logo começou a despencar. Se você olhar bem, no gráfico da esquerda, esse trecho parece quase uma linha reta.

Também é prática comum fazer uma pesquisa de opinião logo depois de um escândalo da mídia, quando se quer que alguma empresa, político ou celebridade apareçam sob luzes ruins. Ao se fazer uma pesquisa, timing é essencial.

Outra forma de manipulação por amostragem é selecionar discretamente quem vai responder sua pesquisa estatística.

Para usar um exemplo político, pequemos a candidata *ahem* Vilma, que tem uma base de voto em camadas de renda mais baixa e na região Nordeste e o candidato *ahem* Latércio, cuja base são as camadas mais bem favorecidas da população e a região sudeste.

Se você for uma agência que tem $impatia$ por Vilma, basta você mandar um número igual de coletores de dados (os carinhas de prancheta te perguntando em quem você vai votar) para cada Estado do Brasil. A região Nordeste é a que tem mais Estados. Logo, haverá mais coletores lá. Acrescente a isso a providência de mandar os coletores fazerem a pesquisa em horário de pico e em regiões mais frequentadas pelas camadas de mais baixa renda e boooom. Vilma estará bem colocada.

Se suas $impatia$ estiverem com Latércio, sem problemas. A região Sudeste do Brasil é a mais populosa. Logo, você pode decidir mandar para cada Estado um número de coletores de dados proporcional à população do mesmo. Assim, haverá mais coletores no Sudeste. Coloque seus coletores em horários logo antes ou logo depois dos horários de pico e em regiões mais frequentadas pela classe mais abastada e abracadabra, Latércio dispara na pesquisa.

Notem que isso não é necessariamente fraude. É intelectualmente desonesto, mas não é como se os coletores estivessem mentindo. Os dados são aqueles mesmo. Não dá pra processar as empresas de estatística por falarem a verdade, apesar de você poder questionar seus métodos.

E não, você não tem acesso a esses métodos por nenhuma maneira simples quando se tratam das pesquisas mostradas nos jornais e na TV. Não vou citar nomes pra não induzir ninguém a nada, mas no site de um instituto de pesquisa, eles explicam parcialmente seu método e oferecem um local onde você pode refinar os dados de acordo com certas parcelas da população. Mas algumas coisas não estão exatamente demonstradas lá, como o horário e endereço de coleta (mostrei acima como podem mudar o público atingido) ou o formulário que apresentam ao público para coletar os dados.

Aliás, quanto ao formulário de coleta, esse é outro problema...

3. Manipulação por indução do entrevistado

Imagino que a maior parte de vocês devem pensar que pesquisa de intenção de voto é algo simples. O entrevistador pergunta em quem você quer votar, lista os candidatos e você diz qual é sua escolha.

Eeeeerr... Não é bem assim. A maioria dos centros de pesquisa entregam um formulário enorme para a pessoa preencher. Normalmente, é uma maneira de disfarçar um pouco a pergunta principal da pesquisa, de modo a "desarmar" o entrevistado e se obter uma resposta mais honesta.

Já deu para perceber o quanto isso pode dar errado, né?

Um exemplo simples de como se pode manipular um resultado usando um formulário?

"Sr. Fulano, o senhor avalia o governo Di... er... Vilma como Ruim, Regular, Bom ou Ótimo?"

"Hum, sei lá, bom."

Outro pesquisador:

"Sr. Fulano, em termos de corrupção, o senhor avalia as instituições governamentais como Ruim, Regular, Bom ou Ótimo?"

"Ruim, bem ruim!"

"Sr. Fulano, o senhor avalia o governo Vilma como Ruim, Regular, Bom ou Ótimo?"

"Não tem horrível, não?"

Ainda outro pesquisador:

"Sr. Fulano, o senhor avalia o aumento do salário mínimo nos últimos anos como Ruim, Regular, Bom ou Ótimo?"

"Ah, foi bom!"

"Sr. Fulano, o senhor avalia o governo Vilma como Ruim, Regular, Bom ou Ótimo?"

"Quer saber, ele foi ótimo"

Claro, a maioria dos formulários não é tão cru, mas digamos não é algo difícil de ser feito. Na verdade, é algo tão fácil de acontecer que pode acontecer por acidente. Acidente ou não, não deixa de ser uma maneira de distorcer a percepção do entrevistado para que o coletor consiga determinado resultado.

Quando você para pra pensar, falar que uma pesquisa de opinião - não importa por qual instituto - tem dois ou três pontos percentuais de margem de erro é quase uma afronta.

----------

Esses são os modos mais fáceis de manipulação de resultados, mas nem de longe são os únicos. Tem manipulações matemáticas que você pode usar para conseguir gerar um gráfico que, visualmente, passe sensações positivas ou negativas a quem vê (o resultado final não é muito diferente do caso 1, de manipulação de escala, então não acho que vale a pena aprofundarmos nisso), sendo que até o design do gráfico pode ser mal-intencionado (tem muitas discussões legais por aí a esse respeito, procure o amigo designer mais próximo).

O mais importante que eu queria passar é que dados estatísticos são passados para o público depois de uma série de escolhas feitas por quem recolheu esses dados, e essas pessoas podem ter ideologias que distorçam a percepção final que o público terá desses dados.

Encarem os gráficos coloridos que surgirão durante as eleições com ceticismo, galera. E não só durante as eleições. Todo dia tem gráfico novo no jornal, e a maioria deles não está ali simplesmente para informar vocês. Eles querem vender uma ideia. Olho vivo!