Part 1
Henrique C. Martins
Você nunca sabe o resultado do caminho que não toma.
Há uma série de questões de pesquisa que poderiam ser investigadas com as ferramentas que vamos discutir hoje.
Vale mais a pena estudar em escola particular ou pública?
Qual o efeito de investimentos de marketing têm na lucratividade?
Qual o efeito que jornadas de 4 dias semanais têm na produtividade?
Qual efeito que educação tem na remuneração futura?
E diversas outras semelhantes…
Introdução a pesquisa quantitativa
Validade Externa vs. Validade Interna
Problemas em pesquisa quantitativa inferencial
Remédios
O que fazemos em pesquisa quantitiva? Seguimos o método de pesquisa tradicional (com ajustes):
Observação
Questão de pesquisa
Modelo teórico (abstrato)
Hipóteses
Modelo empírico
Coleta de dados
Análise do resultado do modelo (diferente de análise de dados “pura”)
Conclusão/desdobramentos/aprendizados
O que fazemos em pesquisa quantitiva? Seguimos o método de pesquisa tradicional (com ajustes):
Observação
Questão de pesquisa
Modelo teórico (abstrato): Aqui é onde a matemática é necessária
Hipóteses
Modelo empírico: Estatística e econometria necessárias
Coleta de dados: Geralmente secundários
Análise do resultado do modelo (diferente de análise de dados “pura”)
Conclusão/desdobramentos/aprendizados
Pesquisa quantitativa busca testar hipóteses…
…a partir da definição de modelos formais (abstratos)…
…de onde se estimam modelos empíricos utilizando a estatística e a econometria como mecanismos/instrumentos.
No fim do dia, buscamos entender as relações (que tenham validade interna e que ofereçam validade externa) entre diferentes variáveis de interesse.
Exemplo de modelo empírico:
\(Y_{i} = α + 𝜷_{1} × X_i + Controls + error\)
Uma vez que estimemos esse modelo, temos o valor, o sinal e a significância do \(𝜷\).
Se o Beta for significativamente diferente de zero e positivo –> X e Y estão positivamente correlacionados.
O problema? Os pacotes estatísticos que utilizamos sempre “cospem” um beta. Seja ele com ou sem viés.
Cabe ao pesquisador ter um design empírico que garanta que o beta estimado tenha validade interna.
A decisão final é baseada na significância do Beta estimado. Se significativo, as variáveis são relacionadas e fazemos inferências em cima disso.
Contudo, sem um design empírico inteligente, o beta encontrado pode ter literalmente qualquer sinal e significância.
Veja esse site.
Veja esse site.
Source: Angrist
Não podemos pegar dois caminhos.
Source: Angrist
Não podemos comparar pessoas que não são comparáveis.
Definir um bom Design empírico
No mundo ideal: teríamos universos paralelos. Teríamos dois clones, em que cada um escolhe um caminho. Todo o resto é igual.
Segunda melhor solução: experimentos
Mas o que é um experimento?
Grupo de tratamento vs. Grupo de controle
Igualdade entre os grupos (i.e. Aleatoriedade)
Testes placebo
Imagine that you want to investigate the effect of Governance on Q
\(𝑸_{i} = α + 𝜷_{i} × Gov + Controls + error\)
All the issues in the next slides will make it not possible to infer that changing Gov will CAUSE a change in Q
That is, cannot infer causality
One source of bias is: reverse causation
Perhaps it is Q that causes Gov
OLS based methods do not tell the difference between these two betas:
\(𝑄_{i} = α + 𝜷_{i} × Gov + Controls + error\)
\(Gov_{i} = α + 𝜷_{i} × Q + Controls + error\)
If one Beta is significant, the other will most likely be significant too
You need a sound theory!
The second source of bias is: OVB
Imagine that you do not include an important “true” predictor of Q
Let’s say, long is: \(𝑸_{i} = 𝜶_{long} + 𝜷_{long}* gov_{i} + δ * omitted + error\)
But you estimate short: \(𝑸_{i} = 𝜶_{short} + 𝜷_{short}* gov_{i} + error\)
\(𝜷_{short}\) will be:
\(𝜷_{short} = 𝜷_{long}\) + bias
\(𝜷_{short} = 𝜷_{long}\) + relationship between omitted (omitted) and included (Gov) * effect of omitted in long (δ)
Thus, OVB is: \(𝜷_{short} – 𝜷_{long} = ϕ * δ\)
See an example in r here
The third source of bias is: Specification error
Even if we could perfectly measure gov and all relevant covariates, we would not know for sure the functional form through which each influences q
Misspecification of x’s is similar to OVB
The fourth source of bias is: Signaling
Perhaps, some individuals are signaling the existence of an X without truly having it:
This is similar to the OVB because you cannot observe the full story
The fifth source of bias is: Simultaneity
Perhaps gov and some other variable x are determined simultaneously
Perhaps there is bidirectional causation, with q causing gov and gov also causing q
In both cases, OLS regression will provide a biased estimate of the effect
Also, the sign might be wrong
The sixth source of bias is: Heterogeneous effects
Maybe the causal effect of gov on q depends on observed and unobserved firm characteristics:
In such case, we may find a positive or negative relationship.
Neither is the true causal relationship
The seventh source of bias is: Construct validity
Some constructs (e.g. Corporate governance) are complex, and sometimes have conflicting mechanisms
We usually don’t know for sure what “good” governance is, for instance
It is common that we use imperfect proxies
They may poorly fit the underlying concept
The eighth source of bias is: Measurement error
“Classical” random measurement error for the outcome will inflate standard errors but will not lead to biased coefficients.
“Classical” random measurement error in x’s will bias coefficient estimates toward zero
The ninth source of bias is: Observation bias
This is analogous to the Hawthorne effect, in which observed subjects behave differently because they are observed
Firms which change gov may behave differently because their managers or employees think the change in gov matters, when in fact it has no direct effect
The tenth source of bias is: Interdependent effects
Imagine that a governance reform that will not affect share prices for a single firm might be effective if several firms adopt
Conversely, a reform that improves efficiency for a single firm might not improve profitability if adopted widely because the gains will be competed away
“One swallow doesn’t make a summer”
The eleventh source of bias is: Selection bias
If you run a regression with two types of companies
Without any matching method, these companies are likely not comparable
Thus, the estimated beta will contain selection bias
The bias can be either be positive or negative
It is similar to OVB
The twelfth source of bias is: Self-Selection
Self-selection is a type of selection bias
Usually, firms decide which level of governance they adopt
There are reasons why firms adopt high governance
It is like they “self-select” into the treatment
Your coefficients will be biased
Pareamento
Source: Angrist
Propensity-score matching
… que é o mais semelhante possível..
Esses indivíduos formam um par.
Differences-in-Differences
Aqui, você precisa de um choque exógeno.
Research Discontinuity Design (RDD)
Research Discontinuity Design (RDD)
Artigo original aqui.
Research Discontinuity Design (RDD)
Controle sintético
Artigo original aqui.
Controle sintético
Artigo original aqui.
Pesquisa quantitativa tem a parte quanti (métodos, modelos, etc.)…
… Mas talvez a parte mais importante seja o desenho da pesquisa (design empírico)!
P-Hacking
Artigo original aqui.
Publication bias
Artigo original aqui.
Crise de replicação
Artigo original aqui.
Find me at:
https://eaesp.fgv.br/en/people/henrique-castro-martins
https://www.linkedin.com/in/henriquecastror/