Data & Empirical Methods for Finance

Part 1

Henrique C. Martins

Você nunca sabe o resultado do caminho que não toma.

Quais as aplicações do que vamos discutir?

Há uma série de questões de pesquisa que poderiam ser investigadas com as ferramentas que vamos discutir hoje.

  1. Vale mais a pena estudar em escola particular ou pública?

  2. Qual o efeito de investimentos de marketing têm na lucratividade?

  3. Qual o efeito que jornadas de 4 dias semanais têm na produtividade?

  4. Qual efeito que educação tem na remuneração futura?

  5. E diversas outras semelhantes…

Antes de começar: Nossa agenda

  1. Introdução a pesquisa quantitativa

  2. Validade Externa vs. Validade Interna

  3. Problemas em pesquisa quantitativa inferencial

  4. Remédios

Introdução

O que fazemos em pesquisa quantitiva? Seguimos o método de pesquisa tradicional (com ajustes):

  • Observação

  • Questão de pesquisa

  • Modelo teórico (abstrato)

  • Hipóteses

  • Modelo empírico

  • Coleta de dados

  • Análise do resultado do modelo (diferente de análise de dados “pura”)

  • Conclusão/desdobramentos/aprendizados

Introdução

O que fazemos em pesquisa quantitiva? Seguimos o método de pesquisa tradicional (com ajustes):

  • Observação

  • Questão de pesquisa

  • Modelo teórico (abstrato): Aqui é onde a matemática é necessária

  • Hipóteses

  • Modelo empírico: Estatística e econometria necessárias

  • Coleta de dados: Geralmente secundários

  • Análise do resultado do modelo (diferente de análise de dados “pura”)

  • Conclusão/desdobramentos/aprendizados

Definição

Pesquisa quantitativa busca testar hipóteses…

…a partir da definição de modelos formais (abstratos)…

…de onde se estimam modelos empíricos utilizando a estatística e a econometria como mecanismos/instrumentos.

No fim do dia, buscamos entender as relações (que tenham validade interna e que ofereçam validade externa) entre diferentes variáveis de interesse.

Quais as vantagens?

  1. Validade externa:
  • Conceito de que, se a pesquisa tem validade externa, os seus achados são representativos.
  • I.e., são válidos além do seu modelo. Resultados “valem externamente”.
  • Idealmente, buscamos resultados que valem externamente para acumular conhecimento
  • …naturalmente, nem toda pesquisa quantitativa oferece validade externa. A pesquisa ótima sim. A pesquisa excelente tem validade externa para além do seu tempo.
  • Pesquisa qualitativa dificilmente oferece validade externa.

Quais as armadilhas?

  1. Validade interna:
  • Conceito de que a pesquisa precisa de validade interna para que seus resultados sejam críveis.
  • I.e., os resultados não podem conter erros, vieses, problemas de estimação, problemas nos dados, etc..
  • É aqui que a gente separa a pesquisa ruim da pesquisa boa. Para ser levada a sério, a pesquisa PRECISA ter validade interna.
  • Mas isso, nem sempre é trivial. Muitas pesquisas que vemos publicadas, mesmo em top journals, não têm validade interna (seja por erro do pesquisador, por método incorreto, por falta de dados…)
  • Mas cada vez mais, avaliadores estão de olho em problemas e em modelos Trash-in-Trash-out

Como fazemos na prática?

Exemplo de modelo empírico:

\(Y_{i} = α + 𝜷_{1} × X_i + Controls + error\)

Uma vez que estimemos esse modelo, temos o valor, o sinal e a significância do \(𝜷\).

Se o Beta for significativamente diferente de zero e positivo –> X e Y estão positivamente correlacionados.

O problema? Os pacotes estatísticos que utilizamos sempre “cospem” um beta. Seja ele com ou sem viés.

Cabe ao pesquisador ter um design empírico que garanta que o beta estimado tenha validade interna.

Como fazemos na prática?

A decisão final é baseada na significância do Beta estimado. Se significativo, as variáveis são relacionadas e fazemos inferências em cima disso.

Contudo, sem um design empírico inteligente, o beta encontrado pode ter literalmente qualquer sinal e significância.

Exemplo desses problemas

Veja esse site.

Exemplo desses problemas

Veja esse site.

Selection bias

Selection bias

More here

Exemplo desses problemas

Source: Angrist

Não podemos pegar dois caminhos.

Exemplo desses problemas

Source: Angrist

Não podemos comparar pessoas que não são comparáveis.

O que precisamos fazer?

Definir um bom Design empírico

No mundo ideal: teríamos universos paralelos. Teríamos dois clones, em que cada um escolhe um caminho. Todo o resto é igual.

  • Obviamente, isso não existe.

Segunda melhor solução: experimentos

Mas o que é um experimento?

  • Grupo de tratamento vs. Grupo de controle

  • Igualdade entre os grupos (i.e. Aleatoriedade)

    • Nada diferencia os grupos a não ser o fato de que um indivíduo recebe tratamento e o outro não
    • Estamos comparando maças com maças e laranjas com laranjas
  • Testes placebo

The challenge

The challenge

  • I will discuss some issues in using plain OLS models in Corporate Finance & Governance Research
  • I will avoid the word “endogeneity” as much as I can
  • I will also avoid the word “identification” because identification does not guarantee causality and vice-versa (Kahn and Whited 2017)

The challenge

  • Imagine that you want to investigate the effect of Governance on Q

    • You may have more covariates explaining Q (omitted from slides)

\(𝑸_{i} = α + 𝜷_{i} × Gov + Controls + error\)

All the issues in the next slides will make it not possible to infer that changing Gov will CAUSE a change in Q

That is, cannot infer causality

1) Reverse causation

One source of bias is: reverse causation

  • Perhaps it is Q that causes Gov

  • OLS based methods do not tell the difference between these two betas:

\(𝑄_{i} = α + 𝜷_{i} × Gov + Controls + error\)

\(Gov_{i} = α + 𝜷_{i} × Q + Controls + error\)

  • If one Beta is significant, the other will most likely be significant too

  • You need a sound theory!

2) Omitted variable bias (OVB)

The second source of bias is: OVB

  • Imagine that you do not include an important “true” predictor of Q

  • Let’s say, long is: \(𝑸_{i} = 𝜶_{long} + 𝜷_{long}* gov_{i} + δ * omitted + error\)

  • But you estimate short: \(𝑸_{i} = 𝜶_{short} + 𝜷_{short}* gov_{i} + error\)

  • \(𝜷_{short}\) will be:

    • \(𝜷_{short} = 𝜷_{long}\) + bias

    • \(𝜷_{short} = 𝜷_{long}\) + relationship between omitted (omitted) and included (Gov) * effect of omitted in long (δ)

      • Where: relationship between omitted (omitted) and included (Gov) is: \(Omitted = 𝜶 + ϕ *gov_{i} + u\)
  • Thus, OVB is: \(𝜷_{short} – 𝜷_{long} = ϕ * δ\)

  • See an example in r here

3) Specification error

The third source of bias is: Specification error

  • Even if we could perfectly measure gov and all relevant covariates, we would not know for sure the functional form through which each influences q

    • Functional form: linear? Quadratic? Log-log? Semi-log?
  • Misspecification of x’s is similar to OVB

4) Signaling

The fourth source of bias is: Signaling

  • Perhaps, some individuals are signaling the existence of an X without truly having it:

    • For instance: firms signaling they have good governance without having it
  • This is similar to the OVB because you cannot observe the full story

5) Simultaneity

The fifth source of bias is: Simultaneity

  • Perhaps gov and some other variable x are determined simultaneously

  • Perhaps there is bidirectional causation, with q causing gov and gov also causing q

  • In both cases, OLS regression will provide a biased estimate of the effect

  • Also, the sign might be wrong

6) Heterogeneous effects

The sixth source of bias is: Heterogeneous effects

  • Maybe the causal effect of gov on q depends on observed and unobserved firm characteristics:

    • Let’s assume that firms seek to maximize q
    • Different firms have different optimal gov
    • Firms know their optimal gov
    • If we observed all factors that affect q, each firm would be at its own optimum and OLS regression would give a non-significant coefficient
  • In such case, we may find a positive or negative relationship.

  • Neither is the true causal relationship

7) Construct validity

The seventh source of bias is: Construct validity

  • Some constructs (e.g. Corporate governance) are complex, and sometimes have conflicting mechanisms

  • We usually don’t know for sure what “good” governance is, for instance

  • It is common that we use imperfect proxies

  • They may poorly fit the underlying concept

8) Measurement error

The eighth source of bias is: Measurement error

  • “Classical” random measurement error for the outcome will inflate standard errors but will not lead to biased coefficients.

    • \(y^{*} = y + \sigma_{1}\)
    • If you estimante \(y^{*} = f(x)\), you have \(y + \sigma_{1} = x + \epsilon\)
    • \(y = x + u\)
      • where \(u = \epsilon + \sigma_{1}\)
  • “Classical” random measurement error in x’s will bias coefficient estimates toward zero

    • \(x^{*} = x + \sigma_{2}\)
    • Imagine that \(x^{*}\) is a bunch of noise
    • It would not explain anything
    • Thus, your results are biased toward zero

9) Observation bias

The ninth source of bias is: Observation bias

  • This is analogous to the Hawthorne effect, in which observed subjects behave differently because they are observed

  • Firms which change gov may behave differently because their managers or employees think the change in gov matters, when in fact it has no direct effect

10) Interdependent effects

The tenth source of bias is: Interdependent effects

  • Imagine that a governance reform that will not affect share prices for a single firm might be effective if several firms adopt

  • Conversely, a reform that improves efficiency for a single firm might not improve profitability if adopted widely because the gains will be competed away

  • “One swallow doesn’t make a summer”

11) Selection bias

The eleventh source of bias is: Selection bias

  • If you run a regression with two types of companies

    • High gov (let’s say they are the treated group)
    • Low gov (let’s say they are the control group)
  • Without any matching method, these companies are likely not comparable

  • Thus, the estimated beta will contain selection bias

  • The bias can be either be positive or negative

  • It is similar to OVB

12) Self-Selection

The twelfth source of bias is: Self-Selection

  • Self-selection is a type of selection bias

  • Usually, firms decide which level of governance they adopt

  • There are reasons why firms adopt high governance

    • If observable, you need to control for
    • If unobservable, you have a problem
  • It is like they “self-select” into the treatment

    • Units decide whether they receive the treatment of not
  • Your coefficients will be biased

O que conseguimos fazer?

O que conseguimos fazer?

Pareamento

Source: Angrist

O que conseguimos fazer?

Propensity-score matching

  • Fazemos pareamento entre amostras
  • Para cada individuo que recebe o tratamento, buscamos um indivíduo do grupo de controle
  • … que é o mais semelhante possível..

  • Esses indivíduos formam um par.

  • No agregado, teremos duas sub-amostras que são semelhantes entre si (indivíduos pareados).
  • A seguir, fazemos inferências estatísticas apenas com essa sub-amostras.
  • O resto da amostra, os indivíduos a que não se encontrou pares, não é utilizada.

Exemplo de pareamento

Exemplo de pareamento

O que conseguimos fazer?

Differences-in-Differences

Aqui, você precisa de um choque exógeno.

O que conseguimos fazer?

Research Discontinuity Design (RDD)

O que conseguimos fazer?

Research Discontinuity Design (RDD)

Artigo original aqui.

O que conseguimos fazer?

Research Discontinuity Design (RDD)

See here

O que conseguimos fazer?

Controle sintético

Artigo original aqui.

O que conseguimos fazer?

Controle sintético

Artigo original aqui.

Conclusão

Pesquisa quantitativa tem a parte quanti (métodos, modelos, etc.)

… Mas talvez a parte mais importante seja o desenho da pesquisa (design empírico)!

Preocupações recentes em pesquisa

P-Hacking

Artigo original aqui.

Preocupações recentes em pesquisa

Publication bias

Artigo original aqui.

Preocupações recentes em pesquisa

Crise de replicação

Artigo original aqui.

I hope you like this class!

Find me at:

henrique.martins@fgv.br

https://eaesp.fgv.br/en/people/henrique-castro-martins

henriquemartins.net

https://www.linkedin.com/in/henriquecastror/