427 55 9MB
Portuguese Pages 1021 Year 2014
CAPÍTULO 1 INTRODUÇÃO 1.1 - De que trata a Econometria? Numa primeira aproximação, pode dizer-se que a Econometria procura fornecer uma base empírica para o estudo de relações entre variáveis económicas (ou, em geral, de natureza social). Para atingir este objectivo, a Econometria dedica-se ao desenvolvimento de métodos estatísticos para estimar e testar tais relações. Em especial, no campo da Economia, estes métodos devem possibilitar o teste das teorias económicas que podem estar na base das relações preconizadas, e a avaliação e fundamentação de decisões de natureza empresarial ou de política económica. Estas considerações vão ser analisadas nas secções seguintes deste capítulo. Para motivar a análise que vai ser feita, apresentam-se alguns exemplos. Exemplo 1.1 – O consumo privado, considerado como agregado macroeconómico, é uma variável cujo comportamento tem sido amplamente estudado pela teoria macroeconómica. A especificação mais simples é a função consumo keynesiana, onde, para sucessivos períodos de tempo, se procura explicar o consumo, cons, a partir do rendimento disponível, rdisp: cons = h(rdisp) . É habitual propor a função h seguinte: cons = α 1 + α 2 rdisp ,
onde α1 e α 2 são parâmetros desconhecidos (em particular, α 2 é a propensão marginal para consumir, a verificar 0 < α 2 < 1 ). Esta função é razoavelmente adequada para analisar a evolução do consumo privado? Se a resposta for afirmativa, é desejável conhecer uma boa estimativa da propensão marginal a consumir. ∇ Exemplo 1.2 – Para as unidades produtivas que se dedicam ao fabrico de um bem é, muitas vezes, possível estabelecer, em certas condições, e para um determinado período de tempo, uma relação funcional h entre a produção, Q, do bem, e determinada combinação de factores produtivos (por exemplo: capital, K, e trabalho, L): Q = h( K , L) . Esta relação funcional chama-se função de produção. O estudo deste tipo de funções faz parte de um capítulo muito importante da teoria microeconómica: a teoria da produção. Uma especificação muito utilizada é a função Cobb-Douglas,
Capítulo 1 – Introdução
2
Q = α1 K α 2 Lα3 ,
onde α1 , α 2 e α 3 são parâmetros positivos ( α 2 e α 3 representam, neste caso, as elasticidades pontuais da quantidade produzida relativamente ao capital e ao trabalho, respectivamente; ver secção 1.4). A análise estatística destas elasticidades (estimação pontual e por intervalos, teste de hipóteses, etc.) é uma preocupação empírica muito importante. Outra especificação corrente, na teoria da produção, é a função de produção CES (elasticidade de substituição constante), Q = β {(1 − δ ) L− ρ + δ K − ρ }
−
com parâmetros β > 0 , γ > 0 , 0 < δ < 1 e ρ .
γ ρ
,
∇
Exemplo 1.3 – Quando pretende explicar-se o comportamento, ao longo de vários períodos de tempo, das importações portuguesas, a nível agregado, em função de um indicador de preços relativos e de um indicador do nível de actividade, pode estabelecer-se a relação funcional h,
import = h( prm, pib) ,
onde: import designa as importações portuguesas a preços constantes; prm é o rácio entre o índice de preços implícito nas importações e o índice de preços implícito no PIB; pib é o produto interno bruto português a preços constantes. Uma especificação possível da função h é a seguinte: import = α1 prm α 2 pib α3 (α1 > 0) .
Estabelecida esta relação teórica entre as três variáveis, põe-se a questão de estimar os respectivos parâmetros (nomeadamente as elasticidades pontuais), e de proceder a outras análises estatísticas. ∇ Exemplo 1.4 – Considere-se as variáveis educ (número de anos de escolaridade de um trabalhador) e salar (salário mensal médio num determinado ano do mesmo trabalhador), com o objectivo de saber se educ influencia salar. O efeito da escolaridade sobre o salário chama-se habitualmente retorno da educação. É consenso na economia do trabalho que exper (número de anos de experiência profissional do trabalhador), empc (número de anos de trabalho no emprego corrente), mulher (variável binária que assume o valor 1 quando se trata de uma mulher, e o valor 0 quando é um homem; a discriminação salarial com base no género do trabalhador continua a ser realidade em muitos sectores de actividade) e aptid (aptidão ou capacidade inata da pessoa; variável não observável) são variáveis que também podem influenciar o salário. Tem-se, então,
salar = h(educ, exper, empc, mulher , aptid ) .
Capítulo 1 – Introdução
3
Evidentemente, outros factores – como o número de anos de escolaridade da mãe, do pai e do cônjuge do trabalhador, e outros antecedentes familiares, o número de filhos, o estado civil, a localização da habitação, a região onde trabalha, a origem social ou étnica, a nacionalidade, etc. – poderiam ser acrescentados à relação funcional; facilmente se compreende que não é candidato a figurar em h o número de golos que o clube de futebol da preferência do trabalhador faz em média por mês. Desprezando a variável aptid, podia propor-se a seguinte especificação: salar = exp{α1 + α 2 educ + α 3 exper + α 4 empc + α 5 mulher } ,
ou ainda,
lsalar = α1 + α 2 educ + α 3 exper + α 4 empc + α 5 mulher ,
onde lsalar = ln(salar ) . Com facilidade se interpreta o significado dos parâmetros (esta questão vai ser aprofundada nas próximas secções). Por exemplo: α 2 (multiplicado por 100) mede, aproximadamente, a variação percentual do salário quando um trabalhador tem mais um ano de escolaridade (em estudos deste tipo é particularmente útil conhecer uma estimativa deste parâmetro, que representa o retorno da educação); α 5 (multiplicado por 100) mede, aproximadamente, a diferença percentual de salário entre uma mulher e um homem. ∇ Exemplo 1.5 – Procura saber-se se a assiduidade às aulas de um aluno de Estatística durante um semestre (assid) é factor explicativo da nota no exame final da unidade curricular (nest). Para isso, considera-se que
nest = h(assid , tae, mis) ,
onde tae (nota obtida num teste geral de aptidão escolar) e mis (média geral das notas já obtidas até ao início do semestre) são medidas gerais que reflectem a capacidade e os hábitos de estudo dos alunos. Estas variáveis (conjuntamente com assid) são adequadas para explicar nest? Talvez não, porque podem não reflectir a aptidão e o interesse do aluno pela Estatística. Sendo assim, seria importante a inclusão de uma variável que contemplasse estes aspectos, mas teria o inconveniente de não ser observável. ∇ Exemplo 1.6 – Suponha-se que pretende estimar-se o número diário de viagens de automóvel (viag) entre os concelhos da Área Metropolitana de Lisboa (AML) situados a norte do Tejo, por motivo de deslocação para o trabalho, com vista a tomar decisões sobre a construção de novas vias rápidas ou alargamento das existentes. Com o objectivo de melhor entender estes movimentos, decidiu-se propor uma relação funcional, onde os factores explicativos de viag são a população activa no concelho de origem (pop), o número de empresas no concelho de destino (nemp) como sucedâneo do emprego, e a distância entre as sedes dos concelhos de origem e destino (dist). Assim,
viag = h( pop, nemp, dist ) .
Capítulo 1 – Introdução
4
Podia propor-se a seguinte especificação de h:
viag = α1 popα 2 nempα 3 dist α 4 (α1 > 0) .
∇
Os exemplos seguintes consideram modelos económicos com duas ou mais relações. Exemplo 1.7 – Sabe-se da teoria económica que, em muitos casos, o factor principal que explica a procura mensal de um certo bem, qd , é o respectivo preço, p. Tem-se, então, a seguinte função procura: qd = hd ( p) . Como se sabe, a quantidade e o preço de equilíbrio do mercado (respectivamen∗ te, q e p∗ ) não podem ser determinados apenas com aquela função. É indispensável considerar também a função oferta, qs = hs ( p ) , e a relação de equilíbrio, qd = qs , o que permite determinar simultaneamente q∗ e p∗ . Obtém-se, assim, um modelo de procura e oferta num mercado em equilíbrio: qd = hd ( p ) (função procura) qs = hs ( p) (função oferta ) q = q (equilíbrio de mercado). s d
A especificação mais habitual é a seguinte:
qd = α 0 + α1 p (função procura) qs = β 0 + β1 p (função oferta ) q = q (equilíbrio de mercado). s d
Devido à simultaneidade atrás referida, o modelo apresentado tem o grave inconveniente de nem sequer permitir estimar a função procura (ou a função oferta), porque são observáveis apenas a quantidade e o preço de equilíbrio: muitas funções procura (oferta) são compatíveis com o par ( q∗ , p∗ ). Uma especificação mais adequada seria, por exemplo, qd = α 0 + α1 p + α 2 r (função procura) qs = β 0 + β1 p + β 2 z (função oferta ) q = q (equilíbrio de mercado). s d
onde r é o rendimento médio dos consumidores do bem, e z é um indicador da dimensão média das empresas que vendem o bem. Este assunto será retomado no capítulo 4. ∇ Exemplo 1.8 – Sabe-se da teoria macroeconómica que a função consumo introduzida no exemplo 1.1 não deve ser considerada isoladamente, mas integrada num sistema de equações que traduza as relações entre os agregados macroeconómicos. Por exemplo, podia considerar-se o seguinte modelo macroeconómico simples:
Capítulo 1 – Introdução
5
cons = β1 + β 2 pnb (função consumo) pnb = cons + invest (identidade do PNB), onde cons é o consumo agregado, pnb é o produto nacional bruto (PNB) ou rendimento nacional, e invest é o investimento agregado. O parâmetro β 2 desempenha um papel fundamental neste modelo, já que representa a propensão marginal a consumir a partir do rendimento ( 0 < β 2 < 1 ). Outro caso típico é o modelo keynesiano simples da procura agregada, onde se tem, por exemplo, cons = β1 + β 2 ( pnb − impd ) + β 2 tjuro invest = γ 1 + γ 2 tjuro pnb = cons + invest + dp,
onde impd é a receita dos impostos directos, tjuro é a taxa de juro, e dp é a despesa pública. Podia, também, propor-se o seguinte modelo: cons = β1 + β 2 ( pnb − impd ) + β 3 tjuro + β 4cons−1 invest = γ 1 + γ 2 tjuro + γ 3 ( pnb − pnb−1 ) pnb = cons + invest + dp,
onde cons−1 é consumo do período anterior, e pnb−1 é o PNB do período anterior. O estudo empírico destes pequenos protótipos de funcionamento de uma economia pode ser particularmente útil para esclarecer certos aspectos das complexas relações entre as grandezas macroeconómicas. ∇
Exemplo 1.9 – Suponha-se que pretende determinar-se a influência do número de agentes de polícia (pol) existente em cada cidade sobre a respectiva taxa de criminalidade (crime), admitindo que outro factor explicativo de crime é o rendimento percapita dos habitantes da cidade (rpc). Assim, tem-se crime = h1 ( pol , rpc ) .
Mesmo admitindo que esta relação traduz adequadamente o comportamento dos criminosos, o modelo a considerar não pode ser composto apenas por h1 , pois é admissível que crime e pol sejam interdependentes, e, portanto, determinados simultaneamente. Assim, teria de considerar-se uma segunda relação que reflectisse o comportamento das autoridades camarárias relativamente a pol. Por exemplo, poderia supor-se que
pol = h2 (crime , imunicip) ,
onde imunicip é a receita de impostos municipais. Podia, então, especificar-se o seguinte modelo:
crime = 1 + 2 pol + 3 rpc pol = 1 + 2crime + 3 imunicip .
Capítulo 1 – Introdução
6
A análise empírica da interdependência entre as variáveis crime e pol pode ser um objectivo importante do estudo econométrico. ∇ Exemplo 1.10 – Os países de economia mais aberta têm menores taxas de inflação? Para responder a esta pergunta, considerou-se que inf = h1 ( ga, rpc ) ,
onde inf é a taxa de inflação, ga é o grau de abertura da economia medido pelo quociente entre as importações e o PIB, e rpc é o rendimento per capita. Como é admissível supor que ga também é influenciado por inf (há interdependência entre as duas variáveis), deve considerar-se uma segunda relação funcional, que, por exemplo, poderia ser ga = h1 (inf , rpc, ap ) ,
onde ap é a área do país em quilómetros quadrados. Fazendo inf = β1 + β 2 ga + β 3 ln(rpc) ga = γ 1 + γ 2inf + γ 3 ln(rpc) + γ 4 ln(ap) ,
é de admitir, por exemplo, que β 2 < 0 (quanto maior é o grau de abertura da economia, menor a taxa de inflação), e γ 4 < 0 (quanto menor é o país, maior é o grau de abertura). A interdependência sugerida entre inf e ga deve ser submetida a uma análise empírica adequada. ∇ Ragnar Frisch (economista norueguês, prémio Nobel da Economia em 1969 – conjuntamente com o economista holandês Jan Tinbergen –, e um dos fundadores da Econometric Society), apresentou em 1936 (“Note on the term `Econometrics´”, Econometrica, vol. 4) a primeira definição consistente de Econometria. Trata-se de uma definição ampla (“ideal”), enunciada nos seguintes termos: “a Econometria é uma disciplina que visa estudar a aplicação da Matemática e dos métodos estatísticos à análise dos dados económicos”. O mesmo economista já afirmava, em 1933, o seguinte: “A experiência tem mostrado que cada um destes três pontos de vista, o da Estatística, o da Teoria Económica e o da Matemática, é condição necessária, mas não em si suficiente, para uma verdadeira compreensão das relações quantitativas na vida económica moderna. É a unificação dos três pontos de vista que é fecunda e constitui a Econometria” (Econometrica, Editorial, 1933). Outra definição célebre deve-se a Samuelson (prémio Nobel em 1970), Koopmans (prémio Nobel em 1975) e Stone (prémio Nobel em 1984): “A Econometria pode ser definida como a análise quantitativa dos fenómenos económicos, baseada na teoria e na observação, e utilizando os métodos de inferência apropriados”. Muitos outros autores têm apresentado definições de Econometria. Indicam-se mais três citações de econometristas proeminentes:
Capítulo 1 – Introdução
7
− “A Econometria pode ser definida como a ciência social em que as ferramentas da teoria económica, da matemática e da inferência estatística são utilizadas na análise de fenómenos económicos” (Goldberger). − “A Econometria preocupa-se com a determinação empírica de leis económicas” (Theil). − “A arte do econometrista consiste em procurar o conjunto de hipóteses que são suficientemente específicas e suficientemente realistas para permitir tirar o melhor partido dos dados disponíveis” (Malinvaud). Embora se esteja ainda relativamente distante desta situação ideal, a Econometria constitui, actualmente, uma área científica autónoma, que muito tem contribuído para o avanço da ciência económica. Este avanço está bem patente nos contributos de alguns econometristas que foram prémios Nobel recentemente. No ano 2000, o prémio foi atribuído a dois microeconometristas: James Heckman (University of Chicago, USA) [“for his development of theory and methods for analyzing selective samples”]; Daniel Mc Fadden (University of California, at Berkeley, USA) [“for his development of theory and methods for analyzing discrete choice”]. Em 2003, os galardoados foram dois macroeconometristas: Clive Granger (University of California, at San Diego, USA) [“for methods of analyzing economic time series with common trends (cointegration)”]; Robert Engle (University of New York, USA) [“for methods of analyzing economic time series time-varying volatility (ARCH)”]. A econometria não é, longe disso, “um conjunto de métodos para medir a altura dos economistas”. Em termos muito gerais, pode afirmar-se que o progresso da Econometria é relevante nos seguintes aspectos: a) nas técnicas de estimação e de análise estatística dos modelos (nos métodos econométricos); b) nas aplicações; c) e mais recentemente, nas tentativas de sistematizar os seus fundamentos metodológicos. 1.2 - Modelo teórico
Quando se estuda, com base em dados, um determinado fenómeno de natureza social (em particular, de índole económica), com o objectivo de descrever, explicar ou prever o seu comportamento, procura-se conceber, ainda que de forma aproximada ou simplificada, o mecanismo subjacente ao fenómeno observável. Este mecanismo é designado habitualmente por modelo teórico. O modelo é assim adjectivado para salientar que deve ser baseado numa determinada teoria (construção conceptual fornecedora de uma descrição idealizada do fenómeno em estudo). No entanto, a teoria subjacente ao modelo não é necessariamente uma conceptualização matemática formal (como muitas vezes acontece em macroeconomia e em microeconomia), mas pode consistir numa análise menos formal – em muitos casos apoiada no bom senso e na intuição – com vista a estabelecer meras relações entre variáveis. Deve enfatizar-se ainda que o modelo a adoptar é objecto de uma teoria, mas também deve ser encarado como a fonte geradora dos dados observáveis.
Capítulo 1 – Introdução
8
Exemplo 1.11 – Retome-se os exemplos anteriores: a) No exemplo 1.4 sugeriu-se, tendo por base considerações da área da economia do trabalho, que o modelo teórico a adoptar poderia ser
lsalar = α1 + α 2 educ + α 3 exper + α 4 empc + α 5 mulher .
b) Na sequência do exemplo 1.8, e apoiados na teoria macroeconómica, podia ser razoável adoptar o modelo teórico cons = β1 + β 2 ( pnb − impd ) + β 3 tjuro + β 4cons−1 invest = γ 1 + γ 2 tjuro + γ 3 ( pnb − pnb−1 ) pnb = cons + invest + dp,
para estudar as relações entre os agregados económicos referidos. c) O exemplo 1.9 sugere que o modelo teórico para estudar as interdependências entre a taxa de criminalidade e o efectivo policial numa cidade poderia ser crime = 1 + 2 pol + 3 rpc pol = 1 + 2crime + 3 imunicip .
d) Fica ao cuidado do leitor indicar modelos teóricos para estudar os fenómenos referidos nos exemplos 1.1, 1.2, 1.3, 1.5, 1.6, 1.7 e 1.10. ∇ Cada relação do modelo teórico proposto – exceptuando possíveis relações de equilíbrio ou identidades (ver exemplos 1.7 e 1.8) – procura estabelecer o comportamento de uma variável, z, em função de outras variáveis, w1 , w2 , K , w p . Na relação funcional considerada, diz-se que z é a variável explicada (a variável dependente ou a variável resposta), e w1 , w2 , K , w p são as variáveis explicativas (as variáveis independentes ou as variáveis controlo). Pode dizer-se que “z é explicado como função de w1 , w2 , K , w p ”; “os factores explicativos de z são w1 , w2 , K , w p ”. Assim, tem-se a função h de p variáveis
(1.1)
z = h( w1 , w2 , K , wp ) .
Pressupõe-se que (1.1) envolve um conjunto finito de parâmetros desconhecidos, α1 , α 2 , K , α k . Diz-se, então, que se tem uma relação paramétrica. O modelo teórico pode ser composto por várias relações de tipo (1.1). As variáveis que fazem parte de um modelo teórico podem ser consideradas atributos de uma determinada população em estudo. Deste modo, o modelo teórico comporta uma ou mais relações que visa explicar o comportamento de certos atributos da população. Por exemplo, a relação (1.1) procura estudar o comportamento do atributo z das entidades de uma determinada população em função dos atributos w1 , w2 , K , w p das mesmas entidades. Assim, como para qualquer modelo teórico está subjacente uma população, também se diz que este modelo é um modelo da população. A relação (1.1) também pode ser apresentada na forma seguinte: z = h(w) ,
Capítulo 1 – Introdução
9
onde, por convenção, w é o vector-linha das variáveis explicativas, e α é o vector-coluna dos parâmetros desconhecidos. Assim, α1 α w = [ w1 w2 L wp ] e α = 2 . M α k
Exemplo 1.12 – Considerem-se, novamente, os exemplos 1.1, 1.2, 1.4 e 1.5, e as últimas especificações propostas (os outros exemplos da secção 1.1 ficam ao cuidado do leitor). Tem-se: a) Exemplo 1.1: z = cons e w = rdisp . b) Exemplo 1.2: z = Q , w1 = K e w2 = L . c) Exemplo 1.4: z = lsalar , w1 = educ , w2 = exper , w3 = empc e w4 = mulher . d) Exemplo 1.5: z = nest , w1 = assid , w2 = tae e w3 = mis . ∇ 1.3 - Relações lineares
Um caso particular muito importante das relações de tipo (1.1) é aquele que é caracterizado pela linearidade relativamente aos parâmetros, isto é, as relações assumem a forma (1.2)
y=
x +
1 1
x +L+
2 2
k
xk ,
onde y é a variável explicada ou dependente (ou uma função desta variável), x1 , x2 ,K , xk são as variáveis explicativas ou independentes (ou determinadas funções destas variáveis), e β1 , β 2 , K , β k são os parâmetros. Muitas vezes, a variável x1 é identicamente igual a 1. Trata-se de uma convenção que permite considerar, na relação linear, um termo independente ou constante. Na maioria das situações a relação (1.2) tem termo independente, β1 , uma vez que apenas em casos muito especiais se supõe que a nulidade das variáveis explicativas implica a nulidade de y. A relação (1.2), também, pode apresentar-se da seguinte maneira: y = xβ ,
onde x = [ x1
x2
β1 β L xk ] e β = 2 . M β k
Em muitas situações, a relação (1.1) não é linear (relativamente aos parâmetros), mas mediante uma transformação da variável z, g (z ) , consegue obter-se uma relação da forma (1.2), ou seja, linearizou-se (1.1). Uma relação linear ou linearizável diz-se intrinsecamente linear (relativamente aos parâmetros).
Capítulo 1 – Introdução
10
Exemplo 1.13 – Retome-se alguns dos dez exemplos da secção 1.1: a) A função de consumo keynesiana referida no exemplo 1.1, cons = β1 + β 2 rdisp , é linear relativamente aos parâmetros. Tem-se: y = cons , x1 = 1 , x2 = rdisp , β1 = α1 e β2 = α2 . b) A função de produção Cobb-Douglas (exemplo 1.2), Q = α1 K α 2 Lα3 (α1 > 0) , é linearizável. Com efeito, logaritmizando a expressão anterior, obtém-se uma função, linear nos parâmetros, equivalente à relação anterior,
ln(Q) = β1 + β 2 ln( K ) + β 3 ln( L) ,
onde: y = ln(Q) , x1 = 1 , x2 = ln( K ) , x3 = ln( L) , 1 = ln(α1 ) , 2 = α2 e 3 = α3 . Verifica-se, assim, que a função de produção Cobb-Douglas, embora não linear nos parâmetros, é intrinsecamente linear, pois a transformação logarítmica permite convertê-la numa função linear. c) A função de produção CES (ver exemplo 1.2) não é intrinsecamente linear nos parâmetros, pois não existe qualquer transformação de Q que permita obter uma relação linear. d) Considere-se a relação import = α1 prm α 2 pib α3 (α1 > 0) do exemplo 1.3. Logaritmizando esta expressão, obtém-se ln(import ) = β1 + β 2 ln( prm) + β 3 ln( pib) ,
em que: y = ln(import ) , x1 = 1 , x2 = ln( prm) , x3 = ln( pib) , β1 = ln(α1 ) , β 2 = α 2 e β3 = α3 . e) No exemplo 1.4 a relação salar = exp{α1 + α 2 educ + α 3 exper + α 4 empc + α 5 mulher }
não é linear nos parâmetros. No entanto, facilmente se passa a
lsalar = β1 + β 2 educ + β 3 exper + β 4 empc + β5 mulher ,
onde: y = lsalar , x1 = 1 , x2 = educ , x3 = exper , x4 = empc , x5 = mulher , β1 = α1 , β 2 = α 2 , β 3 = α 3 , β 4 = α 4 e β5 = α 5 . f) Se, no exemplo 1.5, a especificação de nest = h(assid , tae, mis) for nest = β1 + β 2 assid + β 3 tae + β 4 mis ,
obtém-se uma relação linear relativamente aos parâmetros, onde y = nest , x1 = 1 , x2 = assid , x3 = tae e x4 = mis . ∇ É particularmente importante não confundir linearidade relativa aos parâmetros com linearidade relativa às variáveis. Por exemplo, uma relação linear nos parâmetros, mas não linear nas variáveis, é dada por z = α1 + α2 w + α3 w 2 . Contudo, a relação z = α 1 + α 2 w2 + α 22 w3 é linear nas variáveis, mas não é linear (nem linearizável) nos parâmetros. A função de produção Cobb-Douglas referida no exemplo 1.2 é intrinsecamente linear nos parâmetros, mas não é linear relativamente às variáveis. A relação
Capítulo 1 – Introdução
11 z = α1 +
1 , α2 + w
não é, nem linear nas variáveis, nem (intrinsecamente) linear nos parâmetros. Como vai ver-se, para a estimação dos parâmetros de uma relação (intrinsecamente) linear, a linearidade relativamente às variáveis tem pouca importância. A expressão “a relação é linear” significa que a relação é linear ou linearizável relativamente aos parâmetros. No entanto, a linearidade, ou não, relativamente às variáveis desempenha um papel decisivo para interpretar os parâmetros (ver secção seguinte). 1.4 -
Efeitos parciais, elasticidades e semi-elasticidades
Esta secção tem por objectivo apresentar alguns conceitos de grande importância para a interpretação dos parâmetros – muito particularmente no quadro da Economia –, o que vai permitir dar conteúdo à última frase da secção anterior (“a linearidade, ou não, relativamente às variáveis desempenha um papel decisivo para interpretar os parâmetros”). O objectivo de muitos estudos empíricos em Economia (e nas Ciências Sociais, em geral) é determinar relações de causalidade entre duas variáveis. Trata-se de saber se a variação de uma variável implica ou causa uma variação noutra variável. Neste contexto, é crucial a noção de ceteris paribus [“supondo todos os outros factores (relevantes) fixos”]. Exemplo 1.14 – Considere-se as seguintes perguntas: − Uma variação do rendimento disponível dá lugar a uma variação no consumo (ver exemplo 1.1)? − Uma variação da quantidade do factor trabalho altera a quantidade produzida (ver exemplo 1.2)? − Uma alteração dos preços relativos (ver a variável prm referida no exemplo 1.3) causa uma variação nas importações? − Possuir mais um ano de escolaridade aumenta o salário mensal de um trabalhador (ver exemplo 1.4)? − O aumento da taxa de frequência das aulas de Estatística provoca um aumento das notas dos alunos (ver exemplo 1.5)? − Como variam entre si a procura (oferta) e o preço (ver exemplo 1.7)? − O aumento do número de agentes policiais faz diminuir a taxa de criminalidade (ver exemplo 1.9)? Ou, pelo contrário, a subida da taxa de criminalidade influencia o aumento do número de polícias? − Um acréscimo no grau de abertura de economia de um país implica a diminuição da taxa de inflação (ver exemplo 1.10)? Ou, pelo contrário, é a diminuição desta taxa que provoca um aumento do grau de abertura? ∇
Capítulo 1 – Introdução
12
Efeitos parciais
Dado o modelo z = h( w1 , K w j , K , wp ) , a análise ceteris paribus da relação de causalidade entre cada variável explicativa, w j , e z pretende medir as respostas de z às alterações de w j , supondo que os factores fixos (também designados por variáveis de controlo) são as outras variáveis explicativas. Como se admite que estas variáveis estão controladas (a necessidade de as controlar resulta de haver razões para concluir que w j está relacionada com outros factores que também influenciam z), a análise visa medir os efeitos parciais de w j sobre z. Naturalmente, estes efeitos dependem, em geral, dos valores assumidos por todas as variáveis explicativas e dos valores dos parâmetros. Suponha-se que as variáveis z e w j são quantitativas (contínuas ou discretas). Quando o valor de w j passa para w j + ∆w j , o valor da variável z altera-se para z + ∆ z = h( w1 , K , w j + ∆w j , K , wp ) .
As variações absolutas das duas variáveis são, respectivamente, ∆w j e ∆ z (podem calcular-se estas variações porque as variáveis são quantitativas). Nestas condições, o efeito parcial de w j sobre z é dado por (1.3)
∆z . ∆w j
Como este efeito mede, ceteris paribus, a variação (absoluta) de z quando w j varia de uma unidade, é designado por efeito marginal (parcial), que pode depender das variáveis explicativas, w1 , w2 , K , w p , e dos parâmetros. Quando, em particular, as variáveis z e w j são contínuas, e a função h é derivável (pelo menos em relação a w j ), o efeito marginal de w j sobre z pode ser determinado para uma variação infinitesimal de w j . Neste caso, tem-se o efeito marginal pontual, que é dado pela respectiva derivada parcial (1.4)
∂z ∆z = lim . ∂ w j ∆w j →0 ∆w j
Para ∆w j ≈ 0 , tem-se
∂z ∆z ≈ . ∂ w j ∆w j
Considerem-se os seguintes exemplos: 1) Seja a relação linear nas variáveis, z = α1 + α2 w2 + α3 w3 , onde z, w2 e w3 são variáveis contínuas. O efeito marginal (parcial) de w2 sobre z é medido pelo parâmetro α 2 (constante), isto é, ∂z ∆z = = α2 . ∂ w2 ∆w2 Neste caso, α 2 é igual à variação de z quando w2 varia de uma unidade.
Capítulo 1 – Introdução
13
2) Seja z = α1 + α2 w + α3 w 2 , relação quadrática entre z e w (variáveis contínuas). O efeito marginal pontual de w sobre z (para uma variação infinitesimal de w) já não é medido por α 2 , mas por dz = α2 + 2 α3w . dw Como este efeito depende linearmente de w, o parâmetro α 3 tem uma interpretação interessante: o seu sinal permite saber se o efeito marginal de w sobre z é crescente ( α 3 > 0 ) ou decrescente ( α 3 < 0 ), uma vez que d 2z = 2 α3 . d w2
O valor de w que anula a primeira derivada (ponto de estacionaridade) é w∗ = −
α2 . 2 α3
Este valor é maximizante ou minimizante da função conforme o sinal da segunda derivada em w∗ . Por exemplo, no caso de maximizante, a função é côncava, sendo crescente à esquerda de w∗ , e decrescente à sua direita. Note-se que dz dz ∆z ∆z . e = α2 + 2 α3 w + α 3∆w ≠ = lim d w d w ∆ w→0 ∆ w ∆w
3) Suponha-se que a relação (não linear) entre z, w2 e w3 (variáveis contínuas) é dada por z = α1 + α2 w2 + α3 w3 + α4 w2 w3 , onde existe um termo de interacção entre duas variáveis explicativas. Neste caso, o efeito marginal de w2 sobre z, ceteris paribus, é medido por ∂z ∆z = = α 2 + α 4 w3 , ∂ w2 ∆w2 que depende do valor de w3 (obtém-se um efeito marginal para cada valor fixado para w3 ). 4) Seja a relação linear nas variáveis, z = α1 + α2 w2 + α3 w3 , onde z e w3 são variáveis contínuas, e w2 é uma variável discreta. Suponha-se, para fixar ideias, que a variável discreta w2 é uma variável de contagem (por exemplo, o número de dias de falta ao trabalho de determinado trabalhador). Para medir as variações de z quando w2 se altera, não se pode calcular a derivada parcial. Neste caso, quando w2 varia para w2 + ∆w2 , z passa para z + ∆ z = α1 + α2 ( w2 + ∆w2 ) + α3 w3 . Facilmente se verifica que ∆ z = α2 ∆w2 ou ∆z = α2 . ∆w2
Pode dizer-se que α 2 mede a variação de z quando w2 varia de uma unidade (por exemplo, α 2 mede o efeito parcial sobre z de mais uma falta ao trabalho).
Capítulo 1 – Introdução
14
Suponha-se, agora, que a variável z ainda é quantitativa (contínua ou discreta), e que existe um factor qualitativo explicativo do comportamento de z. Se este factor corresponde à realização ou não de determinado acontecimento, ele pode ser representado por uma variável binária, w j , que assume apenas os valores 1 ou 0. Tem-se: w j = 1 , quando se realiza o acontecimento; w j = 0 , no caso contrário. No exemplo 1.4, supõe-se que o género é um factor qualitativo explicativo dos salários dos trabalhadores. A variável binária respectiva, mulher, é igual a 1 quando o trabalhador é do género feminino (igual a 0, quando é um homem). Nestes casos, o efeito parcial de w j sobre z é medido comparando os valores assumidos por z para os dois valores possíveis de w j (no caso do exemplo 1.4, quando se comparam homens com mulheres). Este tópico vai ser aprofundado no capítulo 2, na secção dedicada ao estudo das variáveis artificiais (ver secção 2.11). Considerem-se os seguintes exemplos: 1) Seja a relação linear nas variáveis, z = α1 + α2 w2 + α3 w3 , onde z e w3 são variáveis contínuas, e w2 é uma variável binária. O efeito parcial de w2 sobre z é calculado fazendo a diferença dos valores de z que correspondem aos dois valores possíveis de w2 : para w2 = 0 , tem-se z0 = α1 + α3 w3 ; para w2 = 1 , vem z1 = α1 + α2 + α3 w3 . Então, quando w2 passa de 0 para 1, a variação de z é ∆ z = z1 − z0 = α2 . 2) Nas mesmas condições de 1), seja a relação z = α1 + α2 w2 + α3 w3 + α4 w2 w3 , onde existe um termo de interacção entre a variável contínua, w3 , e a variável binária, w2 . O efeito marginal pontual de w3 sobre z, ∂z = α 3 + α 4 w2 , ∂ w3
depende de w2 . Há um efeito marginal para cada valor de w2 : α 3 , quando w2 = 0 ; α 3 + α 4 , para w2 = 1 . Para medir as variações de z quando w2 passa de 0 para 1, começa-se por calcular os respectivos z1 e z0 : z1 = α1 + α2 + α3 w3 + α4 w3 e z0 = α1 + α3 w3 .
Então, ∆ z = z1 − z0 = α2 + α4 w3 depende de w3 . Elasticidades
Admita-se que as variáveis z e w j são quantitativas (contínuas ou discretas). Quando os valores de w j e z passam, respectivamente, para w j + ∆w j e z + ∆z , verificam-se as seguintes variações relativas: ∆w j ∆z . e z wj
Multiplicando por 100 as variações relativas, obtêm-se as respectivas variações percentuais (variações em pontos percentuais) ou taxas de variação, que se representam com os seguintes símbolos:
Capítulo 1 – Introdução
15 %∆w j = 100
∆w j ∆z e %∆z = 100 . wj z
A elasticidade de z em relação a w j é dada por (1.5)
EL( z ; w j ) =
%∆ z ∆z / z ∆ z wj . = = ∆w j / w j %∆w j ∆w j z
Esta elasticidade mede, ceteris paribus, a variação percentual de z quando w j varia de um ponto percentual. Obviamente, este efeito pode depender de w1 , w2 , K , w p , e dos parâmetros. O logaritmo pode ser utilizado para fazer várias aproximações. Uma delas, estabelece que ln(1 + x) ≈ x , para x ≈ 0 . A qualidade da aproximação diminui à medida que x se afasta de zero. Por exemplo, para x igual a 0.015, 0.15 e 0.6 tem-se, respectivamente, ln(1.015) = 0.0149 , ln(1.15) = 0.1398 e ln(1.6) = 0.47 . Outra aproximação importante que envolve logaritmos é dada por ∆ ln( x) ≈
∆x , x
para x > 0 e pequenas variações relativas. Por exemplo, se x = 600 e x + ∆ x = 606 , tem-se ∆ x / x = 0.01 e ∆ ln( x) = ln( x + ∆ x) − ln( x) = 0.00995 . No entanto, se x = 600 e x + ∆ x = 720 , resulta ∆ x / x = 0.2 e ∆ ln( x) = 0.1823 (a qualidade da aproximação piora). Suponha-se que z > 0 e w j > 0 . Para pequenas variações relativas, podem estabelecer-se as seguintes aproximações: %∆w j ≈ 100 ∆ ln(w j ) e %∆ z ≈ 100 ∆ ln( z ) .
Facilmente se conclui que EL( z ; w j ) ≈
∆ ln( z ) . ∆ ln(w j )
No caso particular em que as variáveis z e w j são contínuas, e a função h é derivável (pelo menos em relação a w j ), a elasticidade de z em relação a w j pode ser definida para uma variação infinitesimal de w j . Neste caso, a elasticidade pontual de z em relação a w j é dada por (1.6)
∂ z wj ∆ z wj ∆z / z . = = lim ∆w j → 0 ∆w / w ∆w j → 0 ∆w ∂wj z j j j z
EL∗ ( z ; w j ) = lim
Facilmente se verifica que
EL∗ ( z ; w j ) = lim EL( z ; w j ) . ∆w j → 0
Para ∆w j ≈ 0 , tem-se EL∗ ( z ; w j ) ≈ EL( z ; w j ) .
Quando z > 0 e w j > 0 , pode também demonstrar-se que
Capítulo 1 – Introdução
16 EL∗ ( z ; w j ) =
∂ ln( z ) . ∂ ln(w j )
Com efeito, notando que w j = exp{ln(w j )} e que d wj d eln( w j ) ln( w ) = = e j = wj , d ln(w j ) d ln(w j ) aplicando duas vezes a regra da derivada da função composta, obtém-se
w ∂z 1 ∂z ∂ ln( z ) d ln( z ) ∂ z d w j wj = j = EL∗ ( z ; w j ) . = = d z ∂ w j d ln(w j ) z ∂ w j z ∂wj ∂ ln(w j )
Considerem-se os seguintes exemplos: 1) Seja a relação linear nas variáveis, z = α1 + α2 w , onde z e w são variáveis contínuas. Dada a variação ∆w , tem-se z + ∆ z = α1 + α2 ( w + ∆w) . A elasticidade de z em relação a w é dada por EL( z ; w) =
∆z w w , = α2 ∆w z α1 + α 2 w
que depende de w. Conclui-se imediatamente que EL∗ ( z ; w) = EL( z ; w) . 2) Seja z = α1 + α2 w2 , relação quadrática entre z e w (variáveis contínuas). Dada a variação ∆w , vem z + ∆ z = α1 + α2 ( w + ∆w) 2 = α1 + α2{w2 + 2 w∆w + (∆w) 2 } . A elasticidade de z em relação a w é EL( z ; w) =
w ∆z w = α 2 (2 w + ∆w) . ∆w z α1 + α 2 w 2
Facilmente se verifica que EL∗ ( z ; w) =
w dz w = 2α 2 w . dw z α1 + α 2 w 2
Para ∆w → 0 , tem-se EL( z ; w) → EL∗ ( z ; w) . 3) Suponha-se que a relação (não linear) entre z, w2 e w3 (variáveis contínuas) é dada por z = α1 + α2 w2 + α3 w3 + α4 w2 w3 (a quarta parcela é termo de interacção entre w2 e w3 ). Dado ∆w2 , obtém-se z + ∆ z = α1 + α2 ( w2 + ∆w2 ) + α3 w3 + α4 ( w2 + ∆w2 ) w3 . Então, EL( z ; w2 ) =
∆ z w2 w2 = (α 2 + α 4 w3 ) = EL∗ ( z ; w2 ) . ∆w2 z α1 + α2 w2 + α3 w3 + α4 w2 w3
Semi-elasticidades
Suponha-se que as variáveis z e w j são quantitativas (contínuas ou discretas). A semi-elasticidade de z em relação a w j é dada por (1.7)
SEL( z ; w j ) =
%∆ z ∆z 1 ∆z / z . = = ∆w j 100∆w j ∆w j z
Capítulo 1 – Introdução
17
A semi-elasticidade mede, ceteris paribus, a variação relativa de z quando w j varia de uma unidade. Obviamente, este efeito pode depender de w1 , w2 , K , w p , e dos parâmetros. Facilmente se verifica que 100 × SEL( z ; w j ) =
%∆ z ∆w j
mede, ceteris paribus, a variação percentual de z quando w j varia de uma unidade. Quando z > 0 , e para pequenas variações relativas, tem-se SEL( z ; w j ) ≈
∆ ln( z ) . ∆w j
Quando as variáveis z e w j são contínuas, e a função h é derivável (pelo menos em relação a w j ), a semi-elasticidade z em relação a w j pode ser definida para uma variação infinitesimal de w j . Neste caso, a semi-elasticidade pontual z em relação a w j é dada por (1.8)
SEL∗ ( z ; w j ) = lim
∆w j → 0
∆z / z ∆z 1 ∂z 1 = lim = . ∆w j → 0 ∆w z ∂wj z ∆w j j
Resulta imediatamente que
SEL∗ ( z ; w j ) = lim SEL( z ; w j ) . ∆w j → 0
Para ∆w j ≈ 0 , tem-se SEL∗ ( z ; w j ) ≈ SEL( z ; w j ) .
Quando z > 0 , vem
SEL∗ ( z ; w j ) =
∂ ln( z ) . ∂wj
Considerem-se os seguintes exemplos: 1) Seja z = α1 + α2 w , onde z e w são variáveis contínuas. A semi-elasticidade de z em relação a w é dada por SEL( z ; w) =
∆z 1 α2 = = SEL∗ ( z ; w) , ∆w z α1 + α 2 w
que depende de w. 2) Considere-se z = α1 + α2 w2 , onde z e w são variáveis contínuas. A semi-elasticidade de z em relação a w é ∆ z 1 α 2 (2 w + ∆w) = . SEL( z ; w) = ∆w z α1 + α 2 w2
A respectiva semi-elasticidade pontual é dada por SEL∗ ( z ; w) =
dz 1 2α 2 w = . d w z α1 + α 2 w 2
Para ∆w → 0 , tem-se SEL( z ; w) → SEL∗ ( z ; w) .
Capítulo 1 – Introdução
18
3) Considere-se a relação z = α1 + α2 w2 + α3 w3 + α4 w2 w3 entre variáveis contínuas. Vem SEL( z ; w2 ) =
α 2 + α 4 w3 ∆z 1 = SEL∗ ( z ; w2 ) . = ∆w2 z α1 + α2 w2 + α3 w3 + α4 w2 w3
1.5 - Algumas relações linearizáveis
Existe uma grande variedade de relações que se podem estudar sob a capa das relações lineares. Com o objectivo de aprofundar esta questão, vão apresentar-se alguns tipos de relações funcionais muito utilizados na prática. Por simplicidade de exposição, estas relações consideram apenas uma variável explicativa, mas podem ser imediatamente generalizadas para duas ou mais variáveis. a) A relação log-log. Considere-se a função potência (ver figura 1.1) (1.9)
z = wα ( w > 0 ; γ > 0) .
Esta função verifica uma propriedade muito importante: a elasticidade pontual de z em relação a w é constante (igual a α ). Com efeito, (1.10)
EL∗ ( z ; w) =
dz w =α . dw z
Por esta razão, é também designada por função de elasticidade constante.
0
1
Fig. 1.1 – Função potência.
Linearizando (1.9), obtém-se a especificação log-log, (1.11)
ln( z ) =
+
ln(w) ,
onde β1 = ln (γ ) e β 2 = α . 1
2
2
Capítulo 1 – Introdução
19
Então, 2
=
%∆ z d ln( z ) ∆ ln z ∆ z /z , = ≈ = d ln( w) ∆ ln w ∆ w / w %∆ w
ou seja, β 2 é, aproximadamente, o quociente entre a variação relativa de z e a variação relativa de w (variação percentual de z quando w varia de um ponto percentual). Pode, também, escrever-se %∆ z ≈ β 2 %∆ w .
O valor exacto de %∆ z pode ser calculado sem dificuldade. Suponha-se que o valor de w passa para w + ∆w . Atendendo a (1.9), tem-se z + ∆ z = γ ( w + ∆ w)α . Então, ∆ z γ {( w + ∆ w)α − wα } w + ∆ w ∆w = = − 1 = 1 + − 1. α z w w γw α
α
Multiplicando ambos os membros por 100, obtém-se ∆ w α %∆ z = 100 × 1 + − 1 . w
Então,
(1.12)
∆w 1 + −1 w %∆ z EL( z ; w) = = . ∆w %∆ w w α
O grau de aproximação entre (1.12) e (1.10) é ilustrado a seguir. Por exemplo, suponha-se que z = w0.33 . O quadro seguinte apresenta os desvios entre β 2 = α = 0.33 e %∆ z %∆ w : w 600 600 600 600
%∆ w 1 10 20 30
∆w 6 60 120 180
%∆ z 0.3289 3.1952 6.2013 9.0439
EL( z ; w) 0.3289 0.3195 0.3101 0.3015
EL∗ ( z ; w) = α 0.33 0.33 0.33 0.33
Desvios – 0.0011 – 0.0105 – 0.0199 – 0.0285
b) A relação log-lin. Considere-se a função exponencial (ver figura 1.2) (1.13)
z = α w (α > 0 ; γ > 0) .
Logaritmizando, obtém-se a relação semi-logarítmica ou log-lin, (1.14)
ln( z ) =
+
w,
onde β1 = ln(γ ) e β 2 = ln(α ) . A semi-elasticidade pontual de z em relação a w é constante (igual a β 2 ). De facto, 1
2
Capítulo 1 – Introdução
(1.15)
20
SEL∗ ( z ; w) =
d z 1 d ln( z ) = = dw z dw
2
.
A função dada por (1.13) também é conhecida pela designação de função de semi-elasticidade constante.
-2
-1
0
1
2
Fig. 1.2 – Função exponencial. Tem-se
β2 =
%∆ z %∆ z d ln( z ) ∆ ln( z ) ∆ z / z , = ≈ = ⇔ 100 β 2 ≈ ∆w ∆ w 100 ∆ w dw ∆w
ou seja, β 2 é, aproximadamente, o quociente entre a variação relativa de z e a variação absoluta de w (se w varia de 1 unidade, z varia, aproximadamente, de 100 β 2 % ). Pode, também, escrever-se %∆ z ≈ 100 β 2 ∆ w .
O valor exacto de %∆ z pode ser determinado sem dificuldade. Suponha-se que o valor de w passa para w + ∆w . Atendendo a (1.13) ou (1.14), tem-se z + ∆ z = γ α w + ∆ w = exp{β1 + β 2 ( w + ∆w)} .
Então,
∆ z γ (α w + ∆ w − α w ) α w + ∆ w ∆z = exp{β 2 ∆ w} − 1 . = = − 1 = α ∆ w − 1 ou w w z z γα α
Multiplicando ambos os membros de qualquer destas igualdades por 100, vem %∆ z = 100 × (α ∆ w − 1) = 100 × (exp{β 2 ∆ w} − 1) .
Então, (1.16)
SEL( z ; w) =
%∆ z ∆ z / z α ∆ w − 1 exp{β 2 ∆ w} − 1 = = = . 100 ∆ w ∆w ∆w ∆w
Capítulo 1 – Introdução
21
A aproximação entre (1.16) e (1.15) é ilustrada a seguir. Por exemplo, supondo que β 2 = 0.094 , o quadro seguinte mostra os desvios entre β 2 e %∆ z (100 × ∆ w) : %∆ z
∆w
0.1 0.5 1.0 5.0 10.0 20.0
0.9444 4.8122 9.8560 59.9994 155.9981 555.3505
SEL( z ; w)
SEL∗ ( z ; w) = β 2
0.0944 0.0962 0.0986 0.1200 0.1560 0.2777
0.094 0.094 0.094 0.094 0.094 0.094
Desvios 0.0004 0.0022 0.0046 0.0260 0.0620 0.1837
A relação log-lin é particularmente interessante quando a variável explicativa é o tempo (considerada variável contínua): w = t . Neste caso, tem-se z = αt ⇔ z = e
2t
⇔ ln( z ) =
+
t,
onde β1 = ln( γ ) e β 2 = ln(α ) . Diz-se, então, que z tem tendência exponencial, e ln(z ) tem tendência linear. Verifica-se que
β2 =
1
2
d ln( z ) d z 1 ∆ ln( z ) %∆ z %∆ z = = ≈ ⇔ 100 β 2 ≈ , dt dt z ∆t ∆t 100 ∆ t
é a taxa instantânea de variação de z no momento t. Se o tempo for considerado de forma discreta, a variável z é observada nos momentos 0,1, 2, K , t , K , e ∆ t = 1 . Pode fazer-se zt = γ (1+ g )t , onde g é a taxa média de variação de z no período t (entre o momento 0 e o momento t) Com efeito, basta considerar que: para t = 0 , tem-se z0 = γ ; para t = 1 , vem z1 = γ (1 + g ) ; quando t = 2 , resulta z2 = γ (1 + g ) 2 ; em geral, tem-se zt = γ (1+ g )t . Omitindo o índice t da variável z, pode escrever-se z = γ (1+ g )t
onde α = 1 + g , e, portanto, 2 = ln(1 + g ) . Como ln( z ) = ln(γ ) + ln(1 + g ) t e ∆ t = 1 , vem
∆ ln( z ) = ln(1 + g ) ≈ g ,
para g pequeno. Assim, nestas condições, a variação de ln(z ) (a taxa instantânea de variação de z) é aproximadamente igual à taxa média de variação de z. c) A relação lin-log é outro tipo de relação semi-logarítmica, mas onde os papéis das variáveis estão trocados, isto é, a variável explicada é especificada em níveis, e a variável explicativa, em logaritmos. Tem-se, então (ver figura 1.3), (1.17)
z=
1
+
2
ln( w) ( w > 0) .
Esta relação verifica a propriedade
Capítulo 1 – Introdução
(1.18)
22
dz = β2 . d ln( w) dz dz dw d z β2 β e = = = 2 w, d ln( w) d w d ln( w) w dw w
Como
também se conclui que
β2 =
dz w. dw
A partir de (1.18), vem
β2 =
100 ∆ z dz ∆z ∆z β ∆z . = ≈ = ⇔ 2 ≈ 100 %∆w d ln( w) ∆ ln( w) ∆w / w %∆w
ou seja, β 2 é, aproximadamente, o quociente entre a variação absoluta de z e a variação relativa de w. Também se pode dizer que β 2 / 100 é, aproximadamente, o quociente entre a variação absoluta de z e a variação percentual de w (variação absoluta de z quando w varia de um ponto percentual). Assim,
∆z ≈
0
β2
100
%∆w .
1
2
Fig. 1.3 – Função logarítmica.
Por exemplo, supondo que β 2 = 42.4 , o quadro seguinte mostra os desvios entre β 2 e (100 × ∆ z ) %∆ w [note-se que ∆ z = β 2{ln( w + ∆w) − ln( w)} ]: w
∆w
600 6 600 60 600 120 600 180
%∆ w
∆z
1 10 20 30
0.4219 4.0412 7.7304 11.1242
(100 × ∆ z ) %∆ w β 2 42.1894 40.4115 38.6522 37.0808
42.4 42.4 42.4 42.4
Desvios – 0.2106 – 1.9885 – 3.7478 – 5.3192
Capítulo 1 – Introdução
23
Esta relação é utilizada quando pretende estudar-se o efeito da variação relativa de uma variável (por exemplo, a taxa de crescimento da oferta de moeda, m) sobre a variação absoluta de outra variável (por exemplo, o nível do PIB): pib = β1 + β 2 ln(m) . d) A relação inversa é dada pela função (ver figura 1.4), (1.19)
z=
1
+
2
1 ( w ≠ 0) . w
Como
d 2z 2 2 dz , = = − 22 e d w2 w3 dw w
e supondo w > 0 (que corresponde à situação mais habitual para as variáveis económicas), verifica-se facilmente que: se β 2 > 0 , a função é decrescente e convexa, com uma assíntota horizontal igual a β1 ; se β 2 < 0 , a função é crescente e côncava, com uma assíntota horizontal igual a β1 .
Fig. 1.4 – Função hiperbólica com w > 0 e β 2 > 0 . e) A relação polinomial, (1.20)
z = δ 0 + δ1w + δ2 w2 + L + δ p w p ,
é uma relação linear (nos parâmetros) em que as variáveis x j são as sucessivas potências de w. Por exemplo, quando p = 2 (relação quadrática na variável w), os efeitos marginais w sobre z são crescentes ou decrescentes conforme o sinal de δ 2 . Quando w = t , a variável z tem tendência (linear, quando p = 1 ; quadrática, quando p = 2 ; etc.).
Capítulo 1 – Introdução
24
f) A relação logística (ver figura 1.5) é intrinsecamente não linear, (1.21)
z=
1 + exp{−α w}
,
onde γ > 0 , β > 0 e α > 0 são os parâmetros. O estudo desta função mostra que se trata de uma função crescente, convexa entre − ∞ e ln(β ) / α , côncava a partir deste ponto, e com uma assíntota horizontal igual a γ.
Fig. 1.5 – Função logística ( β = 1) . 1.6 - O valor esperado condicionado estrutural Embora algumas questões sobre a análise empírica dos modelos, e sobre a natureza dos dados, sejam abordadas mais adiante (ver secções 1.7 e 1.8), é importante, desde já, chamar a atenção para duas questões. A primeira questão tem a ver com o modo como os dados podem ser obtidos ou gerados. Assim: a) Nas Ciências da Natureza (Física, Biologia, etc.), sobretudo em ambientes laboratoriais, os dados resultam, muitas vezes, de uma situação controlada pelo investigador. Neste caso, os dados dizem-se experimentais. b) Em Economia (e, em geral, nas Ciências Sociais) os dados decorrem, quase sempre, de um fenómeno passivamente observado pelo investigador. Nesta situação, os dados são não experimentais. Esta distinção é crucial para a Econometria, porque põe a questão da natureza estocástica das variáveis do modelo, bem como das respectivas observações. Pode, então, estabelecer-se a premissa básica da Econometria:
Capítulo 1 – Introdução
25
Premissa básica da Econometria Devido à natureza não experimental dos dados, as variáveis explicadas e as variáveis explicativas do modelo – e as respectivas observações – são consideradas variáveis aleatórias. Esta premissa abrange o caso de as observações de algumas variáveis explicativas serem determinísticas; estas observações são consideradas, então, variáveis aleatórias degeneradas. Porventura, é esta premissa básica que pode justificar que a Econometria tenha evoluído como uma disciplina científica autónoma (separada da estatística clássica, que teve a sua génese no tratamento e análise de dados predominantemente experimentais). A Econometria impôs-se como uma disciplina própria a partir do momento em que se acumularam desenvolvimentos metodológicos que não existiam na estatística clássica. Por exemplo, embora o modelo de regressão linear (a apresentar nos capítulos seguintes) seja muito estudado na estatística clássica, ele tem a sua interpretação própria na Econometria; os econometristas desenvolveram novas técnicas e métodos para estudar este modelo que têm em conta as suas aplicações (por exemplo, testar as previsões das teorias económicas) e as complexidades dos dados económicos. A segunda questão diz respeito à flexibilidade relacional do modelo teórico que vai ser submetido à análise econométrica. Quando se considera a relação (1.1), z = h(w) , está subentendido que os únicos factores explicativos de z são w1 , w2 , K , w p . Contudo, é de esperar (sobretudo, quando se procura caracterizar fenómenos de natureza social ou económica), que existam muitos outros factores explicativos de z que não estão explicitados (no exemplo 1.4, o logaritmo dos salários dos trabalhadores não é explicado apenas pelos factores explicitados – educ, exper, empc, mulher, aptid –, mas também por muitos outros, como os referidos no mesmo exemplo). Deste modo, (1.1) não é operacional porque estabelece uma relação rígida entre as variáveis do modelo. A flexibilidade relacional pretendida pode obter-se introduzindo uma variável adicional, u, que abrange todos os factores que não foram considerados, mas que podem afectar o comportamento da variável explicada. Em especial, aqueles factores podem incluir variáveis não observáveis, variáveis omitidas observáveis e erros de medida. Se u for incorporado de forma aditiva, o modelo teórico passa a ser (1.22)
z = h( w) + u .
A variável u não é observável, chama-se variável residual (erro ou termo perturbador), e desempenha um papel fundamental na relação (1.22), como vai ver-se nos capítulos subsequentes. Desta forma, a variável explicada, z, é decomposta em duas componentes aditivas: a componente sistemática ou sinal, h(w) ; a componente residual ou ruído, u. Como vai ver-se, esta especificação é muito útil para fazer um tratamento unificado das propriedades estatísticas de vários métodos econométricos. Do mesmo modo, quando a relação é linear pode escrever-se [ver (1.2)]
Capítulo 1 – Introdução (1.23)
y=
x +
1 1
26 x +L+
2 2
x + u = xβ + u .
k k
Para aligeirar as notações é habitual fazer-se em Econometria a seguinte convenção:
Convenção Vai utilizar-se o mesmo símbolo para representar as variáveis aleatórias e os respectivos valores concretamente observados. O modelo (1.22) é formado apenas por uma equação que representa uma relação de causalidade. Nestas condições, diz-se que (1.22) é uma equação estrutural, e os respectivos parâmetros, α j , chamam-se parâmetros estruturais. Muitas vezes, estes parâmetros são estimáveis exclusivamente apenas tendo por base a equação estrutural. Diz-se, então, que a equação estrutural é directamente estimável. Outras vezes, tal não acontece, sendo necessário combinar hipóteses adicionais sobre outras variáveis com manipulações algébricas para obter uma equação estimável. Neste caso, é de esperar que esta equação permita estimar alguns parâmetros estruturais (ou mesmo todos). Além disso, pode haver motivos para estimar equações não estruturais, que pode ser, nalguns casos, um passo preliminar para estimar uma equação estrutural. Muitas vezes, supõe-se que (1.24)
h( w) = E ( z | w) = µ ( w) ,
ou seja, a componente sistemática do modelo é o valor esperado de z condicionado por w. Daqui resulta que E (u | w) = 0 , isto é, o valor esperado da componente residual condicionado por w é nulo. Neste caso, tem-se que u = z − E ( z | w) = z − µ ( w) , ou seja, a variável residual não é mais do que o desvio entre z e o seu valor esperado condicionado por w. Quando se verifica (1.24), o valor esperado condicionado passa a desempenhar um papel primordial na análise econométrica, uma vez que E ( z | w) coincide com a componente sistemática do modelo. De facto, uma parte substancial dos desenvolvimentos metodológicos em Econometria tem a ver com métodos de estimação de valores esperados condicionados. Neste contexto, é fundamental apresentar a seguinte definição:
Definição 1.1 – Valor esperado condicionado estrutural. Considere-se a relação (1.22). Se E ( z | w) = h( w) , então a função µ ( w) : ℜ p → ℜ dada por (1.25)
µ ( w) = E ( z | w)
designa-se por valor esperado condicionado estrutural. A função µ (w) tem esta designação porque supõe-se que representa o comportamento médio da variável z (normalmente associada a um certo tipo de agentes económicos, ou outros), quando variam as componentes do vector w.
Capítulo 1 – Introdução
27
Considere-se a relação na forma (1.22), admitindo que h(w) é o valor esperado condicionado estrutural: z = µ ( w) + u . Quando se pretende analisar o efeito parcial de w j sobre z, o conjunto dos factores fixos ou das variáveis de controlo é formado pelas outras variáveis explicativas. Para facilitar a exposição, vai utilizar-se o símbolo c para designar o vector-linha das variáveis de controlo; tem-se w = ( w j , c) . A análise ceteris paribus pretende medir a resposta média ou esperada – como é habitual em muitas situações –, estimando o valor esperado de z condicionado por w, µ ( w) = E ( z|w) . Todas as considerações feitas nas secções 1.4 e 1.5 – a propósito de efeitos parciais, de elasticidades, de semi-elasticidades e de relações linearizáveis – são aplicáveis neste contexto, desde que se considere a função µ (w) . Por exemplo: 1) Se w j e z são variáveis aleatórias quantitativas, é usual focar a atenção no efeito marginal médio de w j sobre z, dado por (1.26)
∆µ ( w) ∆ E ( z|w) . = ∆wj ∆w j
2) Se as variáveis aleatórias w j e z são contínuas, e a função µ (w) é derivável em relação a w j , pode obter-se o respectivo efeito marginal pontual médio resultante de uma variação infinitesimal de w j . Tem-se (1.27)
∂µ ( w) ∂ E ( z|w) . = ∂wj ∂wj
3) A elasticidade pontual média de z em relação a w j é dada por (1.28)
EL∗{µ ( w) ; w j } =
∂ E ( z|w) w j ∂µ ( w) w j . = ∂ w j E ( z|w) ∂ w j µ ( w)
4) Se µ ( w) > 0 e w > 0 (como acontece muitas vezes), tem-se (1.29)
EL∗{µ ( w) ; w j } =
∂ ln{ µ ( w)} ∂ ln{ E ( z|w)} = . ∂ ln( w j ) ∂ ln( w j )
5) Se w j é variável binária, os efeitos parciais médios são calculados comparando µ (w) para os dois valores possíveis de w j : w j = 0 e w j = 1 . Quando o modelo tem a forma ln( z ) = g ( w) + u , onde g é uma função de w e E (u | w) = 0 , é natural definir a elasticidade pontual média de ln(z ) em relação a w j da seguinte maneira: (1.30)
∂ E{ln( z )| w} . ∂ ln(w j )
Como se pode comparar (1.30) com (1.29)? Como E{ln( z )| w} ≠ ln{ E ( z|w)} , as duas elasticidades são diferentes. Contudo, se w e u são independentes, a igualdade é verificada. Com efeito, notando que z = exp{g ( w) + u} = exp{g ( w)} exp{u} , vem E ( z | w) = E (exp{g ( w)} exp{u} | w) = δ exp{g ( w)} ,
Capítulo 1 – Introdução
28
onde δ = E (exp{u} | w) = E (exp{u}) , uma vez que exp{u} e w também são independentes. Então,
E{ln( z )| w} = E{g ( w) + u | w} = g ( w) e ln{ E ( z|w)} = ln(δ ) + g ( w)
têm derivadas iguais em relação a ln(w) . Por exemplo, se
ln( z ) = β1 + β 2 ln(w1 ) + β 2 w2 + u ,
e se u tem valor esperado nulo e é independente de ( w1 , w2 ) , a elasticidade de z em relação a w1 é β 2 , usando qualquer das duas definições. Se E (u | w) = 0 , mas w e u não são independentes, as duas definições dão resultados diferentes, embora, em muitas situações, as diferenças não sejam significativas, desde que z > 0 . Contudo, a primeira definição é mais geral porque pode utilizar-se em casos em que não existe ln(z ) [mas existe ln{ E ( z|w)} ]. Escolher a lista adequada de variáveis de controlo nem sempre é fácil; a utilização de listas diferentes pode conduzir a conclusões diferentes sobre a relação de causalidade entre z e w j . É por esta razão que estabelecer causalidades pode ser complicado, pois depende dos factores que se supõem constantes. Admitindo que se conhece a lista de variáveis de controlo, e supondo que estas variáveis são observáveis, não é complicado, em geral, estimar o efeito parcial pretendido. Infelizmente, em Economia (nas Ciências Sociais) muitas das variáveis de controlo não são observáveis. Podem, ainda, surgir outros problemas que interferem na estimação de relações de causalidade. Para exemplificar, vão referir-se duas situações: a) Erros de medida nas variáveis. Mesmo que a lista de variáveis de controlo esteja correctamente especificada, pode acontecer que não seja possível dispor de medidas suficientemente rigorosas de w j ou de z; b) Simultaneidade. As variáveis w j e z são simultaneamente determinadas, e as únicas observações disponíveis são valores de equilíbrio (como pode acontecer nos casos dos exemplos 1.7, 1.9 e 1.10). Em situações como estas, tem-se E (u | w) ≠ 0 ou h( w ) ≠ µ ( w) , isto é, a componente sistemática do modelo não é um valor esperado condicionado estrutural. No entanto, embora continue a existir µ (w) , o econometrista não está condições de obter dados para o estimar. O estudo de situações deste tipo vai ser feito em capítulos posteriores.
Exemplo 1.15 – Considere-se as seguintes situações: a) Retome-se o exemplo 1.4, e suponha-se que procura detectar-se uma relação de causalidade de educ sobre lsalar, em que as variáveis de controlo são exper, empc, mulher e aptid. Embora aptid não seja observável, admita-se que lsalar = β1 + β 2 educ + β3 exper + β 4 empc + β5 mulher + β 6 aptid + u .
Fazendo µ (educ, c) = E (lsalar | educ, c) , com c = [ exper empc mulher aptid ], supõe-se que o comportamento médio do logaritmo do salário é dado por
Capítulo 1 – Introdução
29
µ (educ, c) = β1 + β 2 educ + β3 exper + β 4 empc + β5 mulher + β 6 aptid , ou seja, a componente sistemática do modelo é o valor esperado condicionado estrutural. Tem-se ∂ E (lsalar | educ, c) ∂µ (educ, c) . β2 = = ∂ educ ∂ educ
Assim, β 2 mede o efeito parcial de educ sobre o valor esperado do logaritmo do salário condicionado por educ e pelas variáveis de controlo. Este efeito não é estimável, uma vez que a variável de controlo aptid não é observável. A semi-elasticidade (pontual) média de salar em relação a educ é, então, 1 ∂µ (educ, c) . × ∂ educ µ (educ, c)
É óbvio que esta semi-elasticidade também não é estimável. Desprezando a variável não observável, aptid, esta passa a estar incluída na variável residual, u. Como é de esperar que haja correlação entre aptid e educ, verifica-se que E (educ × aptid ) ≠ 0 . Então, E (u | educ, c) ≠ 0 , onde o vector das variáveis de controlo é, agora, c = [ exper empc mulher ]. Neste caso, E (lsalar | educ, c) = β1 + β 2 educ + β 3 exper + β 4 empc + β 5 mulher + E (u | educ, c) ,
e a componente sistemática do modelo não é um valor esperado condicionado estrutural. b) Suponha-se que pretende estabelecer-se uma relação de causalidade de assid sobre nest (ver exemplo 1.5). Seja
nest = h(assid , tae, mis) + u .
Suponha-se que
E (nest | assid , c) = µ (assid , c) = h(assid , c) ,
onde c = [ tae mis ] é composto por variáveis observáveis. Embora já se saiba que estas variáveis são medidas gerais da capacidade e dos hábitos de estudo dos alunos, pode pôr-se a dúvida sobre a sua adequação para controlar a relação de causalidade, porque não entram em linha de conta com a aptidão específica e o interesse do aluno para estudar Estatística. A inclusão em c de uma variável deste tipo pode ser importante, embora não seja observável. O efeito parcial de assid sobre E (nest | assid , c) é medido por ∂ E ( nest | assid , c) ∂ µ ( assid , c) . = ∂ assid ∂ assid
∇
Para terminar esta secção vão apresentar-se algumas propriedades gerais dos valores esperados condicionados (médias, variâncias e covariâncias), envolvendo variáveis aleatórias e vectores aleatórios.
Capítulo 1 – Introdução
30
Propriedades dos valores esperados condicionados Seja a variável aleatória z, e os vectores aleatório x, w e v. Tem-se: a) Regra do valor esperado total: E ( z ) = E{E ( z | w)} .
b) Regra do valor esperado iterado:
E ( z | w) = E{E ( z | x) | w} ,
onde w é função de x, w = g (x) . c) Caso especial da regra do valor esperado iterado:
E ( z | w) = E{E ( z | w, v) | w} .
d) Linearidade do valor esperado condicionado: Considerem-se as funções de w, ai (w) (i = 1, K , m) e b(w) , e as variáveis aleatórias z1 , K , zm . Então, E{a1 ( w) z1 + L + am ( w) zm + b( w) | w} = a1 ( w) E ( z1 | w) + L + am ( w) E ( zm | w) + b( w) ,
desde que E (| zi |) < +∞ , E (| ai ( w) zi |) < +∞ e E (| b( w) |) < +∞ . e) Se u = z − E ( z | w) , então E{h( w) u} = 0 , onde h(w) é uma função (vectorial) de w, desde que E (| hi ( w) u |) < +∞ [os hi (w) são as componentes de h(w) ] e E (| u |) < +∞ . Em particular, E (u ) = 0 e Cov( w j , u ) = 0 [os w j são as componentes de w]. f) Desigualdade de Jensen para valores esperados condicionados: se g : ℜ → ℜ é uma função convexa com domínio ℜ , e E (| z |) < +∞ , então g{E ( z | w)} ≤ E{g ( z ) | w} .
g) Considerem-se as funções de w, a (w) e b(w) . Então,
Var{a( w) z + b( w) | w} = {a( w)}2 Var( z | w) .
h) Tem-se:
Var( z ) = E{Var( z | w)} + Var{E ( z | w)} .
i) Tem-se:
Var( z | w) = E{Var( z | w, v) | w} + Var{E ( z | w, v) | w} .
j) Se z1 e z2 são variáveis aleatórias, vem
Cov( z1 , z2 ) = E{Cov ( z1 , z2 | w)} + Cov{E ( z1 | w), E ( z2 | w)} .
Considerando dois vectores aleatórios w e z quaisquer, vem: k) Cov( z ) = E{Cov( z | w)} + Cov{E ( z | w)} , onde: o símbolo Cov(⋅) representa a matriz das covariâncias de um vector aleatório; o símbolo E (⋅) refere-se ao valor esperado de uma matriz aleatória ou de um vector aleatório. Podem fazer-se os seguintes comentários a estas propriedades: − Em muitos casos, o cálculo directo de E (z ) pode ser complicado. No entanto, se for conhecido (ou se for relativamente fácil de calcular) E ( z | w) = µ ( w) , a propriedade a) permite determinar E (z ) , calculando o valor esperado de µ (w) . Deste mo-
Capítulo 1 – Introdução
31
do, o problema difícil [o cálculo directo de E (z ) ] pode ser resolvido mediante a resolução de dois problemas mais simples: o conhecimento ou a determinação da função µ (w) ; o cálculo do respectivo valor esperado. Apresentam-se dois exemplos simples: 1. Se E ( z | w) = a (constante) então E ( z ) = a. Com efeito,
E ( z ) = E{E ( z | w)} = E (a) = a
Contudo, E ( z ) = a não implica E ( z | w) = a . 2. Seja w é um vector aleatório discreto que assume os valores c•1 , c• 2 , K , c• m com probabilidades p1 , p2 , K , pm , respectivamente. Então, E ( z ) = p1E ( z | w = c•1 ) + p2 E ( z | w = c• 2 ) + L + pm E ( z | w = c• m ) ,
isto é, o valor esperado de z é a média ponderada dos E ( z | w = c•i ) , onde os pesos são as respectivas probabilidades pi . − A propriedade b) é a versão mais geral que vai considerar-se da regra do valor esperado iterado. Recordando que w = g (x) , a propriedade é dada por E{z | g ( x)} = E{E ( z | x) | g ( x)} .
Se se fizer µ1 ( x) = E ( z | x) e µ 2 ( w) = E ( z | w) , a propriedade b) estabelece que
µ 2 ( w) = E{µ1 ( x) | w} .
Assim, pode determinar-se µ 2 ( w) , calculando o valor esperado de µ1 ( x) condicionado por w. Há outra propriedade que parece semelhante à anterior, mas é muito mais simples de verificar. Trata-se de E{z | g ( x)} = E ( E{z | g ( x)} | x) , ou
E ( z | w) = E{E ( z | w) | x} ⇔ µ2 ( w) = E{µ2 ( w) | x} ,
onde se trocaram as posições de w e x. Com efeito, como w é função de x, conhecer x implica conhecer w; como µ 2 ( w) = E ( z | w) , o valor esperado de µ 2 ( w) , dado x, é, obviamente, µ 2 ( w) . Estas duas propriedades podem resumir-se com a seguinte frase: “o conjunto de informação menor é sempre dominante”. Dito de outro modo: “menos informação domina mais informação”. Aqui, w representa menos informação do que x, uma vez que conhecer x implica conhecer w (mas não inversamente). − A propriedade c) é um caso especial da lei do valor esperado iterado. Neste caso, tem-se x = ( w, v) [como x é o par ( w, v) , obviamente w é função de x]. Fazendo µ1 ( w, v) = E ( z | w, v) [função de w e v] e µ 2 ( w) = E ( z | w) [função de w], tem-se
µ 2 ( w) = E{µ1 ( w, v) | w} ,
onde o valor esperado do segundo membro, E (⋅ | w) , é calculado em relação a v. − Vai fazer-se uma interpretação muito interessante da propriedade c). Suponha-se que num determinado estudo econométrico se admite que as variáveis explicativas
Capítulo 1 – Introdução
32
importantes de z são w e v, o que significa que o interesse da análise incida sobre o valor esperado condicionado estrutural µ1 ( w, v) = E ( z | w, v) , que é função de w e v. Se o vector v não é observável, não pode estimar-se µ1 ( w, v) directamente. No entanto, se w e z são observáveis pode estimar-se µ 2 ( w) = E ( z | w) , que é função apenas de w. Em geral, a obtenção de µ 2 ( w) = E ( z | w) à custa de µ1 ( w, v) = E ( z | w, v) é muito complicada. Contudo, em muitas situações, a forma de µ1 ( w, v) é suficientemente simples para que o problema tenha uma resolução fácil, desde que se introduzam algumas hipóteses adicionais. Por exemplo, suponha-se que se começa com o modelo
µ1 ( w1 , w2 , v) = E ( z | w1 , w2 , v) = β 0 + β1w1 + β 2 w2 + β3v + β 4 w1v ,
onde v não é observável. As propriedades c) e d) permite estabelecer que
µ2 ( w1 , w2 ) = E ( z | w1 , w2 ) = E{E ( z | w1 , w2 , v) | w1 , w2 } = E ( β 0 + β1w1 + β 2 w2 + β3v + β 4 w1v | w1 , w2 ) = β 0 + β1w1 + β 2 w2 + β 3 E (v | w1 , w2 ) + β 4 w1 E (v | w1 , w2 ) .
O cálculo de E (v | w1 , w2 ) é, em geral, uma tarefa muito complicada, uma vez que exige o conhecimento da distribuição de v condicionada por w1 e w2 . Contudo, admitindo a hipótese adicional, E (v | w1 , w2 ) = δ 0 + δ 1w1 + δ 2 w2 ,
obtém-se
onde
µ2 ( w1 , w2 ) = E ( z | w1, w2 ) = α 0 + α1w1 + α 2 w2 + α 3w12 + α 4 w1w2 , α 0 = β 0 + β 3 δ 0 α = β + β δ + β δ 1 3 1 4 0 1 α 2 = β 2 + β 3 δ 2 α = β δ 4 1 3 α 4 = β 4 δ 2 .
− A regra do valor esperado iterado [propriedade b)] tem outra implicação importante. Suponha-se que para alguma função vectorial, g (x) , e para alguma função (escalar), h, tem-se E ( z | x) = h{g ( x)} . Então,
E{z | g ( x)} = E ( z | x) = h{g ( x)} .
Com efeito, de acordo com a propriedade b), tem-se
E{z | g ( x)} = E{E ( z | x) | g ( x)} = E{h{g ( x)} | g ( x)} = h{g ( x)} = E ( z | x) .
Este resultado pode ser apresentado de outro modo. Com efeito, fazendo w = g (x) , vem E ( z | w) = h( w) . Pode concluir-se que: se o valor esperado de z condicionado por x é uma função de x, é redundante condicioná-lo por g (x) ; basta condicioná-lo por x. Por exemplo, suponha-se que
Capítulo 1 – Introdução
33
x1 x2 g ( x1 , x2 ) = 2 , x2 x1 x2
e que E ( z | x1 , x2 ) = h{g ( x1 , x2 )} = β 0 + β1 x1 + β 2 x2 + β 3 x22 + β 4 x1 x2 . Então, E ( z | x1 , x2 , x22 , x1 x2 ) = β 0 + β1 x1 + β 2 x2 + β3 x22 + β 4 x1 x2 .
Assim, se o valor esperado condicionado por x1 e x2 é função destas variáveis, é redundante condicioná-lo, também, por x22 e por x1 x2 . Este exemplo pode ser enquadrado numa formalização mais geral. Suponha-se que E ( z | x) é linear relativamente aos parâmetros, E ( z | x) = β1 g1 ( x) + β 2 g 2 ( x) + L + β k g k ( x) ,
onde g j (x) ( j = 1, 2, K , k ) são funções de x. Fazendo w j = g j (x) , tem-se E ( z | w1 , w2 , K , wk ) = β1w1 + β 2 w2 + L + β k wk .
Assim, qualquer valor esperado condicionado linear relativamente aos parâmetros pode considerar-se, também, como linear relativamente a certas variáveis condicionantes. Quando se considera explicitamente a variável residual u, pode escrever-se z = β1w1 + β 2 w2 + L + β k wk + u .
Supondo que E (u | x) = 0 , e como w j = g j (x) , pode concluir-se que u não está correlacionado com qualquer w j (e com qualquer função dos w j ). − A propósito da regra do valor esperado iterado, pode enunciar-se uma outra propriedade muito importante: − Sejam u, x e w três vectores aleatórios. Se ( u, x ) é independente do vector w, então E (u | x) = E (u | x, w) .
− Para justificar a propriedade d), basta invocar que nos valores esperados condicionados por w, as funções de w são consideradas constantes. − Para provar a propriedade e), começa-se por notar que E (u | w) = 0 . Então, devido à propriedade a), tem-se E{h( w) u} = E ( E{h( w) u | w}) = E{h( w) E (u | w)} = 0 . Fica ao cuidado do leitor verificar que E (u ) = 0 e que Cov( w j , u ) = 0 . − Pode referir-se dois casos particulares importantes da propriedade f): − {E ( z | w)}2 ≤ E ( z 2 | w) ; − Se z > 0 , então − ln{E ( z | w)} ≤ E{− ln( z ) | w} , ou E{ln( z ) | w} ≤ ln{E ( z | w)} . − As propriedades h) e j) são passíveis de comentário semelhante ao da propriedade a): o problema do cálculo directo de Var( z ) ou de Cov ( z1 , z2 ) é decomposto em outros problemas mais simples. Por exemplo, para determinar Cov ( z1 , z2 ) , primeiro determina-se σ12 ( w) = Cov ( z1 , z2 | w) , µ1 ( w) = E ( z1 | w) e µ 2 ( w) = E ( z2 | w) . Em seguida, calcula-se E{σ 12 ( w)} e Cov{µ1 ( w), µ 2 ( w)} . − Como consequência da propriedade i), pode provar-se que
Capítulo 1 – Introdução (1.31)
34
E{Var( z | w)} ≥ E{Var( z | w, v)} .
Com efeito, atendendo à propriedade i), Var ( z | w) ≥ E{Var( z | w, v) | w} , porquanto Var{E ( z | w, v) | w} ≥ 0 . Então, devido à propriedade a), tem-se
E{Var( z | w)} ≥ E ( E{Var( z | w, v) | w}) = E{Var( z | w, v)} .
O resultado (1.31) pode ser interpretado da seguinte maneira: em média, a dispersão de z condicionada por certas variáveis não aumenta quando se acrescentam variáveis condicionantes. Em particular, quando Var( z | w) e Var( z | w, v) são constantes, vem
Var( z | w)} ≥ Var( z | w, v) .
− A propriedade k), que generaliza as propriedades h) e j), vai ser analisada com detalhe. Considerando o vector aleatório z1 z z = 2, M zm
a respectiva matriz das covariâncias é dada por
Cov( z1 , z2 ) L Cov( z1 , zm ) Var( z1 ) Cov( z , z ) Var ( z2 ) L Cov( z2 , zm ) 2 1 . Cov( z ) = M M M Cov( zm , z1 ) Cov( zm , z2 ) L Var( zm )
Do mesmo modo, tem-se
Cov( z1 , z2 | w) L Cov( z1 , zm | w) Var( z1 | w) Cov( z , z | w) Var( z2 | w) L Cov( z2 , zm | w) 2 1 Cov( z | w) = , M M M Cov( zm , z1 | w) Cov( zm , z2 | w) L Var( zm | w)
ou
σ 11 ( w) σ 12 ( w) L σ 1m ( w) σ ( w) σ ( w) L σ ( w) 22 2m , Cov( z | w) = 21 M M M σ m1 ( w) σ m 2 ( w) L σ mm ( w)
onde σ ij ( w) = Cov( zi , z j | w) , para i, j = 1, 2, K , m . Então,
E{σ 11 ( w)} E{σ 12 ( w)} L E{σ 1m ( w)} E{σ ( w)} E{σ ( w)} L E{σ ( w)} 21 22 2m . E{Cov( z | w)} = M M M E{σ m1 ( w)} E{σ m 2 ( w)} L E{σ mm ( w)}
Capítulo 1 – Introdução Também se tem
35 E ( z1 | w) µ1 ( w) E ( z | w) µ ( w) 2 = 2 , E ( z | w) = M M E ( zm | w) µ m ( w)
onde µi ( w) = E ( zi | w) , para i = 1, 2, K , m . Então,
Var{µ1 ( w)} Cov{µ1 ( w), µ2 ( w)} L Cov{µ1 ( w), µ m ( w)} Cov{µ ( w), µ ( w)} Var{µ 2 ( w)} L Cov{µ 2 ( w), µ m ( w)} 2 1 . Cov{E ( z | w)} = M M M Var{µm ( w)} Cov{µ m ( w), µ1 ( w)} Cov{µm ( w), µ 2 ( w)} L
Por exemplo, verifica-se imediatamente que
Cov( z2 , z4 ) = E{Cov( z2 , z4 | w)} + Cov{E ( z2 | w), E ( z4 | w)} = E{σ 24 ( w)} + Cov{µ2 ( w), µ4 ( w)}.
Suponha-se que se pretende analisar os efeitos parciais das variáveis explicativas observáveis (as componentes do vector w) sobre a variável explicada, z, considerando explicitamente factores não observáveis. Seja, então, o valor esperado condicionado estrutural, µ1 ( w, v) = E ( z | w, v) , onde v representa o vector dos factores não observáveis (designado por heterogeneidade não observada). Para simplificar a exposição vai supor-se que v é um escalar (a análise é imediatamente generalizável quando v é um vector). A análise vai ser feita para o caso em que w j (componente genérica de w) e z são variáveis aleatórias contínuas e µ1 (⋅) é derivável pelo menos em relação a w j [fica ao cuidado do leitor proceder a análise semelhante quando estas variáveis são quantitativas, mas não necessariamente contínuas; quando w j é binária, os efeitos parciais são obtidos determinando as diferenças de µ1 (⋅) para os dois valores de w j ]. Para o caso em estudo, e para uma variação infinitesimal de w j , o efeito parcial médio de w j sobre z é
θ j ( w, v) =
∂ E ( z | w, v) ∂ µ1 ( w, v) = . ∂wj ∂wj
Como, em geral, este efeito parcial depende de v, não é possível estimá-lo. Contudo, em certas condições, é possível determinar o valor esperado de θ j ( w, v ) , a partir da distribuição de v. Este valor esperado avaliado em w0 (valor assumido por w) é dado por δ j ( w0 ) = Ev {θ j ( w0 , v)} .
δ j ( w0 ) = ∫ θ j ( w0 , v) f v (v)dv .
Supondo que v é contínua, com densidade f v , vem ℜ
Capítulo 1 – Introdução
36
Note-se que: θ j ( w, v) é o efeito parcial de w j sobre o comportamento médio de z; δ j ( w0 ) é a média ou o valor esperado deste efeito (em relação a v). É possível estimar δ j ( w0 ) a partir de um valor esperado condicionado que dependa apenas de variáveis condicionantes observáveis? Em geral, a resposta é não. Contudo, estabelecendo hipóteses sobre a relação entre v e w, é possível estimar δ j ( w0 ) . As hipóteses são as seguintes: 1) Independência condicional. Os factores explicativos v e w são condicionalmente independentes em relação a um vector q de variáveis observáveis, F (v, w | q ) = Fv (v | q ) Fw ( w | q) ,
onde F é a função de distribuição conjunta, e Fv e Fw são as respectivas funções de distribuição marginais. Em muitos casos, o vector q pode ser considerado como um vector de variáveis proxy. Quando q é vazio, a independência condicional reduz-se à independência entre v e w. 2) O vector q é redundante ou ignorável no valor esperado condicionado estrutural, ou seja, E ( z | w, v, q) = E ( z | w, v) . Pode provar-se que
∂ E ( z | w0 , q ) . ∂wj
δ j ( w0 ) = Eq
Com efeito, fazendo µ 2 ( w, q ) = E ( z | w, q ) , tem-se
µ2 ( w, q) = E{E ( z | w, v, q) | w, q} = E{µ1 ( w, v) | w, q} = ∫ µ1 ( w, v) f (v | q)dv , ℜ
onde: a primeira igualdade decorre a lei do valor esperado iterado; a segunda, resulta da hipótese da redundância; a terceira, é consequência da independência condicional. Derivando parcialmente, e supondo que a derivada parcial é permutável com o integral, vem ∂ µ2 ( w, q ) = ∫ θ j ( w, v) f (v | q )dv . ℜ ∂wj
Para w = w0 , o segundo membro desta igualdade é E{θ j ( w0 , v) | q} . Então, ∂ µ ( w0 , q ) 0 0 Eq 2 = E ( E{θ j ( w , v) | q}) = δ j ( w ) . ∂ w j
A utilidade deste resultado é a seguinte: a heterogeneidade não observada, v, desapareceu totalmente, e µ2 ( w, q ) = E ( z | w, q ) pode ser estimado porque ( z, w, q) é observável. Dispondo desta estimativa quando w = w0 , µˆ 2 ( w0 , q ) , a estimação do efeito parcial médio para w = w0 consiste em determinar a média amostral de ∂ µˆ 2 ( w0 , q ) . ∂wj
Capítulo 1 – Introdução
37
1.7 - Análise empírica
Proposto um modelo teórico para explicar as relações entre as variáveis em estudo, é indispensável avaliar a sua adequação à realidade, por meio da estimação dos parâmetros desconhecidos, nomeadamente para explicar ou prever a evolução do fenómeno. Então, torna-se necessário dispor de um modelo econométrico que permita proceder a uma análise empírica das relações propostas [por exemplo, estimar as funções referidas nos exemplos 1.1 a 1.10 e fazer a respectiva inferência estatística (construir intervalos de confiança; efectuar testes de hipóteses) sobre os respectivos parâmetros]. Como é fácil de compreender, o modelo teórico não está preparado para a análise empírica. Para dar operacionalidade ao modelo teórico é necessário ter em conta, entre outros, os seguintes aspectos: 1) Especificar as relações funcionais do modelo (propor as respectivas expressões analíticas), e estabelecer, se for caso disso, restrições sobre os parâmetros. 2) Estabelecer hipóteses sobre o comportamento probabilístico das variáveis, dando especial atenção às variáveis não observáveis. 3) Conhecer ou delimitar a população subjacente ao modelo. Como o modelo diz respeito à população em estudo, pode dizer-se que as variáveis consideradas representam a respectiva população. 4) Adoptar um processo de amostragem (processo para obtenção dos dados), ou estabelecer hipóteses sobre o processo de amostragem subjacente ao fenómeno em estudo. 5) Dispor de observações das variáveis, que são os dados ou a amostra do modelo. 6) Utilizar os métodos adequados para obter estimativas dos parâmetros. 7) Dispor de técnicas que permitam efectuar inferências estatísticas. O tópico 1) já foi abordado, ainda que de forma pouco sistemática. No entanto, nas secções 1.3 e 1.5 deu-se particular relevo a um tipo particular de especificação das relações funcionais: as relações lineares ou linearizáveis. Também nos exemplos tem havido, embora parcialmente, este tipo de preocupações [no exemplo 1.4 é proposta uma especificação para a relação explicativa de lsalar, mas o mesmo não acontece no exemplo 1.5 a propósito da relação que explica a variável nest; no exemplo 1.1 referiuse que o parâmetro α 2 deveria obedecer à condição 0 < α 2 < 1 ; etc.]. Como o tópico 2) tem a ver com as hipóteses que, em cada caso, se propõem sobre o comportamento probabilístico das variáveis, é óbvio que, em termos gerais, pouco há a dizer; o assunto vai ser sistematicamente retomado nos capítulos que se seguem. Os tópicos 3), 4) e 5) são comentados na próxima secção, a propósito da natureza dos dados. Esta abordagem preliminar deve servir para reforçar a ideia de que as questões relacionadas com a população e com a amostra devem ser uma preocupação permanente nos desenvolvimentos teóricos dos capítulos seguintes, e nas aplicações práticas. Os tópicos 6) e 7) dizem respeito aos métodos econométricos, e serão estudados aprofundadamente nos restantes capítulos.
Capítulo 1 – Introdução
38
Os comentários anteriores permitem ter uma noção aproximada das características que deve ter um modelo econométrico. Pode apresentar-se uma definição preliminar, uma vez que está esclarecido o alcance e o sentido da premissa básica da Econometria (as variáveis observáveis, e as respectivas observações, são variáveis aleatórias). Definição 1.2 – Modelo econométrico Um modelo econométrico é uma família de distribuições conjuntas das observações das variáveis explicadas e das variáveis explicativas, a verificar um conjunto de restrições ou hipóteses. 1.8 - Estruturas de dados
As duas categorias básicas de dados são as seguintes: a) Dados seccionais. Os dados são seccionais quando as observações se referem a determinadas entidades (unidades seccionais) em certa data (momento ou período de tempo). Por exemplo: as quantidades produzidas e as quantidades de factores de produção utilizados nas empresas de uma certa indústria num determinado ano; as despesas em bens de consumo e as receitas das famílias em determinado mês. Este tipo de dados pode ser apresentado num quadro onde a chave identificadora é o nome da unidade seccional (US). Como é habitual, zt (t = 1, 2, K , n) representa a observação genérica de z, e wtj (t = 1, 2, K , n ; j = 1, 2, K , p) é a observação genérica da variável explicativa w j (ver quadro 1.1). Quadro 1.1 Dados seccionais
…
N.º
US
z
w1
w2
1
US1
z1
w11
w12
2 M n
US2
z2
w21
w22
…
w2 p
M USn
M zn
M wn1
M wn 2
…
M wnp
…
wp w1 p
Nalguns casos, pode acontecer que os dados não correspondam exactamente, para todas as entidades observadas, à mesma data. No entanto, se os dados se referem a datas relativamente próximas, pode considerar-se que fazem parte do mesmo conjunto de dados seccionais. Por exemplo, se há observações de despesas e de receitas de certas famílias realizadas num certo mês, e há observações de outras famílias feitas no mês seguinte, é lícito, em muitos casos (depende dos meses!), supor que esta pequena variação temporal não afecta significativamente a análise empírica. Uma característica fundamental dos dados seccionais é que a ordem das observações é irrelevante (pouco importa qual é a primeira família observada ou a vigésima quinta!).
Capítulo 1 – Introdução
39
Os dados seccionais são muito utilizados em Economia (e noutras Ciências Sociais), e, em especial, em certos ramos da microeconomia aplicada (economia do trabalho, finanças públicas locais, economia regional e urbana, demografia, economia da saúde, economia da educação, etc.). b) Dados temporais. Os dados são temporais ou cronológicos quando as observações se referem a uma mesma entidade, para várias datas (momentos ou períodos de tempo). Por exemplo: as quantidades produzidas por ano e as quantidades de factores de produção utilizados anualmente numa determinada indústria; o consumo e o rendimento disponível trimestrais num determinado país. Quando os dados são numéricos, e se pretende descrever a evolução no tempo dos valores observados, os dados devem, como é evidente, conservar-se associados à data em que ocorreram, e apresentarem-se sob a forma de série temporal, dando origem a um gráfico que se chama cronograma. Facilmente se conclui que a ordem cronológica dos dados é uma característica essencial das séries temporais, fornecendo informação relevante para o comportamento do fenómeno em estudo. Pode falar-se em passado, presente e futuro, e é prática comum trabalhar com modelos dinâmicos, nos quais é particularmente importante a análise dos desfasamentos temporais ou lags (certos acontecimentos passados podem influenciar acontecimentos presentes ou futuros). Por exemplo, o consumo agregado de um determinado país, em certo período, pode ser explicado pelo consumo do período anterior, e pelo rendimento disponível do período corrente e do período anterior. Este tipo de dados representa-se de forma semelhante à dos dados seccionais, mas, agora, a chave identificadora é a data (ver quadro 1.2). Quadro 1.2 Dados temporais
…
N.º
Data
z
w1
w2
1
Data 1
z1
w11
w12
2 M n
Data 2
z2
w21
w22
…
w2 p
M Data n
M zn
M wn1
M wn 2
…
M wnp
…
wp w1 p
Outros aspectos típicos dos dados temporais são os seguintes: − A frequência temporal das observações. Trata-se de saber se as variáveis devem ser observadas numa base diária, semanal, mensal, trimestral, anual ou outra. − A tendência. Muitas vezes, é importante conhecer se certa variável depende significativamente do tempo (basta o tempo passar para que a variável se comporte de uma determinada maneira). Neste caso, diz-se que a variável tem tendência. − A sazonalidade. É comum verificar que o comportamento de determinada variável se altera em certos subperíodos de um período mais alargado (por exemplo,
Capítulo 1 – Introdução
40
em determinados meses do ano). Neste caso, diz-se que a variável tem sazonalidade. As séries temporais têm grande importância para o estudo de muitos fenómenos de natureza económica e, em especial, na macroeconomia aplicada (estudo agregado do comportamento do consumo, do investimento, das importações, das exportações, das finanças públicas, da procura de moeda, da inflação, das taxas de juro, etc.). Além das duas categorias básicas de dados apresentadas, convém referir mais duas que, de certo modo, são derivadas daquelas. c) Dados seccionais combinados. Alguns conjuntos de dados têm aspectos seccionais e temporais. Diz-se que se tem um conjunto de dados seccionais combinados (pooled cross sections) quando se juntam vários conjuntos de dados seccionais, cada um referente a certa data (momento ou período de tempo). Por exemplo, em determinado ano tem-se um conjunto de 200 famílias (com as respectivas despesas e receitas), e cinco anos depois tem-se outro conjunto de 250 famílias. Este tipo de dados pode ser analisado como se fosse um conjunto de dados seccionais, mas tem a vantagem de permitir testar se as famílias têm comportamentos diferentes nos dois anos considerados. Obviamente que o primeiro conjunto de 200 famílias não coincide com o segundo conjunto de 250 famílias (o mais provável é que os dois conjuntos sejam disjuntos!) Estes dados podem ser apresentados num quadro semelhante ao dos dados seccionais, mas a chave identificadora é formada pela data e pela unidade seccional (ver quadro 1.3). Quadro 1.3 Dados seccionais combinados …
N.º
Data
US
z
w1
w2
1
Data 1
US1
z1
w11
w12
2 M m
Data 1
US2
z2
w21
w22
…
w2 p
M Data 1
M USm
M zm
M wm1
M wm 2
…
M wmp
m+2
Data 2
USm +1
z m+1
wm+1,1
wm+1, 2
Data 2
USm + 2
z m+ 2
wm+2,1
wm+2, 2
…
wm+1, p
wm+ 2, p
M n
M Data 2
M USn
M zn
M wn1
M wn 2
…
M wnp
m +1
…
…
wp w1 p
d) Dados de painel. Em muitas situações, os dados disponíveis referem-se a um conjunto fixo de entidades observadas em várias datas (momentos ou períodos de tempo). Neste caso, diz-se que se tem um conjunto de dados de painel ou de dados longitudinais. Por exemplo, as observações das despesas de consumo e das receitas de um conjunto fixo de famílias ao longo de vários anos. A característica essencial dos dados de painel é que o conjunto de entidades a observar é sempre o mesmo para todas as observações temporais, o que, muitas vezes,
Capítulo 1 – Introdução
41
dificulta a sua obtenção. Contudo, pode ter-se omissão de observações para subconjuntos de unidades seccionais em determinadas datas (painéis de dados não balanceados). Muitas vezes, a chave identificadora do quadro das observações deste tipo de dados é o par ordenado (unidade seccional, data) [ver quadro 1.4]. Quadro 1.4 Dados de painel
…
N.º
US
Data
z
w1
w2
1
US1
Data1
z11
w111
w112
2 M q
US1
Data 2
z21
w211
w212
…
w11 p
M US1
M Data q
M zq1
M wq11
M wq12
…
M wq1 p
US2
Data 1
z12
w121
w122
US2
Data 2
z 22
w221
w222
…
w12 p w22 p
M US2
M Data q
M zq 2
M wq 21
M wq 22
…
M wq 2 p
M USm
M Data 1
M z1m
M w1m1
M w1m 2
…
USm
Data 2
z2 m
w2m1
w2m 2
…
M w1mp
w2 mp
M USm
M Data q
M zqm
M wqm1
M wqm 2
…
M wqmp
q +1
q+2 M 2q M (m − 1)q + 1
(m − 1)q + 2 M n = mq
…
…
wp w21 p
A observação genérica da variável explicada é identificada por dois índices: um, refere-se à unidade seccional; o outro, à data. Assim, tem-se zti para i = 1, 2, K , m e t = 1, 2, K , q . As observações das variáveis explicativas representam-se por wtij [observação da variável explicativa w j ( j = 1, 2, K , p ) , relativa à unidade seccional i e à data t]. Noutros casos, é conveniente apresentar os dados com outra chave identificadora, correspondente ao par ordenado (data, unidade seccional), e obtinha-se um quadro de dados de painel semelhante ao quadro 1.3. Embora os dados de painel possam ser encarados como dados seccionais combinados, existem métodos adequados que, com vantagem, tiram partido da sua característica essencial (conjunto fixo de entidades a observar). As vantagens têm a ver com o facto de se dispor de várias observações temporais para a mesma entidade, e de se poder analisar, em alguns casos, os seus lags de comportamento. A distinção entre dados seccionais e dados temporais é, como vai ver-se, crucial para a Econometria. Tendo presente a premissa básica – e supondo que o modelo é constituído apenas por uma relação (1.22) –, vão fazer-se alguns comentários sobre os dois tipos fundamentais de dados no que diz respeito aos seguintes aspectos:
Capítulo 1 – Introdução
42
− Definição ou delimitação da população de interesse; − Hipóteses sobre o processo de amostragem; − Recolha da amostra. Dados seccionais
Recorde-se que dados seccionais são observações de certos atributos de certas entidades em determinada data. Assim, a população é formada por todas as entidades que podem ser observadas relativamente aos atributos em causa. Definido o processo de amostragem, pode obter-se uma amostra de dimensão n, {( zt , wt1 , wt 2 , K , wtp ) : t = 1, 2, K , n} ,
que tanto pode ser encarada como uma sequência de n vectores aleatórios ou de n vectores efectivamente observados. Muitas vezes, supõe-se que os dados seccionais são obtidos por amostragem casual. Então, tendo em conta a premissa básica atrás referida, os vectores aleatórios ( zt , wt1 , wt 2 , K , wtp ) são iid (independentes e identicamente distribuídos) [no caso de dados seccionais combinados (pooled cross sections), com amostras casuais obtidas em diferentes datas (para a mesma população), não é razoável aceitar a hipótese de que os dados são iid; é mais credível supor que as observações são inid (independentes e não identicamente distribuídas)]. Noutras situações, pode não ser apropriado estabelecer a hipótese da casualidade no processo de amostragem, sendo de considerar outros tipos de amostragem (amostragem estratificada, amostragem por conglomerados, etc.). Por exemplo, se se estiver interessado em estudar os factores que explicam a acumulação de riqueza por parte das famílias, pode acontecer que grande parte das famílias mais ricas se recusem a revelar as respectivas riquezas. Neste caso, a amostra disponível não é uma amostra casual da população. Outra situação interessante, em que não é adequado supor que o processo de amostragem é casual, é aquela em que as entidades a serem observadas são poucas e têm, individualmente, um peso relativamente importante no contexto da respectiva população. Por exemplo, se se pretendesse estudar, em função de determinados factores, o número de empresas novas criadas em certo ano nos vários distritos do continente português, não é razoável admitir a independência de comportamentos em distritos próximos, pois existe correlação espacial. A população de certos distritos não é suficientemente grande para diluir a influência de cada um sobre os outros (pelo menos, sobre os mais próximos), ou cada distrito é suficientemente grande para induzir comportamentos nos distritos vizinhos. A amostragem por conglomerados (cluster sampling) também induz correlação em dados seccionais. Por exemplo, as poupanças de reforma dos empregados de uma empresa podem estar correlacionadas devido às características comuns dos trabalhadores da empresa (muitas vezes não observáveis) ou devido às características da própria empresa (por exemplo, o tipo de plano de reformas). Como cada empresa represen-
Capítulo 1 – Introdução
43
ta um grupo (cluster), e a amostra é formada por vários trabalhadores de um número elevado de empresas, pode estar-se em presença de correlações intra-empresas. Outro aspecto importante a salientar é que as amostras podem ser escolhidas – intencionalmente ou não – de modo a serem amostras não casuais da população de interesse. Estes casos abrangem, por exemplo, a amostragem estratificada e a selecção de amostras (sample selection). Exemplo 1.16 – Os modelos apresentados nos exemplos 1.2, 1.4, 1.5, 1.6, 1.9 e 1.10 são modelos geradores de dados seccionais. a) Exemplo 1.2: a população é o conjunto de todas as unidades produtivas de um certo bem num determinado país ou região, num determinado ano. A amostra casual seria formada por um subconjunto da população. A amostra também podia ser estratificada em função da dimensão das empresas. b) Exemplo 1.4: Supondo que a população é constituída por todos os trabalhadores de uma determinada região e num determinado ano, pode não ser difícil obter uma amostra casual. No entanto, se a população é formada por todas as pessoas da mesma região, podem surgir problemas na selecção da amostra, uma vez que podem ser escolhidas pessoas que não trabalham, e, portanto, o salário não é observável. Fica a questão de saber qual a população que deve ser considerada para se ter uma explicação adequada do comportamento dos salários. c) Exemplo 1.5: a população é formada pelos alunos de Economia e Gestão do ISEG inscritos na disciplina de Estatística em determinado semestre. No caso de amostragem casual, obtinha-se uma amostra de alunos, sem atender ao curso e às turmas a que pertencem. No entanto, a amostra podia ser estratificada, escolhendo-se para factores de estratificação o curso e o facto de o aluno ser repetente ou não. d) Exemplo 1.6: para estimar viag realizou-se um inquérito, por amostragem casual, à população activa da AML a norte do Tejo, referido a um dia útil razoavelmente representativo do tráfego rodoviário. Cada inquirido tinha que responder a três perguntas: 1) Qual o concelho onde habita? 2) Qual o concelho onde trabalha? 3) Se naquele dia foi de automóvel para o trabalho? Como existiam, naquela data, nove concelhos da AML a norte do Tejo (Amadora, Azambuja, Cascais, Lisboa, Loures, Mafra, Oeiras, Sintra e Vila Franca de Xira), agruparam-se os inquiridos em 72 categorias, tantas quantas os pares de concelhos (existiam oito destinos possíveis para cada uma das nove origens). Depois de eliminados os casos em que o concelho de habitação coincidia com o concelho de trabalho, calculou-se, para cada categoria, a proporção de respostas afirmativas à pergunta 3), a qual, multiplicada pela população activa do respectivo concelho de origem, permitiu estimar viag, para o dia seleccionado. Os dados para estimar a relação proposta no exemplo 1.6, depois de logaritmizada, são formados por 72 observações do seguinte vector de variáveis:
[ ln(viag ) ln( pop) ln(nemp) ln(dist ) ].
Capítulo 1 – Introdução
44
Note-se que não se dispõe das verdadeiras observações de viag, mas das estimativas obtidas da forma indicada. A “amostra” assim construída permitiria estimar os parâmetros do modelo. Não é fácil delimitar a população subjacente a esta amostra. No entanto, pelo menos sabe-se que foi seleccionada uma amostra casual da população activa da AML. e) Exemplo 1.9: a população pode ser formada pelo conjunto de cidades com mais de 100000 habitantes num determinado país ou região, e num certo ano. O subconjunto de cidades que constitui a amostra podia ser obtido por amostragem casual. f) Exemplo 1.10: a população corresponde, por exemplo, ao conjunto dos 27 países da União Europeia, num determinado ano. Neste caso, a amostra podia coincidir com a população. ∇ Dados temporais
Como é difícil admitir que as observações de uma mesma variável são independentes, não se pode supor que os vectores aleatórios ( zt , wt1 , wt 2 , K , wtp ) sejam iid. No entanto, pode pensar-se, intuitivamente, que cada elemento de uma série temporal é o valor assumido por certa variável aleatória, uma vez que em cada data não se sabe qual o valor da variável na data seguinte. Formalmente, pode considerar-se que a partir de uma sucessão de vectores aleatórios, {( zt , wt1 , wt 2 , K , wtp ) : t = 1, 2, K} (habitualmente designada por processo estocástico ou aleatório), se pode obter uma sequência (finita) de vectores, {( zt , wt1 , wt 2 , K , wtp ) : t = 1, 2, K , n} ,
que constitui a amostra. Tal como nos dados seccionais, esta sequência tanto pode ser encarada como uma sequência de n vectores aleatórios ou de n vectores efectivamente observados. Diz-se, então, que a amostra efectivamente observada é uma realização finita do processo estocástico. Assim, os dados disponíveis são interpretados como a única realização (finita) do processo estocástico, uma vez que não se pode recuar no tempo e recomeçar o processo de novo. Neste contexto, a população em estudo é o conjunto de todas as realizações possíveis do processo estocástico. Exemplo 1.17 – Os modelos apresentados nos exemplos 1.1, 1.3, 1.7 e 1.8 podem ser considerados como modelos geradores de dados temporais. a) Exemplo 1.1: considere-se a sucessão de vectores aleatórios com duas componentes (processo estocástico bidimensional), {(const , rdispt ) : t = 1, 2, K} . A população é o conjunto de todas as realizações possíveis desta sucessão. Quando, por exemplo, se dispõe de dados sobre estas variáveis de 1970 a 2006, tem-se uma amostra. b) Exemplo 1.3: considerando o processo estocástico tridimensional,
Capítulo 1 – Introdução
{ [ln(importt ), ln( prmt ), ln( pibt )]: t = 1, 2, K},
45
a população é formada por todas as realizações possíveis desta sucessão de vectores aleatórios. Admitindo que as observações são trimestrais, a amostra podia ser formada pelas observações desde o primeiro trimestre de 1980 até ao quarto trimestre de 2008. c) Exemplo 1.7: seja a sucessão de vectores aleatórios, {( qt , pt , rt , zt ) : t = 1, 2, K} ,
onde qd = qs = q . A população é constituída pelo conjunto de todas as realizações possíveis deste processo estocástico. Como as observações são mensais, a amostra podia ser formada pelas observações de Janeiro de 1995 a Dezembro de 2008. d) Exemplo 1.8: suponha-se que o processo estocástico é o seguinte: {(const , investt , pnbt , const −1 , pnbt −1 , impdt , tjurot , dpt ) : t = 2, 3, K} .
A população é formada por todas as realizações possíveis desta sucessão de vectores aleatórios com oito componentes. Quando se recolhem dados sobre estas variáveis de 1971 a 2008, tem-se uma amostra. ∇
Capítulo 1 – Introdução
46
PALAVRAS-CHAVE Amostra Amostragem casual Análise ceteris paribus Análise empírica Componente residual Componente sistemática Dados Dados de painel Dados (não) experimentais Dados seccionais (combinados) Dados temporais Desfasamento (lag) Econometria Efeito marginal (pontual) Efeito parcial Elasticidade (pontual) Equação estimável Equação estrutural Erro de medida Factor não observável Factor qualitativo Heterogeneidade não observada Independência condicional Inferência estatística Interacção Linearidade relativa aos parâmetros Linearidade relativa às variáveis Linearidade (intrínseca) Macroeconometria Microeconometria Modelo da população Modelo econométrico Modelo teórico Ordem cronológica Parâmetro (estrutural) População Premissa básica da Econometria Processo de amostragem Processo estocástico Regra do valor esperado iterado
Regra do valor esperado total Relação de causalidade Relação inversa Relação linear(izável) Relação lin-log Relação logística Relação log-lin Relação log-log Relação polinomial Relação quadrática Resposta média Sazonalidade Semi-elasticidade (pontual) Série temporal Simultaneidade Taxa de variação Tendência Tendência exponencial Tendência linear Tendência quadrática Teoria Unidade seccional Valor esperado condicionado estrutural Variação absoluta Variação percentual Variação relativa Variável binária Variável contínua Variável de contagem Variável de controlo Variável dependente Variável discreta Variável explicada Variável explicativa Variável independente Variável qualitativa Variável quantitativa Variável residual Variável resposta Vector redundante (ignorável)
Capítulo 1 – Introdução
47
PERGUNTAS DE REVISÃO 1. 2.
3. 4. 5.
6.
7.
8. 9. 10. 11. 12. 13. 14. 15.
16.
Explique o significado da seguinte proposição: “a equação de regressão é intrinsecamente linear”. Seja z = α 0 + α1 w1 + α 2 ln(w2 ) . Considerem-se as seguintes afirmações: a) a relação é intrinsecamente linear; b) a relação é linear em relação às variáveis; c) a relação é linear em relação aos parâmetros; d) a relação não é intrinsecamente linear. Quais das seguintes afirmações são verdadeiras? Considere a relação z = α 0 + (α1 + α 2 w) −1 . Classifique-a quanto à linearidade relativamente aos parâmetros, e quanto à linearidade relativamente às variáveis. Considere a relação z = α + β e w + γ e − w . Esta relação é intrinsecamente linear? No caso afirmativo, defina as variáveis e os parâmetros da relação linear respectiva. Considere a relação z = α + β w + γ ln(w) ( w > 0 ). Esta relação é intrinsecamente linear? No caso afirmativo, defina as variáveis e os parâmetros da relação linear respectiva. Considere a relação z = 6α + wβ ( w > 0 ). Esta relação é intrinsecamente linear? No caso afirmativo, defina as variáveis e os parâmetros da relação linear respectiva. Considere a relação z = exp{α1wα 2 } ( z > 1 ). Esta relação é intrinsecamente linear? No caso afirmativo, defina as variáveis e os parâmetros da relação linear respectiva. Considere a relação z = α 0 + α1 w + α 2 w 2 . Como interpreta o parâmetro α 2 ? Considere a relação z = α + β e w + γ e − w . Supondo que as variáveis são contínuas, determine a elasticidade pontual de z em relação a w. Seja z = β 0 + β1 ln( w) + β 2 {ln( w)}2 . Determine a elasticidade pontual de z em relação a w. Considere a relação z = α + β e w + γ e − w . Supondo que as variáveis são contínuas, determine a semi-elasticidade pontual de z em relação a w. Considere a relação z = α + β e 2 w . Supondo que as variáveis são contínuas, determine a elasticidade pontual de z em relação a w. Seja z = β 0 + β1 ln( w1 ) + β 2 ln(w2 ) + β 3 ln(w1 ) ln( w2 ) . Calcule a expressão da variação absoluta de z quando, ceteris paribus, w1 varia de 3 unidades. Considere a relação z = α1eα 2 w . Supondo que as variáveis são contínuas, determine a semi-elasticidade pontual de z em relação a w. Considere o modelo log-log, ln( z ) = 1 + 2 ln(w) . Como sabe, β 2 mede, aproximadamente, a variação percentual de z quando w varia de 1%. Assim, tem-se: %∆ z ≈ β 2 %∆ w . Determine o valor exacto de %∆ z . A premissa básica da Econometria é a seguinte: “todas as variáveis observáveis do modelo são consideradas variáveis aleatórias”. Esta premissa resulta de: a) os dados poderem ser temporais; b) a estimação dos parâmetros ser feita a partir de uma amostra; c) a natureza não experimental dos dados; d) o facto de poderem existir variáveis endógenas. Quais destas afirmações são verdadeiras?
Capítulo 1 – Introdução 17.
18.
19.
20. 21. 22. 23. 24. 25. 26. 27.
28.
29.
30.
48
A premissa básica da Econometria é a seguinte: “todas as variáveis observáveis do modelo são consideradas variáveis aleatórias”. Esta premissa resulta de: a) a teoria econométrica poder abranger modelos com dados temporais ou com dados seccionais; b) a estimação dos parâmetros ser feita a partir de uma amostra extraída de uma população; c) a natureza não experimental dos dados; d) as variáveis poderem ser exógenas ou endógenas. Quais destas afirmações são verdadeiras? Considere o modelo econométrico z = h( w) + u , onde w é o vector das variáveis explicativas e u é a variável residual. A que condição deve obedecer u para que h( w) seja o valor esperado condicionado estrutural? Considere o modelo da população, z = h( w) + u . Seja: a) E (u | w) = 0 implica que h( w) ≠ E ( z | w) ; b) h( w) = E ( z | w) implica que E (u | w) ≠ 0 ; c) E (u | w) ≠ 0 é equivalente a h( w) ≠ E ( z | w) . Quais destas afirmações são verdadeiras? Seja z = µ ( w) + u , onde µ ( w) = E ( z | w) . Se w j é a componente genérica do vector w, indique a expressão da semi-elasticidade de µ em relação a w j . Enuncie a regra do valor esperado iterado para o cálculo de E ( z | w) . Apresente a fórmula de cálculo de Var( z ) a partir de Var( z | w) e de E ( z | w) . Apresente a fórmula para calcular de Cov( w, z ) a partir de Cov( w, z | v) , de E ( w | v) e de E ( z | v) . Considere dois vectores aleatórios w e z. Apresente a fórmula de cálculo da matriz das covariâncias de z, Cov( z ) , a partir de Cov( z | w) e de E ( z | w) . Prove que Cov( w, z ) = Cov{w, E ( z | w)} . Defina, em termos gerais, a população quando o modelo econométrico envolve dados temporais. Suponha que está interessado em estudar o comportamento conjunto de várias taxas de juro: a taxa de juro dos títulos do tesouro a 12 meses, r12t , a 6 meses, r6 t , e a 3 meses, r3t . As observações são feitas no final do trimestre t, e são anualizadas. Defina a população quando o modelo envolve estas variáveis. Considere as seguintes afirmações: a) a ordem das observações é relevante para qualquer tipo de dados; b) no caso de dados temporais, a amostragem casual não é relevante; c) no caso de dados temporais, a população é formada por todas as observações possíveis de um vector aleatório; d) no caso de dados temporais, a amostra efectivamente observada é formada pela única realização finita de um processo estocástico. Quais destas afirmações são verdadeiras? Como sabe, há diferenças essenciais entre dados seccionais e dados temporais. Indique quatro aspectos, relativamente aos dados, que são relevantes para o estudo de modelos com dados temporais, mas que não o são para o estudo de modelos com dados seccionais. Indique a diferença essencial entre dados de painel e dados seccionais combinados (pooled cross sections).
CAPÍTULO 2 O MODELO DE REGRESSÃO LINEAR CLÁSSICO 2.1 - Apresentação do modelo de regressão linear Neste capítulo vai considerar-se que o modelo da população é apenas constituído por uma relação de tipo (1.23): y = β1 x1 + β2 x2 + L + βk xk + u = xβ + u . Para o estudo econométrico é vantajoso apresentar o modelo explicitando um índice t, para permitir designar qualquer observação possível. Assim, o modelo passa a escrever-se da seguinte maneira: (2.1)
yt = β1 xt1 + β 2 xt 2 + L + β k xtk + ut ( t ∈ T ),
onde T é um conjunto de índices. Quando os dados são seccionais, o índice t designa qualquer unidade seccional da população. Se a população é finita, tem-se T = {1, 2, K , N } , em que N é a dimensão da população. Em muitas situações (em especial, quando N é muito grande), a população pode ser considerada infinita numerável, ou seja, T = {1, 2, K} = N (conjunto dos números naturais). Quando os dados são temporais, o índice t designa qualquer data (período ou momento). Pode ter-se, por exemplo, T = {1, 2, K} = N , T = { 0,1, 2, K} = N 0 (conjunto dos números inteiros não negativos) ou T = { 0, ± 1, ± 2, K} = Z (conjunto dos números inteiros). A escolha do conjunto T depende de conveniências analíticas. O modelo (2.1) é tradicionalmente conhecido pela designação de modelo de regressão linear (MRL), e é o primeiro caso de modelo econométrico a ser estudado. No MRL pode utilizar-se a seguinte terminologia: a variável yt designa-se por regressando, e as variáveis xt1 , xt 2 , K , xtk chamam-se regressores. Na prática é indiferente representar: o regressando por y ou por yt ; os regressores por x j ou por xtj . A notação das grandezas (variáveis e parâmetros) do MRL pode resumir-se da seguinte maneira: − yt é a variável aleatória que representa a observação t ( t ∈ T ) do regressando y. − xtj é a variável aleatória que representa a observação t ( t ∈ T ) do regressor x j ( j = 1, 2, K , k ) . − β j é o coeficiente de regressão do regressor x j ( j = 1, 2, K , k ) . Estes parâmetros são fixos e desconhecidos.
Capítulo 2 – O Modelo de Regressão Linear Clássico
2
− ut é a variável aleatória não observável, variável residual associada à observação t ( t ∈ T ) do regressando e dos regressores. A variável ut (ou u) não é observável porque depende dos coeficientes de regressão que são desconhecidos. Note-se que: variável explicada ou dependente não é sinónimo de regressando; variável explicativa ou independente não é sinónimo de regressor. Por exemplo, no modelo ln( zt ) = β1 + β 2 xt + β3 xt2 + ut pode considerar-se que a variável explicada é zt , mas o regressando é yt = ln( zt ) ; a única variável explicativa (genuína) é xt , embora existam três regressores, 1, xt e xt2 . Em alternativa, o modelo de regressão linear (2.1) pode apresentar-se com a seguinte notação:
(2.2) onde
yt = xt • β + ut ( t ∈ T ),
β1 β 2 M xt • = [ xt1 xt 2 L xtj L xtk ] e β = β j M β k
são, respectivamente, o vector 1 × k dos regressores e o vector k × 1 dos coeficientes de regressão. Diz-se que xt • β é a componente sistemática ou sinal, e que ut é a componente residual ou ruído. A componente sistemática também se designa por função de regressão linear (teórica). Exemplo 2.1 – Retome-se o modelo referido no exemplo 1.4, considerando a respectiva variável residual,
lsalar = β1 + β 2 educ + β3 exper + β 4 empc + u .
A escolha deste regressando, lsalar, e destes regressores, pressupõe que a semi-elasticidade (pontual) de salar em relação a cada variável explicativa é constante. Por exemplo, β 2 é a semi-elasticidade (pontual) de salar em relação a educ. Neste caso, tem-se %∆ salar ≈ 100 β 2 ∆educ . O valor exacto de %∆ salar é dado por
%∆ salar = 100 (exp{β 2 ∆educ } − 1) .
Como o crescimento percentual do salário é o mesmo por cada ano adicional de escolaridade, o acréscimo do salário, devido a mais um ano de escolaridade (o retorno da educação), cresce quando educ aumenta (por cada ano de escolaridade, os acréscimos de salários são crescentes).
Capítulo 2 – O Modelo de Regressão Linear Clássico
3
Como vai ver-se na secção seguinte, é crucial conhecer as hipóteses que relacionam a variável residual com as variáveis explicativas. Por exemplo: − O valor esperado de u, condicionado por educ, exper e empc, é nulo? − A variância de u, condicionado pelas mesmas variáveis, é constante? Ou depende dos valores de certas variáveis explicativas? − A correlação entre u e cada uma das variáveis explicativas é nula? Ou há correlações significativas entre a variável residual e algumas variáveis explicativas? As respostas a estas perguntas (e outras) são decisivas para uma adequada análise econométrica do modelo em estudo. Para este efeito (nomeadamente, para a análise das propriedades dos estimadores dos coeficientes de regressão), é vantajoso explicitar, para cada variável, um índice t identificador dos trabalhadores que, genericamente, podem ser seleccionadas da população. Assim, tem-se lsalart = β1 + β 2 educt + β3 expert + β 4 empct + ut .
Este modelo vai ser utilizado para exemplificar as hipóteses básicas do MRL (ver secção 2.2) e para ilustrar, no presente capítulo, os vários aspectos da análise estatística do MRL. ∇ Dada uma amostra de dimensão n, {( yt , xt1 , xt 2 , K , xtk ) : t = 1, 2, K , n} , as n igualdades decorrentes do modelo (2.1) podem apresentar-se utilizando a notação matricial. Com efeito, fazendo x11 y1 x y 21 2 M M Y = , X = x y t1 t M M xn1 yn
x12 x22 M xt 2 M xn 2
L x1 j L x2 j M L xtj M L xnj
L x1k u1 u L x2 k 2 M M , U = , L xtk u t M M un L xnk
obtém-se a relação amostral: (2.3)
Y = Xβ + U ,
onde: − Y é o vector n × 1 das observações (aleatórias) do regressando (por abuso de linguagem, é costume chamar regressando ao vector Y). − X é a matriz n × k das observações dos regressores. Como em cada coluna desta matriz se encontram as observações de um regressor, é habitual designar X por matriz dos regressores. Representando por x• j ( j = 1, 2, K , k ) a coluna das n observações do regressor xtj , e por x t • (t = 1, 2,K, n) a linha da observação t dos k regressores, tem-se
Capítulo 2 – O Modelo de Regressão Linear Clássico
[
X = x•1 x•2 L x• j L x•k
4
]
x1• x 2• M = . xt • M xn•
Quando o modelo tem termo independente (caso muito frequente), tem-se 1 1 x•1 = e = . M 1
− U é o vector n × 1 das variáveis residuais.
Em alternativa, (2.3) pode escrever-se com as notações seguintes: (2.4) ou (2.5)
yt = xt • β + ut (t = 1, 2,K, n) ,
Y = β1 x•1 + β 2 x• 2 + L + β j x• j + L + β k x• k + U .
Exemplo 2.2 – Retome-se o exemplo 2.1, e suponha-se que se dispõe de observações de 1000 trabalhadores, ou seja, tem-se uma amostra de dados seccionais de dimensão 1000. Então,
lsalart = β1 + β 2 educ t + β 3 expert + β 4 empc t + ut (t = 1, 2, K ,1000) .
Os dados disponíveis foram obtidos por simulação, e podem ser disponibilizados aos leitores interessados. Utilizando a notação (2.3), tem-se u1 1 11 17 11 7.53773 β1 6.31180 1 15 8 8 u2 β 2 Y = M , X = M M M M , β = , U = M . β3 u999 1 12 13 2 7.05908 7.27514 β 4 1 12 15 3 u1000
O vector-coluna Y tem 1000 elementos, indicando-se os dois primeiros e os dois últimos, ( lsalar1 , lsalar2 , K , lsalar999 , lsalar1000 ); a matriz X é de tipo 1000 × 4 , explicitando-se as duas primeiras e as duas últimas linhas (os dois primeiros valores, e os dois últimos valores de educ, exper e empc, respectivamente) ∇
Capítulo 2 – O Modelo de Regressão Linear Clássico
5
2.2 - Hipóteses básicas do modelo Nesta secção vão estabelecer-se as hipóteses básicas do modelo de regressão linear. Naturalmente, estas hipóteses referem-se ao modelo da população (2.1), e não à relação amostral (2.3). A primeira hipótese, REX.1, deve ser entendida como um resumo das considerações feitas na secção anterior (o significado do prefixo REX é esclarecido mais adiante). Assim:
Hipótese REX.1 - Linearidade yt = xt • β + ut ( t ∈ T ), onde: yt é o regressando; xt • = [ xt1 xt 2 L xtk ] é o vector 1 × k dos regressores; β é o vector k × 1 de parâmetros desconhecidos (coeficientes de regressão), não sujeitos a restrições; ut é a variável residual. Quando, no enunciado da hipótese REX.1, se postula que os coeficientes de regressão não estão sujeitos a restrições, fica estabelecido que não existe informação a priori sobre aqueles coeficientes sob a forma de igualdades ou desigualdades. Na função de produção Cobb-Douglas [ver os exemplos 1.2 e 1.13-b)] poderia introduzir-se a seguinte restrição: a soma das elasticidades (pontuais) é igual a 1, ou seja, β 2 + β 3 = 1 . Trata-se de uma igualdade linear que envolve dois dos coeficientes de regressão, e que tem um significado económico bem conhecido – os rendimentos de escala são constantes. A segunda hipótese, a mais importante, refere-se à exogeneidade estrita dos regressores.
Hipótese REX.2 – Exogeneidade estrita O valor esperado de cada variável residual, condicionado por XT = {xs • : s ∈ T } [conjunto de todas as observações possíveis dos regressores], é nulo. Assim: (2.6)
E (ut | XT ) = 0 (t ∈ T ) .
Nestas condições, diz-se que os regressores são estritamente exógenos. Podem fazer-se os seguintes comentários: a) Por exemplo, se T = {1, 2, K} , tem-se XT = {x1• , x2• , K} . b) Se o modelo tem termo independente, xt1 = 1 , e E (ut | XT ) = θ (constante), facilmente se converte num modelo a verificar REX.2. Com efeito, fazendo, yt = β1 + β 2 xt 2 + L + β k xtk + ut = ( β1 + θ ) + β 2 xt 2 + L + β k xtk + (ut − θ ) ,
conclui-se imediatamente que o valor esperado condicionado da nova variável residual é nulo: E (ut − θ | XT ) = 0 . c) A condição (2.6) é uma hipótese muito forte, uma vez que, em geral, o valor esperado condicionado, E (ut | XT ) , é função das observações dos regressores; a hipótese REX.2 postula que não é.
Capítulo 2 – O Modelo de Regressão Linear Clássico
6
As propriedades dos valores esperados condicionados apresentadas na secção 1.6 permitem obter algumas consequências da hipótese REX.2:
− O valor esperado não condicionado da variável residual é nulo: E (ut ) = 0 . Com efeito, com a propriedade a), tem-se E (ut ) = E{E (ut | XT )} = 0 .
− Cada regressor é estritamente exógeno: E (ut | xsj ) = 0 ( t , s ∈ T ; j = 1, 2, K , k ). Com efeito, utilizando a propriedade c), obtém-se E (ut | xsj ) = E{E (ut | XT ) | xsj } = 0 .
− Do mesmo modo se verifica que E (ut | xs• ) = 0 ( t , s ∈ T ). − Os regressores são ortogonais às variáveis residuais:
E ( xtj u s ) = 0 ( t , s ∈ T ; j = 1, 2, K , k ).
[esta propriedade pressupõe a seguinte definição: duas variáveis aleatórias são ortogonais se e só se o valor esperado do produto é igual a 0]. Com efeito, atendendo às propriedades a) e d), E ( xtj u s ) = E{E ( xtj u s | xtj )} = E{xtj E (u s | xtj )} = 0 .
Utilizando a notação matricial, tem-se
E ( xt •us ) = 0 ( t , s ∈ T ),
onde 0 é o vector nulo. Este resultado garante que a observação t de cada regressor é ortogonal, não só à variável residual associada à observação t, mas a qualquer outra variável residual.
− As covariâncias entre os regressores e as variáveis residuais são nulas:
Cov( xtj , u s ) = 0 ( t , s ∈ T ; j = 1, 2, K , k ).
Com efeito, tem-se
Cov( xtj , us ) = E ( xtj us ) − E ( xtj ) E (us ) = 0 ,
porque E (u s ) = 0 e E ( xtj u s ) = 0 . Utilizando a notação matricial, vem
Cov( xt • , us ) = 0 ( t , s ∈ T ).
Assim, a observação t de cada regressor não está correlacionada, não só com a variável residual associada à observação t, mas com qualquer outra variável residual. Dito de outro modo, não há associação linear entre as respectivas variáveis.
− Qualquer função dos regressores é ortogonal às variáveis residuais: E{g ( xt • ) us } = 0 ( t , s ∈ T ).
Com efeito,
E{( g ( xt • ) us } = E ( E{g ( xt • ) us | xt • }) = E{g ( xt • ) E (us | xt • )} = 0 .
Daqui resulta que Cov{g ( xt • ), us } = 0 .
Capítulo 2 – O Modelo de Regressão Linear Clássico
7
O facto de a hipótese REX.2 postular a nulidade do valor esperado condicionado, E (ut | XT ) = 0 , e não a nulidade das covariâncias, Cov( xt • , us ) = 0 ( t , s ∈ T ) [hipótese mais fraca], significa que se estabelece que não há associação (linear ou não) entre cada xtj e cada u s . Assim, a hipótese pressupõe que a relação funcional entre o regressando e os regressores está correctamente especificada. A violação da hipótese REX.2 pode ter origem numa incorrecta especificação do modelo, que se pode dever, entre outras causas, a uma deficiente escolha da forma funcional, à omissão de variáveis explicativas relevantes ou a erros de medida nas variáveis explicativas. Infelizmente como se trata de uma hipótese sobre a população nunca é possível ter a certeza da sua veracidade [contudo, existem testes estatísticos (como o teste RESET; ver a secção 3.8 do capítulo 3) que podem mostrar se a evidência empírica é favorável, em certas condições, à especificação do modelo].
− O valor esperado condicionado do regressando é igual à componente sistemática do modelo: E ( yt | XT ) = xt • β (t ∈ T ) ,
o que permite interpretar a variável residual ut como o desvio entre o regressando e o respectivo valor esperado condicionado: ut = yt − E ( yt | XT ) . Portanto, o MRL, yt = xt • β + ut , pode ser apresentado sob a forma de um valor esperado condicionado estrutural: E ( yt | XT ) = µ ( xt • ) = xt • β (t ∈ T ) .
A função µ (⋅) é adequada para fazer a análise ceteris paribus de relações de causalidade, estudando os respectivos efeitos parciais (ver secção 1.6).
− Quando se dispõe da amostra {( yt , xt1 , xt 2 , K , xtk ) : t = 1, 2, K , n} , a condição (2.6) implica que E (ut | x1• , x2• , K , xn• ) = 0 ou que E (ut | X ) = 0 (t = 1, 2, K , n) . Pode escrever-se E (U | X ) = 0 [e, portanto, E (U ) = 0 ]. Também se tem: E (Y | X ) = Xβ .
Convém fazer ainda mais alguns comentários sobre a hipótese REX.2 e a natureza dos dados: 1) Com dados seccionais e amostragem casual é fácil verificar que, pelo facto de os vectores aleatórios ( yt , xt • ) serem iid, o mesmo sucede com (ut , xt • ) , já que ut é função de yt e xt • . Então, pouco importa a distinção entre exogeneidade estrita e exogeneidade para a mesma unidade seccional. De facto, não é necessário explicitar como a variável residual relativa à unidade seccional t está relacionada com as observações dos regressores para outras unidades seccionais, porque ut é independente de xs• ( s ≠ t ) . Neste caso, tem-se sempre E (ut | XT ) = E (ut | xt • ) (t ∈ T ) ,
e a hipótese REX.2 reduz-se a E (ut | xt• ) = 0 . 2) Se num modelo de regressão linear com dados temporais se verifica a hipótese da exogeneidade estrita, então as variáveis residuais são ortogonais às (não estão correlacionadas com as) observações, passadas, presentes e futuras dos regressores.
Capítulo 2 – O Modelo de Regressão Linear Clássico
8
Um exemplo típico de modelo que pode verificar REX.2 é o MRL estático, yt = β1 + β 2 xt + ut ,
tal que E (ut | XT ) = 0 . Neste caso, XT = {x1 , x2 , K} , se T = {1, 2, K} . Outro exemplo, é o MRL dinâmico, yt = α + δ 0 xt + δ1 xt −1 + L + δ r xt − r + ut ,
com E (ut | XT ) = 0 . Este modelo é conhecido pela designação de MRL com desfasamento escalonado finito de ordem r ou DL(r) [DL significa Distributed Lags]. 3) É possível encontrar, com facilidade, exemplos de modelos de regressão linear com dados temporais, em que a hipótese REX.2 não se verifica. Considere-se o modelo dinâmico yt = β1 + β 2 yt −1 + ut , onde o regressor é a variável y desfasada de um período. Este modelo é designado por modelo auto-regressivo de 1.ª ordem ou AR(1). Mesmo supondo que E (ut | yt −1 ) = 0 [ ⇒ E ( yt −1ut ) = 0 ], é fácil verificar que E ( yt ut ) = E{( β1 + β 2 yt −1 + ut )ut } = β1 E (ut ) + β 2 E ( yt −1ut ) + E (ut2 ) = E (ut2 ) ≠ 0 .
Então, a observação t + 1 do regressor, yt , está correlacionada com ut . Pode mesmo provar-se que yt + h ( h = 1, 2, K ) está correlacionada com ut . Conclui-se, assim, que não existe correlação contemporânea (e, porventura, passada) entre os regressores e as variáveis residuais, mas existe correlação futura. Considere-se de novo o MRL estático, yt = β1 + β 2 xt + ut . A hipótese REX.2 exclui a possibilidade de variações da variável residual (ou do regressando) no presente provocarem variações futuras do regressor. No entanto, é fácil encontrar modelos estáticos em que, por exemplo, Cov( xt +1 , ut ) ≠ 0 . Com efeito, suponha-se que numa exploração agrícola se pretende explicar a produção agrícola, yt , em função da quantidade de trabalho utilizada, xt . Como os valores desta variável podem ser escolhidos pelo agricultor, este pode ajustar a quantidade de trabalho no futuro (por exemplo, xt +1 ) em função da produção agrícola no presente ou no passado (por exemplo, yt ). Em Economia, existem muitas situações deste género (variáveis explicativas que podem variar no futuro em função dos valores assumidos, no presente ou no passado, pela variável explicada) que tornam pouco realista a adopção da hipótese REX.2 para modelos de regressão linear com dados temporais. É o caso do modelo (com dados temporais), investt = β1 + β 2 tjurot + ut , em que invest é o investimento e tjuro é a taxa de juro. É de esperar que exista de feedback de invest sobre tjuro (a taxa de juro no futuro depende do investimento no presente ou passado). 4) Os exemplos anteriores mostram claramente que, em muitos casos, a exogeneidade estrita dos regressores não se verifica num modelo de regressão linear com dados temporais. Contudo, quando se supõe que E (ut | xt • ) = 0 (t ∈ T ) ,
Capítulo 2 – O Modelo de Regressão Linear Clássico
9
diz-se que os regressores são contemporaneamente exógenos. Este tipo de exogeneidade permite concluir sem dificuldade que: − E (ut ) = 0 ; − E (ut | xtj ) = 0 (cada regressor é contemporaneamente exógeno); −
E ( xt •ut ) = 0 (ortogonalidade contemporânea);
−
Cov( xt • , ut ) = 0 (não correlação contemporânea);
−
ut = yt − E ( yt | xt • ) .
−
E ( yt | xt • ) = xt • β ;
Exemplo 2.3 – Admitindo que os dados são seccionais e a amostragem é casual, suponha-se que era especificado o modelo (ver exemplo 2.1), lsalart = β1 + β 2 educt + ut ,
omitindo-se as variáveis exper e empc. Assim, a variável residual passa a abranger estes factores explicativos (para além de outros, como a aptidão, o género, o número de anos de escolaridade do pai e da mãe do trabalhador, o número de filhos, o local da habitação, etc.). Como, por exemplo, é de esperar que exper e educ estejam negativamente correlacionados (quando a escolaridade aumenta, a experiência profissional diminui), a variável residual está correlacionada com educ. Nesta situação, tem-se E (lsalart | educt ) = β1 + β 2 educt + E (ut | educt ) ,
em que E (ut | educt ) depende de educt . Deste modo, o parâmetro β 2 não mede o efeito ceteris paribus de educ sobre lsalar, e o modelo não está correctamente especificado. Note-se que: ∂ E (lsalart | educt ) ∂ E (ut | educt ) . = β2 + ∂ educt ∂ educt
Numa tentativa de melhorar a especificação, inclui-se exper na componente sistemática (diz-se, então, que o factor exper é controlado), propondo-se o modelo lsalart = β1 + β 2 educt + β3 expert + ut ,
onde a variável residual já não inclui exper. Neste caso, deve exigir-se que o valor esperado condicionado, E (ut | educt , expert ) , não dependa dos factores condicionantes. No entanto, é natural que empc e exper (ou empc e educ) estejam correlacionados, o que significa que o modelo continua mal especificado (a hipótese REX.2 é violada). Propõe-se, então, lsalart = β1 + β 2 educt + β 3 expert + β 4 empct + ut ,
controlando a variável empc. Se a hipótese REX.2 é verdadeira,
E (ut | educt , expert , empct ) = 0 ,
Capítulo 2 – O Modelo de Regressão Linear Clássico
10
nenhuma das três variáveis (educ, exper, empc) está correlacionada com a variável residual: os três regressores são exógenos. Ter-se-ia, então, o seguinte valor esperado condicionado estrutural: E (lsalart | educt , expert , empct ) = β1 + β 2 educt + β3 expert + β 4 empct .
Para garantir a especificação correcta do modelo não basta afirmar, por exemplo, que a correlação entre a variável residual e exper é nula, uma vez que esta ausência de correlação estabelece apenas que não há associação linear entre as duas variáveis. Se houvesse correlação entre a variável residual e exper 2 , o modelo continuava mal especificado porque E (ut | educt , expert , empct ) dependia de expert . Nestas circunstâncias, devia fazer-se lsalart = β1 + β 2 educt + β 3 expert + β 4 expert 2 + β 5 empct + ut .
No entanto, continua a ser possível que educ esteja correlacionado com a variável residual, porque educ pode depender de aptid (aptidão da pessoa) ou de mulher. Embora seja imediato controlar o factor género, não teria sentido controlar o factor aptid (incluindo-o na componente sistemática do modelo), uma vez que se trata de um factor não observável. Provavelmente deveria manter-se a especificação do modelo, mas a hipótese REX.2 era violada. Esta questão será retomada no capítulo 4. ∇ A terceira hipótese refere-se às variâncias das variáveis residuais, condicionadas por todas as observações possíveis dos regressores.
Hipótese REX.3 – Homocedasticidade condicionada Tem-se: (2.7)
Var(ut | XT ) = σ 2 > 0 (t ∈ T ) .
Podem fazer-se os seguintes comentários: a) A condição (2.7) impõe uma restrição muito forte ao modelo, pois, em geral, a variância condicionada, Var(ut | XT ) , é função das observações dos regressores; no entanto, na hipótese REX.3 supõe-se que é constante. b) No caso de amostragem casual, verifica-se sempre que Var(ut | XT ) = Var(ut | xt • ) ,
e a hipótese REX.3 reduz-se a Var(ut | xt • ) = σ 2 > 0 (t ∈ T ) . Podem obter-se algumas consequências das hipóteses anteriores:
− Tem-se: E (ut2 | XT ) = σ 2 (t ∈ T ) . Com efeito, basta notar que E (ut | XT ) = 0 . − A variância não condicionada das variáveis residuais é constante:
Var(ut ) = E (ut2 ) = σ 2 (t ∈ T ) .
Capítulo 2 – O Modelo de Regressão Linear Clássico
11
− A variância condicionada das observações do regressando é constante:
Var( yt | XT ) = σ 2 (t ∈ T ) .
Este resultado mostra uma diferença essencial entre as hipóteses REX.2 e REX.3. Enquanto esta hipótese implica que a variância do regressando, condicionada pelos regressores, não depende destes, a hipótese REX.2 origina que o valor esperado do regressando, condicionado pelos regressores, já depende. Note-se que Var( yt ) ≠ σ 2 . Com efeito, atendendo à propriedade h) dos valores esperados condicionados, tem-se Var( yt ) = E{Var( yt | XT )} + Var{E ( yt | XT )}
= σ 2 + Var( xt • β ) = σ 2 + β T Cov( xt • ) β ≠ σ 2 .
− Também se verifica que: Var (ut | xsj ) = σ 2 ; Var(ut | xs• ) = σ 2 (t ∈ T ) .
− Quando se dispõe da amostra {( yt , xt1 , xt 2 , K , xtk ) : t = 1, 2, K , n} , a condição (2.7) implica que Var(ut | x1• , x2• , K , xn• ) = σ 2 , ou que Var(ut | X ) = σ 2 (t = 1, 2, K , n) . Também se tem: − E (ut | X ) = 0 ⇒ Var(ut | X ) = E (ut2 | X ) = σ 2 ; −
Var( yt | X ) = Var(ut | X ) = σ 2 (a variância das observações do regressando, condicionada por X, é constante).
Como Var(ut | XT ) = Var( yt | XT ) é constante (ou seja, não depende de X T ), a homocedasticidade condicionada significa que a influência dos factores que condicionam o comportamento do regressando apresenta, na sua globalidade, uma dispersão constante para as várias observações. Deste modo, cada observação yt (condicionada por X T ) é portadora da mesma quantidade de informação sobre a relação linear subjacente, xt • β , isto é, cada observação está sujeita à mesma incerteza ou “ruído”. Como Var(ut | XT ) é constante, também se pode afirmar que os factores não observáveis que influenciam yt têm, na sua globalidade, dispersão constante. Quando a homocedasticidade condicionada for considerada uma hipótese demasiado restritiva, deve admitir-se a possibilidade de as variâncias condicionadas serem diferentes de observação para observação. Neste caso, a variância condicionada de cada variável residual é função das observações dos regressores, (2.8)
Var(ut | XT ) = σ 2 (XT ) ,
e tem-se uma situação de heterocedasticidade condicionada. A heterocedasticidade condicionada é pouco frequente em modelos com dados temporais, mas é particularmente importante em modelos com dados seccionais. Pode ocorrer por dois tipos de razões: a) ser uma evidência de especificação deficiente do modelo, isto é, a componente residual (o ruído) conter factores que, pelo seu comportamento, deveriam ser incorporados na componente sistemática (no sinal); b) ser inerente ao fenómeno em estudo, considerando-se o modelo bem especificado. No caso a), deve procurar-se uma reespecificação mais adequada. No caso b), a heterocedasticidade con-
Capítulo 2 – O Modelo de Regressão Linear Clássico
12
dicionada deve ser encarada como tal, e os parâmetros devem ser estimados utilizando técnicas apropriadas.
Exemplo 2.4 – Retomando o exemplo 2.3, e continuando a admitir que os dados são seccionais e a amostragem é casual, a homocedasticidade condicionada significa que Var(ut | educt , expert , empct ) = σ 2 .
Se, pelo contrário, a variância da variável residual dependesse, por exemplo, dos valores observados para exper, ter-se-ia Var(ut | educt , expert , empct ) = σ 2 (expert ) ,
ou seja, uma situação de heterocedasticidade condicionada.
∇
A quarta hipótese refere-se às covariâncias entre as variáveis residuais condicionadas por todas as observações possíveis de todos os regressores.
Hipótese REX.4 – Ausência de autocorrelação Tem-se: (2.9)
Cov(ut , us | XT ) = 0 (t , s ∈ T ; t ≠ s) .
Demonstra-se sem dificuldade que:
− As hipóteses REX.2 e REX.4 implicam que E (ut us | XT ) = 0 .
− As covariâncias não condicionadas entre as variáveis residuais são nulas:
Cov(ut , u s ) = E (ut u s ) = 0 .
− As covariâncias condicionadas entre as observações do regressando são nulas:
Cov( yt , ys | XT ) = 0 .
Neste caso, tal como acontece com a homocedasticidade condicionada, as covariâncias condicionadas entre as observações do regressando não dependem dos regressores. Como Cov( yt , ys ) = E{Cov( yt , ys | XT )} + Cov{E ( yt | XT ), E ( ys | XT )} = 0 + Cov( xt • β , xs • β ) = β T Cov( xt • , xs • ) β ,
resulta Cov( yt , y s ) ≠ 0 , desde que a matriz das covariâncias entre os elementos de xt • e os elementos de xs • , Cov( xt • , xs • ) , não seja a matriz nula. No caso de amostragem casual, tem-se Cov( xt • , xs • ) = O , e, portanto, Cov( yt , ys ) = 0 .
− Verifica-se que: Cov(ut , u s | xt • , xs• ) = 0 .
Capítulo 2 – O Modelo de Regressão Linear Clássico
13
− Quando se tem a amostra {( yt , xt1 , xt 2 , K , xtk ) : t = 1, 2, K , n} , a condição (2.9) implica que Cov(ut , u s | x1• , x2• , K , xn• ) = 0 ou que Cov(ut , u s | X ) = 0 , para t ≠ s e para t , s = 1, 2, K , n . Tem-se: − E (ut | X ) = 0 ⇒ Cov(ut , u s | X ) = E (ut u s | X ) = 0 ;
Cov( yt , y s | X ) = Cov(ut , u s | X ) = 0 ;
−
−
Cov(ut , u s | X ) = 0 ⇒ Cov(ut , u s | xt • , xs• ) = 0 .
Como Cov( yt , ys | XT ) = Cov(ut , us | XT ) = 0 , a ausência de autocorrelação (condicionada por X T ) pode ser interpretada como a não existência de influências recíprocas entre as observações do regressando. Deste modo, o conhecimento do valor assumido por uma observação yt do regressando não acrescenta qualquer informação sobre o comportamento de outra observação. Como Cov(ut , us | XT ) = 0 , a ausência de autocorrelação traduz uma situação em que as variáveis residuais não se influenciam entre si. Com dados temporais é muito frequente especificar modelos em que existe autocorrelação, isto é, (2.10)
Cov(ut , us | XT ) ≠ 0 (para algum t ≠ s ).
A presença de autocorrelação pode ter, tal como a heterocedasticidade condicionada, dois tipos bem distintos de causas: a) a autocorrelação é uma manifestação de má especificação do modelo; b) a autocorrelação é inerente ao processo de amostragem, aceitando-se que o modelo está bem especificado. O tipo de tratamento a dar ao modelo em cada uma das situações deve ser encarado nos termos referidos para a heterocedasticidade condicionada. Em modelos com dados seccionais, praticamente não se põe a questão da existência de autocorrelação. Se, em particular, a amostra for casual fica garantido que não existe autocorrelação, uma vez que os vectores aleatórios (ut , xt • ) são iid. Neste caso, verifica-se sempre que E (ut us | XT ) = E (ut | xt • ) E (us | xs • ) e Cov(ut , us | XT ) = 0 ,
para t ≠ s . Com efeito,
E (ut us | XT ) = E{E (ut us | us , XT ) | XT } = E{us E (ut | us , XT ) | XT } .
Como a amostragem é casual, tem-se E (ut | us , XT ) = E (ut | x´t • ) . Então,
E (ut us | XT ) = E{us E (ut | xt • ) | XT } = E (ut | xt • ) E (us | XT ) = E (ut | xt • ) E (us | xs • ) .
Quando se dispõe da amostra {( yt , xt1 , xt 2 , K , xtk ) : t = 1, 2, K , n} , pode determinar-se a matriz das covariâncias de U, condicionada por X: Cov(u1 , u 2 | X ) L Cov(u1 , u n | X ) Var(u1 | X ) Cov(u , u | X ) L Cov(u 2 , u n | X ) Var (u 2 | X ) 2 1 . Cov(U | X ) = M M M Var (u n | X ) Cov(u n , u1 | X ) Cov(u n , u 2 | X ) L
Capítulo 2 – O Modelo de Regressão Linear Clássico
14
Atendendo às hipóteses REX.3 e REX.4, facilmente se verifica que σ 2 0 L 0 0 σ2 L 0 2 , Cov(U | X ) = σ I n = M M M 0 L σ 2 0
onde I n é a matriz identidade de ordem n. Deste modo, tem-se: (2.11)
Cov(U | X ) = E (UU T | X ) = σ 2 I n .
Facilmente se conclui que
Cov(U ) = E (UU T ) = σ 2 I n .
Também se verifica sem dificuldade que (2.12)
Cov(Y | X ) = σ 2 I n ,
isto é, que as matrizes das covariâncias de U e de Y, respectivamente condicionadas por X, são iguais. No entanto, em geral, Cov(Y ) ≠ σ 2 I n . Com efeito, atendendo à propriedade k) dos valores esperados condicionados, obtém-se Cov(Y ) = E{Cov(Y | X )} + Cov{E (Y | X )} = σ 2 I n + Cov( Xβ ) ≠ σ 2 I n .
Note-se que o elemento genérico da matriz Cov( Xβ ) é Cov( xt • β , xs• β ) = β T Cov( xt • , xs• ) β .
Em particular, os elementos da diagonal principal são dados por Var( xt • β ) = β T Cov( xt • ) β .
A quinta hipótese refere-se apenas aos regressores, e garante que existe a matriz dos valores esperados dos elementos da matriz xtT• xt • , e a respectiva inversa.
Hipótese REX.5 – Condição de característica A matriz quadrada de ordem k, (2.13)
Qxx = E ( xtT• xt • ) (t ∈ T )
existe e tem inversa.
Comentários: a) A matriz Qxx = E ( xtT• xt • ) é simétrica, uma vez que xt21 x x T xt • xt • = t1 t 2 M xt1 xtk
xt1 xt 2 K xt1 xtk xt22 L xt 2 xtk . M M xt 2 xtk L xtk2
Capítulo 2 – O Modelo de Regressão Linear Clássico
15
b) A hipótese REX.5 implica que Qxx tem característica igual a k, e é definida positiva. Pode, então, afirmar-se que a hipótese falha se e só se um dos regressores é combinação linear de outros regressores. Por exemplo se yt = β1 + β 2 ln( xt ) + β3 ln( xt2 ) + ut , tem-se ln( xt ) 2 ln( xt ) 1 1 xtT• xt • = ln( xt ) [ 1 ln( xt ) 2 ln( xt )] = ln( xt ) {ln( xt )}2 2{ln( xt )}2 , 2 ln( xt ) 2 ln( xt ) 2{ln( xt )}2 4{ln( xt )}2
e verifica-se que, por exemplo, a terceira coluna é o dobro da segunda. Em casos como este, diz-se que o modelo da população tem multicolinearidade exacta ou perfeita. A condição de característica não exclui a possibilidade de haver correlações entre regressores; contudo, não permite que estas correlações sejam perfeitas. c) Quando se dispõe da amostra {( yt , xt1 , xt 2 , K , xtk ) : t = 1, 2, K , n} , pode concluir-se que, em certas condições de regularidade (ver capítulo 3), a hipótese REX.5 implica que a característica da matriz X é igual a k (número de coeficientes de regressão), r ( X ) = k , com probabilidade 1. Isto significa que, dada a sucessão de acontecimentos {Cn : n = k , k + 1, K} , onde Cn = {numa amostra de dimensão n, r ( X ) = k} , tem-se lim P(Cn ) = 1 .
n → +∞
Assim, é praticamente certo que as colunas de X são linearmente independentes [a coluna das observações de um regressor não é, quase certamente, combinação linear das colunas das observações de outros regressores]. Caso contrário, diz-se que, na amostra, há multicolinearidade exacta ou perfeita. d) A hipótese REX.5 também implica que, quase certamente, existe ( X T X ) −1 , o que tem uma importância decisiva, como vai ver-se, para a estimação dos coeficientes de regressão pelo método dos mínimos quadrados. e) Suponha-se que a característica de X é igual a k: r ( X ) = k . Esta condição significa que, na amostra (e, portanto, na população), não existem relações lineares exactas entre os regressores. Como a matriz X é n × k , decorre que k ≤ n (o número de observações não pode ser inferior ao número de coeficientes de regressão). A diferença n − k designa-se por número de graus de liberdade do modelo. O seu significado é esclarecido mais adiante.
Exemplo 2.5 – Considere-se, de novo, o modelo,
lsalart = β1 + β 2 educt + β 3 expert + β 4 empct + ut .
Como
xt • = [ 1 educt expert empct ],
a matriz Qxx = E ( xtT• xt • ) é dada por
Capítulo 2 – O Modelo de Regressão Linear Clássico
16
1 E (educt ) E (expert ) E (empct ) E (educ ) 2 E (educt ) E (educt × expert ) E (educt × empct ) t . E (expert ) E (educt × expert ) E (expert 2 ) E (expert × empct ) E (empct2 ) E (empct ) E (educt × empct ) E (expert × empct )
Se a população fosse constituída apenas pelos trabalhadores que estão no seu primeiro emprego, é evidente que REX.5 não se verificava, pois expert = empct [a matriz Qxx teria característica inferior a 4, uma vez que as terceira e quarta colunas (linhas) seriam iguais], e só se podia estimar β 3 + β 4 . Numa situação destas, seria aconselhável alterar a especificação do modelo (eliminando, por exemplo, o regressor exper) ou redefinir a população (considerando, por exemplo, o conjunto de todos os trabalhadores da região). Mesmo para a população de todos os trabalhadores – mantendo a primeira especificação –, podia ter-se multicolinearidade exacta na amostra se todas as pessoas seleccionadas estivessem no primeiro emprego (a matriz X teria duas colunas iguais). Naturalmente é muito improvável a ocorrência desta amostra quando a população tem muitos trabalhadores que não estão no primeiro emprego. ∇ A análise feita na presente secção pode resumir-se na seguinte definição:
Definição 2.1 – Modelo de regressão linear clássico O modelo de regressão que verifica as hipóteses REX.1 a REX.5 é designado por modelo de regressão linear clássico (MRLC). Os parâmetros desconhecidos deste modelo são β1 , β 2 , K , β k e σ 2 . As hipóteses são designadas com o prefixo REX para lembrar que os regressores são estritamente exógenos. O MRLC tem particular vocação para o estudo de relações entre variáveis com dados seccionais e amostragem casual. No entanto, há situações interessantes em que o MRLC para séries temporais permite estimar razoavelmente alguns efeitos parciais relativos a variáveis macroeconómicas. É o caso do efeito da taxa de inflação, ou da proporção do défice orçamental em relação ao PIB, sobre a taxa de juro. Habitualmente, a expressão “modelo de regressão linear clássico” estava reservada para designar o “modelo de regressão linear com regressores fixos”, tão conhecido do estudo tradicional da Econometria. Neste modelo, supõe-se que, para a observação t, se obtém um valor para o regressando, e certos valores para os regressores; se fosse possível repetir a experiência, ainda para a observação t, podia obter-se outro valor para o regressando, mas os valores dos regressores eram os mesmos. Deste modo, para cada observação, o valor do regressando podia flutuar de amostra para amostra, mas os valores dos regressores eram constantes. Facilmente se conclui que esta concepção do modelo pode ser interessante para gerar dados experimentais, mas não é compatível com o tipo de hipóteses que se po-
Capítulo 2 – O Modelo de Regressão Linear Clássico
17
dem considerar num MRL em Economia. Por exemplo, estaria eliminada, por natureza, a possibilidade de haver correlação não nula entre a variável residual e qualquer regressor (admitir que há regressores exógenos pressupõe a possibilidade de existirem, também, regressores endógenos). Para ilustrar o contra-senso da hipótese dos regressores fixos, considere-se a seguinte afirmação (que aparece em muitos manuais de econometria): “ σ 2 = Var(ut ) = Var( yt ) , qualquer que seja t”. Esta afirmação é falsa quando os regressores são aleatórios, mas é verdadeira quando os regressores são fixos. Trata-se de uma situação em que a hipótese dos regressores fixos conduz a conclusões contra-intuitivas. De facto, suponha-se que w é um factor explicativo de y, está incluído na variável residual e não está correlacionado com os regressores. Quando se dispõe de observações de w, esta variável pode ser acrescentada à lista dos regressores. Neste caso, a variável residual muda, bem como a respectiva variância (é menor do que a anterior). Deste modo, a hipótese dos regressores fixos pressupõe que existe sempre a possibilidade de aceder a todos os factores explicativos possíveis de controlar; só deste modo fica garantido que não haverá qualquer factor w, inicialmente abrangido pela componente residual, que possa ser “transferido” para a componente sistemática. Esta especificação perfeita do modelo é praticamente impossível em grande parte das aplicações econométricas (não se pode exigir ao analista capacidades que ele quase nunca pode ter). Como o modelo com regressores fixos não é objecto de estudo neste texto, reserva-se a sigla MRLC para designar o modelo de regressão linear com regressores estritamente exógenos.
2.3 - Estimação dos coeficientes de regressão pelo método dos mínimos quadrados Dada uma amostra de dimensão n, {( yt , xt1 , xt 2 , K , xtk ) : t = 1, 2, K , n} , é possível estimar o vector dos coeficientes de regressão, β . Para cada observação tem-se, como se sabe, yt = xt • β + ut . Embora a variável residual não seja observável, porque depende dos coeficientes de regressão (desconhecidos), é possível calcular os desvios ~ u~t = yt − xt • β , ~ em que β é um qualquer valor hipotético de β . Ao desvio u~t dá-se o nome de resíduo ~ relativo à observação t quando β = β . Pode escrever-se u~1 u~ 2 ~ ~ M U = ~ = Y − Xβ . u t M u~n
O método habitualmente utilizado para estimar os coeficientes de regressão, β , consiste em minimizar a soma dos quadrados dos resíduos. Este critério (método dos mínimos quadrados) impõe uma penalização forte para os resíduos grandes, e escolhe ~ um valor β que evite resíduos elevados para poucas observações à custa de tolerar re-
Capítulo 2 – O Modelo de Regressão Linear Clássico
18
síduos relativamente pequenos para muitas observações. Deste modo, consegue garantir-se um compromisso que permite obter um estimador com propriedades desejáveis (ver secção 2.5). Definição 2.2 – Estimador dos mínimos quadrados dos coeficientes de regressão O estimador dos mínimos quadrados (estimador MQ) de β é aquele que minimiza a so~ ma dos quadrados dos resíduos (função de β ), ~ ~ ~ n ~ ~ (2.14) ϕ ( β ) = ∑t =1 u~t2 = U T U = (Y − Xβ )T (Y − Xβ ) . Representando o estimador MQ por b, tem-se
~ b = argmin ϕ ( β ). ~ β
~ ~ Quando se minimiza ϕ ( β ) em ordem a β está a supor-se, como é evidente, que ~ β varia no respectivo espaço-parâmetro, isto é, que pode ser qualquer ponto deste espaço. A relação que existe entre β (vector desconhecido dos coeficientes de regressão), ~ b (a respectiva estimativa MQ de β ) e β (valor hipotético de β ) está ilustrada na figura 2.1, para o caso em que estas três grandezas são escalares. De acordo com a convenção estabelecida na secção 1.6 do capítulo 1, vai utilizar-se o mesmo símbolo para representar o estimador e as respectivas estimativas.
Fig. 2.1 – Ilustração do método dos mínimos quadrados. O estimador b pode ser obtido recorrendo ao cálculo diferencial. Com efeito, derivando ~ ~ ~ ~ ~ ~ ~ ~ ϕ ( β ) = U T U = (Y − Xβ )T (Y − Xβ ) = Y T Y − 2 β T X T Y + β T X T Xβ ,
Capítulo 2 – O Modelo de Regressão Linear Clássico
19
~ em ordem a β , obtém-se
~ ~ ∇ϕ ( β ) = −2 X T Y + 2 X T X β , ~ ~ onde ∇ϕ ( β ) é o gradiente de ϕ em ordem a β (vector k × 1 das derivadas parciais). O minimizante b, que resulta da anulação do gradiente, verifica a seguinte igualdade: (2.15)
X T X b = X TY .
∑ n xt21 t =1 n ∑t =1 xt 2 xt1 T X X = M n x x ∑t =1 tk t1
Sem dificuldade se verifica que
∑ ∑ n
∑
t =1 t 1 t 2
x x
L
n 2 t =1 t 2
L
x
∑ ∑
M n
t =1 tk t 2
x x
L
x x n x x t =1 t 2 tk , M n 2 ∑t =1 xtk n
t =1 t1 tk
onde o elemento genérico desta matriz é Σtn=1 xti xtj (i, j = 1, 2, K , k ) , e ∑ n xt1 yt t =1 n x y ∑t =1 t 2 t , X TY = M n x y ∑t =1 tk t
onde o respectivo elemento genérico é Σtn=1 xtj yt ( j = 1, 2, K , k ) . No caso particular em que há termo independente, tem-se
∑
x =n,
n 2 t =1 t1
∑
x x = ∑t =1 xtj ( j = 2, K , k ) ,
n t =1 t 1 tj
n
∑
x y = ∑t =1 yt ,
n t =1 t 1 t
n
uma vez que xt1 = 1 (t = 1, 2, K , n) . Note-se que a igualdade (2.15) é um sistema de k equações lineares – as equações normais dos mínimos quadrados – nas k incógnitas b j ( j = 1, 2, K , k ) . Pode, então, escrever-se:
(2.16)
n 2 n n n ∑t =1 xt1 b1 + ∑t =1 xt1 xt 2 b2 + L + ∑t =1 xt1 xtk bk = ∑t =1 xt1 yt n n n 2 n ∑t =1 xt 2 xt1 b1 + ∑t =1 xt 2 b2 + L + ∑t =1 xt 2 xtk bk = ∑t =1 xt 2 yt L n b + n x x b + L + n x2 b = n x y . x x 1 ∑t =1 tk t 2 2 ∑t =1 tk k ∑t =1 tk t ∑ tk t 1 t 1 =
Supondo que existe a matriz inversa de X T X , a solução do sistema (2.15) fornece o estimador MQ:
Capítulo 2 – O Modelo de Regressão Linear Clássico
(2.17)
20
b1 b 2 M b = = ( X T X ) −1 X T Y , b j M bk
onde cada b j é o estimador MQ do respectivo β j ( j = 1, 2, K , k ) . ~ Trata-se, de facto, do minimizante absoluto de ϕ ( β ) , pois a matriz das segundas ~ derivadas (a hesseana), ∇ 2ϕ ( β ) = 2 X T X , é definida positiva. No anexo 2A é apresentado outro modo de obter o estimador MQ (a técnica “soma e subtrai”). Pode, também, utilizar-se o símbolo βˆMQ , em vez de b, para representar o estimador MQ de β . Recorrendo a algumas das hipóteses do MRLC, o vector β dos coeficientes de regressão pode ser determinado, de forma unívoca, exclusivamente à custa de momentos da população que envolvem apenas variáveis observáveis. Com efeito, sejam as seguintes condições: − Condição de ortogonalidade: E ( xtT•ut ) = 0 ; − Condição de característica: r (Qxx ) = k , onde Qxx = E ( xtT• xt • ) . Considerando a condição de ortogonalidade, e notando que ut = yt − xt • β , vem E{xtT• ( yt − xt • β )} = E ( xtT• yt ) − E ( xtT• xt • ) β = 0 ,
obtendo-se o sistema de k igualdades
E ( xtT• xt • ) β = E ( xtT• yt ) ,
que mostra a existência de um conjunto de k restrições sobre a distribuição conjunta de yt e xt • . Atendendo à condição de característica, sai, sem dificuldade, (2.18)
β = {E ( xtT• xt • )}−1 E ( xtT• yt ) = Qxx−1q xy ,
onde Qxx = E ( xtT• xt • ) e q xy = E ( xtT• yt ) . Deste modo, β é univocamente obtido a partir de valores esperados da população que envolvem apenas variáveis observáveis. Diz-se, então, que se identificou β [neste contexto, o problema da identificação do vector dos parâmetros consiste em conhecer uma única forma de exprimir este vector em função de momentos da população que envolvam apenas variáveis observáveis]. Vale a pena explorar o caso particular do modelo de regressão linear simples com termo independente: yt = β1 + β 2 xt + ut . As duas restrições são as seguintes: β1 + E ( xt ) β 2 = E ( yt ) 2 E ( xt ) β1 + E ( xt ) β 2 = E ( xt yt ) .
Daqui, obtém-se (2.19)
E ( xt yt ) − E ( xt ) E ( yt ) Cov( xt , yt ) = β 2 = Var( xt ) E ( xt2 ) − {E ( xt )}2 β = E ( y ) − β E ( x ) . 2 t t 1
Capítulo 2 – O Modelo de Regressão Linear Clássico
21
Uma vez identificado β , é possível encontrar outra via para determinar o respectivo estimador MQ, que consiste em substituir os valores esperados da população, Qxx e q xy , pelas respectivas médias amostrais:
S xx =
1 n T 1 n x x e s xy = ∑t =1 xtT• yt . ∑ t =1 t • t • n n
Assim, a contrapartida amostral de {E ( xtT• xt • )}−1 E ( xtT• yt ) = Qxx−1qxy é dada por
1 n T 1 n T x y = S xx−1sxy . ∑t =1 xt • xt • ∑ t =1 t • t n n −1
Como
∑
n
t =1
facilmente se verifica que
xtT• xt • = X T X e
∑
n
t =1
xtT• yt = X T Y ,
b = ( X T X ) −1 X T Y = S xx−1sxy .
Esta via de obtenção de b ilustra um princípio geral de obtenção de estimadores, conhecido pela designação de princípio da analogia, uma vez que se considera a contrapartida amostral de certos momentos da população. Neste caso, trata-se de uma aplicação do método dos momentos. A notação b = ( X T X ) −1 X T Y é mais adequada para o estudo das propriedades exactas do estimador b; a outra notação, b = S xx−1s xy , é mais interessante para estabelecer as respectivas propriedades assintóticas (ver capítulo 3). Notando que b = ( X T X ) −1 X T Y = ( X T X ) −1 X T ( Xβ + U ) = β + ( X T X ) −1 X T U ,
o desvio entre o estimador MQ e o verdadeiro valor do vector dos coeficientes de regressão é dado por (2.20)
b − β = ( X T X ) −1 X T U .
Este desvio, designado por erro de amostragem, nunca pode ser determinado de forma exacta porque β é desconhecido (U não é observável).
Exemplo 2.6 – Considerando de novo o exemplo 2.2, tem-se: 1000 12609 X T X = 11967 7256
12609 164983 150520 92005
11967 150520 165085 86177
6817.15962 5.815050 7256 92005 86283 . 13112 0 . 055383 . , X TY = , b= 86177 82060.65240 0.022988 76752 49573.99911 0.003953
Assim: − A estimativa MQ da semi-elasticidade (pontual) do salário em relação ao número de anos de escolaridade (retorno da educação) é igual a 0.0554, isto é, se a escolaridade aumentar de um ano, o salário cresce, ceteris paribus, aproximadamente 5.54%.
Capítulo 2 – O Modelo de Regressão Linear Clássico
22
− A estimativa MQ da semi-elasticidade (pontual) do salário em relação ao número de anos de experiência profissional é de 0.023. Assim, por cada ano de experiência, o efeito parcial sobre o salário é de mais 2.3%. − A estimativa MQ da semi-elasticidade (pontual) do salário em relação ao número de anos de trabalho no emprego corrente é de 0.004. Portanto, o respectivo efeito parcial é, aproximadamente, 0.4%. − Os sinais das três estimativas coincidem com os sinais esperados para os respectivos parâmetros. ∇ A seguir vai apresentar-se a fórmula do estimador MQ, (2.17), para alguns casos particulares: a) Modelo de regressão linear simples com termo independente: Como yt = β1 + β 2 xt + ut , tem-se
− −
n T X X = n x ∑t =1 t
(2.21)
n y x ∑ t , X T Y = n t =1 , x xy ∑t =1 t t
n t =1 t n 2 t =1 t
n x2 − n x ∑t =1 t . ∑t =1 t (X X ) = 2 n n n n n∑t =1 xt2 − ∑t =1 xt − ∑t =1 xt −1
T
Donde
ou
∑ ∑
1
b1 1 b= = 2 b2 n n n∑t =1 xt2 − ∑t =1 xt
n x2 − n x n y ∑t =1 t ∑t =1 t , ∑t =1 t n − n x y x n ∑t =1 t ∑t =1 t t
n n n n 2 x y x xy − ∑ ∑ ∑ ∑ t t t = = = =1 t t t t t t 1 1 1 b = , 1 2 n n 2 n∑t =1 xt − ∑t =1 xt n n n n ∑t =1 xt yt − ∑t =1 xt ∑t =1 yt b . = 2 2 n n 2 n∑t =1 xt − ∑t =1 xt
Fazendo
∑
y=
( xt − x ) 2 = ∑t =1 xt2 − n x 2 ,
facilmente se mostra que n
t =1
1 n 1 n yt e x = ∑t =1 xt , ∑ = t 1 n n
n
∑
n
t =1
( xt − x )( yt − y ) = ∑t =1 xt yt − n x y . n
Então, pode verificar-se que as fórmulas (2.21) são equivalentes às seguintes:
Capítulo 2 – O Modelo de Regressão Linear Clássico
(2.22)
onde s y2 =
23
n ( xt − x )( yt − y ) s xy sy ∑ t =1 b = = = r xy 2 n sx s x2 ( xt − x ) 2 ∑ t =1 b1 = y − b2 x ,
sxy 1 n 1 n 1 n 2 2 2 ( ) , ( ) , y y s x x s ( x x )( y y ) , − = − = − − r = . ∑ ∑ ∑ xy t x t xy t t n t =1 n t =1 n t =1 sx s y
De acordo com o princípio da analogia, (2.22) é a contrapartida amostral de (2.19). Note-se, também, que 1 x y . S xx = e sxy = n n x (1 / n)∑t =1 xt2 (1 / n)∑t =1 xt yt
b) Modelo de regressão linear simples sem termo independente: yt = β xt + ut . Tem-se 1 n n , X T X = ∑t =1 xt2 , X T Y = ∑t =1 xt yt , ( X T X ) −1 = n 2 x ∑t =1 t e (2.23)
b=
∑ ∑
n
t =1 t t n 2 t =1 t
xy
.
x
c) Modelo de regressão linear simples só com termo independente: yt = β + ut . Obtém-se 1 n X T X = n , X T Y = ∑t =1 yt , ( X T X ) −1 = n e (2.24)
b=
∑
n
t =1
n
yt
= y.
Verifica-se um resultado bem conhecido: o estimador MQ de E ( yt ) = β é a média das observações do regressando. Uma vez determinado o estimador MQ dos coeficientes de regressão, podem definir-se os respectivos resíduos e os valores ajustados das observações do regressando.
Definição 2.3 – Resíduos MQ e valores ajustados das observações do regressando O resíduo dos mínimos quadrados relativo à observação t é dado por (2.25)
uˆt = yt − yˆt ( t = 1, 2, K , n ),
onde yˆt = xt •b = b1 xt1 + b2 xt 2 + L + bk xtk é o valor ajustado da observação t do regressando.
Capítulo 2 – O Modelo de Regressão Linear Clássico
24
O vector n × 1 dos resíduos MQ e o vector n × 1 dos valores ajustados das observações do regressando são, respectivamente, yˆ1 uˆ1 uˆ yˆ 2 2 M M Uˆ = e Yˆ = = X b . uˆt yˆ t M M uˆ n yˆ n
É imediato concluir que Yˆ é o estimador do valor esperado de Y, condicionado por X: Yˆ = Eˆ (Y | X ) . Tem-se (2.26)
(2.27)
Uˆ = Y − Xb = Y − Yˆ .
É habitual chamar à função em que yˆ t depende dos x tj ( j = 1, 2, K , k ) , yˆ t = b1 xt1 + b2 xt 2 + L + bk xtk ,
função de regressão linear ajustada. Esta designação tem por finalidade salientar o facto de esta função ter sido estimada e, portanto, de ser conhecida por meio de um procedimento empírico. Não se deve confundir a função de regressão linear da população, µ ( xt • ) = xt • β , com a função de regressão linear ajustada (amostral), yˆ t = xt •b ; também não se deve confundir as variáveis residuais, ut , com os resíduos MQ, uˆt . Facilmente se conclui que se têm duas formas distintas de decompor yt : yt = µ ( xt • ) + ut e yt = yˆ t + uˆt . A primeira refere-se à população, e a segunda à amostra. O critério dos mínimos quadrados pode interpretar-se facilmente no caso do modelo de regressão linear, yt = β1 + β 2 xt + ut , onde a componente sistemática é dada por µ ( xt ) = β1 + β 2 xt . Esta componente é a função de regressão linear (recta teórica) desconhecida, uma vez que os coeficientes de regressão são desconhecidos. Quando se dispõe de n observações das duas variáveis do modelo, tem-se o respectivo diagrama de dispersão: {( yt , xt ) ∈ ℜ2 : t = 1,2, K , n } ,
que, por exemplo, corresponde à “nuvem” de pontos da figura 2.2. A função de regressão linear estimada pelo método MQ (recta estimada), yˆt = b1 + b2 xt , é aquela que “melhor” se ajusta à “nuvem” de pontos de ℜ 2 (ver figura 2.2). Assim, deve distinguir-se entre (ver figura 2.3): − O ponto [ xt , µ ( xt ) ], que se encontra sobre a recta teórica; − O ponto ( xt , yˆt ) , que está sobre a recta estimada; − O ponto ( xt , yt ) , que corresponde aos valores observados. Então:
Capítulo 2 – O Modelo de Regressão Linear Clássico
25
− yt − µ ( xt ) = ut é o valor da variável residual (não observável, uma vez que β1 e β 2 são desconhecidos); − yt − yˆt = uˆt é o resíduo MQ relativo à observação t.
Fig. 2.2 – Diagrama de dispersão.
y uˆ t
yt
0
u t
E (Y ) = β 1 + β 2 x yˆ = b1 + b2 x
xt
x
Fig. 2.3 – Rectas teórica e ajustada. Exemplo 2.7 – Retomando o exemplo 2.6, a respectiva função ajustada é a seguinte: lsalart = 5.81505 + 0.055383 educt + 0.022988 expert + 0.003953 empct . ^
Os vectores dos valores ajustados das observações do regressando e dos resíduos (os dois primeiros e os dois últimos) são, respectivamente,
Capítulo 2 – O Modelo de Regressão Linear Clássico
26
6.85855 0.67918 6.86923 − 0.55743 e Uˆ = . Yˆ = M M 6.78640 0.27268 6.83633 0.43881 8
7.5
7
6.5
6
5.5 0
10
20
30
40
50
Observado
60
70
80
90
100
Ajustado
Fig. 2.4 – Primeiras 100 observações de lsalar e respectivos valores ajustados. 1.5 1 0.5 0 -0.5 -1 -1.5 0
10
20
30
40
50
60
70
80
90
100
Resíduos
Fig. 2.5 – Primeiros 100 resíduos MQ. Na figura 2.4 apresenta-se o gráfico das observações do regressando (lsalar) e dos respectivos valores ajustados, para os primeiros 100 trabalhadores (como os dados são seccionais, a ordem dos trabalhadores que fazem parte da amostra é irrelevante). Na figura 2.5 pode ver-se a representação gráfica dos respectivos resíduos. O primeiro resíduo (0.67918) mostra que o modelo ajustado prevê, para o logaritmo do salário o valor 6.85855 que é inferior àquele que foi observado (7.53773). Como o segundo resíduo é negativo (– 0.55743), o valor previsto (6.86923) é superior ao valor observado (6.31180). ∇
Capítulo 2 – O Modelo de Regressão Linear Clássico
27
2.4 - Propriedades dos resíduos dos mínimos quadrados Esta secção destina-se a apresentar as propriedades dos resíduos MQ.
Propriedade 2.1 – A matriz PX = I n − X ( X T X ) −1 X T é simétrica ( PXT = PX ), idempotente ( PX PX = PX2 = PX ), e transforma as observações do regressando nos resíduos MQ, (2.28)
Uˆ = PX Y .
Demonstração: Com efeito, é imediato verificar que PX é simétrica e idempotente. Para verificar (2.28) faz-se Uˆ = Y − Xb = Y − X ( X T X ) −1 X T Y = {I n − X ( X T X ) −1 X T }Y = PX Y .
∇∇
Propriedade 2.2 – A matriz PX transforma as variáveis residuais nos resíduos MQ, (2.29)
Uˆ = PX U .
Demonstração: Com efeito,
Uˆ = PX Y = PX ( Xβ + U ) = PX Xβ + PX U .
Como PX X = {I n − X ( X T X ) −1 X T } X = O (matriz nula), obtém-se o resultado pretendido. ∇∇ As duas propriedades anteriores permitem obter o vector Uˆ a partir do vector Y, ou do vector U, pré-multiplicando estes vectores pela matriz simétrica, idempotente, PX . Na demonstração da propriedade 2.2 provou-se, também, que PX X = O .
Propriedade 2.3 - A matriz H X = X ( X T X ) −1 X T = I n − PX é simétrica, idempotente, verifica H X PX = O e transforma as observações do regressando nos respectivos valores ajustados, (2.30)
Yˆ = H X Y .
Demonstração: Facilmente se verifica que H X = H XT e H X = H X2 , ficando provado que H X é simétrica e idempotente. É imediato concluir que H X = I n − PX e H X PX = O . Para demonstrar (2.30), basta notar que
Yˆ = Xb = X ( X T X ) −1 X T Y = H X Y .
∇∇
A propriedade anterior mostra que pode obter-se o vector Yˆ à custa do vector Y, pré-multiplicando este vector pela matriz simétrica, idempotente, H X . Facilmente se mostra que H X X = X .
Capítulo 2 – O Modelo de Regressão Linear Clássico
28
As matrizes H X e PX = I n − H X desempenham um papel fundamental na álgebra dos mínimos quadrados. Como estas matrizes são simétricas e idempotente, e como tr ( H X ) = tr{ X ( X T X ) −1 X T } = tr{ X T X ( X T X ) −1} = tr ( I k ) = k ,
pode concluir-se que:
r ( H X ) = tr ( H X ) = k e r ( PX ) = tr ( PX ) = tr ( I n ) − tr ( H X ) = n − k .
ht = xt • ( X T X ) −1 xtT• e pt = 1 − ht (t = 1, 2, K , n)
Sejam
os elementos da diagonal principal das matrizes H X e PX , respectivamente. Conclui-se imediatamente que 0 ≤ ht ≤ 1 e 0 ≤ pt ≤ 1 . Também se tem tr ( H X ) = ∑t =1 ht = k , tr ( PX ) = ∑t =1 pt = n − k e n
n
∑
∑
h + ∑t =1 pt = n . t =1 t n
n
Propriedade 2.4 – A soma dos quadrados dos resíduos MQ é (2.31)
n
t =1
uˆt2 = Uˆ T Uˆ = Y T PX Y = U T PX U .
Demonstração: Com efeito,
Uˆ T Uˆ = Y T PXT PX Y = Y T PX2Y = Y T PX Y .
Da mesma forma se demonstra que Uˆ T Uˆ = U T PX U .
∇∇
Note-se que Uˆ TUˆ = Y T PX Y = Y T {I − X ( X T X ) −1 X T }Y é o mínimo absoluto de ~ ϕ ( β ) [soma dos quadrados dos resíduos].
Propriedade 2.5 – O valor esperado da soma dos quadrados dos resíduos MQ, condicionado por X, é dado por (2.32)
n E ∑t =1 uˆt2 | X = E (Uˆ TUˆ | X ) = (n − k )σ 2 .
Demonstração: Com efeito, notando que tr ( PX ) = n − k , tem-se
E (Uˆ TUˆ | X ) = E (U T PX U | X ) = E{tr (U T PX U ) | X } = E{tr ( PX UU T ) | X }
= tr{E ( PX UU T | X )} = tr{PX E (UU T | X )} = σ 2 tr ( PX ) = (n − k )σ 2 .
Facilmente se verifica que
n E ∑t =1 ut2 | X = E (U TU | X ) = nσ 2 .
∇∇
Capítulo 2 – O Modelo de Regressão Linear Clássico
29
Intuitivamente, o valor esperado condicionado de (2.32) não é nσ 2 , como acontece com a soma dos quadrados dos ut , mas sim (n − k )σ 2 , porque houve a necessidade de estimar previamente os k coeficientes de regressão. Também se conclui que: E (Uˆ T Uˆ ) = (n − k )σ 2 .
Propriedade 2.6 – A soma dos quadrados dos valores ajustados das observações do regressando é (2.33)
∑
Yˆ = Yˆ T Yˆ = Y T H X Y .
n 2 t =1 t
Demonstração: Com efeito,
Yˆ T Yˆ = Y T H TX H X Y = Y T H X2 Y = Y T H X Y .
∇∇
n X TUˆ = 0 ⇔ ∑t =1 xtj uˆt = 0 ( j = 1, 2,K , k ) .
Propriedade 2.7 – O vector dos resíduos MQ é ortogonal aos regressores, (2.34)
Demonstração: Com efeito, X TUˆ = X T PX U = 0 , uma vez que X T PX = O .
∇∇
A relação X TUˆ = 0 constitui um sistema homogéneo de k equações independentes nas n incógnitas uˆ1 , uˆ 2 , K , uˆ n . O grau de indeterminação deste sistema é n − k , o número de graus de liberdade do modelo. Isto significa que os resíduos MQ estão sujeitos a k restrições lineares, e, portanto, apenas n − k podem variar livremente. Dados n − k valores para os resíduos, os outros k valores podem ser calculados resolvendo o sistema X TUˆ = 0 . O resultado (2.34) também podia ser obtido imediatamente a partir das equações normais. Com efeito, X T X b = X T Y implica que X T (Y − X b) = X TUˆ = 0 [obviamente, o mesmo resultado podia ser obtido a partir das k igualdades (2.16)]. Como 1 n X TUˆ = 0 ⇔ ∑t =1 xt •uˆt = 0 , n facilmente se conclui que as equações normais podem ser interpretadas como a contrapartida amostral (empírica) das condições de ortogonalidade, E ( xt •ut ) = 0 .
Propriedade 2.8 – O vector dos resíduos MQ é ortogonal a Yˆ , (2.35)
n Uˆ T Yˆ = Yˆ T Uˆ = 0 ⇔ ∑t =1 uˆt yˆ t = 0 .
Demonstração: Com efeito, devido a (2.34), tem-se Uˆ T X = 0 . Logo,
Yˆ TUˆ = Uˆ T Yˆ = Uˆ T X b = 0 .
∇∇
Capítulo 2 – O Modelo de Regressão Linear Clássico
30
O resultado (2.35) também se pode provar a partir das propriedades 2.1 e 2.3. Com efeito, basta notar que Uˆ T Yˆ = Yˆ TUˆ = Y T H X PX Y = 0 .
Propriedade 2.9 - Se o modelo tem termo independente, então a soma dos resíduos MQ é igual a zero: (2.36)
∑
n
t =1
uˆt = 0 .
Demonstração: Com efeito, como a primeira coluna de X é x•1 = e = [ 1 1 L 1 ] T , e sabendo que X TUˆ = 0 , obtém-se n x•T1Uˆ = 0 ⇔ eT Uˆ = 0 ⇔ ∑t =1 uˆt = 0 .
∇∇
Esta propriedade é a contrapartida amostral de E (ut ) = 0 . Quando o modelo não tem termo independente, a soma dos resíduos MQ, em geral, não é nula. O resultado (2.36) pode demonstrar-se directamente a partir da primeira igualdade de (2.16), fazendo xt1 = 1. Com efeito, tem-se
∑
uˆ = ∑t =1{ yt − (b1 + b2 xt 2 + b3 xt 3 + L + bk xtk )}
n t =1 t
n
= ∑t =1 yt − n b1 − b2 ∑t =1 xt 2 − b3 ∑t =1 xt 3 − L − bk ∑t =1 xtk = 0 . n
n
n
n
Sabendo que yt = yˆ t + uˆt , e utilizando a propriedade 2.9, verifica-se imediatamente que n n ∑t =1 yˆ t = ∑t =1 yt .
e, portanto, y = yˆ (a média das observações do regressando é igual à média dos respectivos valores estimados). Também se conclui sem dificuldade que y = x b , onde x = [ 1 x2 L xk ] é o vector das médias das observações dos regressores (quando x = x , o valor previsto de y é y ). Deste modo, o ponto ( y , x2 , x3 , K , xk ) [centro de gravidade da “nuvem” de pontos; ver figura 2.2] verifica a função de regressão ajustada, (2.27). De facto, como yt = b1 + b2 xt 2 + b3 xt 3 + L + bk xtk + uˆt ( t = 1, 2, K , n ),
vem
∑
n
i =1
yt = n b1 + b2 ∑t =1 xt 2 + b3 ∑t =1 xt 3 + L + bk ∑t =1 xt 3 + ∑t =1 uˆt n
n
ou, devido a (2.36), y = b1 + b2 x2 + b3 x3 + L + bk xk . Como n n ∑t =1 xtj uˆt = ∑t =1 ( xtj − x j ) uˆt ,
n
n
Capítulo 2 – O Modelo de Regressão Linear Clássico
31
resulta da propriedade 2.7 que a covariância amostral entre xtj e uˆt é nula. Como n n ∑t =1 uˆt yˆ t = ∑t =1 uˆt ( yˆ t − y ) , tem-se, devido à propriedade 2.8, que a covariância amostral entre uˆt e yˆ t é nula.
Propriedade 2.10 – A soma dos quadrados das observações do regressando é igual à soma dos quadrados dos respectivos valores ajustados mais a soma dos quadrados dos resíduos MQ, (2.37)
∑
n
t =1
n n yt2 = ∑t =1 yˆ t2 + ∑t =1 uˆt2 ⇔ Y T Y = Yˆ T Yˆ + Uˆ T Uˆ .
Demonstração: Com efeito, notando que Y = Yˆ + Uˆ , tem-se
Y T Y = (Yˆ + Uˆ )T (Yˆ + Uˆ ) = Yˆ T Yˆ + 2 Uˆ T Yˆ + Uˆ T Uˆ .
Então, devido à propriedade 2.8, obtém-se o resultado pretendido.
∇∇
Notando que Uˆ = PX U , conclui-se imediatamente que
E (Uˆ | X ) = E (Uˆ ) = 0 e Cov(Uˆ | X ) = σ 2 PX .
Como a matriz PX é semidefinida positiva (o determinante é nulo), a distribuição conjunta dos resíduos MQ, condicionada por X, é degenerada (a matriz das covariâncias de Uˆ , condicionadas por X, é singular). No anexo 2A aprofunda-se a interpretação geométrica do método dos mínimos quadrados.
2.5 - Propriedades do estimador dos mínimos quadrados dos coeficientes de regressão Nesta secção vão apresentar-se algumas das propriedades mais importantes do estimador b (estimador MQ de β ): não enviesamento, linearidade e eficiência. Estas propriedades costumam designar-se por propriedades exactas, uma vez que são verdadeiras, qualquer que seja o número n de observações. Diz-se, também, que são propriedades para pequenas amostras ou para amostras de dimensão finita.
Propriedade 2.11 – O estimador MQ de β , b, condicionado ou não por X, é não enviesado ou centrado. Assim, (2.38) e (2.39)
E (b | X ) = β ,
E (b) = β .
Capítulo 2 – O Modelo de Regressão Linear Clássico
32
Demonstração: Com efeito, notando que b = ( X T X ) −1 X T Y e que E (Y | X ) = Xβ , tem-se
E (b | X ) = ( X T X ) −1 X T E (Y | X ) = ( X T X ) −1 X T Xβ = β .
Imediatamente se conclui que E (b) = E{E (b | X )} = β .
∇∇
A propriedade (2.38) significa que, se fosse possível obter muitas observações particulares do vector Y, para a mesma matriz X, obtinham-se outras tantas estimativas b, que, em média, tenderiam para o verdadeiro valor do vector dos coeficientes, β . Pode, então, afirmar-se que o não enviesamento de b garante que este estimador é “correcto em média”. Contudo, para a amostra observada, a estimativa obtida, b, não coincide, em geral, com o verdadeiro valor de β . O maior ou menor afastamento entre b e β depende da amostra. O resultado (2.39) pode ser interpretado do seguinte modo: se calcular-se b para todas as amostras possíveis (Y , X ) – variando não só Y, mas também X –, a média dos valores calculados seria o verdadeiro valor do vector β . Esta conclusão, porventura, é mais interessante para a Economia do que (2.38), porque as amostras diferem em Y, e em X.
Propriedade 2.12 – O estimador b, condicionado por X, é linear em Y.
Demonstração: Com efeito, basta notar que b = AY , onde A = ( X T X ) −1 X T , ficando a linearidade garantida porque a matriz A é fixada. ∇∇
Facilmente se encontra um exemplo de estimador de β , linear e não enviesado, diferente do estimador b. Seja o modelo de regressão linear, yt = β1 + β 2 xt + ut . Considerando a amostra {( yt , xt ) : t = 1, 2, K , n} , propõe-se o seguinte estimador de β 2 :
βˆ2 =
y2 − y1 . x2 − x1
Este estimador é manifestamente linear em y1 , y 2 , K , yn . Com efeito, basta notar ˆ que β 2 = a1 y1 + a2 y2 + L + an yn , onde a1 = −
1 1 , a2 = , a3 = 0 , ..., an = 0 . x2 − x1 x2 − x1
Como y2 − y1 = β 2 ( x2 − x1 ) + (u2 − u1 ) , tem-se
βˆ2 = β 2 +
u2 − u1 ⇒ E ( βˆ2 | x1 , x2 , K , xn ) = β 2 , x2 − x1
provando-se, assim, que o estimador é não enviesado.
Capítulo 2 – O Modelo de Regressão Linear Clássico
33
Para se ter linearidade, é indispensável supor que a matriz X é dada. Caso contrário, a matriz A é estocástica e o estimador não é linear. Como vai ver-se, há muitos estimadores que não são lineares. A propriedade seguinte vai permitir conhecer as expressões da variância de b j ( j = 1, 2, K, k ) , e da covariância entre bi e b j (i, j = 1, 2, K , k ; i ≠ j ) , todas condicionadas por X. Vai determinar-se a matriz das covariâncias de b condicionada por X, Var (b1 | X ) Cov(b1 , b2 | X ) L Cov(b1 , bk | X ) Cov(b2 , b1 | X ) Var (b2 | X ) L Cov(b2 , bk | X ) Cov(b | X ) = . M M M Cov(bk , b1 | X ) Cov(bk , b2 | X ) L Var (bk | X )
Propriedade 2.13 – A matriz das covariâncias de b, condicionada por X, é (2.40)
Cov(b | X ) = σ 2 ( X T X ) −1 .
Demonstração: Com efeito,
Cov(b | X ) = Cov{( X T X ) −1 X T Y | X }
= ( X T X ) −1 X T Cov(Y | X ) X ( X T X ) −1 = σ 2 ( X T X ) −1 ,
pois Cov( AY | X ) = A Cov(Y | X ) AT e Cov(Y | X ) = σ 2 I .
∇∇
Quando se está interessado apenas num coeficiente de regressão, β j , a propriedade 2.13 permite escrever (2.41)
Var(b j | X ) = σ b2j = σ 2 m jj ( j = 1, 2, K , k ) ,
onde m jj é o elemento diagonal de ordem j da matriz ( X T X ) −1 . Dada a matriz X, Cov(b | X ) traduz a dispersão ou variabilidade média do estimador b, e, portanto, fornece uma base para a comparação do desempenho do estimador MQ de β com outros estimadores. Notando que Cov(b) = E{Cov(b | X )} + Cov{E (b | X )} [propriedade k) dos valores esperados condicionados], e que a matriz das covariâncias de um vector constante é nula, tem-se Cov(b) = σ 2 E{( X T X ) −1} . Verifica-se, assim, que a matriz das covariâncias não condicionadas de b só pode ser descrita em termos do comportamento médio de ( X T X ) −1 . No caso particular do modelo de regressão linear simples com termo independente, yt = β1 + β 2 xt + ut , tem-se,
Capítulo 2 – O Modelo de Regressão Linear Clássico
(2.42)
34
n x2 ∑ 2 t =1 t = b X Var ( | ) , σ 1 2 n n 2 n∑t =1 xt − ∑t =1 xt n 2 , Var (b2 | X ) = σ 2 n n 2 n∑t =1 xt − ∑t =1 xt n ∑t =1 xt 2 . Cov(b1 , b2 | X ) = −σ 2 n n 2 n∑t =1 xt − ∑t =1 xt
Neste caso, a variância de b2 , condicionada por X, pode também ser apresentada do seguinte modo: (2.43)
Var (b2 | X ) =
σ2
∑t =1 ( xt − x )2 n
=
σ2
n sx2
.
Este resultado mostra que a precisão na estimação de β 2 é tanto maior quanto menor for a variância das variáveis residuais (medida por σ 2 ) e quanto maior for a dispersão das observações do regressor xt [medida por Σ ( xt − x ) 2 ]. No modelo de regressão linear simples sem termo independente, yt = β xt + ut , obtém-se (2.44)
Var(b | X ) =
σ2
∑
n
x2 t =1 t
.
No caso do modelo só com termo independente, yt = β + ut , tem-se Var (b) =
σ2 n
,
resultado já conhecido da estatística clássica. A seguir, vai estudar-se a propriedade da eficiência.
Propriedade 2.14 – Qualquer que seja o estimador βˆ de β , linear e não enviesado, a matriz Cov( βˆ | X ) − Cov(b | X ) é semidefinida positiva.
Demonstração: Com efeito, seja C uma matriz k × n , função de X. Considere-se o estimador de β , βˆ = CY , e suponha-se que este estimador é linear em Y (condicionado por X), e que E ( βˆ | X ) = β . Sem perda de generalidade, pode fazer-se
C = ( X T X ) −1 X T + D ,
Capítulo 2 – O Modelo de Regressão Linear Clássico
35
onde D é função de X. Como
E ( βˆ | X ) = C E (Y | X ) = {( X T X ) −1 X T + D} Xβ = β + DXβ , E ( βˆ | X ) = β ⇔ DX = O .
conclui-se que Donde
Cov( βˆ | X ) = C Cov(Y | X ) C T = σ 2{( X T X ) −1 X T + D}{ X ( X T X ) −1 + DT } = σ 2{( X T X ) −1 + ( X T X ) −1 X T DT + DX ( X T X ) −1 + DDT }
= σ 2{( X T X ) −1 + DDT } ,
pois DX = O . Então,
Cov( βˆ | X ) − Cov(b | X ) = σ 2 DDT .
Como DDT é semidefinida positiva, fica provado que Cov( βˆ | X ) − Cov(b | X ) é semidefinida positiva. ∇∇ Esta propriedade garante que b é, condicionado por X, o estimador mais eficiente na classe dos estimadores lineares não enviesados. Diz-se, então, que b é BLUE (utilizando a sigla da expressão Best Linear Unbiased Estimator). Este resultado é conhecido por teorema de Gauss-Markov, e significa que, se a classe dos estimadores possíveis for restringida à dos estimadores lineares não enviesados, então o estimador MQ de β é aquele que apresenta melhor desempenho amostral, com base no critério da minimização da dispersão. Uma consequência importante da propriedade 2.14 é que a variância de cada b j ( j = 1, 2, K, k ) é menor ou igual à variância do respectivo βˆ j (qualquer estimador de β j , linear e não enviesado), supondo que ambas as variâncias são condicionadas por X: Var(b j | X ) ≤ Var( βˆ j | X ) .
Pode demonstrar-se um resultado semelhante ao da propriedade 2.14, utilizando as matrizes das covariâncias não condicionadas. Vai, então, provar-se que Cov( βˆ ) − Cov(b)
é semidefinida positiva, quando βˆ está nas mesmas condições da propriedade 2.14. Com efeito, como Cov( βˆ ) = E{Cov( βˆ | X )} = σ 2 E{( X T X ) −1 + DDT }, Cov(b) = E{Cov(b | X )} = σ 2 E{( X T X ) −1},
tem-se que é semidefinida positiva.
Cov( βˆ ) − Cov(b) = σ 2 E ( DD T ) ,
Capítulo 2 – O Modelo de Regressão Linear Clássico
36
Facilmente se propõe um estimador de β , linear e enviesado, com matriz de covariâncias condicionadas “inferior” à do estimador b. Com efeito, basta considerar βˆ = β 0 ≠ β . Este estimador apresenta as seguintes características: é trivialmente linear em Y; é enviesado, uma vez que E ( βˆ | X ) = β 0 ≠ β e Cov( βˆ | X ) = O . Evidentemente, a questão da escolha dos “melhores” estimadores é mais complexa do que a análise feita pode dar a entender. Com efeito, podem propor-se outros critérios de escolha, e ou podem considerar-se classes de estimadores mais amplas ou mais restritas do que a classe dos estimadores lineares não enviesados. Por exemplo, se a classe de estimadores considerada admitir estimadores enviesados, o critério de escolha pode ser o da minimização do erro quadrático médio. É curioso notar que, em algumas situações, o estimador MQ ainda pode ser o “melhor” estimador, tendo por base critérios diferentes daquele que conduziu ao estimador BLUE. Este assunto é retomado mais adiante, a propósito dos estimadores de máxima verosimilhança. Pode demonstrar-se que Cov(b, Uˆ | X ) = O ,
onde O é a matriz nula de tipo k × n . Com efeito, como E (b | X ) = β e E (Uˆ | X ) = 0 , tem-se Cov(b, Uˆ | X ) = E{(b − β ) Uˆ T | X } . Notando que b − β = ( X T X ) −1 X T U e Uˆ = PX U , vem
Cov(b, Uˆ | X ) = E{( X T X ) −1 X TU U T PX | X } = σ 2 ( X T X ) −1 X T PX = O ,
uma vez que X T PX = O . Quando δ = Rβ , onde R é uma matriz m × k , e δ , um vector m × 1 , têm-se m combinações lineares dos coeficientes de regressão, δ 1 = r11 β1 + r12 β 2 + L + r1k β k δ = r β + r β + L + r β 2 21 1 22 2 2k k L δ m = rm1 β1 + rm 2 β 2 + L + rmk β k .
Sem dificuldade se demonstra que, condicionado por X, o estimador BLUE de ˆ δ é δ = Rb , onde b é o estimador MQ de β . Neste caso, o erro de amostragem é dado por δˆ − δ = R( X T X ) −1 X TU . Tem-se (2.45)
Cov(δˆ | X ) = σ 2 R( X T X ) −1 RT .
Com efeito,
Cov(δˆ | X ) = Cov( Rb | X ) = R Cov(b | X ) RT = σ 2 R( X T X ) −1 RT .
Por exemplo, se k = 5 e
Capítulo 2 – O Modelo de Regressão Linear Clássico
37
δ1 = 2 β 2 − β 4 δ 2 = β3 + β5 ,
tem-se
0 2 0 − 1 R= 0 0 1 0 Então,
δ1 0 e δ = . δ 2 1
δˆ1 = 2b2 − b4 δˆ2 = b3 + b5 .
O cálculo das respectivas variâncias e covariância condicionadas por X é imediato. Obtém-se: Var (δˆ1 | X ) = Var (2b2 − b4 | X ) = 4 Var (b2 | X ) + Var (b4 | X ) − 4 Cov(b2 , b4 | X ) ,
Var (δˆ2 | X ) = Var(b3 + b5 | X ) = Var (b3 | X ) + Var (b5 | X ) + 2 Cov(b3 , b5 | X ) ,
Cov(δˆ1 , δˆ2 | X ) = Cov(2b2 − b4 , b3 + b5 | X )
= 2 Cov(b2 , b3 | X ) + 2 Cov(b2 , b5 | X ) − Cov(b4 , b3 | X ) − Cov(b4 , b5 | X ).
Apresenta-se, a seguir, um resultado muito importante que permite uma sugestiva interpretação dos estimadores MQ dos coeficientes de regressão (para mais pormenores, ver no anexo 2A, a subsecção “Regressão por blocos”). Seja β X = [X 1 X 2 ] e β = •1 , β •2 onde: − X 1 é a matriz n × k1 dos primeiros k1 regressores; − X 2 é a matriz n × k2 dos últimos k2 regressores; − k1 + k2 = k ; − β •1 e β •2 são os respectivos vectores dos coeficientes de regressão. Então, a relação Y = Xβ + U pode escrever-se da seguinte maneira: Y = X 1 β •1 + X 2 β •2 + U .
Vai provar-se que
b•1 = ( X 1T P2 X 1 ) −1 X 1T P2 Y , b• 2 = ( X 2T P1 X 2 ) −1 X 2T P1Y ,
onde P1 = I n − X 1 ( X 1T X 1 ) −1 X 1T e P2 = I n − X 2 ( X 2T X 2 ) −1 X 2T . Com efeito, a partir das equações normais, X T X b = X T Y , obtém-se X 1T X 1b•1 + X 1T X 2b• 2 = X 1T Y T T T X 2 X 1b•1 + X 2 X 2b• 2 = X 2 Y .
Capítulo 2 – O Modelo de Regressão Linear Clássico
38
Resolvendo a primeira igualdade em relação a b•1 ,
b•1 = ( X 1T X 1 ) −1 ( X 1T Y − X 1T X 2b•2 ) ,
e substituindo na segunda, vem
X 2T X 1 ( X 1T X 1 ) −1 ( X 1T Y − X 1T X 2b•2 ) + X 2T X 2b•2 = X 2T Y ,
X 2T X 2b•2 − X 2T X 1 ( X 1T X 1 ) −1 X 1T X 2b•2 = X 2T Y − X 2T X 1 ( X 1T X 1 ) −1 X 1T Y ,
ou
X 2T P1 X 2b• 2 = X 2T P1Y ,
ou ainda
obtendo-se o resultado pretendido. Da mesma forma se tem o estimador b•1 (no anexo 2A deduzem-se estes resultados utilizando a técnica da inversão de matrizes por blocos). Suponha-se que se pretende estimar o efeito ceteris paribus de X 2 sobre Y (isto é, expurgado das eventuais influências de X 1 ). Para isso, considerem-se as seguintes regressões: ~ ~ a) Y = X 1b•′1 + Y 1 , onde Y 1 = P1Y é o vector dos resíduos; ~ ~ b) X 2 = X 1B1 + X 2 , onde X 2 = P1 X 2 é a matriz dos resíduos destas k2 regressões ( B1 é matriz k1 × k2 ); ~ ~ c) Y 1 = X b∗ + Uˆ 1 . 2 •2
Assim: − A regressão a) permite obter as observações do regressando expurgadas da influência ~ de X 1 (estes valores são os respectivos resíduos, Y 1 ). ~ − A regressão b) procura determinar X 2 “purificado” da influência de X 1 , isto é, X 2 . − Em c) faz-se a regressão dos resíduos obtidos em a) sobre os resíduos resultantes de b). Obtém-se ~ ~ ~ ~ b•∗2 = ( X 2T X 2 ) −1 X 2T Y 1 . Facilmente se prova que b•∗2 = b•2 (ver anexo 2A). Com efeito, basta notar que ~ ~ ~ ~ b•∗2 = ( X 2T X 2 ) −1 X 2T Y 1 = ( X 2T P1 X 2 ) −1 X 2T P1Y = b• 2 . Este resultado é conhecido pela designação de teorema de Frisch-Waugh-Lovell (FWL), e tem a seguinte interpretação: a estimativa do efeito ceteris paribus de X 2 sobre Y (isto é, expurgado das eventuais influências de X 1 ) é dada por b•2 , e obtém-se fazendo a regressão de Y sobre X 1 e X 2 ; esta estimativa não acusa a influência dos regressores considerados em X 1 desde que tais regressores sejam explicitados no modelo. Esta interpretação é simples numa situação com dois regressores. Assim, suponha-se que se procura conhecer o efeito de xt 2 sobre yt , sabendo que tanto xt 2 como yt são influenciados por xt 3 . Se adoptar-se o modelo yt = α1 + α 2 xt 2 + vt , o parâmetro α 2 não mede o efeito pretendido, porque aquela influência comum “perturba” a relação
Capítulo 2 – O Modelo de Regressão Linear Clássico
39
entre xt 2 e yt (o regressor omisso, xt 3 , está incluído na variável residual, vt ). A estimativa do efeito “puro” pretendido pode ser conseguida depois de eliminar o efeito do regressor “perturbador”. Para isso, vão fazer-se duas regressões MQ: a regressão de yt sobre 1 e xt 3 ; a regressão de xt 2 sobre 1 e xt 3 . Os resíduos da primeira regressão, ~ yt , representam yt “expurgado” da influência de xt 3 (e do termo independente); os resíduos da segunda regressão, ~ xt 2 , representam xt 2 “expurgado” da influência de xt 3 (e do termo independente). A estimativa do efeito parcial (ceteris paribus) pretendido é, então, obtida fazendo uma terceira regressão MQ, de ~ yt sobre ~ xt 2 (sem termo independente). Considerando o modelo yt = β1 + β 2 xt 2 + β3 xt 3 + ut , o efeito parcial xt 2 sobre yt pode ser estimado com o yˆt = b1 + b2 xt 2 + b3 xt 3 . O valor de b2 é uma estimativa daquele efeito “puro”, não sendo necessário obter previamente os resíduos resultantes da correcção da influência de xt 3 , e proceder em seguida à regressão com os resíduos. Uma situação interessante que ilustra bem aquela interpretação é a seguinte: admita-se que é proposto o modelo, com dados temporais, yt = β1 + β 2 xt + ut , mas sabe-se que, tanto o regressando, yt , como o regressor, xt , têm uma tendência linear. Nestas condições, a estimativa MQ de β 2 mede o efeito de xt sobre yt influenciado pela tendência. Então, para obter uma estimativa de β 2 expurgada da tendência, é mais adequado considerar o modelo yt = β1 + β 2 xt + β 3 t + ut , onde se explicitou o regressor t.
Exemplo 2.8 – Quando se faz a regressão MQ de lsalar sobre 1, educ, exper e empc, obtém-se a estimativa do coeficiente de educ: 0.055383. Este valor é também obtido fazendo três regressões. A primeira, é a regressão de lsalar sobre 1, exper e empc, onde os respectivos resíduos representam os logaritmos dos salários expurgados da influência das variáveis consideradas na regressão. A segunda tem por objectivo obter os valores de educ expurgados da influência das mesmas variáveis. Para isso, basta fazer a regressão MQ de educ sobre 1, exper e empc, e considerar os respectivos resíduos. A terceira, consiste em fazer a regressão MQ dos resíduos obtidos com a primeira regressão sobre os resíduos dados pela segunda regressão (sem termo independente). Pode verificar-se que a estimativa do coeficiente dos segundos resíduos é ainda 0.055383. Os cálculos ficam ao cuidado do leitor. ∇ 2.6 - Estimador não enviesado da variância das variáveis residuais Como σ 2 = E (ut2 ) – recorde-se que Var(ut2 ) = σ 2 e E (ut ) = 0 –, um estimador “natural” (não enviesado) de σ 2 seria U TU σˆ = = n 2
uma vez que
E (σˆ 2 ) =
∑
n 2 t =1 t
u
n
,
1 n 2 1 n E u = E (ut2 ) = σ 2 . n ∑t =1 t n ∑t =1
Capítulo 2 – O Modelo de Regressão Linear Clássico
40
Como ut não é observável, vai propor-se um estimador não enviesado de σ 2 , usando os resíduos MQ, uˆt , em vez de ut ( uˆt é observável porque se substitui cada β j pelo respectivo b j ). Assim, com base na propriedade 2.5 dos resíduos MQ, tem-se: 2 Uˆ TUˆ ∑t =1 uˆt = . s = n−k n−k n
(2.46)
2
Evidentemente, este estimador, condicionado por X, é não enviesado, (2.47)
E (s 2 | X ) = σ 2 .
Com algum abuso de linguagem, pode dizer-se que s 2 é o estimador MQ de σ 2 . A justificação desta afirmação pouco rigorosa pode encontrar-se no facto de s 2 ser calculado utilizando a soma dos quadrados dos resíduos MQ. Note-se que s 2 é uma forma quadrática em Y (e em U), porquanto Uˆ T Uˆ = Y T PX Y = U T PX U . Facilmente se verifica que o valor esperado marginal de s 2 é ainda σ 2 , E ( s 2 ) = E{E ( s 2 | X )} = σ 2 .
É habitual designar s por erro padrão da regressão. Note-se que s pode crescer ou decrescer quando mais um regressor é acrescentado ao modelo (para a mesma amostra). De facto, a presença do novo regressor provoca uma diminuição do numerador de (2.46) (da soma dos quadrados dos resíduos MQ), mas também uma diminuição do denominador (dos graus de liberdade); não é possível saber, a priori, qual é o efeito que prevalece. O estimador não enviesado da matriz das covariâncias de b, condicionada por X, é Cov(b | X ) = s 2 ( X T X ) −1 . ^
(2.48)
Assim, Var (b j | X ) = sb2j = s 2 m jj , ^
(2.49)
é o estimador da variância condicionada de b j . É habitual designar sb j por erro padrão de b j . Pode verificar-se que o estimador não enviesado de Cov(b) é ainda Cov(b) = s 2 ( X T X ) −1 . ^
Com efeito,
E{s 2 ( X T X ) −1} = E{E ( s 2 ( X T X ) −1 | X )} = E{σ 2 ( X T X ) −1} = σ 2 E{( X T X ) −1} = Cov(b) .
∑
Exemplo 2.9 – Em relação ao exemplo que está a servir de ilustração, tem-se n
uˆ = 140.445 e s 2 = 0.141 .
2 t =1 t
O erro padrão da regressão é, então, s = 0.3755 . Tem-se
Capítulo 2 – O Modelo de Regressão Linear Clássico
41
0.0051795 − 0.0002984 − 0.0000834 − 0.0000384 ^ − 0.0002984 0.0000236 0.0000004 − 0.0000005 Cov(b | X ) = . − 0.0000834 0.0000004 0.0000065 0.0000002 − 0.0000384 − 0.0000005 0.0000002 0.0000059 Assim, por exemplo,
Cov(b2 , b4 | X ) = −0.0000005 . ^
Os erros padrão dos estimadores MQ dos b j são, respectivamente:
sb1 = 0.071968 , sb2 = 0.004856 , sb3 = 0.002541 e sb4 = 0.002422 .
∇
No anexo 2B faz-se o estudo do método dos mínimos quadrados no MRLC quando se consideram variáveis centradas (as observações de cada variável são subtraídas da respectiva média amostral). Embora este tópico tenha perdido muito do seu interesse devido às possibilidades proporcionadas pelos meios computacionais modernos, alguns dos resultados obtidos ainda podem ser úteis para facilitar a compreensão e a demonstração de outros resultados.
2.7 - Coeficiente de determinação Suponha-se que pretende explicar-se o comportamento de um regressando, yt , em função de certos regressores. Dispondo de uma amostra de dimensão n, estimados os parâmetros com base num determinado método, obtêm-se os valores ajustados, yˆ t , das observações do regressando. Por exemplo, no MRLC tem-se, utilizando o método MQ, b = ( X T X ) −1 X T Y e Yˆ = X b . Quando se admite que são válidas as hipóteses do modelo, uma forma grosseira de avaliar a adequabilidade do modelo aos dados consiste em dispor de um indicador que permita medir o “grau de ajustamento” entre os yt e os yˆ t ( t = 1, 2, K , n ). O indicador habitualmente proposto é o coeficiente de correlação (empírico) entre as observações do regressando, yt , e os respectivos valores ajustados, yˆ t . Pode, então, apresentar-se a definição de coeficiente de determinação.
Definição 1.4 – Coeficiente de determinação O coeficiente de determinação é o quadrado do coeficiente de correlação empírico entre os yt e os yˆ t ( t = 1,2, K , n ), n ( y − y ) ( yˆ − yˆ ) ∑t =1 t t , ry2yˆ = n n 2 ∑t =1 ( yt − y ) ∑t =1 ( yˆt − yˆ )2 2
(2.50)
onde y e yˆ são as médias dos yt e dos yˆ t , respectivamente.
Capítulo 2 – O Modelo de Regressão Linear Clássico
42
Como 0 ≤ ry2yˆ ≤ 1 , pode concluir-se que quanto mais próximo de 1 estiver o coeficiente de determinação melhor é o “grau de ajustamento”, ou seja, maior é a “proximidade” entre os yt e os yˆ t . Por exemplo, observando a figura 2.6 verifica-se que no gráfico da esquerda se tem uma boa aderência ( ry2yˆ elevado), e que no gráfico da direita há um afastamento significativo entre os valores de yt e de yˆ t ( ry2yˆ baixo). Um valor negativo de ryyˆ não tem significado, uma vez que traduziria um ajustamento absurdo.
yˆ t
yˆ t
y t yt
yt
ry2yˆ elevado
2
r yˆy baixo
Fig. 2.6 – Coeficiente de determinação. Qualquer que seja o MRL (com ou sem termo independente), tem-se sempre, devido à propriedade 2.10 dos resíduos MQ,
∑
n
t =1
n n yt2 = ∑t =1 yˆ t2 + ∑t =1 uˆt2 ⇔ Y T Y = Yˆ T Yˆ + Uˆ T Uˆ .
Quando o modelo tem termo independente, pode obter-se uma relação semelhante, mas considerando os desvios das observações em relação às respectivas médias, (2.51)
∑
n
t =1
∑
( yt − y ) 2 = ∑t =1 ( yˆ t − y ) 2 + ∑t =1 uˆt2 . n
n
( yt − y ) 2 = ∑t =1 ( yˆt + uˆt − y ) 2 = ∑t =1{( yˆt − y ) + uˆt }2
Para verificar (2.51), faz-se n
t =1
n
n
= ∑t =1 ( yˆt − y ) 2 + 2∑t =1{( yˆt − y ) uˆt } + ∑t =1 uˆt2 n
n
n
n
n
= ∑t =1 ( yˆt − y ) 2 + 2∑t =1 yˆt uˆt − 2 y ∑t =1 uˆt + ∑t =1 uˆt2 = ∑t =1 ( yˆt − y ) 2 + ∑t =1 uˆt2 , n
n
n
n
devido às propriedades 2.8 e 2.9 dos resíduos MQ. Fazendo
VT = ∑t =1 ( yt − y ) 2 , VE = ∑t =1 ( yˆt − y ) 2 e VR = ∑t =1 uˆt2 , n
tem-se (2.52) onde:
VT = VE + VR ,
n
n
Capítulo 2 – O Modelo de Regressão Linear Clássico
43
− VT é a variação total dos yt , ou seja, a soma dos quadrados dos desvios em relação à média das observações do regressando. − VE é a variação explicada pela regressão, ou seja, a soma dos quadrados dos desvios em relação à média dos valores ajustados das observações do regressando, obtidos com o método dos mínimos quadrados, yˆt . − VR é a variação residual, ou seja, a soma dos quadrados dos resíduos MQ. No MRLC com termo independente é habitual definir o coeficiente de determinação, que se representa por R 2 , como sendo igual à proporção entre a variação explicada pela regressão e a variação total, (2.53)
R2 =
VE VR . = 1− VT VT
Note-se que 0 ≤ R 2 ≤ 1 e que
R 2 = 1 ⇔ VR = 0, 2 R = 0 ⇔ VE = 0 ⇔ VR = VT.
Note-se, também, que
VE = R 2 VT, VR = (1 − R 2 )VT.
Facilmente se prova que as duas definições são equivalentes, no caso do MRLC com termo independente, utilizando o critério dos mínimos quadrados para estimar os coeficientes de regressão. Com efeito, atendendo às propriedades 2.8 e 2.9 dos resíduos MQ, vem n ( yˆ − y + uˆ ) ( yˆ − y ) n ( y − y ) ( yˆ − y ) ∑t =1 t ∑t =1 t t t t 2 ryyˆ = n = n n n 2 2 2 ∑t =1 ( yt − y ) ∑t =1 ( yˆt − y ) ∑t =1 ( yt − y ) ∑t =1 ( yˆt − y )2
2
2
n ( yˆ − y ) 2 + n uˆ yˆ − y n uˆ ∑t =1 t ∑t =1 t t ∑t =1 t ∑tn=1 ( yˆt − y )2 2 =R . = n = n n 2 2 2 ˆ − ( ) ( ) ( ) y y y y y y − − ∑t =1 t ∑t =1 t ∑t =1 t 2
No caso do MRLC simples, yt = β1 + β 2 xt + ut , facilmente se verifica que R 2 = rxy2 ,
ou seja, R 2 é o quadrado do coeficiente de correlação empírico entre as observações yt e xt . Com efeito, como yˆt = b1 + b2 xt e y = b1 + b2 x , vem yˆt − y = b2 ( xt − x ) . Então,
∑t =1 ( yˆ t − y )2
∑n ( xt − x )( yt − y ) 2 2 R = n = t =1 n = b2 n 2 2 2 y y x x ( ) ( ) ( ) y y − − − ∑t =1 t ∑t =1 t ∑t =1 t n
ou
∑t =1 ( xt − x )2 n
2
∑ ∑
n
t =1 n
( xt − x ) 2
( y t − y )2 t =1
,
Capítulo 2 – O Modelo de Regressão Linear Clássico
44
n ( x − x )( y − y ) ∑t =1 t t = r2 . 2 R = n xy n 2 ∑t =1 ( xt − x ) ∑t =1 ( y t − y )2 2
Em Ciências Sociais (e, em particular, em Economia) com dados seccionais é comum encontrar situações com coeficientes de determinação pequenos (ou mesmo muito pequenos). É importante salientar que isto não significa necessariamente que as estimativas MQ dos coeficientes de regressão são inúteis. Pelo contrário, é possível que, ceteris paribus, as estimativas encontradas sejam boas. Em qualquer caso, esta apreciação não depende directamente do valor do coeficiente de determinação. Em geral, um R 2 baixo significa apenas que é difícil, em Ciências Sociais, prever comportamentos individuais. Quando o modelo não tem termo independente, a soma dos resíduos MQ não é nula (ver propriedade 2.9), e o coeficiente de determinação R 2 , dado por (2.53), pode ser negativo. De facto, notando que R =1− 2
∑
∑
n 2 t =1 t
uˆ
( yt − y ) 2 t =1 n
∑ =
n
t =1
( yt − y ) 2 − ∑t =1 uˆt2
∑
n
( yt − y ) 2 t =1 n
∑ = ∑
∑ =
n
t =1
yt2 − n y 2 − ∑t =1 uˆt2
∑
n
( yt − y ) 2 t =1 n
,
tem-se, devido à propriedade 2.10 dos resíduos MQ, n
R
2
t =1 n
yˆt2 − n y 2
( yt − y ) 2 t =1
.
Este valor pode ser negativo porque a média das observações do regressando, yt , é diferente da média dos respectivos valores ajustados, yˆ t ( y ≠ yˆ ). Contudo, continua a ter-se R 2 ≤ 1 . A propriedade 2.10 atrás referida, garante que a igualdade Y T Y = Yˆ T Yˆ + Uˆ T Uˆ se verifica sempre (quer o modelo tenha termo independente quer não tenha). Pode, então, escrever-se (2.54)
SQT = SQE + SQR ,
− SQT = ∑t =1 yt2 é a soma total dos quadrados dos yt . onde:
n
− SQE = ∑t =1 yˆ t2 é a soma dos quadrados explicada pela regressão. n
− SQR = ∑t =1 uˆt2 é a soma dos quadrados dos resíduos. n
Nestas condições, pode definir-se outro coeficiente de determinação, (2.55)
R∗2 =
SQE SQR =1− , SQT SQT
que se chama coeficiente de determinação não centrado.
Capítulo 2 – O Modelo de Regressão Linear Clássico
45
Assim, enquanto R 2 (coeficiente de determinação centrado) mede a proporção entre a variação explicada pela regressão e a variação total, R∗2 é igual à proporção entre a soma dos quadrados explicada pela regressão e a soma total dos quadrados. Tem-se 0 ≤ R∗2 ≤ 1 , e R∗2 = 1 ⇔ SQR = 0, 2 R∗ = 0 ⇔ SQE = 0 ⇔ SQR = SQT.
Em geral, R∗2 ≠ ry2yˆ e R∗2 ≠ R 2 (no caso do modelo ter termo independente vem R 2 ≤ R∗2 , pois VT ≤ SQT ). Facilmente se verifica a seguinte relação entre R 2 e R∗2 : n y2 . R 2 = 1 − (1 − R∗2 ) 1 + n ∑t =1 ( yt − y ) 2
Considere-se de novo o modelo com termo independente. O coeficiente de determinação R 2 apresenta o seguinte inconveniente (que não se verifica com o erro padrão da regressão, s): quando se acrescenta ao modelo mais um regressor, qualquer que ele seja, o R 2 nunca decresce (para a mesma amostra), pois Σ uˆt2 nunca pode crescer. Notando que 2 y
∑ =
2 y
∑ =
s
n
t =1
( yt − y ) 2
2 uˆ
e s
∑ =
n 2 t =1 t
uˆ
n n são, respectivamente, a variância amostral das observações, yt , do regressando e a variância amostral dos resíduos, tem-se R 2 = 1 − su2ˆ / s y2 . Se utilizarem-se as respectivas variâncias corrigidas pelos graus de liberdade, s′
n
t =1
( yt − y ) 2
n −1
e s
2
∑ =
n 2 t =1 t
uˆ
n−k
,
em vez de s y2 e su2ˆ , obtém-se o coeficiente de determinação ajustado, (2.56)
R 2 =1−
VR /(n − k ) . VT /(n − 1)
Verifica-se sem dificuldade que R 2 = 1 − (1 − R 2 )
n −1 k −1 = R 2 − (1 − R 2 ) . n−k n−k
O inconveniente apontado para R 2 já não se verifica com R 2 . Com efeito, quando se adiciona mais um regressor, R 2 cresce se a diminuição da soma dos quadrados dos resíduos for suficiente para compensar o decréscimo de uma unidade no denominador de s 2 . Esta comprovação sugere que se pode conferir a R 2 uma característica de medida de eficácia da regressão relativamente ao número de regressores utilizados, o que não acontece com R 2 . Note-se que: 2 a) R ≤ R 2 ; R 2 = R 2 , se k = 1 ou R 2 = 1 .
Capítulo 2 – O Modelo de Regressão Linear Clássico
46
b) R 2 tem o inconveniente de poder ser negativo. Com efeito, se R 2 < (k − 1) /( n − 1) então 1 − R 2 > (n − k ) /(n − 1) e, portanto, R 2 < 0 . Por exemplo, se k = 3 , n = 21 e R 2 = 0.08 , tem-se R 2 < 2 / 20 = 0.1 , então R 2 = 1 − 0.92 × (20 / 18) = −0.022 . c) Como s 2 = (1 − R 2 ) s′y2 , pode concluir-se que R 2 aumenta quando s 2 diminui. 8.5
Valores ajustados
8
7.5
7
6.5
6
5.5 5.5
6
6.5
7
7.5
8
8.5
Valores observados
Fig. 2.7 – Diagrama de dispersão dos valores observados e ajustados de lsalar. Exemplo 2.10 – No exemplo em estudo, tem-se
R 2 = 0.174 e R 2 = 0.171 .
Assim, o modelo explica 17.4% da variação total do logaritmo do salário. Verifica-se que R 2 é ligeiramente inferior a R 2 . Na figura 2.7 encontra-se o diagrama de dispersão dos 1000 pares formados por cada valor observado e o respectivo valor ajustado de lsalar [com a notação geral, estão representados os 1000 pontos ( yt , yˆt ) ; a bissectriz do 1.º quadrante corresponde ao conjunto de pontos em que yt = yˆt ]. A recta representa a “nuvem” para o caso em que R2 = 1. ∇ No anexo 2C apresentam-se alguns resultados sobre coeficientes de correlação (amostrais) simples e parciais, e as suas relações com o coeficiente de determinação. Deve sublinhar-se uma vez mais que, quando se pretende utilizar o coeficiente de determinação como uma mera medida do “grau de ajustamento” de um modelo, a expressão (2.50) permite calcular tal medida para qualquer modelo, tenha ou não termo independente, qualquer que seja o método de estimação dos respectivos parâmetros (mínimos quadrados ou outro). Segundo tal perspectiva, pode afirmar-se que R 2 é supérfluo. No entanto, como vai ver-se mais adiante, R 2 pode ser útil para facilitar a obtenção de resultados para efectuar alguns testes de hipóteses.
Capítulo 2 – O Modelo de Regressão Linear Clássico
47
Além disso, o cálculo de R 2 em certas regressões pode ser útil para aprofundar a análise dos factores que contribuem para explicar os valores obtidos para os erros padrão dos b j . Com efeito, considere-se um MRLC com termo independente, e recorde-se que Var (b j | X ) = σ 2 m jj [ver (2.41)], onde m jj é o elemento diagonal de ordem j da matriz ( X T X ) −1 . Vai demonstrar-se que (2.41) é equivalente a (2.57)
Var (b j | X ) =
σ2
(1 − R 2j )VT j
,
VT j = ∑t =1 ( xtj − x j ) 2 ,
onde VT j é a variação total das observações do regressor xtj , n
e R 2j é o coeficiente de determinação da regressão auxiliar do regressor xtj sobre os outros regressores. Com efeito, seja X = [ x• j X ( j ) ], onde x• j é a coluna j da matriz X (colocada em primeiro lugar), e X ( j ) é a submatriz de X formada pelas restantes k − 1 colunas. Tem-se xT x x•T j X ( j ) •j •j . X X = T X ( j ) x• j X (Tj ) X ( j ) T
Invertendo esta matriz por blocos, o elemento da matriz inversa situado na primeira linha e na primeira coluna é dado por ( x•Tj Pj x• j ) −1 onde Pj = I n − X ( j ) ( X (Tj ) X ( j ) ) −1 X (Tj ) .
Então,
Var (b j | X ) = σ 2 ( x•Tj Pj x• j ) −1 .
Devido à propriedade 2.4 dos resíduos MQ, verifica-se que x•Tj Pj x• j é igual à soma dos quadrados dos resíduos correspondente à regressão auxiliar, e, portanto, x•Tj Pj x• j = (1 − R 2j )VT j ,
ficando assim provado (2.57). Este resultado permite reconhecer os factores que influenciam a variância condicionada do estimador MQ de cada coeficiente de regressão: a) A variância da variável residual, σ 2 . A precisão na estimação de β j é tanto maior quanto menor for a variância da variável residual, uma vez que σ 2 representa a variabilidade do “ruído” do modelo. Como σ 2 é um parâmetro (desconhecido) da população este factor nada tem a ver com a dimensão da amostra. A variância da variável residual só pode ser reduzida introduzindo mais regressores no modelo. No entanto, este procedimento nem sempre é possível, e, mesmo que o seja, nem sempre é desejável (a inclusão de regressores
Capítulo 2 – O Modelo de Regressão Linear Clássico
48
significativamente irrelevantes pode ter consequências negativas na estimação dos parâmetros). b) A variação total das observações do regressor xtj , VT j . A variância condicionada do estimador MQ é tanto menor quanto maior for a dispersão das observações do regressor xtj . Embora seja praticamente impossível escolher estas observações, o aumento da dimensão da amostra pode ser uma forma de aumentar aquela variação total. c) O grau de associação linear entre o regressor xtj e os outros regressores (medido por R 2j ). A precisão na estimação de β j é tanto maior quanto menor for R 2j (a proporção da variação total do regressor xtj que é explicada pelos outros regressores). Como 0 ≤ R 2j ≤ 1 , a situação ideal é que R 2j = 0 [neste caso, (2.57) reduz-se a σ 2 /VT j ]. No outro caso extremo, R 2j = 1 , tem-se multicolinearidade exacta, pois x j é combinação linear dos outros regressores [notar que Var (b j | X ) → +∞ , quando R 2j → 1 ]. No entanto, a multicolinearidade deve ser analisada não em termos exactos, mas do ponto de vista do maior ou menor “afastamento” desta situação extrema. Quando se diz que existe um “problema da multicolineridade” é porque R 2j está “próximo” de 1, podendo surgir dificuldades significativas no que respeita ao grau de confiança dos resultados obtidos, bem como ao modo como esses resultados podem ser interpretados. Assim, os coeficientes de determinação R 2j ( j = 2, 3, K, k ) das k − 1 regressões auxiliares possíveis devem ser encarados como indicadores do grau de multicolinearidade entre os regressores. No entanto, deve notar-se que, mesmo em situações de elevado grau de multicolinearidade (não exacta), o estimador MQ de β continua a ser BLUE. Tal como um valor elevado de R 2j pode implicar uma elevada imprecisão na estimação de β j , o mesmo pode acontecer quando a dimensão da amostra é muito pequena ( VT j pode ser muito reduzida). Arthur Goldberger, numa reacção à obsessão dos econometristas pela multicolinearidade, chamou micronumerosity ao problema da dimensão da amostra ser pequena. Como, em geral, os dados são passivamente observados (dados não experimentais), pouco se pode fazer para reduzir o grau de multicolinearidade, a não ser recolher mais dados (“combater a micronumerosidade”). Deve, ainda, fazer-se o seguinte comentário: elevados graus de associação entre certos regressores pode ser irrelevante para a estimação de outros coeficientes de regressão. Por exemplo, considere-se que yt = β1 + β 2 xt 2 + β 3 xt 3 + β 4 xt 4 + ut , e suponha-se que xt 3 e xt 4 estão altamente correlacionados. Neste caso, Var (b3 | X ) e Var (b4 | X ) são grandes, mas Var (b2 | X ) pode não ser significativamente afectada, se R22 for relativamente reduzido. Nestas condições, se β 2 for o parâmetro de interesse para analisar, ceteris paribus, o efeito parcial de xt 2 sobre yt , não deve haver preocupação com aquela correlação elevada. Este comentário é importante porque é prática corrente dos economistas incluir muitas variáveis explicativas (de controlo) no modelo para isolar o efeito causal de uma dada variável.
Capítulo 2 – O Modelo de Regressão Linear Clássico
49
Quando em (2.57) se substitui σ 2 por s 2 , obtém-se Var (b j | X ) = ^
(2.58)
s2 . (1 − R 2j )VT j
A fórmula (2.58) põe em evidência os factores que contribuem para a determinação do erro padrão de b j . Assim, além de VT j e R 2j já comentados relativamente a (2.57), o erro padrão de b j é tanto menor quanto menor for o erro padrão da regressão (medido por s). Como s 2 = VR /(n − k ) = (1 − R 2 )VT /(n − k ) , tem-se (1 − R 2 )VT , Var (b j | X ) = (n − k ) (1 − R 2j )VT j ^
(2.59)
que dá uma informação mais precisa sobre os factores que determinam o erro padrão de b j . Assim, além dos factores já apontados a propósito de (2.58), o erro padrão de b j é tanto menor quanto menor for a variação dos yt (medida por VT), quanto maior for o coeficiente de determinação R 2 , e quanto maior for o número de graus de liberdade do modelo.
Exemplo 2.11 – Sabe-se que s 2 = 0.141 , VT = 169.93349 (variação total das observações de lsalar), R 2 = 0.174 e n − k = 996 [ver exemplos 2.9 e 2.10]. Como VT2 = 5996.119 (variação total das observações de educ) e R22 = 0.00281 (coeficiente de determinação da regressão MQ de educ sobre 1, exper e empc), tem-se, devido a (2.58) e (2.59), Var (b2 | X ) = ^
e
Var(b2 | X ) = ^
s2 0.141 = = 0.0000236 2 ( 1 0 . 00281 ) × 5996.119 − (1 − R2 )VT2
(1 − R 2 )VT (1 − 0.174) × 169.93349 = 0.0000236 . = 2 × (1 − 0.00281) × 5996.119 996 (n − k ) (1 − R2 )VT2
Do mesmo modo, como VT3 = 21875.911 (variação total das observações de exper) e R32 = 0.00179 (coeficiente de determinação da regressão MQ de exper sobre 1, educ e empc), vem Var (b3 | X ) = ^
e
Var (b3 | X ) = ^
s2 0.141 = = 0.0000065 2 (1 − R3 )VT3 (1 − 0.00179) × 21875.911
(1 − R 2 )VT (1 − 0.174) × 169.93349 = 0.0000065 . = 2 (n − k ) (1 − R3 )VT3 996 × (1 − 0.00179) × 21875.911
Como VT4 = 24102.464 (variação total das observações da variável empc) e R = 0.00257 (coeficiente de determinação da regressão MQ de empc sobre 1, educ e exper), obtém-se 2 4
Capítulo 2 – O Modelo de Regressão Linear Clássico Var(b4 | X ) = ^
e
50
s2 0.141 = = 0.0000059 2 − ( 1 0 . 00257 ) × 24102.464 (1 − R4 )VT4
(1 − R 2 )VT (1 − 0.174) × 169.93349 = 0.0000059 . = Var(b3 | X ) = 2 × 996 (1 − 0.00257) × 24102.464 (n − k ) (1 − R3 )VT3 ^
∇
2.8 - Estimação com restrições lineares sobre os coeficientes de regressão Nas aplicações práticas encontram-se, com frequência, situações em que a teoria subjacente impõe certas relações lineares entre os coeficientes de regressão. Por exemplo, considerando a função de produção Cobb-Douglas, Q = α1 K α 2 Lα3 , a existência de rendimentos de escala constantes implica a restrição α 2 + α 3 = 1 . Suponha-se que os coeficientes de regressão estão sujeitos a m restrições lineares de igualdade, Rβ = δ , onde R é uma matriz m × k , com característica m ≤ k , e δ é um vector m × 1 .
Exemplo 2.12 – Considere-se o MRLC decorrente da função de produção Cobb-Douglas, ln(Qt ) = β1 + β 2 ln( K t ) + β3ln( Lt ) + ut , com a restrição β 2 + β 3 = 1 (rendimentos de escala constantes). Esta restrição pode escrever-se da seguinte maneira:
onde R = [ 0 1 1 ] e δ = 1 .
β1 [ 0 1 1 ] β 2 = 1 , β 3
∇
Exemplo 2.13 – Suponha-se que β é composto por cinco β j e está sujeito às seguintes condições: β1 = 2 ; a soma dos coeficientes é igual a 1; β 2 e β 3 são iguais; β 4 é o dobro de β 5 . Tem-se 1 1 R= 0 0
0 1 1 0
0 1 −1 0
0 1 0 1
2 0 1 1 e δ = 0 0 − 2 0
∇
Vai representar-se por br o estimador MQ de β a verificar as m restrições Rβ = δ . Para determinar este estimador, deve minimizar-se a soma dos quadrados dos ~ resíduos sujeita à condição Rβ = δ . Assim,
Capítulo 2 – O Modelo de Regressão Linear Clássico
(2.60)
51
~ ~ ~ min ϕ ( β ) = (Y − Xβ )T (Y − Xβ ) ~ sujeito a Rβ = δ .
Este problema pode ser resolvido com o clássico método dos multiplicadores de Lagrange. Seja a função lagrangeana ~ ~ ~ ~ L ( β , λ ) = (Y − Xβ )T (Y − Xβ ) − 2( Rβ − δ )T λ ,
onde λ = [ λ1 λ2 L λm ] T é o vector m × 1 dos multiplicadores de Lagrange. Calculan~ do as primeiras derivadas em ordem a β e λ , obtém-se ~ ~ ∇ β~ L ( β , λ ) = −2 X T Y + 2 X T Xβ − 2 RT λ ~ ~ ∇ λ L ( β , λ ) = −2( Rβ − δ ) ,
~ ~ ∇ β~ L ( β , λ ) e ∇ λ L ( β , λ )
onde
~ são, respectivamente, o gradiente da lagrangeana em relação a β (vector k × 1 das respectivas derivadas parciais) e o gradiente da lagrangeana em ordem a λ (vector m × 1 das derivadas parciais da lagrangeana em relação aos multiplicadores de Lagrange). Igualando a zero estes gradientes, obtém-se o seguinte sistema de equações: X T Xβ~ − X T Y − RT λ = 0 ~ Rβ = δ .
Multiplicando à esquerda a primeira equação por R( X T X ) −1 , vem ~ Rβ − Rb − R ( X T X ) −1 RT λ = 0 . ~ Como Rβ = δ (segunda equação), tem-se
λ = {R( X T X ) −1 RT }−1 (δ − Rb) .
Como da primeira equação se tem ~ β = b + ( X T X ) −1 RT λ , vem
β = b + ( X T X ) −1 R T {R( X T X ) −1 R T }−1 (δ − Rb) . ~
Pode, então, concluir-se que o estimador MQ de β , sujeito às restrições impostas, é dado por (2.61)
br = b + ( X T X ) −1 R T {R( X T X ) −1 R T }−1 (δ − Rb) .
Verifica-se, assim, que o estimador com restrições, br , é igual ao estimador sem restrições, b, mais uma combinação linear das diferenças entre δ = Rβ e o seu estimador sem restrições, Rb . Deve notar-se que, quase sempre, é mais simples obter br inserindo as restrições directamente no modelo, do que calcular br com a fórmula (2.61). Por exemplo, no
Capítulo 2 – O Modelo de Regressão Linear Clássico
52
modelo correspondente à função de produção Cobb-Douglas, em vez de estimar β1 , β 2 e β 3 a partir de ln(Qt ) = β1 + β 2 ln( K t ) + β3 ln( Lt ) + ut e de β 2 + β 3 = 1 , seria mais simples fazer β 3 = 1 − β 2 e considerar o modelo reparametrizado, ln(Qt ) − ln( Lt ) = β1 + β 2{ln( K t ) − ln( Lt )} + ut .
Aplicando o método MQ (sem restrições) a este modelo, estimam-se os parâmetros β1 e β 2 . A seguir, estima-se β 3 com a igualdade β 3 = 1 − β 2 . As considerações anteriores podem ser apresentadas em termos gerais. Como a matriz R tem característica m ≤ k , existem m colunas linearmente independentes que formam uma submatriz quadrada de ordem m, não singular. Sem perda de generalidade, seja β R = [R1 R2 ] e β = •1 , β •2 onde: R1 é matriz quadrada de ordem m; R2 é matriz de tipo m × (k − m) ; β •1 é o vector m × 1 , subvector de β ; β •2 é o vector (k − m) × 1 , subvector de β . As restrições são, então, R1 β •1 + R2 β •2 = δ . Considere-se o modelo sem restrições,
yt = xt(•1) β•1 + xt(•2) β• 2 + ut (t ∈ T ) ,
onde: xt(•1) é o vector 1 × m dos primeiros m regressores; xt(•2) é o vector 1 × (k − m) dos últimos k − m regressores. Como β •1 = R1−1 (δ − R2 β •2 ) , tem-se yt − xt(•1) R1−1δ = ( xt(•2 ) − xt(•1) R1−1R2 ) β• 2 + ut . Então, o modelo com restrições é dado por ytr = xtr• β• 2 + ut (t ∈ T ) ,
onde ytr = yt − xt(•1) R1−1δ e xtr• = xt(•2) − xt(•1) R1−1R2 . Os estimadores dos coeficientes de regressão são −1 r T T b• 2 = ( X r X r ) X r Yr r b•1 = R1−1 (δ − R2b•r2 ) ,
onde: Yr é o vector n × 1 das observações do regressando do modelo com restrições (de elemento genérico ytr ); X r é a matriz n × (k − m) das observações dos regressores do modelo com restrições (de linha genérica xtr• ). Verifica-se, sem dificuldade, que, juntando os vectores b•r1 e b•r2 , se reconstitui o estimador br já obtido. Naturalmente o cálculo é invariante com a escolha da submatriz não singular R1 . O estimador br , condicionado por X, é não enviesado. Com efeito, E (br | X ) = β + ( X T X ) −1 RT {R( X T X ) −1 RT }−1 E (δ − Rb | X ) = β ,
pois E (b | X ) = β e E ( Rb | X ) = Rβ = δ . Obtém-se, também, E (br ) = β .
Capítulo 2 – O Modelo de Regressão Linear Clássico
53
Tal como se fez para o estimador b, pode determinar-se o erro de amostragem do estimador br . Como b = β + ( X T X ) X TU e δ − Rβ = 0 , tem-se br = β + ( X T X ) −1 X TU + ( X T X ) −1 RT {R ( X T X ) −1 RT }−1 (δ − Rβ − R ( X T X ) −1 X TU ) = β + ( X T X ) −1 X TU − ( X T X ) −1 RT {R ( X T X ) −1 RT }−1 R( X T X ) −1 X TU = β + ( I k − ( X T X ) −1 RT {R( X T X ) −1 RT }−1 R( X T X ) −1 X TU .
Então, o erro de amostragem é
br − β = Pr ( X T X ) −1 X TU ,
Pr = I k − ( X T X ) −1 RT {R( X T X ) −1 RT }−1 R
onde
é uma matriz idempotente, não simétrica. Vai calcular-se, a seguir, a matriz das covariâncias de br , condicionada por X. Notando que br = b + ( X T X ) −1 RT {R( X T X ) −1 RT }−1 (δ − Rb) = Pr b + ( X T X ) −1 RT {R( X T X ) −1 RT }−1δ ,
tem-se
Cov(br | X ) = Pr Cov(b | X ) PrT = σ 2 Pr ( X T X ) −1 PrT . Atendendo a que
Pr ( X T X ) −1 PrT = ( X T X ) −1 − ( X T X ) −1 RT {R( X T X ) −1 RT }−1 R( X T X ) −1 ,
tem-se (2.62)
Cov(br | X ) = Cov(b | X ) − σ 2 ( X T X ) −1 RT {R( X T X ) −1 RT }−1 R( X T X ) −1 . Como a matriz
( X T X ) −1 RT {R( X T X ) −1 RT }−1 R( X T X ) −1
é semidefinida positiva, também o é Cov(b | X ) − Cov(br | X ) , o que permite afirmar que o estimador br é mais eficiente do que b. Facilmente se conclui que br , condicionado por X, é o estimador mais eficiente na classe dos estimadores lineares (em y e δ ), não enviesados, a satisfazer as restrições Rβ = δ . Como a matriz idempotente Pr é singular (com característica igual a k − m ), resulta imediatamente que Cov(br | X ) também é singular (com a mesma característica), e, portanto, br é um vector aleatório degenerado. A singularidade da matriz das covariâncias decorre de β ser estimado, obedecendo a m restrições de igualdade lineares. Os resíduos MQ, supondo verdadeira a condição Rβ = δ , são os resíduos MQ com restrições, (2.63)
Uˆ r = Y − X br .
Estes resíduos podem ser obtidos com facilidade, uma vez que são os resíduos do modelo reparametrizado.
Capítulo 2 – O Modelo de Regressão Linear Clássico
54
Para determinar o estimador não enviesado de σ 2 , supondo verdadeira a condição Rβ = δ , vai começar-se por obter os resíduos MQ com restrições em função do vector das variáveis residuais. Tem-se Uˆ r = ( Xβ + U ) − X {β + Pr ( X T X ) −1 X TU } = {I n − X Pr ( X T X ) −1 X T }U .
Como Pr ( X T X ) −1 PrT = Pr ( X T X ) −1 , conclui-se que I n − X Pr ( X T X ) −1 X T é simétrica e idempotente. Então, Uˆ rTUˆ r = U T {I n − XPr ( X T X ) −1 X T }U . Notando que T T ˆ T T −1 ˆ E (U r U r | X ) = E tr U {I n − XPr ( X X ) X }U X = σ 2 tr{I n − XPr ( X T X ) −1 X T } = σ 2{n − tr ( Pr )}
= σ 2 n − tr I k − ( X T X ) −1 RT {R( X T X ) −1 RT }−1 R 2 = σ ( n − k + m) ,
.
o estimador não enviesado de σ 2 , obedecendo à condição Rβ = δ , é dado por (2.64)
Uˆ rT Uˆ r . s = n−k +m 2 r
É de esperar que o denominador de (2.64) seja n − k + m , uma vez que o MRLC que satisfaz as restrições tem menos m coeficientes de regressão, ou seja, o número de graus de liberdade sobe de n − k para n − (k − m) . Deve referir-se que sr2 pode ser obtido directamente, estimando o modelo reparametrizado, onde o número de regressores é k −m.
Exemplo 2.14 – Suponha-se que no exemplo em estudo se impõe a restrição de que a semi-elasticidade (pontual) do salário em relação a educ é o dobro da semi-elasticidade (pontual) do salário em relação a exper, isto é, β 2 = 2β 3 . O modelo de regressão linear que verifica esta restrição é, então, lsalart = β1 + β3 (2 × educt + expert ) + β 4 empct + ut .
Fazendo a regressão de lsalar sobre os regressores 1, 2 × educ + exper e empc, obtém-se: br1 = 5.84092 ; br 2 = 0.0509 ; br 3 = 0.02545 ; br 4 = 0.004116 ; Uˆ TUˆ = 140.706 ; s 2 = 0.141129 ; s = 0.375672 . r
r
r
r
∇
2.9 - O modelo de regressão linear clássico normal. Estimadores de máxima verosimilhança Todos os resultados até agora obtidos prescindiram da especificação do modelo probabilístico subjacente ao MRLC, ou seja, são válidos para qualquer distribuição das
Capítulo 2 – O Modelo de Regressão Linear Clássico
55
variáveis aleatórias envolvidas no modelo. Contudo, no caso de pequenas amostras, o conhecimento das leis probabilísticas que governam estas variáveis aleatórias é indispensável para fazer inferência estatística (nomeadamente para a construção de intervalos ou regiões de confiança e para a realização de testes de hipóteses) sobre os parâmetros do MRLC. Muitas vezes, a teoria que motivou a equação de regressão também especifica alguns valores que os coeficientes de regressão devem assumir. Suponha-se, por exemplo, que a teoria subjacente ao MRLC sugere que o verdadeiro valor do coeficiente β 2 é igual a 0.5. Então, se a restrição β 2 = 0.5 é verdadeira, tem-se E (b2 ) = 0.5 . Contudo, isto não significa que, para uma amostra particular, a estimativa b2 tenha que ser exactamente igual a 0.5; não se pode concluir que a restrição é falsa só porque b2 é diferente de 0.5. Como a questão reside em saber se o erro de amostragem, b2 − 0.5 , é suficientemente grande para pôr em causa a restrição, é necessário testar a sua veracidade. Para isso, deve construir-se, a partir do erro de amostragem, uma estatística-teste cuja distribuição seja conhecida quando a restrição é verdadeira (na linguagem da teoria dos testes de hipóteses, a restrição designa-se por hipótese nula). Como, em geral, o erro de amostragem, b − β = ( X T X ) −1 X T U , depende de X e de U, seria de esperar que se especificasse a distribuição conjunta de ( X , U ) . No entanto, como vai ver-se mais adiante, a distribuição da estatística-teste pode ser obtida sem especificar aquela distribuição conjunta, quando a distribuição de U, condicionada por X, é normal; não é necessário especificar a distribuição de X. Vai, então, estabelecer-se a seguinte hipótese:
Hipótese REX.6 – Distribuição normal da variável residual A variável residual ut segue uma distribuição normal, condicionada por XT , com valor esperado 0 e com variância σ 2 , (2.65)
ut | XT ~ N (0, σ 2 ) .
Esta hipótese apenas acrescenta às hipóteses anteriores o facto de a distribuição de ut , condicionada por XT = {xs • : s ∈ T } , ser normal; as hipóteses sobre o valor esperado e a variância já resultavam de REX.2 e de REX.3. Além da vantagem teórica atrás referida, podem também ser apresentados alguns argumentos empíricos a favor desta hipótese: como a variável residual representa todos os factores que não são capturados pelos regressores, pode invocar-se o teorema do limite central (TLC) para sugerir a hipótese REX.6; além disso, a variável residual pode contemplar erros de medida do regressando, os quais seguem, muitas vezes, uma distribuição normal. No entanto, a invocação do teorema do limite central é, em muitos casos, um argumento frágil: a aproximação pela normal pode ser fraca porque depende dos factores que estão abrangidos pela variável residual, os quais podem ter distribuições muito diferenciadas; como o TLC pressupõe que os factores referidos afectam o regressando de
Capítulo 2 – O Modelo de Regressão Linear Clássico
56
forma separada e aditiva, pode acontecer que o conjunto de tais influências seja uma função mais complicada dos factores não observados. Muitas vezes, a utilização de uma transformação da variável explicada (em especial, a logaritmização) pode favorecer a hipótese da normalidade. Por exemplo, é mais razoável admitir que lsalar tem distribuição aproximadamente normal do que salar (que teria, então, distribuição lognormal). Quando os valores possíveis que o regressando pode assumir são poucos, e em que o valor zero é muito frequente (por exemplo, o número de sinistros num ano por apólice de seguro automóvel), a hipótese REX.6 é claramente pouco adequada. Como vai ver-se no capítulo 3, o abandono da hipótese da normalidade não constitui um problema grave no caso de grandes amostras. Neste caso, as distribuições necessárias para fazer inferência estatística são assintóticas. Convém fazer, ainda, os seguintes comentários: − A distribuição de ut , condicionada por XT , depende apenas de dois parâmetros característicos: o valor esperado e a variância.
− A função densidade em (2.65) é dada por
u2 f (ut | XT ) = (2πσ 2 ) −1 / 2 exp− t 2 . 2σ
− Antes de prosseguir, convém referir um resultado muito importante: •
Suponha-se que: a variável aleatória (vector aleatório) u depende de um conjunto de variáveis aleatórias (vectores aleatórios), X ; os parâmetros característicos da distribuição de u condicionada por X não dependem de X . Então, a distribuição condicionada coincide com a distribuição não condicionada.
Este resultado vai ser utilizado em todas as situações de inferência estatística que vão estudar-se na secção 2.10.
− Aplicando o resultado anterior, pode concluir-se o seguinte: como os parâmetros característicos da distribuição de ut , condicionada por XT , não dependem de XT , a distribuição não condicionada (marginal) é a mesma que a distribuição condicionada. Assim, ut ~ N (0, σ 2 ) e u2 f (ut ) = (2πσ 2 ) −1/ 2 exp− t 2 . 2σ
− Se duas variáveis aleatórias são independentes, então a respectiva correlação é nula, mas a recíproca não é verdadeira. No entanto, no caso da distribuição normal, independência e correlação nula são equivalentes. Neste caso, considerando as hipóteses REX.4 e REX.6, conclui-se imediatamente que as variáveis ut (t ∈ T ) são iid. Pode, então, escrever-se ut ~ NIID(0, σ 2 ) (t ∈ T ) ,
para significar que as variáveis aleatórias do conjunto {ut : t ∈ T } são normais e iid.
Capítulo 2 – O Modelo de Regressão Linear Clássico
57
− Qualquer combinação linear de variáveis aleatórias com distribuição conjunta normal tem ainda distribuição normal.
− Tem-se (2.66)
yt | XT ~ N ( xt • β , σ 2 ) .
Nestas condições, a função densidade respectiva é dada por
1 f ( yt | XT ) = (2πσ 2 ) −1 / 2 exp− 2 ( yt − xt • β ) 2 . σ 2
Como Cov( yt , ys | XT ) = 0 , para t ≠ s , pode escrever-se
yt | XT ~ NID( xt • β , σ 2 ) (t ∈ T )
para significar que as variáveis aleatórias do conjunto { yt : t ∈ T } , condicionadas por XT , são normais e independentemente distribuídas. Note-se que: como E ( yt | XT ) = xt • β (o valor esperado depende de xt • ), a distribuição não condicionada de yt é diferente da distribuição de yt condicionada por XT . Em termos gerais, chama-se hipótese a manter a um conjunto de suposições sobre o comportamento de certas variáveis, desde que estas suposições permitam, na presença de uma hipótese nula admitida como verdadeira, propor uma estatística-teste com distribuição conhecida. No caso presente, quando se junta a hipótese REX.6 às cinco hipóteses anteriores, tem-se o modelo de regressão linear clássico normal (MRLCN). Este modelo é a hipótese a manter porque as seis suposições (REX.1 a REX.6) possibilitam, como vai ver-se na secção seguinte, fazer testes de hipóteses sobre os parâmetros desconhecidos do modelo. Diz-se que o modelo está correctamente especificado se a hipótese a manter é verdadeira. Convém, então, esclarecer o seguinte: a rejeição de uma hipótese nula num determinado teste estatístico só é válida se o modelo estiver correctamente especificado; é possível que a estatística-teste não tenha a distribuição aparentemente suposta quando a hipótese nula é verdadeira, porque a hipótese a manter é falsa. O mesmo tipo de comentário se pode fazer em relação aos intervalos e às regiões de confiança. Dispondo da amostra (Y , X ) , a hipótese REX.6 implica imediatamente que o vector U das variáveis residuais segue uma distribuição normal n-dimensional, condicionada por X, com valor esperado 0 e matriz das covariâncias σ 2 I , U | X ~ N ( n ) (0, σ 2 I n ) .
As considerações anteriores permitem concluir que U ~ N ( n ) (0, σ 2 I n ) ,
e, portanto,
U TU . f (U | X ) = f (U ) = (2πσ 2 ) −n / 2 exp− 2 2σ
Capítulo 2 – O Modelo de Regressão Linear Clássico
58
Y | X ~ N ( n ) ( Xβ , σ 2 I n ) .
Tem-se
Nestas condições, a função densidade de Y, condicionada por X, é 1 f (Y | X ) = (2πσ 2 ) − n / 2 exp− 2 (Y − Xβ )T (Y − Xβ ) . 2 σ
Uma vez estabelecida a hipótese REX.6, pode utilizar-se o método da máxima verosimilhança (MV) para estimar os parâmetros do modelo, β e σ 2 . Assim, seja f (Y , X | φ ) a função densidade conjunta de Y e X, parametrizada pelo vector φ . Esta ~ função, encarada como função de φ (qualquer valor hipotético do vector dos parâme~ tros), é a função de verosimilhança: L(φ | Y , X ) . Um estimador de máxima verosimilhança (MV) de φ , φˆ , é tal que as respectivas estimativas maximizam a função de verosimilhança, dado (Y , X ) (ver anexo 2D). Sabe-se que f (Y , X | φ ) = f (Y | X ;θ ) f ( X |ψ ) , onde φ = (θ ,ψ ) [para simplificar as notações, utiliza-se o mesmo símbolo f para representar as três funções densidade; em rigor, deve usar-se fY , X para a função densidade conjunta, fY | X para a função densidade condicionada, e f X , para a função densidade marginal]. Como no MRLCN o vector θ = ( β , σ 2 ) não depende do vector ψ , não é necessário conhecer a função densidade marginal de X para obter o estimador MV do vector dos parâmetros de interesse, θ = ( β , σ 2 ) . Assim, basta considerar a função de verosimilhança correspondente à distribuição de Y condicionada por X, ~ ~ ~ 1 L( β , σ~ 2 | Y , X ) = (2π σ~ 2 ) − n / 2 exp− ~ 2 (Y − Xβ )T (Y − Xβ ) , 2σ
~ onde β e σ~ 2 representam, respectivamente, quaisquer valores hipotéticos de β e σ 2 . Os estimadores MV respectivos, βˆ e σˆ 2 , obtêm-se maximizando esta função de verosi~ milhança em ordem a β e σ~ 2 . A determinação dos maximizantes é feita utilizando o logaritmo da função de verosimilhança, n 1 ~ ~ ~ ln{ L( β , σ~ 2 | Y , X )} = − ln (2π σ~ 2 ) − ~ 2 (Y − Xβ )T (Y − Xβ ) , 2 2σ
o que permite simplificar os cálculos. A obtenção dos estimadores MV de β e σ 2 vai ser feita recorrendo ao cálculo ~ diferencial. Calculando as primeiras derivadas em ordem a β e σ~ 2 , e igualando-as a zero, obtêm-se as equações de verosimilhança, 1 ~ ~ ~2 T T ∇ β~ ln{ L( β , σ | Y , X )} = σ~ 2 ( X Y − X X β ) = 0 ∇ ~ 2 ln{ L( β~, σ~ 2 | Y , X )} = − n + 1 (Y − Xβ~ )T (Y − Xβ~ ) = 0 . 2σ~ 2 2σ~ 4 σ
Da primeira equação, vem imediatamente (2.67)
βˆ = b ,
Capítulo 2 – O Modelo de Regressão Linear Clássico
59
ou seja, o estimador MV de β é igual ao respectivo estimador MQ. ~ Substituindo β por b na segunda equação, tem-se o estimador MV de σ 2 ,
σˆ 2 =
Uˆ TUˆ . n Note-se que βˆ e σˆ 2 são, de facto, os estimadores MV, pois a matriz hesseana (das segundas derivadas) de ln( L) é definida negativa. Conclui-se imediatamente que σˆ 2 é enviesado. Com efeito,
(2.68)
n−k 2 (n − k ) s 2 σ ≠σ2. X = E (σˆ 2 | X ) = E n n
Estes estimadores podem ser obtidos de outro modo. De facto, é instrutivo maximizar o logaritmo da função de verosimilhança em dois passos. No primeiro, a maximi~ zação é feita em ordem a β , supondo σ~ 2 constante. No segundo passo, maximiza-se ~ em ordem a σ~ 2 , tendo em conta que β , obtido no primeiro passo, pode depender de σ~ 2 . Observando a expressão do logaritmo da função de verosimilhança, verifica-se ~ que maximizar esta função em ordem a β é equivalente a minimizar a função ~ ~ ~ ϕ ( β ) = (Y − Xβ )T (Y − Xβ ) , já conhecida do método MQ. Assim, obtém-se imediatamente (2.67). Além disso, devido às hipóteses estabelecidas para o MRLCN, este maximizante não depende de σ~ 2 . ~ Substituindo β por b no logaritmo da função de verosimilhança, obtém-se n n Uˆ TUˆ ln{L∗ (σ~ 2 | Y , X )} = − ln (2π ) − ln (σ~ 2 ) − ~ 2 , 2 2 2σ
~ que se chama logaritmo da função de verosimilhança concentrada (em relação a β ). Trata-se de uma função apenas de σ~ 2 , e a sua maximização permite obter (2.68). Este cálculo é imediato, uma vez que a soma dos quadrados dos resíduos não depende de σ~ 2 . Facilmente se conclui que o máximo do logaritmo da função de verosimilhança é dado por n 2π n ~ ~2 max ln + 1 − ln (Uˆ TUˆ ) . ~ ~ 2 ln{ L ( β , σ | Y , X )} = − 2 n 2 β ,σ
Então,
~ ~2 2π max ~ ~ 2 L( β , σ | Y , X ) = β ,σ n
−n / 2
n exp − (Uˆ TUˆ ) − n / 2 . 2
Alternativamente, a concentração da função de verosimilhança pode fazer-se em ~ relação a σ~ 2 , obtendo-se uma função de β . De facto, fazendo γ~ = σ~ 2 no logaritmo da função de verosimilhança,
Capítulo 2 – O Modelo de Regressão Linear Clássico
60
1 n ~ ~ ~ ln{ L( β , γ~ | Y , X )} = − ln (2π γ~ ) − ~ (Y − Xβ )T (Y − Xβ ) , 2 2γ
obtém-se
n 1 ~ ~ ~ ∇γ~ ln{ L( β , γ~ | Y , X )} = − ~ + ~ 2 (Y − Xβ )T (Y − Xβ ) = 0 , 2γ 2γ
ou
γ~ = (Y − Xβ )T (Y − Xβ ) . 1 n
~
~
~ Então, obtém-se a função de β ,
n 2π n ~ ~ ~ ln{ L∗ ( β | Y , X )} = − ln + 1 − ln{(Y − Xβ )T (Y − Xβ )} , 2 n 2
que permite obter (2.67). Supondo verificadas as hipóteses do MRLCN, e as restrições Rβ = δ , os estimadores de máxima verosimilhança de β e σ 2 são obtidos maximizando a função de verosimilhança com as restrições referidas. Obtém-se
βˆ r = br e σˆ r2 =
Uˆ rT Uˆ r . n
No anexo 2E relacionam-se alguns resultados fundamentais da Estatística (estatísticas suficientes; estimadores UMVU; desigualdade de Fréchet-Crámer-Rao) com os estimadores MQ dos parâmetros do MRLCN.
2.10 - Inferência estatística Esta secção tem por objectivo desenvolver o estudo da inferência estatística do MRLCN, nomeadamente apresentar os resultados que permitem construir intervalos e regiões de confiança, e realizar testes estatísticos. Estes resultados baseiam-se em certas distribuições exactas, sendo, portanto, válidos para qualquer dimensão da amostra. Quando se abandona a hipótese REX.6, as distribuições passam a ser assintóticas, e, portanto, válidas só para grandes amostras (ver capítulo 3). No anexo 2F apresentam-se alguns conceitos e resultados fundamentais sobre teste de hipóteses. As distribuições exactas referidas podem ser obtidas, com mais facilidade, a partir de certas propriedades das distribuições que envolvem um vector aleatório com distribuição normal multidimensional, e certas formas quadráticas obtidas a partir deste vector.
Capítulo 2 – O Modelo de Regressão Linear Clássico
61
Propriedades de distribuições de vectores aleatórios 1) A primeira propriedade é bem conhecida (a soma dos quadrados de n variáveis aleatórias normais estandardizadas independentes é uma variável aleatória com distribuição do qui-quadrado com n graus de liberdade). Trata-se, agora, de apresentá-la utilizando a notação matricial. Assim, z ~ N ( n ) (0, I ) ⇒ z T z ~ χ 2 (n) .
2) Quando se pretende generalizar a propriedade anterior, supondo que E ( z ) = µ e Cov( z ) = V , obtém-se z ~ N ( n ) ( µ , V ) ⇒ ( z − µ )T V −1 ( z − µ ) ~ χ 2 (n) .
3) Se z ~ N ( n ) (0, σ 2 I ) e A é uma matriz quadrada de ordem n, simétrica e idempotente, com característica igual a r, então
σ2 1
z T A z ~ χ 2 (r ) .
4) Se z ~ N ( n ) (0, σ 2 I ) , e A e B são matrizes quadradas de ordem n, simétricas e idempotentes, tais que AB = O , então z T A z e z T B z são independentes. 5) Se z ~ N ( n ) ( µ , σ 2 I ) , A é uma matriz não aleatória quadrada de ordem n, simétrica e idempotente, B é uma matriz não aleatória de tipo m × n , e BA = O , então B z e z T A z são independentes.
Inferência estatística sobre a variância das variáveis residuais Sabe-se que: Uˆ T Uˆ = U T PX U (ver propriedade 2.4); U | X ~ N ( n ) (0, σ 2 I n ) [consequência da hipótese REX.6]; PX é uma matriz simétrica e idempotente, de característica n − k (ver propriedade 2.1). Então, atendendo à propriedade 3) das distribuições de vectores aleatórios, tem-se Uˆ TUˆ
σ
2
X ~ χ 2 (n − k ) ou
(n − k ) s 2
σ
2
X ~ χ 2 (n − k ) .
O parâmetro característico desta distribuição, condicionada por X, é n − k . Como este parâmetro não depende de X, a respectiva distribuição não condicionada é dada por (2.69)
q=
Uˆ TUˆ
σ
2
=
(n − k ) s 2
σ
2
~ χ 2 (n − k ) .
Conclui-se imediatamente que Var( s 2 | X ) = Var( s 2 ) =
2σ 4 . n−k
O resultado (2.69) vai permitir construir intervalos de confiança, e fazer testes de hipóteses sobre o parâmetro σ 2 .
Capítulo 2 – O Modelo de Regressão Linear Clássico
62
Para construir um intervalo de confiança de nível 1 − α para σ 2 , tem-se (n − k ) s 2 ≤ χα2 / 2 = 1 − α , P χ12−α / 2 ≤ 2 σ
onde χα2 é tal que P(q > χα2 ) = α . Os valores de χα2 / 2 (quantil de ordem 1 − α / 2 ) e de χ12−α / 2 (quantil de ordem α / 2 ) estão tabelados, ou podem ser calculados com o software adequado. Vem (n − k ) s 2 (n − k ) s 2 2 = 1−α . σ P ≤ ≤ 2 χ12−α / 2 χα / 2 Então, o intervalo de confiança para σ 2 , de nível 1 − α , é
(2.70)
(n − k ) s 2 (n − k ) s 2 ; . 2 2 χ χ 1−α / 2 α /2
Para efectuar testes de hipóteses de dimensão α para o parâmetro σ 2 , a estatística-teste é construída recorrendo a (2.69), e segue-se o procedimento habitual. Vai testar-se H 0 : σ 2 = σ 02 contra uma das alternativas seguintes: a) H 1 : σ 2 > σ 02 ; b) H 1 : σ 2 < σ 02 ; c) H 1 : σ 2 ≠ σ 02 .
A estatística-teste é (2.71)
q=
(n − k ) s 2
σ
2 0
~ χ 2 (n − k ) .
Por exemplo, no caso a), representando por qobs o respectivo valor observado, este valor vai comparar-se com o valor crítico, χα2 , e rejeita-se a hipótese nula quando qobs > χα2 . O valor-p é P(q > qobs | H 0 ) . No quadro 2.1 apresentam-se as regiões críticas e os valores-p para os três casos referidos. Quadro 2.1 Teste de H 0 : σ 2 = σ 02 contra H 1
Região crítica
H1
χα2 σ 02
σ 2 > σ 02
q > χα2 ou s 2 >
σ 2 < σ 02
q < χ12−α ou s 2
qobs | H 0 )
n−k
χ12−α σ 02 n−k
q < χ12−α / 2 ∨ q > χα2 / 2 ou s < 2
χ12−α / 2 σ 02 n−k
Nota – χα2 : P(q > χα2 ) = α
∨s > 2
Valor-p
χα2 / 2 σ 02 n−k
P(q < qobs | H 0 )
duas vezes o menor dos valores acima
Capítulo 2 – O Modelo de Regressão Linear Clássico
63
Deve notar-se que os resultados desta subsecção são, em geral, pouco úteis, uma vez que não é habitual, nos MRL, fazer inferência estatística sobre σ 2 . Contudo, (2.69) é importante para fundamentar os resultados necessários para a inferência estatística relativa aos coeficientes de regressão.
Inferência estatística sobre um coeficiente de regressão isolado Como b = ( X T X ) −1 X T Y e Y | X ~ N ( n ) ( Xβ , σ 2 I ) , obtém-se b | X ~ N ( k ) β , σ 2 ( X T X ) −1 .
Note-se que a distribuição não condicionada de b não é normal k-dimensional, uma vez que a matriz das covariâncias da distribuição de b, condicionada por X, depende de X. Em particular, bj − β j
σb
X ~ N (0,1) ( j = 1, 2,K, k ) ,
j
onde σ b2j = σ 2 m jj (a respectiva raiz quadrada é o desvio padrão de b j ), e m jj é o j-ésimo elemento da diagonal principal da matriz ( X T X ) −1 . Então, (2.72)
bj − β j
σ m
jj
=
bj − β j
σb
~ N (0,1) ( j = 1, 2,K, k ) .
Não é possível fazer inferências com (2.72) sobre β j porque o parâmetro σ 2 é desconhecido (parâmetro perturbador). Vai, então, procurar-se o resultado estatístico adequado para tal propósito. Facilmente se verifica que b (ou qualquer b j ) e Uˆ são condicionalmente independentes, uma vez que as respectivas distribuições, condicionadas por X, são normais, e Cov(b, Uˆ | X ) = O (no anexo 2E também se demonstra que b e s 2 são condicionalmente independentes). Evidentemente que as duas variáveis aleatórias j
bj − β j
σ m jj
e
(n − k ) s 2
σ2
,
são condicionalmente independentes, porque são funções de b e de Uˆ , respectivamente. A primeira destas variáveis aleatórias tem distribuição (condicionada por X) normal estandardizada; a segunda tem distribuição (condicionada por X) do qui-quadrado. Então, facilmente se conclui que, dividindo a primeira variável aleatória pela raiz quadrada da segunda, dividida pelos seus graus de liberdade, se obtém uma variável aleatória, cuja distribuição, condicionada por X, é uma t-Student com n − k graus de liberdade. Assim,
Capítulo 2 – O Modelo de Regressão Linear Clássico bj − β j s m jj
64
X ~ t (n − k ) ( j = 1, 2, K , k ) .
O parâmetro característico desta distribuição, condicionada por X, é n − k . Como este parâmetro não depende de X, a respectiva distribuição não condicionada é dada por (2.73)
tj =
bj − β j s m jj
=
bj − β j sb j
~ t (n − k ) ( j = 1, 2, K , k ) ,
onde, como se sabe, sb j é o erro padrão de b j . Suponha-se que se pretende construir um intervalo de confiança de nível 1 − α (por exemplo, 1 − α = 0.95 ) para β j . Como o resultado (2.73) fornece uma variável fulcral, vem bj − β j ≤ tα / 2 = 1 − α , P − tα / 2 ≤ sb j onde tα / 2 é tal que P(t j > tα / 2 ) = α / 2 . Então, P b j − tα / 2 sb j ≤ β j ≤ b j + tα / 2 sb j = 1 − α ,
e o intervalo de confiança, de nível 1 − α , para β j é (2.74)
[ b j − tα / 2 sb j ; b j + tα / 2 sb j ].
Suponha-se que se pretende fazer o teste de hipóteses H 0 : β j = β 0j contra uma das três seguintes hipóteses alternativas: a) H 1 : β j > β 0j ; b) H1 : β j < β 0j ; c) H 1 : β j ≠ β 0j .
Em qualquer dos casos, a estatística-teste é dada pelo rácio-t (2.75)
tj =
b j − β 0j sb j
~ t (n − k ) .
Por exemplo, no caso c), se t j ,obs é o valor observado da estatística-teste, este valor vai ser comparado com o valor crítico, tα / 2 , e rejeita-se H 0 quando | t j ,obs | > t a / 2 . O valor-p é 2 P (t j > | t j , obs | H 0 ) . As três situações referidas estão resumidas no quadro 2.2. Deve chamar-se a atenção para um aspecto interessante relativo ao cálculo do valor-p quando a alternativa é unilateral. Suponha-se, por exemplo, que H 1 : β j > β 0j e que b j < β 0j . Neste caso, não vale a pena calcular o valor-p, pois sabe-se que o seu valor é superior a 0.50, o que leva sempre a não rejeitar a hipótese nula.
Capítulo 2 – O Modelo de Regressão Linear Clássico
65
Quadro 2.2 Teste de H 0 : β j = β 0j contra H 1 H1
Região crítica
Valor-p
β j > β 0j
t j > tα ou b j > β 0j + tα sb j
P(t j > t j ,obs | H 0 )
β j < β 0j
t j < −tα ou b j < β 0j − tα sb j
P(t j < t j ,obs | H 0 )
β j ≠ β 0j
| t j | > tα / 2 ou
2 P (t j > | t j ,obs | H 0 )
b j < β − tα / 2 sb j ∨ b j > β + tα / 2 sb j 0 j
0 j
Nota – tα : P(t j > tα ) = α É particularmente importante o caso em que β 0j = 0 , ou seja, considerar a hipótese nula H 0 : β j = 0 . Neste caso, o rácio-t reduz-se a tj =
bj sb j
.
Se o teste rejeitar a hipótese nula, diz-se que o regressor xtj é estatisticamente significativo para explicar o comportamento médio de yt ; também pode dizer-se que xtj tem significância estatística para a finalidade referida. Por exemplo, se lsalart = β1 + β 2 educt + β3 expert + β 4 empct + ut , rejeitar a hipótese H 0 : β 2 = 0 tem a seguinte interpretação: controlando expert e empct , educt é significativo, do ponto de vista estatístico, para explicar o comportamento médio do regressando lsalart . Antes de retomar o exemplo reservado para a análise empírica, vão fazer-se mais alguns comentários: a) Quando se faz um teste de hipóteses, como os indicados anteriormente, é preferível utilizar a expressão “não rejeitar a hipótese nula” do que “aceitar a hipótese nula”. Considere-se de novo a equação explicativa de lsalar, e que pretendia fazer-se o teste de H 0 : β 2 = 0.06 , com dimensão 0.05. Não rejeitar esta hipótese não invalida obviamente que também se possa não rejeitar a hipótese H 0 : β 2 = 0.061 . É absurdo dizer que se aceitam as duas hipóteses, porque as afirmações “ β 2 = 0.06 ” e “ β 2 = 0.061 ” não podem ser ambas verdadeiras. Tudo o que se pode dizer, é que os dados não permitem rejeitar qualquer das duas hipóteses ao nível 0.05. Também se usa a expressão “a evidência estatística é favorável à hipótese nula” quando se conclui que a hipótese não é rejeitada. b) Muitas vezes, dá-se toda a ênfase à significância estatística de um regressor, não se dando a atenção devida à sua significância prática, que tem a ver com a magnitude da estimativa obtida. Como o rácio-t para fazer o teste de H 0 : β j = 0 é t j = b j / sb j , pode haver significância estatística porque b j é “grande”, ou porque sb j , é “peque-
Capítulo 2 – O Modelo de Regressão Linear Clássico
c)
d)
e)
f)
66
no”. Assim, pode ter-se um regressor estatisticamente significativo ( t j é “grande”), mas sem significado prático ( b j é “pequeno”). No caso de grandes amostras, é importante dar especial atenção à magnitude da estimativa obtida para o coeficiente, pois acontece muitas vezes que o regressor é estatisticamente significativo porque o erro padrão é baixo (com grandes amostras os parâmetros podem ser estimados com mais precisão). Alguns autores preconizam que a dimensão do teste, α , deve diminuir à medida que a dimensão da amostra, n, cresce, de forma a compensar parcialmente o facto de os erros padrão se tornarem mais pequenos. Por exemplo, no caso de dados seccionais, se se utiliza o nível de 0.05 quando a dimensão da amostra é de algumas centenas, deve usar-se o nível de 0.01 quando a dimensão da amostra é de alguns milhares. Uma dimensão menor para o teste contribui para que as duas significâncias (estatística e prática) possam coincidir, embora esta ocorrência não esteja garantida. Recorde-se que erros padrão elevados podem resultar da existência de um forte grau de multicolinearidade. Nesta situação, as estimativas de alguns coeficientes podem ser muito imprecisas, levando à conclusão, talvez errada, de que os regressores não são estatisticamente significativos. Podem dar-se algumas indicações práticas para orientar a discussão relativa à questão das significâncias estatística e prática de um regressor. Assim: − Deve analisar-se a significância estatística dos regressores. Se um regressor tem significância estatística, deve discutir-se a magnitude da estimativa do respectivo coeficiente para se ter uma ideia da sua importância prática. Neste aspecto, deve dar-se particular atenção às unidades de medida das variáveis, e à forma como aparecem no modelo (em níveis, em logaritmos, etc.). − Mesmo que o regressor não seja estatisticamente significativa aos níveis usuais (0.10, 0.05 ou 0.01), o seu significado prático pode ainda ser importante porque pode não ser pequena a magnitude da estimativa do seu coeficiente. Neste caso, deve ter-se presente o respectivo valor-p, pois, como se sabe, este mede a probabilidade de obter qualquer valor mais desfavorável para a hipótese nula (supondo-a verdadeira) do que o valor observado da estatística-teste. Na prática, o valor-p é um indicador da “credibilidade” da hipótese nula. − Pode acontecer que um regressor é estatisticamente significativo, mas a estimativa do respectivo coeficiente, embora sendo elevada, tem o “sinal trocado”. Este problema não é fácil de resolver, pois resulta muitas vezes de uma deficiente especificação do modelo (forma funcional, regressores importantes omitidos, erros de medida nas variáveis, etc.). Em certas aplicações, as dificuldades encontradas podem ser atenuadas com algum esforço de análise sobre a especificação do modelo, e sobre a natureza dos dados disponíveis.
Exemplo 2.15 – Considere-se de novo o exemplo em estudo. Para analisar a significância estatística dos três regressores ( educt , expert e empct ), faz-se, separadamente, o teste das seguintes hipóteses nulas: β 2 = 0 ; β 3 = 0 ; β 4 = 0 (as alternativas são bilaterais).
Capítulo 2 – O Modelo de Regressão Linear Clássico
Regressores educt expert empct
Rácios-t 11.40450 9.04644 1.63237
67
Valores-p 0.000 0.000 0.103
Os valores referidos no quadro anterior permitem concluir que, a nível 0.05, os regressores educt e expert , individualmente, são estatisticamente significativas [os efeitos parciais sobre lsalart são significativos, e os sinais estão correctos]. O regressor empct não é significativo a 0.10. Contudo, quando a hipótese alternativa é H1 : β 4 > 0 (o sinal esperado deste coeficiente), o valor-p é 0.0515, e empct já é significativo a nível 0.10. Suponha-se que se pretenda testar H 0 : β 2 = 0.06 (retorno da educação igual a 6%) contra H1 : β 2 > 0.06 . Como b2 = 0.055383 < 0.06 , não vale a pena calcular o valor observado da estatística-teste e o valor-p, pois sabe-se que o seu valor é superior a 0.50, o que leva sempre a não rejeitar a hipótese nula. Calculando, tem-se t2, obs =
b2 − 0.06 0.055383 − 0.06 = = −0.951 , sb2 0.004856
e o valor-p é igual a 0.829. Quando a hipótese alternativa é H1 : β 2 < 0.06 , o valor-p é 0.17, não se rejeitando a hipótese nula, mesmo a nível 0.15 (o valor crítico a 0.05 é igual a –1.646). Podem construir-se intervalos de confiança a 95% para os coeficientes de regressão. Com α = 0.05 e n − k = 996 , vem t0.025 = 1.962 . Utilizando os valores obtidos nos exemplos 2.6 e 2.9, obtém-se:
β 2 : [ b2 − tα / 2 sb , b2 + tα / 2 sb ] = [0.0459, 0.0649];
β 3 : [ b3 − tα / 2 sb , b3 + tα / 2 sb ] = [0.018, 0.028]; β 4 : [ b4 − tα / 2 sb , b4 + tα / 2 sb ] = [–0.0008, 0.0087]; 2
2
3
3
4
4
Facilmente se conclui que a hipótese nula que corresponde a cada um dos valores destes intervalos não é rejeitada a nível 0.05, quando as hipóteses alternativas são bilaterais. Por exemplo, as hipóteses nulas H 0 : β 2 = 0.05 ou H 0 : β 2 = 0.06 não são rejeitadas porque 0.05 e 0.06 pertencem ao intervalo de confiança de β 2 . Para construir um intervalo de confiança a 95% para a variância das variáveis residuais, tem-se, com α = 0.05 e n − k = 996 , χ 02.025 = 1085.355 e χ 02.975 = 910.4327 . Então, (n − k ) s 2 (n − k ) s 2 σ2: = [0.1294, 0.15426]. , 2 2 χ1−α / 2 χα / 2 ∇
Capítulo 2 – O Modelo de Regressão Linear Clássico
68
Inferência estatística sobre uma combinação linear dos coeficientes de regressão Considere-se a combinação linear dos coeficientes de regressão
δ = c1β1 + c2 β 2 + L + ck β k = cβ ,
onde c é um vector 1 × k de elemento genérico c j . O estimador MQ de δ é δˆ = cb , e facilmente se conclui que
δˆ | X ~ N δ , σ 2c( X T X )−1 cT ,
ou
δˆ − δ
σ c( X T X ) −1 cT
X ~ N (0,1) .
Com um procedimento semelhante ao caso anterior, facilmente se chega à conclusão de que δˆ − δ X ~ t (n − k ) . s c( X T X ) −1 c T Logo, (2.76)
tδˆ =
δˆ − δ
=
s c( X T X ) −1 cT
onde
δˆ − δ sδˆ
~ t (n − k ) ,
sδˆ = s c( X T X ) −1 c T
é o erro padrão de δˆ = cb . Para uma melhor compreensão do resultado (2.76), suponha-se, por exemplo, δ = β 2 + 3β3 . Então, δˆ = b2 + 3b3 , e vem sδ2ˆ = Var(b2 + 3b3 | X ) = Var(b2 | X ) + Var(3b3 | X ) + 2 Cov(b2 ,3b3 | X ) ^
^
^
^
= Var(b2 | X ) + 9 Var(b3 | X ) + 6 Cov(b2 , b3 | X ) = sb22 + 9sb23 + 6 Cov(b2 , b3 | X ) , ^
^
^
^
e, portanto, de acordo com (2.76), obtém-se
(b2 + 3b3 ) − ( β 2 + 3β 3 )
s + 9 s + 6 Cov(b2 , b3 | X ) 2 b2
2 b3
^
~ t (n − k ) .
Evidentemente, esta expressão dá os mesmos resultados numéricos que (2.76), mas permite, muitas vezes, tirar partido do output fornecido pelo software computacional, evitando fazer o produto matricial c( X T X ) −1 c T . Quando a combinação linear dos coeficientes de regressão não envolve o termo independente β1 , ou seja, quando δ = c2 β 2 + c3β3 + L + ck β k ( c1 = 0 ), pode calcular-se
Capítulo 2 – O Modelo de Regressão Linear Clássico
69
directamente o erro padrão de δˆ . Com efeito, considere-se, sem perda de generalidade, que um dos coeficientes c j ( j = 2, 3, K, k ) é igual a 1. Por exemplo, se c2 = 1 , tem-se
δ = β 2 + c3β3 + L + ck β k .
Como
yt = β1 + β 2 xt 2 + β3 xt 3 + L + β k xtk + ut
= β1 + ( β 2 + c3 β3 + L + ck β k ) xt 2 + β3 ( xt 3 − c3 xt 2 ) + L + β k ( xtk − ck xt 2 ) + ut = β1 + δ xt 2 + β3 ( xt 3 − c3 xt 2 ) + L + β k ( xtk − ck xt 2 ) + ut ,
pode estimar-se imediatamente δ (e calcular o erro padrão de δˆ ), fazendo a regressão MQ de yt sobre 1, xt 2 , xt 3 − c3 xt 2 ,…, xtk − ck xt 2 . Por exemplo, considere-se o modelo yt = β1 + β 2 xt 2 + β 3 xt 3 + ut ,
onde δ = β 2 + 3β3 . Como
yt = β1 + ( β 2 + 3β 3 ) xt 2 + β 3 ( xt 3 − 3 xt 2 ) + ut = β1 + δ xt 2 + β 3( xt 3 − 3 xt 2 ) + ut ,
δ pode ser estimado fazendo a regressão MQ de yt sobre 1, xt 2 e xt 3 − 3xt 2 ; o erro padrão de δˆ é obtido directamente desta regressão. Pode obter-se um intervalo de confiança para uma combinação linear dos coeficientes de regressão, ficando ao cuidado do leitor verificar que (2.77)
[ δˆ − tα / 2 sδˆ , δˆ + tα / 2 sδˆ ].
Suponha-se que se pretende fazer o teste de hipóteses H 0 : δ = δ 0 contra uma das seguintes alternativas: a) H 1 : δ > δ 0 ; b) H 1 : δ < δ 0 ; c) H 1 : δ ≠ δ 0 .
A estatística-teste é o rácio-t, (2.78)
tδˆ =
δˆ − δ 0 sδˆ
~ t (n − k ) .
Quadro 2.3 Teste de H 0 : δ = δ 0 contra H 1 H1
H1 : δ > δ 0 H1 : δ < δ 0 H1 : δ ≠ δ 0
Região crítica
Valor-p
tδˆ > tα ou δˆ > δ 0 + tα sδˆ
P (tδˆ > tδˆ ,obs | H 0 )
| tδˆ | > tα / 2 ou δˆ < δ 0 − tα / 2 sδˆ ∨ δˆ > δ 0 + tα / 2 sδˆ
2 P(tδˆ > | tδˆ ,obs | H 0 )
tδˆ < −tα ou δˆ < δ 0 − tα sδˆ
Nota – tα : P(tδˆ > tα ) = α
P (tδˆ < tδˆ , obs | H 0 )
Capítulo 2 – O Modelo de Regressão Linear Clássico
70
As três situações referidas estão apresentadas no quadro 2.3. Por exemplo, no caso b), representando por tδ ,obs o valor observado da estatística-teste, este valor vai ser comparado com o valor crítico, tα , e rejeita-se H 0 quando tδ ,obs < −ta . O valor-p é P(tδ < tδ ,obs | H 0 ) .
Exemplo 2.16 – Considerando de novo o exemplo em estudo, suponha-se que se pretende construir um intervalo de confiança a 95% para δ = β3 − β 4 . Reformulando o modelo, o cálculo de δˆ e de sδˆ pode ser feito com facilidade. Fazendo β3 = δ + β 4 , tem-se lsalart = β1 + β 2 educt + β3 expert + β 4 empct + ut
= β1 + β 2 educt + (δ + β 4 ) expert + β 4 empct + ut
= β1 + β 2 educt + δ expert + β 4 (expert + empct ) + ut .
Com a regressão MQ de lsalart sobre 1, educt , expert e expert + empct resulta imediatamente que δˆ = 0.019035 e sδˆ = 0.00346 . Então, [ δˆ − tα / 2 sδˆ , δˆ + tα / 2 sδˆ ] = [0.0122, 0.0258].
Note-se que δˆ e sδˆ podem ser calculados, utilizando directamente os resultados já obtidos nos exemplos 2.6 e 2.9. Assim, tem-se
δˆ = b3 − b4 = 0.022988 − 0.003953 = 0.019035 ,
e
sδˆ = Var(b3 | X ) + Var(b4 | X ) − 2 Cov(b3 , b4 | X ) ^
^
^
= 0.00000646 + 0.00000587 − 2 × 0.000000167 = 0.00346 .
Para testar, a nível 0.05,
H 0 : δ = β3 − β 4 = 0 contra H1 : δ = β3 − β 4 > 0 .
Tem-se
tδˆ , obs =
δˆ − 0 sδˆ
=
0.019035 = 5.49764 , 0.00346
a que corresponde o valor-p aproximadamente igual a 0. Então, rejeita-se H 0 . Suponha-se, agora, que vai testar-se H 0 : β3 + β 4 = 0.03 contra H1 : β3 + β 4 ≠ 0.03 .
Fazendo δ = β3 + β 4 − 0.03 , o teste pode ser feito substituindo no modelo original β 3 por δ − β 4 + 0.03 . Então, lsalart = β1 + β 2 educt + β3 expert + β 4 empct + ut
= β1 + β 2 educt + (δ − β 4 + 0.03) expert + β 4 empct + ut
= β1 + β 2 educt + δ expert + β 4 (empct − expert ) + 0.03 expert + ut ,
ou
Capítulo 2 – O Modelo de Regressão Linear Clássico
71
lsalart − 0.03 expert = β1 + β 2 educt + δ expert + β 4 (empct − expert ) + ut .
Então, testar
H 0 : δ = 0 contra H1 : δ ≠ 0
equivale a testar H 0 : β3 + β 4 = 0.03 contra H1 : β3 + β 4 ≠ 0.03 (no modelo original). Fazendo a regressão de lsalart − 0.03 expert sobre 1, educt , expert e empct − expert , obtém-se δˆ = −0.003058 e sδˆ = 0.003558 . O rácio-t é − 0.859587 , que corresponde ao valor-p igual a 0.39; a hipótese nula não é rejeitada. ∇
Exemplo 2.17 – É interessante saber se o retorno da educação depende de alguma das outras variáveis explicativas (por exemplo, expert ). No caso de se pretender averiguar se o retorno da educação depende do número de anos de experiência profissional, é necessário acrescentar ao modelo o regressor que representa a interacção entre educt e expert . A especificação do modelo passa a ser lsalart = β1 + β 2 educt + β3 expert + β 4 empct + β5 (educt × expert ) + ut .
Os resultados da estimação são os seguintes:
Regressores Estimativas dos coeficientes Erros padrão Rácios-t Valores-p constante 5.685180 0.170480 33.34810 0.000 educt 0.065622 0.013116 5.00305 0.000 expert 0.033817 0.013134 2.57476 0.010 empct 0.003924 0.002422 1.62005 0.106 educt × expert –0.000854 0.001017 –0.84035 0.401 Testar que o retorno da educação, β 2 + β5 expert , não depende de expert corresponde a fazer H 0 : β5 = 0 contra H1 : β5 ≠ 0 . Como o valor-p é 0.401, não se rejeita a hipótese nula. A evidência estatística é favorável a que o retorno da educação não dependa do número de anos de experiência profissional. Vai construir-se o intervalo de confiança a 95% para o retorno da educação quando expert = 10 , ou seja, para δ = β 2 + 10β5 . Reformulando o modelo, tem-se lsalart = β1 + β 2 educt + β3 expert + β 4 empct + β5 (educt × expert ) + ut
= β1 + (δ − 10β5 )educt + β3 expert + β 4 empct + β5 (educt × expert ) + ut = β1 + δ educt + β3 expert + β 4 empct + β5 educt × (expert − 10) + ut .
A estimativa de δ é δˆ = 0.057077 . Como sδˆ = 0.005259 , facilmente se verifica que o intervalo de confiança é [0.046758, 0.067397], que pouco difere do intervalo de confiança de β 2 do modelo inicial. ∇
Capítulo 2 – O Modelo de Regressão Linear Clássico
72
Inferência estatística sobre combinações lineares dos coeficientes de regressão Seja δ = Rβ , onde R é uma matriz m × k com característica igual a m ≤ k . Já se sabe que δˆ = Rb é o estimador MQ de δ . Tem-se, então,
δˆ | X ~ N ( m ) δ , R Cov(b | X ) RT ,
ou
δˆ | X ~ N ( m ) δ , σ 2 R( X T X ) −1 RT .
Atendendo à propriedade 2) das distribuições de vectores aleatórios, obtém-se 1
σ2
(δˆ − δ )T {R( X T X ) −1 RT }−1 (δˆ − δ ) X ~ χ 2 (m) .
Utilizando este resultado, e (2.69), é possível obter uma variável aleatória que segue uma distribuição F-Snedcor. Para isso, basta demonstrar a independência, condicionada por X, entre Uˆ T Uˆ = U T PX U e (δˆ − δ )T {R( X T X ) −1 RT }−1 (δˆ − δ ) = U T S X U ,
onde
δˆ − δ = R( X T X )−1 X TU e S X = X ( X T X )−1 RT {R( X T X ) −1 RT }−1 R ( X T X )−1 X T
é simétrica e idempotente. Com efeito, basta notar que PX S X = O e atender à propriedade 4) das distribuições de vectores aleatórios. Como (1 / σ 2 ) U T S X U | X ~ χ 2 (m) e (1 / σ 2 ) Uˆ TUˆ | X ~ χ 2 (n − k ) , obtém-se (δˆ − δ )T {R( X T X ) −1 RT }−1 (δˆ − δ ) / m X ~ F (m, n − k ) , Uˆ TUˆ /(n − k )
ou
(δˆ − δ )T {R( X T X ) −1 RT }−1 (δˆ − δ ) ms
2
X ~ F (m, n − k ) .
Note-se, também, que
Cov(δˆ | X ) = s 2 R( X T X ) −1 R T . ^
Os parâmetros característicos daquela distribuição, condicionada por X, são m e n − k . Como estes parâmetros não dependem de X, a respectiva distribuição não condicionada é dada por (2.79)
F=
(δˆ − δ )T {R( X T X ) −1 RT }−1 (δˆ − δ ) ~ F (m, n − k ) . ms 2
São de referir três casos particulares importantes de (2.79):
Capítulo 2 – O Modelo de Regressão Linear Clássico
73
1) R = [ 0 L 1 L 0 ], onde 1 se encontra na posição j. Neste caso, a partir de (2.79), tem-se (b j − β j ) 2 m jj s 2
=
(b j − β j ) 2 sb2j
~ F (1, n − k ) ( j = 1, 2, K , k ) .
Este resultado permite fazer o teste H 0 : β j = β 0j contra H 1 : β j ≠ β 0j (hipótese alternativa bilateral), mas não quando a hipótese alternativa é unilateral. Tirando partido das relações existentes entre a t-Student e a F-Snedcor, facilmente se obtém (2.73). 2) R é uma matriz-linha 1 × k , ou seja, R = c . Neste caso, de (2.79) sai (δˆ − δ ) 2 (δˆ − δ ) 2 ~ F (1, n − k ) = s 2c ( X T X ) −1 cT sδ2ˆ
Este resultado permite fazer o teste H 0 : δ = δ 0 contra H 1 : δ ≠ δ 0 (hipótese alternativa bilateral), mas não no caso unilateral. Recorrendo uma vez mais à relação entre as distribuições F-Snedcor e t-Student, obtém-se (2.76). 3) R = [ O I k 2 ], onde O é a matriz nula, quadrada de ordem k1 . Seja b β b = •1 e β = •1 , b•2 β •2 onde: b•1 e β •1 têm k1 elementos; b•2 e β •2 têm k2 elementos ( k1 + k2 = k ). Seja M = X T X , e M M = 11 M 21
M 12 M 11 −1 , M = 21 M 22 M
M 12 , M 22
onde as partições por blocos de M e de M −1 são compatíveis com a partição dos vectores b e β . Então, (δˆ − δ )T {R( X T X ) −1 RT }−1 (δˆ − δ ) = (b• 2 − β• 2 )T ( M 22 ) −1 (b• 2 − β• 2 ) ,
onde, atendendo à técnica de cálculo da inversa de matrizes por blocos (ver anexo 2A), ( M 22 ) −1 = M 22 − M 21M 11−1M 12 . Assim, (b• 2 − β• 2 )T ( M 22 ) −1 (b• 2 − β• 2 ) ~ F (k2 , n − k ) . k2 s 2
Este resultado serve para fazer inferência estatística sobre
β • 2 = [ β k +1 β k + 2 L β k ] T . 1
1
Retomando o caso geral, note-se que o resultado (2.79) pode ser apresentado de forma equivalente, utilizando os resíduos MQ com restrições, e evitando o cálculo da matriz {R( X T X ) −1 RT }−1 . Com efeito, seja
Capítulo 2 – O Modelo de Regressão Linear Clássico
74
Uˆ r = Y − Xbr = Y − X {b + ( X T X ) −1 RT {R( X T X ) −1 RT }−1 (δ − δˆ)} = Y − Xb − X ( X T X ) −1 RT {R( X T X ) −1 RT }−1 (δ − δˆ ) = Uˆ − X ( X T X ) −1 RT {R( X T X ) −1 RT }−1 (δ − δˆ) .
Então,
Uˆ rTUˆ r = Uˆ − X ( X T X ) −1 RT {R( X T X ) −1 RT }−1 (δ − δˆ) × Uˆ − X ( X T X ) −1 RT {R( X T X ) −1 RT }−1 (δ − δˆ ) = Uˆ TUˆ + (δˆ − δ )T {R ( X T X ) −1 RT }−1 (δˆ − δ ),
T
pois X TUˆ = 0 . Pode, assim, dispor-se do seguinte resultado equivalente a (2.79): (2.80)
F=
Uˆ rTUˆ r − Uˆ TUˆ ~ F (m, n − k ) . m s2
Os resultados anteriores – (2.79) e (2.80) – vão permitir efectuar inferências relativamente a qualquer conjunto de restrições lineares sobre os coeficientes de regressão. Para determinar uma região de confiança de nível 1 − α para δ = Rβ deve utilizar-se (2.79). Obtém-se R1−α = {δ : (δˆ − δ )T {R ( X T X ) −1 RT }−1 (δˆ − δ ) ≤ m s 2 Fα } ,
onde Fα é tal que P( F > Fα ) = α . Um caso particular importante diz respeito à construção de uma região de confiança para alguns coeficientes de regressão, β •2 . Assim, recorrendo ao terceiro caso particular de (2.79), vem R1−α = β• 2 : (b• 2 − β• 2 )T ( M 22 ) −1 (b• 2 − β• 2 ) ≤ k2 s 2 Fα ,
obtendo-se um elipsóide centrado em β •2 . Obviamente, não é equivalente construir, por exemplo, uma região de confiança de nível 1 − α para o par de coeficientes de regressão ( β 2 , β 3 ) , ou determinar dois intervalos de confiança de nível 1 − α (um para cada coeficiente de regressão). De facto, facilmente se podem encontrar pares de valores possíveis daqueles coeficientes que pertencem à região – à elipse centrada em ( β 2 , β 3 ) –, mas não pertencem ao rectângulo formado pelos dois intervalos de confiança; ou pares que pertencem ao rectângulo, mas não pertencem à elipse. Embora o nível de confiança da região (elipse) seja 1 − α , o nível de confiança do rectângulo é diferente de 1 − α . Vai ver-se a seguir como utilizar os resultados (2.79) ou (2.80) para efectuar testes de hipóteses sobre os coeficientes de regressão. Suponha-se que se pretende testar H 0 : Rβ = δ 0 contra H1 : Rβ ≠ δ 0 ,
Capítulo 2 – O Modelo de Regressão Linear Clássico
75
onde δ 0 é um valor assumido pelo vector m × 1 , δ . Assim, a hipótese nula a testar é constituída por m igualdades lineares sobre os coeficientes de regressão, r11β1 + r12 β 2 + L + r1k β k = δ10 r β + r β + L + r β = δ 2k k 20 H 0 : 21 1 22 2 L rm1β1 + rm 2 β 2 + L + rmk β k = δ m 0 ,
onde cada δ i 0 (i = 1, 2, K , m) é conhecido. A hipótese alternativa, H1 , consiste em negar H 0 , ou seja, em não se verificar pelo menos uma das igualdades referidas. A estatística-teste é o rácio-F (2.81)
F=
(δˆ − δ 0 )T {R( X T X ) −1 RT }−1 (δˆ − δ 0 ) ~ F (m, n − k ) , ms2
onde δˆ = Rb . A obtenção da distribuição deste rácio-F foi feita de acordo com o princípio de Wald (ver capítulo 8), que se baseia no estimador MQ de β sem restrições, b. Como se sabe, quando a hipótese nula se supõe verdadeira, obtém-se o resultado equivalente, (2.82)
F=
Uˆ rTUˆ r − Uˆ TUˆ (VR 0 − VR1 ) / m ~ F (m, n − k ) , = VR1 /(n − k ) ms2
onde: VR 0 = Uˆ rTUˆ r (variação residual ou soma dos quadrados dos resíduos do modelo com as restrições impostas pela hipótese nula); VR1 = Uˆ TUˆ (variação residual ou soma dos quadrados dos resíduos do modelo sem restrições); s 2 = VR1 /(n − k ) . O resultado (2.82) serve para fazer, nas condições referidas, qualquer teste de hipóteses sobre um conjunto de igualdades lineares que envolvem os coeficientes de regressão. Trata-se de um resultado de fácil aplicação, desde que se tenham estimado o modelo sem restrições, e o modelo com as restrições dadas pela hipótese nula. Com efeito, basta notar que o numerador é a diferença entre a variação residual (a soma dos quadrados dos resíduos) com as restrições e a variação residual sem restrições, e que o denominador é o produto do número de restrições, m, pelo estimador da variância das variáveis residuais do modelo sem restrições. A mecânica do teste é a seguinte: se o valor observado de F, Fobs , é superior a Fα rejeita-se a hipótese nula; caso contrário, esta hipótese não é rejeitada. Pode também reportar-se o resultado do teste indicando o respectivo valor-p: pobs = P( F > Fobs | H 0 ) .
Exemplo 2.18 – Suponha-se que yt = β1 + β 2 xt 2 + β3 xt 3 + β 4 xt 4 + β5 xt 5 + ut , e que a hipótese nula considera as seguintes restrições sobre os coeficientes de regressão: a soma dos coeficientes, excepto o termo independente, é igual a 1; β 2 e β 3 são iguais; β 4 é o dobro de β 5 . Pode, então, escrever-se β 2 + β 3 + β 4 + β 5 = 1 H 0 : β 2 − β 3 = 0 β − 2 β = 0. 5 4
Capítulo 2 – O Modelo de Regressão Linear Clássico
76
Neste caso, tem-se k = 5 , m = 3 ,
0 1 1 1 1 1 R = 0 1 − 1 0 0 e δ 0 = 0 . 0 0 0 1 − 2 0
A seguir, vai determinar-se o modelo que obedece às restrições estabelecidas na hipótese nula. Como β 2 = β3 , β 4 = 2β5 , tem-se 2β3 + 3β5 = 1 ou β3 = 0.5 − 1.5β5 . Então, obtém-se yt = β1 + (0.5 − 1.5β5 )( xt 2 + xt 3 ) + 2 β5 xt 4 + β5 xt 5 + ut ,
ou
yt − 0.5( xt 2 + xt 3 ) = β1 + β5{−1.5( xt 2 + x3 ) + 2 xt 4 + xt 5} + ut .
Então, o modelo com restrições é dado por
ytr = β1 + β5 xtr + ut ,
onde ytr = yt − 0.5 ( xt 2 + xt 3 ) e xtr = −1.5 ( xt 2 + xt 3 ) + 2 xt 4 + xt 5 . Neste caso, tem-se F=
(VR 0 − VR1 ) / 3 ~ F (3, n − 5) VR1 /( n − 5)
∇
Suponha-se que δ 0 = 0 , ou seja, considere-se que o sistema de restrições é homogéneo, Rβ = 0 . Se as restrições forem inseridas no modelo yt = xt • β + ut , e seguindo o mesmo procedimento apresentado na secção 2.8, verifica-se que o regressando do modelo com restrições continua a ser yt . Neste caso, é possível reformular (2.82). Com efeito, considerem-se as somas dos quadrados dos resíduos, sem e com restrições, VR1 = (1 − R 2 )VT e VR 0 = (1 − R02 )VT ,
onde R 2 e R02 são os coeficientes de determinação correspondentes, respectivamente, aos modelos sem e com restrições. Tem-se: R 2 > R02 . Substituindo em (2.82), e notando que s 2 = (1 − R 2 )VT /(n − k ) , obtém-se (2.83)
( R 2 − R02 ) / m ~ F (m, n − k ) , (1 − R 2 ) /( n − k )
concluindo-se que o cálculo desta expressão necessita apenas do conhecimento dos coeficientes de determinação referidos. A distribuição do rácio-F referida em (2.82) foi obtida obedecendo ao princípio da razão de verosimilhanças (ver capítulo 8), pois baseia-se nos estimadores MQ de β sem restrições, b, e com restrições, br . Assim, vai verificar-se que rácio-F para testar a hipótese nula H 0 : Rβ = δ 0 contra a alternativa H1 : Rβ ≠ δ 0 é uma transformação monótona da razão de verosimilhanças, λ (ver anexo 2F). Neste caso, tem-se
Capítulo 2 – O Modelo de Regressão Linear Clássico
77
~ ~ ~ ~ Θ = ( β , σ~ 2 ) : β ∈ ℜk , σ~ 2 > 0 , Θ0 = ( β , σ~ 2 ) : Rβ = δ 0 , σ~ 2 > 0 .
Então,
n n / 2 exp{−n / 2} ˆ T ˆ − n / 2 1 (U U ) , Lˆ (Θ) = (2π σˆ 2 ) − n / 2 exp− 2 (Y − Xb)T (Y − Xb) = (2π ) n / 2 2σˆ
onde σˆ 2 = Uˆ T Uˆ / n é o estimador MV de σ 2 (sem restrições), b é o estimador MV de β (sem restrições) e Uˆ = Y − Xb . Do mesmo modo,
n n / 2 exp{−n / 2} ˆ T ˆ − n / 2 1 , (U r U r ) Lˆ (Θ0 ) = (2π σˆ r2 ) − n / 2 exp− 2 (Y − Xbr )T (Y − Xbr ) = (2π ) n / 2 2σˆ r
onde σˆ r2 = Uˆ rT Uˆ r / n é o estimador MV de σ 2 (com restrições), br é o estimador MV de β (com restrições) e Uˆ r = Y − Xbr . Donde −n / 2 Lˆ (Θ) Uˆ T Uˆ = λ= . Lˆ (Θ 0 ) Uˆ rT Uˆ r Confrontando esta expressão de λ com o rácio-F dado por (2.82), facilmente se verifica que n − k 2/ n F= (λ − 1) . m
Pode, então, concluir-se que o teste RV e o teste correspondente a (2.82) dão o mesmo resultado.
Teste de significância global da regressão Considere-se o MRLCN com termo independente, e suponha-se que se pretende testar se todos os coeficientes de regressão, excepto o termo independente, são iguais a zero. Assim, H 0 : β 2 = β3 = L = β k = 0 contra H1 : ∃β j ≠ 0 ( j = 2, 3, K , k ) .
Não rejeitar a hipótese nula corresponde a verificar que o modelo proposto não é adequado, na sua globalidade, para descrever o comportamento do regressando. Como a hipótese nula corresponde a E ( yt | XT ) = β1 = E ( yt ) , diz-se que se está a testar a significância global da regressão. Para obter a estatística-teste, vai considerar-se (2.82) e notar que, neste caso, a soma dos quadrados dos resíduos a satisfazer as restrições definidas pela hipótese nula ( β 2 = β 3 = L = β k = 0 ) é igual à variação total das observações do regressando, VR 0 = VT = ∑t =1 ( yt − y ) 2 , n
Capítulo 2 – O Modelo de Regressão Linear Clássico
78
ou seja, no modelo sujeito às restrições, a variação total coincide com a variação residual (a variação explicada é nula). A igualdade anterior é facilmente provada em virtude de o modelo com restrições ser apenas yt = β1 + ut . Neste caso, tem-se b1 = y e uˆ rt = yt − y .
Então,
∑ F=
n
t =1
( yt − y ) 2 − Uˆ TUˆ (k − 1) s
2
=
VT − VR ~ F (k − 1, n − k ) , (k − 1) s 2
onde VR é a variação residual do modelo sem restrições. Como VR = (1 − R 2 )VT , VR = (n − k ) s 2 e VE = VT − VR , obtém-se (2.84)
F=
R 2 / (k − 1) VE /( k − 1) = ~ F (k − 1, n − k ) . 2 (1 − R ) /( n − k ) VR /( n − k )
Note-se que (2.84) pode obter-se de (2.83), fazendo R02 = 0 . Se não se rejeita a hipótese nula, conclui-se que há evidência de que o conjunto de todos os regressores não é adequado para explicar o comportamento do regressando. Obviamente, a rejeição da hipótese nula significa que os regressores, na sua globalidade, explicam alguma variação das observações do regressando. Contudo, isto não quer dizer que o valor de R 2 tenha que ser muito elevado (por exemplo, pode acontecer que o teste rejeite a hipótese nula, mas o valor de R 2 é igual a 0.04). É por esta razão que se deve fazer o teste de significância global, e não ter em conta apenas a magnitude de R 2 .
Teste de nulidade conjunta de coeficientes de regressão Este teste de hipóteses consiste em averiguar se alguns dos coeficientes de regressão são conjuntamente iguais a zero. Trata-se, com efeito, de saber se o regressando responde ou não, conjuntamente, às variações de alguns regressores. Não rejeitar a hipótese de que, por exemplo, certos β j são iguais a zero significa existir evidência estatística que pode levar a concluir que os correspondentes regressores não contribuem para esclarecer o comportamento do regressando. Sem perda de generalidade vai supor-se que yt = xt(•1) β•1 + xt(•2) β• 2 + ut ,
onde xt • = [ xt(•1) xt(•2 ) ], com xt(•1) de tipo 1× k1 e xt(•2) de tipo 1 × k2 . Os subvectores de β , β•1 e β • 2 , são de tipo k1 × 1 e k2 × 1 , respectivamente. O teste é o seguinte: H 0 : β• 2 = 0 contra H1 : β• 2 ≠ 0 .
Trata-se de testar se os regressores correspondentes a estes coeficientes dão uma contribuição significativa para a explicação do comportamento do regressando. Diz-se, então, que se está a testar a significância conjunta de alguns regressores. Como a não rejeição de H 0 significa que há evidência estatística a favor da exclusão daqueles regressores, diz-se também que se está a testar um conjunto de relações de exclusão.
Capítulo 2 – O Modelo de Regressão Linear Clássico
79
Para efectuar o teste pode utilizar-se a distribuição correspondente ao terceiro caso particular de (2.79). No entanto, é preferível basear o teste em (2.82) ou (2.83), fazendo as duas regressões seguintes: a primeira, considerando todos os regressores, de forma a obter a soma dos quadrados dos resíduos sem restrições; a segunda, utilizando os primeiros k1 regressores, obtendo-se assim a soma dos quadrados dos resíduos com restrições. O teste é feito com a estatística F dada por (2.82) ou (2.83), com m = k2 . O teste da significância conjunta de alguns regressores merece os seguintes comentários: a) Pode acontecer que: o teste de significância separada de cada um destes regressores (utilizando o respectivo rácio-t) conclua que nenhum deles, isoladamente, é significativo; mas, o teste de significância conjunta (utilizando o rácio-F) não exclui aquele grupo de regressores. A explicação mais frequente para uma situação destas é a de existência de multicolinearidade entre os regressores sujeitos a teste. Com efeito, embora as elevadas correlações entre regressores não permita discernir os efeitos parciais, o efeito global é detectado. Daí que seja útil fazer o teste do rácio-F de significância conjunta de regressores com sintomas de multicolinearidade. b) Pode acontecer que: o teste de significância conjunta de alguns regressores conclua pela sua exclusão; mas, algum regressor, considerado isoladamente, é significativo. A explicação para esta ocorrência tem a ver com o seguinte: o teste do rácio-F é adequado para avaliar significâncias conjuntas, mas não é o melhor teste para concluir sobre significâncias isoladas; para isso, existe o teste do rácio-t. Dito de outro modo: o teste do rácio-F é menos potente que o teste do rácio-t para detectar que um determinado coeficiente de regressão é diferente de zero. Assim, quando se faz um teste de significância conjunta também se devem realizar os testes respectivos de significância isolada, para evitar a situação de o primeiro teste esconder a significância de um regressor.
Exemplo 2.19 – Considere-se o MRL apresentado no exemplo 2.1. Suponha-se que pretende testar-se a hipótese nula, H 0 : β 2 = β3 = β 4 = 0 , isto é, procura-se testar se as semi-elasticidades (pontuais) são conjuntamente nulas (teste de significância global dos regressores). Recorrendo a (2.84), tem-se Fobs =
0.173527 / 3 R 2 / (k − 1) = = 69.707 , 2 (1 − R ) /(n − k ) (1 − 0.173527) / 996
e F0.05 = 2.6138 (valor crítico com 3 e 996 graus de liberdade). Pode concluir-se que deve rejeitar-se a hipótese nula, quando a dimensão do teste é 0.05; o valor-p é praticamente nulo. Considere-se o seguinte MRL: lsalart = β1 + β 2 educt + β3 expert + β 4 empct + β5 expert 2 + β 6 empct2 + ut ,
onde se incluíram os regressores que representam o quadrado de expert e de empct . Os resultados da estimação MQ são os seguintes:
Capítulo 2 – O Modelo de Regressão Linear Clássico
80
Regressores Estimativas dos coeficientes Erros padrão Rácios-t Valores-p constante 5.907880 0.093984 62.8607 0.000 educt 0.055978 0.004855 11.5310 0.000 expert 0.013606 0.011510 1.18217 0.237 empct – 0.016116 0.008748 – 1.84237 0.066 2 expert 0.000390 0.000474 0.82228 0.411 2 empct 0.001215 0.000514 2.36384 0.018 2 2 s = 0.140372 ; R1 = 0.1789 ; VR1 = 139.53 . Verifica-se que expert 2 não é estatisticamente significativa (o valor-p é igual a 0.411). Como o valor-p relativo a empct2 é 0.018, esta variável é significativa. Para testar a significância estatística conjunta dos dois regressores é necessário, para aplicar (2.82), dispor das variações residuais com e sem restrições, da estimativa sem restrições da variância residual e do número de restrições. Como VR 0 = 140.445 , VR1 = 139.53 , s 2 = 0.140372 e m = 2 , vem Fobs =
VR 0 − VR1 140.445 − 139.53 = = 3.26193 , 2 × 0.140372 ms 2
ficando ao cuidado do leitor obter o mesmo valor com (2.83). Com graus de liberdade iguais a 2 e 994, o respectivo valor-p é 0.0387 a nível 0.05, rejeitando-se a hipótese nula: os dois regressores são conjuntamente significativos (o valor crítico é 3.00478). Considerando o modelo inicial (ver exemplo 2.1), vai agora testar-se, a 0.05, H 0 : β 2 = 0.06 ∧ β3 + β 4 = 0.025 contra H1 : β 2 ≠ 0.06 ∨ β3 + β 4 ≠ 0.025 .
Neste caso, o modelo sem restrições é obviamente o modelo inicial. O modelo com restrições é dado por lsalart − 0.06 educt − 0.025 empct = β1 + β3 (expert − empct ) + ut ,
Tem-se: VR 0 = 140.614 , VR1 = 140.445 , s 2 = 0.141 e m = 2 . Então, recorrendo a (2.82), sai Fobs =
VR 0 − VR1 140.614 − 140.445 = = 0.59774 . 2 × 0.141 ms 2
Como os graus de liberdade são 2 e 996, o valor-p correspondente ao valor observado da estatística-teste é 0.55 (o valor crítico é 3.00476): não se rejeita a hipótese nula. Fica ao cuidado do leitor verificar que no teste (a nível 0.05) H 0 : β 2 = 0.06 ∧ β3 + β 4 = 0.04 contra H1 : β 2 ≠ 0.06 ∨ β3 + β 4 ≠ 0.04 ,
rejeita-se a hipótese nula (tem-se: Fobs = 7.20939 , pobs = 0.00078 ).
∇
No anexo 2G apresenta-se o modelo de regressão linear clássico generalizado (Aitken), onde se abandonam as hipóteses REX.3 e REX.4.
Capítulo 2 – O Modelo de Regressão Linear Clássico
81
2.11 - Variáveis artificiais Em muitos casos, certos factores explicativos do comportamento do regressando não podem ser representados por uma variável quantitativa. Estão nestas condições todas as causas de natureza qualitativa, nomeadamente aquelas que se manifestam pela presença ou pela ausência de certo atributo ou, quando muito, pela presença de uma de várias situações alternativas possíveis. Exemplo 2.20 – Considere-se as seguintes situações: a) Para estudar, com dados seccionais, o comportamento de um conjunto de agregados familiares relativamente à despesa anual em bens e serviços culturais (cinema, teatro, música, leitura, …) é natural considerar como variáveis explicativas, a par de certas variáveis quantitativas – como o rendimento disponível ou o número de elementos do agregado –, variáveis qualitativas como a zona de residência (por forma a ter em conta a oferta existente), o grupo etário de alguns membros do agregado ou, ainda, o grau de escolaridade global do agregado. b) Quando pretende explicar-se, com dados seccionais, o comportamento dos salários dos trabalhadores de uma determinada região apontaram-se, como variáveis explicativas quantitativas (ver exemplos 1.4 e 2.1), o número de anos de escolaridade do trabalhador, o número de anos de experiência profissional e o número de anos de trabalho no emprego corrente, embora se tenha referido uma variável qualitativa, o género (feminino ou masculino). No entanto, podem indicar-se outros factores qualitativos que influenciam o salário: o grau de especialização do trabalhador, o uso de computador no trabalho, o sector de actividade da empresa, etc. c) Os modelos com dados temporais também podem considerar variáveis qualitativas para explicar a evolução de outra variável. Uma das situações mais interessantes, designada por estudo de um acontecimento (event study), é aquela em que se procura analisar o impacto da ocorrência de um certo acontecimento mais ou menos duradouro (uma nova regulamentação, uma catástrofe, uma guerra, um choque energético, etc.). Obviamente muitos agregados macroeconómicos comportam-se de maneira diferente antes, durante e depois de acontecimentos como os referidos. d) No caso de um modelo com dados temporais, as variáveis envolvidas podem ter um comportamento sazonal. Em muitos casos, a integração da sazonalidade no modelo pode ser feita mediante a consideração de variáveis qualitativas. ∇ Começa por considerar-se a situação em que o factor qualitativo assume apenas duas modalidades. Exemplos de factores deste tipo são: o género (feminino/masculino); a divisão geográfica em que se faz a distinção apenas entre zonas urbanas e zonas rurais; possuir ou não computador pessoal. Para modelar um factor com duas modalidades basta definir uma variável binária, d, (que, por convenção, assume os valores 0 ou 1), associada a um determinado acontecimento, A, da seguinte maneira:
Capítulo 2 – O Modelo de Regressão Linear Clássico
(2.85)
82
1 (se A se verifica), d = 0 (se A não se verifica).
No caso d = 0 , também se diz que se verifica o acontecimento contrário, A . A variável d também é designada por variável artificial (dummy na literatura anglo-saxónica), ou variável zero-um. A escolha dos valores 0 e 1 é arbitrária, mas estes valores têm uma interpretação natural. É habitual fazer a convenção de o nome da variável binária ser o nome da modalidade que corresponde ao valor 1. Por exemplo, se A = {o trabalhador é mulher}, tem-se: d = 1 , se o trabalhador é mulher; d = 0 , se o trabalhador é homem. Então, faz-se d ≡ mulher . A forma mais simples de introduzir num modelo de regressão linear a informação qualitativa trazida pela variável artificial consiste em considerá-la como um regressor. Assim, se se tivesse o modelo yt = β1 + β 2 xt + ut , e se se pretendesse introduzir a informação qualitativa dada por uma variável artificial, especificava-se o modelo (2.86)
yt = β1 + δ dt + β 2 xt + ut ,
onde, por exemplo, d t assume o valor 1 se se realiza o acontecimento A, e o valor 0, se não se verifica este acontecimento. Tem-se, então: (2.87)
(para dt = 0) yt = β1 + β 2 xt + ut yt = ( β1 + δ ) + β 2 xt + ut (para dt = 1).
Ao formular o modelo (2.86) está a considerar-se que a variável qualitativa tem efeito apenas no termo independente e não há interacção com o regressor quantitativo, xt . Além disso, a interpretação dos parâmetros β1 e δ é diferente daquela que se faz habitualmente: β1 representa o termo independente no caso em que não se realiza o acontecimento A; β1 + δ é o termo independente quando se verifica o acontecimento A; δ é a diferença de termos independentes, quando se passa de d t = 0 (não realização de A) para d t = 1 (realização de A) [Por exemplo, quando se passa de um trabalhador (homem) para uma trabalhadora (mulher)]. Deste modo, o parâmetro δ tem a seguinte interpretação: representa a variação ceteris paribus de yt , quando se passa de A ( d t = 0 ) para A ( d t = 1 ). Se δ > 0 , yt cresce; se δ = 0 , yt não varia; se δ < 0 , yt decresce. A figura 2.8 ilustra um modelo do tipo (2.86) quando δ > 0 e β1 > 0 . Fazendo XT = {xs : s ∈ T } , facilmente se conclui que
δ = E ( yt | XT , dt = 1) − E ( yt | XT , dt = 0) ,
uma vez que
E ( yt | XT , dt = 1) = ( β1 + δ ) + β 2 xt e E ( yt | XT , dt = 0) = β1 + β 2 xt .
Pode escrever-se
δ = E ( yt | XT , A) − E ( yt | XT , A ) .
Capítulo 2 – O Modelo de Regressão Linear Clássico
d=0
83
d=1
Fig. 2.8 – Variável artificial com efeito no termo independente.
Como δ mede a variação do valor esperado condicionado de y t , quando se passa de A para A, diz-se que A é o acontecimento de referência (por exemplo, o acontecimento de referência é A = {o trabalhador é homem}). A estimação do modelo (2.86), em alternativa à estimação separada dos dois submodelos dados por (2.87), tem por consequência garantir que o coeficiente β 2 , comum aos dois submodelos, é estimado, de forma única, utilizando toda a informação disponível. Esta ideia está patente na figura 2.8 pelo facto de as duas rectas serem paralelas. Quando se lida com variáveis artificiais, é necessário evitar situações de multicolinearidade exacta, que traduz o facto de um regressor ser combinação linear dos outros. Se se tivesse introduzido não uma, mas duas variáveis artificiais, d1 e d 2 , definidas por 1 (se A se verifica) d1 = 0 (se A não se verifica) 1 (se A se verifica) d2 = 0 (se A não se verifica),
e considerado o modelo yt = β1 + β 2 d t1 + β 3 d t 2 + β 4 xt + ut , verifica-se que d t1 + d t 2 = 1 (os trabalhadores só podem ser mulheres ou homens). Neste caso, o modelo reduzir-se-ia a yt = ( β1 + β 3 ) + ( β 2 − β 3 ) d t1 + β 4 xt + ut ,
não sendo possível estimar separadamente os parâmetros β1 , β 2 e β 3 . Daqui decorre que, dispondo de uma amostra, e em relação ao modelo com multicolinearidade, yt = β1 + β 2 d t1 + β 3 d t 2 + β 4 xt + ut , não é possível aplicar o método dos mínimos quadrados uma vez que a matriz X T X não é invertível. É por esta razão que, para um factor qualitativo com duas modalidades, se deve introduzir apenas uma variável artificial.
Capítulo 2 – O Modelo de Regressão Linear Clássico
84
Quando se trata apenas de um factor qualitativo com duas modalidades, é fácil evitar a situação de multicolinearidade exacta, que alguns autores chamam a armadilha das variáveis artificiais. Quando se consideram vários factores qualitativos, alguns com mais do que duas modalidades, aumenta a possibilidade de cair nesta armadilha. Querendo manter as duas variáveis artificiais, uma forma de evitar a armadilha seria considerar a especificação yt = β1d t1 + β 2 d t 2 + β 3 xt + ut (modelo sem termo independente), embora se continue a ter d t1 + d t 2 = 1 . É possível estimar separadamente os três coeficientes de regressão, uma vez que yt = β 2 + ( β1 − β 2 ) d t1 + β 3 xt + ut . No entanto, quando se estima o modelo sem termo independente, há dois inconvenientes práticos: é mais difícil, por exemplo, testar a hipótese H 0 : β1 − β 2 = 0 do que H 0 : δ = 0 ; como formalmente o modelo não tem termo independente, o coeficiente de determinação, R 2 , pode ser negativo e deixa de ter o significado habitual (deve calcular-se o coeficiente de determinação não centrado, R∗2 ?). Obviamente todas as considerações anteriores são válidas quando o modelo tem mais do que um regressor quantitativo. Exemplo 2.21 – Retomando o exemplo 2.20a), suponha-se que procura explicar-se a despesa anual em bens e serviços culturais, despc, de certos agregados familiares, em função do rendimento disponível, rdisp, e da dimensão do agregado familiar, daf. Além disso, podem considerar-se alguns factores explicativos de tipo qualitativo, como sejam: a existência ou não de crianças de idade inferior a 12 anos; a zona de residência do agregado (urbana/rural); o grau de escolaridade do agregado (alto/médio/baixo). Numa primeira tentativa de modelação, um sociólogo definiu uma variável artificial cri12, atribuindo o valor 1 às observações referentes aos agregados com crianças de idade inferior a 12 anos, e o valor 0 aos restantes. O modelo é o seguinte:
despct = β1 + β 2 rdispt + β3 daft + β 4 cri 12t + ut .
Dispõe-se de uma amostra casual de 209 agregados familiares. Estimado o modelo, obteve-se despct = 14.08 + 0.0486 rdisp t + 6.566 daft + 4.630 cri 12t , ^
(0.0015)
(1.384)
(4.228)
figurando entre parênteses os erros padrão dos estimadores MQ. Ao efectuar o teste H 0 : β 4 = 0 contra H 1 : β 4 ≠ 0 , não se rejeita, para os níveis habituais, a hipótese H 0 (o valor-p é 0.275), o que leva a concluir que a variável artificial cri12 pode ser eliminada da regressão. Assim sendo, não existe, em termos estatísticos, diferenças significativas no comportamento esperado de despc entre as famílias com ou sem filhos de idade inferior a 12 anos. A regressão estimada, quando não se inclui a variável artificial, é dada por despct = 15.81 + 0.0485 rdispt + 6.7068 daft , ^
(0.0015)
(1.379)
Capítulo 2 – O Modelo de Regressão Linear Clássico
85
verificando-se que há significância individual de cada regressor (obviamente também se tem significância global). Rejeitado o possível efeito da variável cri12, o sociólogo decidiu investigar a importância da zona de residência. Para tal, definiu uma nova variável artificial, urb, atribuindo o valor 1 às observações referentes aos agregados que residem nas zonas urbanas de grande ou média dimensões, e o valor 0 a todos os outros casos (áreas rurais). Estimado o novo modelo, obtém-se despc t = 12.53 + 0.0484 rdisp t + 6.754 daf t + 9.968 urbt . ^
(0.0014)
(1.364)
(4.252)
Facilmente se conclui que se rejeita a hipótese de nulidade do parâmetro associado à variável artificial, e, consequentemente, que esta deve ser mantida no modelo. ∇ Considere-se que a variável explicada é expressa em logaritmos, ln( yt ) = β1 + δ dt + β 2 xt + ut .
Ceteris paribus, o parâmetro δ , multiplicado por 100, representa aproximadamente a variação percentual de yt , quando se passa de d t = 0 (realização de A ) para d t = 1 (realização de A). De facto, seja
δ = ln( yt1 ) − ln( yt0 ) ,
onde yt1 é o valor de yt quando d t = 1 , e yt0 é o valor de yt quando d t = 0 . Para calcular o valor exacto, tem-se yt1 − yt0 = exp{δ } − 1 , yt0
ou onde
%∆yt = 100 × (exp{δ } − 1) , %∆yt = 100 ×
yt1 − yt0 . yt0
Exemplo 2.22 – Considere-se que, no caso do exemplo 2.20b), o modelo é o seguinte:
lsalart = β1 + β 2 educt + β3 expert + β 4 empct + β 5 mulhert + ut .
Ceteris paribus, 100 (exp{β 5} − 1) mede, em média, a variação percentual do salário, quando se compara um homem com uma mulher. O valor aproximado é 100 β 5 , quando β 5 é pequeno. Por exemplo, se β 5 = 0.01 , o valor aproximado da variação percentual do salário é 1%; como 100 × (e0.01 − 1) = 1.005 , o valor exacto é 1.005%. Quando β5 = 0.15 , o valor aproximado é 15%, mas o valor exacto é 16.183%. ∇
Capítulo 2 – O Modelo de Regressão Linear Clássico
86
Existem, no entanto, situações em que o efeito do factor qualitativo se dá no coeficiente de um regressor quantitativo, e não no termo independente. Numa situação destas, o modelo adequado é (2.88)
yt = β1 + ( β 2 + δ dt ) xt + ut = β1 + β 2 xt + δ dt xt + ut ,
onde d t xt traduz a interacção entre o regressor quantitativo e o factor qualitativo representado pela variável artificial (assume o valor 0 quando d t = 0 , e o valor xt quando d t = 1 ). O desdobramento do modelo (2.88) origina (2.89)
(para dt = 0) yt = β1 + β 2 xt + ut yt = β1 + (δ + β 2 ) xt + ut (para dt = 1).
Interpretando os coeficientes, tem-se o seguinte: β 2 corresponde ao efeito marginal xt sobre yt quando d t = 0 ; β 2 + δ mede o mesmo efeito para d t = 1 ; δ traduz a diferença dos dois efeitos.
d=0
d=1
Fig. 2.9 – A variável artificial com impacte no declive.
Verifica-se facilmente que
δ xt = E ( yt | XT , dt = 1) − E ( yt | XT , dt = 0) ,
uma vez que
E ( yt | XT , dt = 1) = β1 + ( β 2 + δ ) xt e E ( yt | XT , dt = 0) = β1 + β 2 xt .
Assim, a variação do valor esperado condicionado de y t não é medida por δ (não é constante), mas por δ xt (depende de xt ). A figura 2.9 ilustra esta situação quando δ > 0 e β 2 > 0 . Mantém-se, naturalmente, a recomendação feita para se utilizar apenas uma variável artificial de forma a evitar a multicolinearidade perfeita. Note-se também que podem ser considerados os efeitos do factor qualitativo simultaneamente no termo independente e no coeficiente de um regressor.
Capítulo 2 – O Modelo de Regressão Linear Clássico
87
Exemplo 2.23 – No seguimento do exemplo 2.21, suponha-se que urb interage com rdisp, mas não influencia o termo independente. O modelo é, então,
despct = β1 + β 2 rdisp t + β3 daft + β 4 (urbt × rdisp t ) + ut .
Interpretando os coeficientes, tem-se: β 2 corresponde ao efeito marginal de uma unidade monetária de rendimento disponível para um agregado que vive numa zona rural ( urb = 0 ); β 2 + β 4 mede o mesmo efeito para um agregado de uma zona urbana ( urb = 1 ); β 4 traduz a diferença dos dois efeitos. A estimação do modelo é a seguinte: despc t = 15.50 + 0.0477 rdisp t + 6.752 daf t + 0.00239 (urbt × rdisp t ) . ^
(0.0015)
(1.369)
(0.00119)
Pode facilmente verificar-se que se rejeita, para os níveis habituais, a hipótese de nulidade do coeficiente do regressor urbt × rdispt (embora o valor-p seja 0.045), isto é, não se rejeita que o factor qualitativo representado pela variável artificial urb tem efeito sobre o coeficiente de rdisp. A variação média estimada de despc, quando urb passa de 0 para 1, é dada por 0.00239 rdisp t . Por exemplo, quando rdispt = 2500 , a variação é de 5.975. Uma vez que não se rejeitou em modelos separados (ver exemplo 2.21) a influência daquele factor quer no termo independente quer em rdisp, pode ser-se tentado a concluir, erroneamente, que os dois efeitos são significativos simultaneamente. Para verificar que, neste caso, tal não é verdade, basta construir o respectivo modelo completo, e proceder à sua estimação. Obtém-se: despc t = 11.32 + 0.0488 rdisp t + 6.7497 daf t − 0.00125 (urbt × rdisp t ) + 14.13 urbt , ^
(0.0017)
(1.367)
(0.00315)
(11.33)
Os testes do rácio-t mostram, separadamente, que os regressores urbt × rdispt e urbt não são significativos (os valores-p são, respectivamente, 0.692 e 0.214). Quando se faz o teste conjunto sobre a significância dos dois regressores, o valor observado do rácio-F é 2.815. Como o valor crítico a nível 0.05 (com 2 e 204 graus de liberdade) é 3.04 (o valor-p é 0.062), pode concluir-se que não se rejeita a nulidade conjunta a 0.05 (a 0.10 a conclusão é oposta). Assim, tem-se uma situação em que, do ponto de vista estatístico, não se rejeitam em modelos separados os efeitos no termo independente e em rdisp, mas rejeitam-se quando considerados no mesmo modelo. Esta situação ocorre porque na amostra há um problema de multicolinearidade, uma vez que há uma forte correlação entre os regressores urbt × rdispt e urbt : o respectivo coeficiente de correlação é igual a 0.9. Nestas circunstâncias, parece ser aconselhável adoptar o modelo sem a interacção entre urb e rdisp, ou seja, despct = β1 + β 2 rdisp t + β3 daft + β 4 urbt + ut .
∇
Capítulo 2 – O Modelo de Regressão Linear Clássico
88
Analise-se, agora, a situação em que o factor qualitativo apresenta mais do que duas modalidades. Neste caso, para evitar a armadilha das variáveis artificiais, consideram-se tantas variáveis binárias quantas as modalidades do factor menos uma. Suponha-se que existem m modalidades, a que correspondem os acontecimentos A1 , A2 , K , Am−1 , Am . As variáveis artificiais são as seguintes: 1 (se A1 se verifica) d1 = 0 (se A1 não se verifica),
1 (se A2 se verifica) d2 = 0 (se A2 não se verifica), ... 1 (se Am −1 se verifica) d m −1 = 0 (se Am −1 não se verifica).
Neste caso, o acontecimento de referência é Am . Uma vez definidas as variáveis artificiais, utiliza-se um procedimento em tudo semelhante àquele que se seguiu quando se tinha apenas uma variável artificial, ou seja, é necessário determinar se os efeitos do factor qualitativo afectam o termo independente ou os coeficientes dos regressores. Os coeficientes associados às variáveis artificiais interpretam-se, agora, como diferenças em relação à alternativa escolhida para referência. Exemplo 2.24 – Suponha-se que no exemplo da despesa anual em bens e serviços culturais se define o grau de escolaridade do agregado familiar, distinguindo três modalidades: “alto”, “médio” e “baixo”. Torna-se, então, necessário introduzir duas variáveis artificiais, que se podem definir da seguinte forma:
1 (grau de escolaridade alto) educA = 0 (caso contrário),
1 (grau de escolaridade médio) educM = 0 (caso contrário). Tomou-se como acontecimento de referência aquele que não é referido na definição das duas variáveis artificiais, ou seja, o de o agregado familiar ter grau de escolaridade baixo. Sem dificuldade se redefinem as variáveis artificiais se se desejar escolher outra modalidade para referência. O quadro seguinte resume a correspondência entre os três graus de escolaridade e os valores assumidos pelas variáveis artificiais. Graus de escolaridade Baixo Médio Alto
educA 0 0 1
educM 0 1 0
Capítulo 2 – O Modelo de Regressão Linear Clássico
89
Supondo que os efeitos do grau de escolaridade do agregado se fazem sentir apenas no termo independente, adoptou-se o seguinte modelo: despct = β1 + β 2 rdispt + β3 daft + β 4 educAt + β 5 educM t + ut .
A estimação fornece os seguintes resultados: Regressores Estimativas dos coeficientes Erros padrão constante 8.3830 rdispt 0.0492 0.0014 daf t 6.6170 1.336 educAt 22.9970 5.895 educM t 7.7945 4.639
Como facilmente se vê, educAt é estatisticamente significativa a 0.05. Quanto à variável educM t , pode concluir-se que não é significativa a 0.05; contudo, é significativa a nível 0.10 (o valor-p é 0.094). Quando se admite que o factor qualitativo afecta não o termo independente, mas o coeficiente de rdispt , a estimação MQ fornece os seguintes resultados: Regressores Estimativas dos coeficientes Erros padrão Constante 14.6800 rdispt 0.0476 0.00140 daf t 6.4010 1.3330 0.0069 0.0017 educAt × rdispt educM t × rdispt 0.0023 0.0013
A significância estatística do regressor educM t × rdispt não é clara: como o valor-p é 0.085, rejeita-se a nível 0.10, mas não se rejeita a 0.05. ∇ Factores qualitativos como o género, o estado civil, a zona de residência ou o uso, ou não, de computador, registam-se numa escala nominal, uma vez que a ordem não tem significado. Existem outros factores qualitativos, como o grau de escolaridade ou o grau de especialização profissional, que se registam numa escala ordinal, porque a ordem das modalidades é importante. No caso de um factor ordinal, com mais de duas modalidades, é possível codificar numericamente as várias modalidades atribuindo um número a cada uma, e respeitando a respectiva ordem. Por exemplo, se o factor em estudo é o grau de especialização profissional, a codificação podia ser a seguinte: Trabalhador não especializado: Trabalhador semi-especializado: Trabalhador especializado: Trabalhador muito especializado:
0 1 2 3
Capítulo 2 – O Modelo de Regressão Linear Clássico
90
Este procedimento é o mais adequado para tratar um factor qualitativo ordinal como explicativo num modelo de regressão linear? A resposta é negativa, porque a numeração das modalidades não significa, por exemplo, que um trabalhador muito especializado corresponde a três trabalhadores semi-especializados. O exemplo seguinte esclarece esta questão. Exemplo 2.25 – Considere-se o modelo
lsalart = β1 + β 2 educt + β 3 expert + δ1 gept1 + δ 2 gept 2 + δ 3 gept 3 + ut ,
onde:
1 ( trabalhador semi-especializado) gept1 = 0 (caso contrário) 1 ( trabalhador especializado) gept 2 = 0 (caso contrário)
1 ( trabalhador muito especializado) gept 3 = 0 (caso contrário) . O grau de especialização de referência é o de “trabalhador não especializado”. Este modelo, com três variáveis artificiais, permite estimar o efeito do grau de especialização profissional sobre os salários. Se se considerasse, em vez das três variáveis artificiais, a variável gep com a codificação atrás referida, fazia-se lsalart = β1 + β 2 educt + β3 expert + β 4 gept + ut ,
onde
0 1 gept = 2 3
( trabalhador não especializado) ( trabalhador semi-especializado) ( trabalhador especializado) ( trabalhador muito especializado) .
Este modelo pressupõe que o efeito parcial de gep sobre lsalar é constante. Fazendo δ 2 = 2δ 1 e δ 3 = 3δ 1 , facilmente se conclui que estas restrições sobre os coeficientes do primeiro modelo permitem obter o segundo. De facto, inserindo as restrições no primeiro modelo, obtém-se lsalart = β1 + β 2 educt + β3 expert + δ1 ( gept1 + 2 gept 2 + 3 gept 3 ) + ut ,
que não é mais do que o segundo modelo, onde gept = gept1 + 2 gept 2 + 3 gept 3 . Para testar a hipótese de efeito parcial constante, utiliza-se o teste do rácio-F habitual, onde o primeiro modelo é o modelo sem restrições, e o segundo, o modelo com restrições. ∇
Capítulo 2 – O Modelo de Regressão Linear Clássico
91
Sabe-se que num factor com m modalidades (a que correspondem m acontecimentos) se definem m − 1 variáveis artificiais, tomando um dos acontecimentos para referência. Contudo, quando o número de modalidades do factor qualitativo ordinal é muito elevado, não é, em geral, adequado definir as variáveis artificiais desta maneira (por exemplo, se o factor qualitativo fosse o ranking das 1000 maiores empresas portuguesas, não se podem definir 999 variáveis artificiais!). Nestes casos, o procedimento aconselhável é o de agrupar as modalidades por classes (por exemplo, definir cinco classes de acordo com as classificações no ranking: de 1 a 10; de 11 a 50; de 51 a 200; de 201 a 500; de 501 a 1000). A introdução de variáveis artificiais não está confinada à consideração de um único factor qualitativo. No entanto, quando se considera mais do que um factor, é necessário encontrar solução para um problema que se levanta com frequência: o da possível existência de interacções dos factores. Entende-se por interacção o facto de uma modalidade de determinado factor poder ter um efeito diferenciado em função da modalidade de outro factor. Por exemplo, pode considerar-se que o grau de escolaridade do agregado tem um efeito diferenciado no consumo de bens culturais em função da zona de residência, uma vez que se admite que o grau de escolaridade influencia a procura, enquanto a área de residência traduz a oferta. Por facilidade de exposição, suponha-se que a variável y (por exemplo, o consumo de bens culturais) depende de uma variável quantitativa x (por exemplo, o rendimento disponível), e de dois factores qualitativos: o primeiro, com duas modalidades (por exemplo, a zona de residência – rural/urbana); o segundo, com três modalidades (por exemplo, o grau de escolaridade – alto/médio/baixo). As respectivas variáveis artificiais são dadas por 1 (zona urbana ) d1 = 0 (caso contrário),
1 (grau de escolaridade alto) d2 = 0 (caso contrário),
1 (grau de escolaridade médio) d3 = 0 (caso contrário).
A convenção estabelecida permite fazer: d1 ≡ urb , d 2 ≡ educA , d3 ≡ educM . Admite-se ainda, por simplicidade, que nenhum dos factores influencia o coeficiente do regressor quantitativo. Caso não existam interacções, o modelo é dado por (2.90)
yt = β1 + β 2 xt + β3 dt1 + β 4 dt 2 + β 5 dt 3 + ut .
No quadro 2.4 apresenta-se o termo independente para as seis situações possíveis. Verifica-se assim que a diferença entre os termos independentes das duas zonas de residência é sempre β 3 , qualquer que seja o grau de escolaridade; a passagem do grau
Capítulo 2 – O Modelo de Regressão Linear Clássico
92
baixo para o grau médio (alto) de escolaridade é sempre medida por β 5 ( β 4 ), qualquer que seja a zona de residência. Quadro 2.4 Termo independente no modelo sem interacções Zona
Urbana Rural
Grau de escolaridade Alto Médio Baixo
β1 + β 3 + β 4 β1 + β 4
β1 + β 3 + β 5 β1 + β 5
β1 + β 3 β1
Para estabelecer as interacções, torna-se necessário introduzir mais duas variáveis artificiais a partir das variáveis artificiais inicialmente definidas. Aquelas variáveis adicionais são obtidas multiplicando cada variável artificial relativa a um factor por todas as variáveis artificiais que dizem respeito ao outro factor. Neste caso, têm-se mais duas variáveis: d 4 = d1 × d 2 e d 5 = d1 × d 3 . O modelo é, então, (2.91)
yt = β1 + β 2 xt + β 3 dt1 + β 4 dt 2 + β 5 dt 3 + β 6 dt 4 + β 7 dt 5 + ut .
Note-se que d t 4 assume o valor 1 apenas quando d t1 = d t 2 = 1 ; comentário semelhante pode fazer-se para d t 5 . A interpretação dos coeficientes é menos óbvia do que no caso de não haver interacções. No entanto, o quadro 2.5 ajuda a clarificar as interacções no que se refere ao termo independente. Quadro 2.5 Termo independente no modelo com interacções Zona
Urbana Rural
Alto
β1 + β 3 + β 4 + β 6 β1 + β 4
Grau de escolaridade Médio
β1 + β 3 + β 5 + β 7 β1 + β 5
Baixo
β1 + β 3 β1
Pode, então, verificar-se que a diferença entre as duas zonas de residência varia com o grau de escolaridade: β 3 + β 6 para o grau de escolaridade alto; β 3 + β 7 para o grau médio; β 3 para o grau baixo. Fica ao cuidado do leitor verificar, recorrendo a um raciocínio semelhante, que as diferenças entre os graus de escolaridade dependem da zona de residência. Exemplo 2.26 – Retome-se os exemplos 2.21 e 2.24, e estime-se o modelo com as variáveis artificiais correspondentes aos factores zona de residência – variável urb – e grau de escolaridade – variáveis educA e educM. Os resultados da estimação dos modelos com e sem interacções apresentam-se nos quadros seguintes.
Capítulo 2 – O Modelo de Regressão Linear Clássico
93
Modelo com interacções Regressores Estimativas dos coeficientes Erros padrão constante 4.959 rdispt 0.049 0.0014 daf t 6.604 1.3380 urbt 10.648 5.4390 educAt 21.850 7.3400 educM t 9.418 5.7030 educAt × urbt 2.689 12.1300 educM t × urbt –4.510 9.6520 2 2 2 R = 0.8609 ; ∑ uˆt = 163861 ; s = 815.229 Modelo sem interacções Regressores Estimativas dos coeficientes Erros padrão constante 5.163 rdispt 0.049 0.0014 daf t 6.665 1.3210 urbt 9.807 4.1160 22.838 5.8290 educAt educM t 7.851 4.5870 2 2 2 R = 0.8607 ; ∑ uˆt = 164142 ; s = 808.581
Analisando estes resultados, vê-se que as interacções não são, individualmente, estatisticamente significativas (os valores-p são, respectivamente, 0.825 e 0.641). Efectuando o teste de nulidade conjunta dos coeficientes respectivos – recorrendo ao resultado (2.82) –, tem-se Fobs =
164142 − 163861 = 0.172 , 2 × 815.229
valor que indica claramente que, conjuntamente, as duas interacções não são significativas (o valor-p é 0.84; F0.05 = 3.04 , para 2 e 201 graus de liberdade). Deste modo, o modelo mais adequado não deve considerar as interacções. ∇ Em muitas situações, as variáveis que integram um MRL com dados temporais, apresentam sazonalidade, isto é, têm comportamentos sistemáticos em determinados subperíodos de um período de tempo mais alargado. São numerosos os exemplos que se podem apresentar de oscilações em valores observados que são originados por comportamentos semelhantes em meses ou trimestres homólogos de anos sucessivos: a produção mensal de fruta tem um andamento global fortemente marcado pela posição que o mês ocupa no ano; o consumo de electricidade para fins domésticos apresenta as mesmas características; o consumo de gasolina pode reflectir a influência da época do ano.
Capítulo 2 – O Modelo de Regressão Linear Clássico
94
Contudo, também se podem observar fenómenos de sazonalidade quando se considera um mês e os dias do mês, ou um dia e as horas do dia. Existem vários métodos para estudar este fenómeno. Contudo, nesta secção, vai abordar-se apenas a questão da sazonalidade determinística, utilizando variáveis artificiais. Seja m o número de subperíodos em que se divide cada período de tempo sob observação. Se o período for o ano, e os subperíodos os meses, tem-se m = 12 ; no caso de trimestres, vem m = 4 . Faz-se m = 30 , quando o período for o mês, e os subperíodos os dias. Em geral, o número total de observações é n = mp , sendo p o número de períodos. Sem perda de generalidade, considere-se o modelo de regressão linear simples, yt = β1 + β 2 xt + ut , e suponha-se que yt e xt são observáveis trimestralmente e apresentam sazonalidade (neste caso, os períodos são anos, e os subperíodos são trimestres). Como existem quatro trimestres, vão definir-se três variáveis artificiais da seguinte maneira: 1 (se t ocorre no trimestre i ), dti = 0 (caso contrário), onde i = 2, 3, 4 (considerou-se que o trimestre de referência é o primeiro). Pretendendo-se estimar o coeficiente de regressão de xt (o efeito, ceteris paribus de xt sobre yt ) expurgado da sazonalidade, deve considerar-se o modelo de regressão linear, (2.92)
yt = β1 + β 2 xt + δ 2 dt 2 + δ 3 dt 3 + δ 4 dt 4 + ut .
Trata-se de outro exemplo de aplicação do teorema de Frisch-Waugh-Lovell, estudado no final da secção 2.5. Um teste importante é o da sazonalidade, em que se procura testar se os coeficientes das variáveis artificiais são conjuntamente nulos, ou seja, a hipótese nula é dada por H 0 : δ 2 = 0, δ 3 = 0, δ 4 = 0 . 2.12 - Testes de alteração da estrutura
Suponha-se que num modelo de regressão linear é possível dividir a população em grupos de tal modo que se admite a possibilidade de os coeficientes de regressão variarem com o grupo. Admitindo que se pode estimar o modelo para cada um dos grupos, é razoável testar a variabilidade inter-grupos dos coeficientes de regressão. Os testes que dão resposta a esta questão são conhecidos pela designação de testes de alteração da estrutura. Exemplo 2.27 – Considere-se as seguintes situações: 1) Suponha-se que no modelo de regressão linear com dados seccionais explicativo do comportamento dos salários dos trabalhadores referido no exemplo 2.1, a população é dividida em dois grupos: o das mulheres, e o dos homens. Estimando separadamen-
Capítulo 2 – O Modelo de Regressão Linear Clássico
95
te o modelo para as mulheres e para os homens, procura-se testar se os coeficientes de regressão do grupo das mulheres são diferentes dos do grupo dos homens. 2) Admita-se que num modelo de regressão linear com dados temporais, de frequência trimestral, se podem considerar três períodos: o primeiro, decorre até ao final do 4.º trimestre de um determinado ano; o segundo, abrange os trimestres dos 6 anos seguintes; o terceiro, começa no 1.º trimestre do ano seguinte ao do último ano do segundo período. Neste caso, os grupos são os três períodos. Estimando separadamente o modelo para os três períodos, pretende-se testar se os coeficientes de regressão variam de período para período. 3) Suponha-se que no modelo de regressão linear referido em 1), se consideram duas populações de trabalhadores: uma, é formada pelos trabalhadores numa determinada data; a outra, é constituída pelos trabalhadores numa data posterior (por exemplo 5 anos depois). Trata-se, neste caso, de um modelo com dados seccionais combinados, em que a população é a união das duas subpopulações referidas. Neste caso, os grupos são as duas subpopulações. Estimando o modelo para cada data, o teste procura saber se os coeficientes de regressão variam entre as duas datas. ∇ Para facilitar a exposição, começa-se por tratar o caso em que número de grupos é igual a 2. O modelo é o seguinte: (2.93)
yt = β11 xt1 + β 21 xt 2 + L + β k1 xtk + ut (t ∈ T1 ) yt = β12 xt1 + β 22 xt 2 + L + β k 2 xtk + ut (t ∈ T2 ),
onde: − os coeficientes de regressão, β ji ( j = 1, 2, K k ; i = 1, 2 ), representam-se com dois índices: o primeiro refere-se ao regressor; o segundo, ao grupo. − Os conjuntos de índices dos grupos 1 e 2 representam-se, respectivamente, por T1 e T2 . Estes conjuntos constituem uma partição de T: T1 ∪ T2 = T e T1 ∩ T2 = ∅ . O modelo (2.93) pode apresentar-se com a seguinte notação: (2.94)
yt = xt • β •1 + ut (t ∈ T1 ) yt = xt • β • 2 + ut (t ∈ T2 ),
onde β •1 e β • 2 são os vectores k × 1 dos respectivos coeficientes de regressão. As hipóteses do modelo são as seguintes: − Em cada grupo verificam-se as hipóteses do MRLC (hipóteses REX.1 a REX.5). Por exemplo, a exogeneidade estrita no grupo 1 é dada por: E (ut | XT1 ) = 0 , para t ∈ T1 , onde XT1 = {xs • : s ∈ T1} . Fica ao cuidado do leitor enunciar as hipóteses básicas para cada um dos grupos. − As variáveis residuais referentes a grupos diferentes não estão correlacionadas. Deste modo, tem-se: Cov(ut , us | XT ) = 0 , para t ∈ T1 e s ∈ T2 .
Capítulo 2 – O Modelo de Regressão Linear Clássico
96
No teste de alteração da estrutura, a hipótese nula é dada por H 0 : β11 = β12 , β 21 = β 22 , K , β k1 = β k 2 ,
e, naturalmente, a hipótese alternativa estabelece que pelo menos uma destas k igualdades não se verifica. Pode, então, escrever-se: (2.95)
H 0 : β •1 = β • 2 contra H1 : β•1 ≠ β • 2 .
O modelo com restrições (que corresponde à hipótese nula) é dado por (2.96) ou (2.97)
yt = β1 xt1 + β 2 xt 2 + β 3 xt 3 + L + β k xtk + vt (t ∈ T ) , yt = xt • β + vt (t ∈ T ) ,
onde β é o respectivo vector dos coeficientes de regressão. Neste caso, β •1 = β • 2 = β . O modelo sem restrições corresponde a (2.93) ou (2.94). Dispondo de n1 observações para o grupo 1, e n2 para o grupo 2, a relação amostral correspondente ao modelo sem restrições, (2.94), é dada por (2.98)
Y•1 = X 1β •1 + U •1 Y• 2 = X 2 β• 2 + U • 2 ,
onde, para i = 1, 2 , se tem: Y•i é o vector ni × 1 das observações do regressando no grupo i; X i é a matriz ni × k das observações dos regressores no grupo i; U •i é o vector ni × 1 das variáveis residuais do grupo i. Verifica-se que: E (U •i | X i ) = 0 ( i = 1, 2 ); Cov(U •i | X i ) = σ 2 I ni ( i = 1, 2 );
Cov(U •1 , U • 2 | X 1 , X 2 ) = O (matriz nula n1 × n2 ).
Fazendo n = n1 + n2 , a relação (2.98) pode apresentar-se da seguinte maneira: (2.99) onde
Y = X ∗ β∗ + U ,
β •1 X O U •1 Y Y = •1 , X ∗ = 1 , β∗ = e U = . β • 2 O X 2 U • 2 Y• 2
Note-se, por exemplo, que a matriz X ∗ tem n linhas e 2k colunas. Naturalmente, tem-se: E (U | X ∗ ) = 0 ; Cov(U | X ∗ ) = σ 2 I n . A relação amostral correspondente ao modelo com restrições, (2.97), é (2.100) onde
Y = Xβ + V ,
X V X = 1 e V = •1 . X 2 V• 2
Capítulo 2 – O Modelo de Regressão Linear Clássico
97
Neste caso, E (V | X ) = 0 e Cov(V | X ) = σ 2 I n . Obviamente a relação (2.100) é equivalente a (2.101)
Y•1 = X 1β + V•1 Y• 2 = X 2 β + V• 2 .
Supondo que n1 > k e que n2 > k , os coeficientes de regressão do modelo sem restrições podem ser estimados pelo método MQ. Obtêm-se os seguintes resultados: b•i = ( X iT X i ) −1 X iT Y•i , Yˆ•i = X ib•i e Uˆ •i = Y•i − Yˆ•i ( i = 1, 2 ).
Fazendo o mesmo para o modelo com restrições, tem-se:
b = ( X T X ) −1 X T Y , Yˆ = X b e Vˆ = Y − Yˆ .
Supondo que se verifica a hipótese REX.6 para os dois modelos (sem e com restrições), pode demonstrar-se que (2.102)
FChow =
{Vˆ TVˆ − (Uˆ •T1Uˆ •1 + Uˆ •T2Uˆ • 2 )} / k ~ F ( k , n − 2k ) , (Uˆ •T1Uˆ •1 + Uˆ •T2Uˆ • 2 ) /( n − 2k )
se a hipótese nula é verdadeira. O teste de alteração da estrutura baseado na estatística-teste dada por (2.102) é conhecido pela designação de teste de Chow. Com efeito, o resultado (2.102) é um caso particular de (2.82), onde a soma dos quadrados dos resíduos MQ com restrições é VR 0 = Vˆ TVˆ , o número de restrições é k, a soma dos quadrados dos resíduos MQ sem restrições é VR1 = Uˆ •T1Uˆ •1 + Uˆ •T2Uˆ • 2 = Uˆ TUˆ e o número de graus de liberdade do denominador é n − 2k (diferença entre o número total de observações e o número de coeficientes a estimar). Note-se, também, que as restrições assumem a forma Rβ∗ = 0 , onde R = [ I k − I k ]. Quando não se considera a hipótese de normalidade das variáveis residuais, o resultado (2.102) é assintótico, pelo que só é válido para grandes amostras (ver capítulo 3). O teste de Chow com dois grupos pode ser feito introduzindo a variável artificial 1 (t ∈ T1 ) dt = 0 (t ∈ T2 ). Facilmente se verifica que o modelo sem restrições é o MRLC dado por (2.103)
yt = β1 xt1 + δ1dt xt1 + β 2 xt 2 + δ 2 dt xt 2 + L + β k xtk + δ k dt xtk + ut (t ∈ T ) ,
que é equivalente a (2.93). Com efeito, conclui-se imediatamente que:
Grupo 1 – β11 = β1 + δ1 , β 21 = β 2 + δ 2 , K , β k1 = β k + δ k ou β •1 = β + δ ;
Grupo 2 – β12 = β1 , β 22 = β 2 , K , β k 2 = β k ou β • 2 = β , onde
Capítulo 2 – O Modelo de Regressão Linear Clássico
98
δ1 β1 β2 δ e δ = 2 . β= M M δ k β k
Assim, a hipótese nula pode ser formalizada da seguinte maneira: H 0 : δ1 = 0, δ 2 = 0, K , δ k = 0 ou H 0 : δ = 0 .
O modelo com restrições continua a ser (2.96) ou (2.97). Na relação amostral correspondente ao modelo sem restrições, a matriz dos regressores é dada por X1 X1 . X O 2 Exemplo 2.28 – Retome-se o exemplo 2.2. Suponha-se que se pretende verificar se há comportamentos diferenciados do salário (em logaritmos) em função do género do trabalhador. Deste modo, o objectivo é saber se o padrão é diferente conforme o trabalhador é mulher ou homem (recorde-se que a amostra disponível é composta por 1000 observações, das quais 381 são mulheres e 619 são homens). Vai utilizar-se o resultado (2.102) para efectuar o teste da alteração da estrutura, calculando o valor observado da estatística FChow . Tem-se: − Soma dos quadrados dos resíduos MQ quando se utilizam as 1000 observações (ver exemplo 2.9): VR 0 = 140.445 (soma dos quadrados dos resíduos MQ com restrições); − Soma dos quadrados dos resíduos MQ com as 381 observações que correspondem às mulheres: 50.1637; − Soma dos quadrados dos resíduos MQ com as 619 observações relativas aos homens: 81.3226; − Logo: VR1 = 50.1637 + 81.3226 = 131.4863 (soma dos quadrados dos resíduos MQ sem restrições). Assim, o valor observado da estatística-teste é FChow =
(140.445 − 131.4863) / 4 = 16.898 , 131.4863 /(1000 − 2 × 4)
que se deve comparar com o respectivo valor crítico da tabela da F-Snedcor com 4 e 992 graus de liberdade. Como este valor é igual 2.38, conclui-se que se rejeita a hipótese de permanência de estrutura (o valor-p é praticamente nulo), ou seja, não se rejeita a hipótese de existirem diferenças significativas de salários em função do género. Por curiosidade, referem-se os resultados das três regressões:
Capítulo 2 – O Modelo de Regressão Linear Clássico
99
− Regressão com 1000 observações:
lsalart = 5.815 + 0.05538 educ t + 0.02299 expert + 0.00395 empct . ^
(0.00486)
(0.00254)
− Regressão com 381 observações (mulheres):
(0.00242)
lsalart = 5.6627 + 0.05541 educ t + 0.02398 expert + 0.00663 empct . ^
(0.00768)
(0.004)
− Regressão com 619 observações (homens):
(0.00379)
lsalart = 5.889 + 0.05573 educ t + 0.02302 expert + 0.00323 empct . ^
(0.00596)
(0.00313)
(0.003)
∇
O estudo precedente pode ser generalizado para g grupos. O modelo sem restrições passa a ser
(2.104)
yt yt yt
= xt • β •1 + ut (t ∈ T1 ) = xt • β • 2 + ut (t ∈ T2 ) M = xt • β • g + ut (t ∈ Tg ),
onde os conjuntos T1 , T2 , K , Tg formam uma partição de T. O modelo com restrições continua a ser dado por (2.97), onde β •1 = β • 2 = L = β • g = β . Dispondo de ni observações para o grupo i (i = 1, 2, K , g ) , a relação amostral correspondente ao modelo sem restrições é semelhante a (2.99), Y = X ∗ β∗ + U , onde Y•1 X1 Y O •2 , X∗ = Y= M M Y• g O
O β•1 U •1 U β• 2 O •2 , β∗ = eU = , M M M L X g β• g U • g
O L X2 L M O
(note-se que: n = n1 + n2 + L + ng ; X ∗ é uma matriz n × g k ; β∗ é um vector g k × 1 ). A relação amostral relativa ao modelo com restrições tem a mesma forma que (2.100), Y = Xβ + V , onde X1 V•1 X V 2 •2 e V = . X= M M X g V• g O teste de alteração da estrutura é dado por
H 0 : β•1 = β • 2 = L = β• g contra H1 : ∃(i, l) : β •i ≠ β•l .
Neste caso, as restrições podem apresentar-se na forma Rβ∗ = 0 , com
Capítulo 2 – O Modelo de Regressão Linear Clássico Ik O R= M O
O L O Ik L O M M O L Ik
100
− Ik − I k , M − Ik
em que R é de tipo ( g − 1)k × g k . Supondo que ni > k (i = 1, 2, K , g ) , o teste de Chow baseia-se no seguinte resultado: (2.105)
onde
{Vˆ TVˆ − Uˆ TUˆ } /{( g − 1)k} ~ F ( g − 1)k , n − g k , T Uˆ Uˆ /(n − g k )
Uˆ TUˆ = Uˆ •T1Uˆ •1 + Uˆ •T2Uˆ • 2 + L + Uˆ •TgUˆ • g .
O teste de alteração da estrutura também pode ser feito considerando um MRLC com variáveis artificiais. Admitindo que, por exemplo, o grupo g é o de referência, vão definir-se g − 1 variáveis artificiais (uma para cada um dos outros grupos). Assim: 1 (t ∈ Tg −1 ) 1 (t ∈ T2 ) 1 (t ∈ T1 ) ,..., dt , g −1 = . d t1 = , dt 2 = 0 (t ∉ T2 ) 0 (t ∉ T1 ) 0 (t ∉ Tg −1 )
O conjunto dos regressores do modelo sem restrições é formado pelos regressores originais, xtj ( j = 1, 2, K, k ) , e pelos produtos de cada dti (i = 1, 2, K , g − 1 ) , por cada xtj ( j = 1, 2, K , k ) : dti xtj . Designando por β j o coeficiente de xtj , e por δ ji o coeficiente de dti xtj , facilmente se conclui que
β•1 = β + δ •1 , β• 2 = β + δ • 2 ,..., β•, g −1 = β + δ •, g −1 e β• g = β ,
onde
δ1, g −1 δ11 δ12 β1 δ 2, g −1 β2 δ 21 δ 22 . ,δ = ,δ = ,..., δ •, g −1 = β= M M •1 M • 2 M β δ δ k 2 δ k , g −1 k1 k
O número de regressores deste modelo é ainda g k , e a matriz dos regressores é dada por X1 X1 O L O X2 O X2 L O M M M M . X g −1 O O L X g −1 X O O L O g A hipótese nula pode ser formalizada da seguinte maneira: H 0 : δ •1 = δ • 2 = L = δ •, g −1 = 0 .
Capítulo 2 – O Modelo de Regressão Linear Clássico
101
O modelo com restrições continua a ser (2.96) ou (2.97). A relação amostral do modelo com restrições continua a ser Y = Xβ + V . A utilização de variáveis artificiais tem a vantagem de permitir a realização de testes de alteração da estrutura mais flexíveis do que o teste de Chow. De facto, enquanto este teste abrange todos os coeficientes de regressão, pode ser vantajoso considerar testes em que apenas alguns coeficientes estão envolvidos. Por exemplo, uma possibilidade é a de aceitar que o termo independente pode variar com o grupo, e testar se os outros coeficientes (as inclinações) variam de grupo para grupo. Outra possibilidade, é a de manter as inclinações fixas inter-grupos, e testar se o termo independente não se altera quando se muda de grupo. Suponha-se, sem perda de generalidade, que os primeiros k1 coeficientes estão sujeitos a teste, e os restantes k2 coeficientes podem variar de grupo para grupo ( k1 + k2 = k ). O modelo sem restrições corresponde ao caso em que todos os coeficientes podem variar inter-grupos. Este modelo pode ser formalizado da seguinte maneira: yt = xt1• β •11 + xt2• β•21 + ut (t ∈ T1 ) 1 1 2 2 yt = xt • β • 2 + xt • β• 2 + ut (t ∈ T2 ) L yt = xt1• β •1g + xt2• β •2g + ut (t ∈ Tg ), onde: xt1• é o vector 1 × k1 dos primeiros k1 regressores; xt2• é o vector 1 × k2 dos restantes k2 regressores; β •1i (i = 1, 2, K , g ) é o vector k1 × 1 dos coeficientes sujeitos a teste; β•2i (i = 1, 2, K, g ) é o vector k2 × 1 dos coeficientes não sujeitos a teste (e que podem variar inter-grupos). As respectivas relações amostrais são Y•1 = X 11β•11 + X 12 β•21 + U •1 1 1 2 2 Y• 2 = X 2 β• 2 + X 2 β• 2 + U • 2 L Y• g = X 1g β•1g + X g2 β•2g + U • g ,
onde: X i1 (i = 1, 2, K , g ) é a matriz ni × k1 dos regressores relativamente ao grupo i, e aos regressores cujos coeficientes estão sujeitos a teste; X i2 (i = 1, 2, K , g ) é a matriz ni × k2 dos regressores relativamente ao grupo i, e aos regressores cujos coeficientes não estão sujeitos a teste. Pode, também, fazer-se Y = X ∗ β∗ + U , onde X1 O L O X 2 O L O 1 1 O X1 L O O X 2 L O 2 2 , X* = M M M M M M 1 2 O O L Xg O O L Xg
Capítulo 2 – O Modelo de Regressão Linear Clássico e
102
β1 •1 β 1 •2 M 1 β• g β∗ = 2 . β•1 β 2 •2 M 2 β• g
O teste é, então, H 0 : β•11 = β•12 = L = β•1g = β 1 contra H1 : ∃(i, l) : β•1i ≠ β •1l , onde β1 β 1 β = 2. M β k1
Como no modelo com restrições apenas os últimos k2 coeficientes podem variar de grupo para grupo, tem-se yt = xt1• β 1 + xt2• β •21 + ut (t ∈ T1 ) 1 1 2 2 yt = xt • β + xt • β • 2 + ut (t ∈ T2 ) L yt = xt1• β 1 + xt2• β •2g + ut (t ∈ Tg ).
As respectivas relações amostrais são dadas por
Y•1 = X 11β 1 + X 12 β•21 + V•1 1 1 2 2 Y• 2 = X 2 β + X 2 β• 2 + V• 2 L Y• g = X 1g β 1 + X g2 β •2g + V• g .
Pode, também, escrever-se Y = Xβ + V , onde X 11 X 21 1 X 2 O X = M M 1 X g O
β1 O L O β2 2 •1 X2 L O e β = β•22 . M M 2 O L X g 2 β• g
Capítulo 2 – O Modelo de Regressão Linear Clássico
103
Se a hipótese nula é verdadeira, obtém-se (2.106)
{Vˆ TVˆ − Uˆ TUˆ } /{( g − 1)k1} ~ F ( g − 1)k1 , n − g k . T Uˆ Uˆ /(n − g k )
Este teste pode ser feito recorrendo a um modelo com variáveis artificiais, tal como se fez a propósito do teste de Chow (2.105). O modelo sem restrições pode ser formalizado com apenas uma equação de regressão cujos regressores são xtj e d ti xtj (i = 1, 2, K , g − 1; j = 1, 2, K , k1 , k1 + 1, K , k ; k2 = k − k1 ) .
Designando os respectivos coeficientes de regressão por β j e por δ ji , tem-se
β•11 = β 1 + δ •11 , β•12 = β 1 + δ •12 ,..., β •1, g −1 = β 1 + δ •1, g −1 , β •1g = β 1 ,
β•21 = β 2 + δ •21 , β•22 = β 2 + δ •22 ,..., β•2, g −1 = β 2 + δ •2, g −1 , β•2g = β 2 , onde
e
δ11 δ12 δ1, g −1 δ 21 1 δ 22 δ 2, g −1 1 1 δ •1 = ,δ = ,..., δ •, g −1 = , M •2 M M δ δ δ k11 k1 2 k1 , g −1 δ k +1, g −1 β k +1 δ k +1,1 δ k +1, 2 1 1 1 1 δ k1 + 2, g −1 β δ δ k1 + 2 k1 + 2 ,1 k1 + 2 , 2 2 2 2 2 , ,δ = ,δ = ,..., δ •, g −1 = β = M M •1 M • 2 M δ β δ δ k 2 k k1 k , g −1
A matriz dos regressores é X1 11 X2 M 1 X g −1 X 1g
X 11 O M O O
O X 21 M O O
O X 12 X 12 O O X 22 O X 22 M M M M 1 2 L X g −1 X g −1 O O L O X g2 O O L L
O O M . L X g2−1 L O L L
A hipótese nula é dada por
H 0 : δ •11 = δ •12 = L = δ •1, g −1 = 0 .
O modelo com restrições é constituído por uma equação de regressão em que os regressores são xtj ( j = 1, 2, K , k1 , k1 + 1, K , k ) e dti xtj (i = 1, 2, K , g − 1; j = k1 + 1, k1 + 2, K , k ) .
A matriz dos regressores é dada por
Capítulo 2 – O Modelo de Regressão Linear Clássico X 11 1 X2 M 1 X g −1 1 Xg
X 12
X 12
O
X 22
O
X 22
M
M
M
X g2−1
O
O
X g2
O
O
104
O L O M . L X g2−1 L O L
Para ilustrar este resultado, vai considerar-se um modelo com termo independente e mais dois regressores ( k = 3 ). Suponha-se que existem três grupos ( g = 3 ), e que se pretende testar se as inclinações são constantes inter-grupos. Assim, o número de coeficientes sujeitos a teste é k1 = 2 (e, portanto, k2 = 1 ). Definindo duas variáveis artificiais, dti (i = 1, 2) [o grupo de referência é o terceiro], o modelo sem restrições é dado por yt = β1 + δ11dt1 + δ12 dt 2
+ β 2 xt 2 + δ 21dt1 xt 2 + δ 22 dt 2 xt 2
+ β3 xt 3 + δ 31dt1 xt 3 + δ 32 dt 2 xt 3 + ut ,
Como k = 3 , o número de graus de liberdade é n − gk = n − 9 . A hipótese nula é δ = δ 22 = 0 H 0 : 21 . δ 31 = δ 32 = 0. O modelo com restrições é, então,
yt = β1 + δ11dt1 + δ12 dt 2 + β 2 xt 2 + β 3 xt 3 + vt .
Como k1 = 2 , o número de restrições é ( g − 1)k1 = 4 . Considere-se, agora, a seguinte situação: os primeiros k1 coeficientes estão sujeitos a teste, e os restantes k2 coeficientes mantêm-se constantes inter-grupos. Neste caso, o modelo sem restrições é dado por yt = xt1• β•11 + xt2• β 2 + ut (t ∈ T1 ) 1 1 2 2 yt = xt • β• 2 + xt • β + ut (t ∈ T2 ) L yt = xt1• β•1g + xt2• β 2 + ut (t ∈ Tg ),
onde β 2 é o vector k2 × 1 dos coeficientes não sujeitos a teste (e que não variam inter-grupos). As respectivas relações amostrais são Y•1 = X 11β •11 + X 12 β 2 + U •1 1 1 2 2 Y• 2 = X 2 β• 2 + X 2 β + U • 2 L Y• g = X 1g β•1g + X g2 β 2 + U • g .
Capítulo 2 – O Modelo de Regressão Linear Clássico
105
Se se considerar Y = X ∗β∗ + U , tem-se
β1 X 1 O L O X 2 •1 1 1 β1 O X1 L O X 2 •2 2 2 X* = ; β∗ = M . M M M M 1 β• g 1 2 O O L Xg Xg 2 β
O teste continua a ser H 0 : β•11 = β•12 = L = β •1g = β 1 contra H1 : ∃(i, l) : β•1i ≠ β•1l . No modelo com restrições os regressores são xtj ( j = 1, 2, K , k ) . Daqui resulta que as relações amostrais são dadas por Y•1 = X 11 β 1 + X 12 β 2 + V•1 1 1 2 2 Y•2 = X 2 β + X 2 β + V•2 L Y = X 1 β 1 + X 2 β 2 + V . g g •g •g
Fazendo Y = Xβ + V , tem-se
X1 X 2 1 1 β 1 X 1 X 2 2 2 ; β = . X = β 2 M M 1 2 X X g g
Se a hipótese nula é verdadeira, tem-se (2.107)
{Vˆ TVˆ − Uˆ TUˆ } /{( g − 1)k1} ~ F ( g − 1)k1 , n − g k1 − k2 . T ˆ ˆ U U /(n − g k − k ) 1
2
Utilizando variáveis artificiais, os regressores do modelo sem restrições são
dti xtj ( i = 1, 2, K , g − 1; j = 1, 2, K , k1 ) e xtj ( j = 1, 2, K , k1 , k1 + 1, k1 + 2, K , k ).
Designando ainda os respectivos coeficientes de regressão por β j e por δ ji , continua a ter-se β •11 = β 1 + δ •11 , β •12 = β 1 + δ •12 ,..., β •1, g −1 = β 1 + δ •1, g −1 , β •1g = β 1 . A respectiva matriz dos regressores é, então,
X 11 1 X2 M 1 X g −1 1 Xg
X 11
O
L
O
O
X 21 L
O
M
M
M
O
O
L X 1g −1
O
O
L
O
X 12 X 22 M . X g2−1 X g2
Capítulo 2 – O Modelo de Regressão Linear Clássico
106
Neste caso, a hipótese nula ainda é H 0 : δ •11 = δ •12 = L = δ •1, g −1 = 0 . O modelo com restrições não tem variáveis artificiais, e a respectiva matriz dos regressores é X. Por exemplo, considere-se de novo um modelo com termo independente, mais dois regressores ( k = 3 ) e três grupos ( g = 3 ). Procura testar-se se o termo independente é constante inter-grupos, mantendo a hipótese de que as inclinações não variam de grupo para grupo. Neste caso, vem k1 = 1 e k2 = 2 . O modelo sem restrições é dado por yt = β1 + δ11d t1 + δ12 d t 2 + β 2 xt 2 + β 3 xt 3 + ut . .
O número de graus de liberdade é n − gk1 − k2 = n − 5 . A hipótese nula é H 0 : δ11 = δ12 = 0 , a que corresponde o modelo com restrições yt = β1 + β 2 xt 2 + β3 xt 3 + vt .
Como k1 = 1 , o número de restrições é ( g − 1)k1 = 2 .
Exemplo 2.29 – No exemplo 2.28, embora se rejeite a permanência de estrutura, parece que as estimativas do retorno da educação pouco diferem entre mulheres e homens. Pode, então, fazer-se o teste de o retorno da educação não variar com o género. Como o modelo sem restrições deve considerar todas as interacções entre a variável mulher e os outros regressores, tem-se: lsalart = β1 + δ1 mulhert + β 2 educt + δ 2 (mulhert × educt )
+ β 3 expert + δ 3 (mulhert × expert ) + β 4empct + δ 4 (mulhert × empct ) + ut .
Neste caso, basta testar H 0 : δ 2 = 0 contra H1 : δ 2 ≠ 0 , utilizando o rácio-t. Os resultados da regressão são os seguintes:
Estimativas Regressores dos coeficientes constante 5.88936 mulhert – 0.22665 educt 0.55732 mulhert × educt – 0.00032 expert 0.02302 mulhert × expert 0.00096 empct 0.00323 mulhert × empct 0.00339
Erros padrão
Rácios-t
0.14345 0.00597 0.00971 0.00313 0.00507 0.00300 0.00483
– 1.58004 9.33295 – 0.03330 7.34721 0.19009 1.07699 0.70336
Valores-p 0.114 0.000 0.973 0.000 0.849 0.282 0.482
Conclui-se imediatamente que não se rejeita a hipótese nula, isto é, a evidência estatística é favorável a que o retorno da educação não varie com o género. Obviamente, esta conclusão não invalida que não se rejeite a alteração de estrutura atrás testada. ∇
Capítulo 2 – O Modelo de Regressão Linear Clássico
107
2.13 - Previsão e análise dos resíduos Até aqui, o modelo de regressão linear foi apresentado de acordo com o seguinte ponto de vista: dispondo de um certo número de observações sobre as variáveis, procura-se estimar uma relação linear capaz de explicar o comportamento do regressando em função de certos regressores. Outro ponto de vista é o de encontrar o modo mais eficaz de utilização do modelo com o objectivo da previsão de observações adicionais do regressando a partir de certos valores assumidos pelos regressores. No entanto, deve sublinhar-se que só se deve passar à fase da previsão depois de se adoptar um determinado modelo estimado, o que pressupõe que as estimações feitas foram submetidas a uma cuidada análise da especificação. O “problema da previsão” procura dar resposta a dois tipos de questões: a) Previsão em média: estimação do valor esperado das observações do regressando condicionado por uma ou várias combinações de valores assumidos pelos regressores. b) Previsão pontual (para valores isolados): estimação de valores observados pelo regressando em correspondência com uma ou várias combinações de valores assumidos pelos regressores. A distinção entre estes dois tipos de previsão é ilustrada pelo exemplo que se segue.
Exemplo 2.30 – Seja
const = β1 + β 2 rdispt + β3 nef 16t + ut ,
onde: − const é o consumo da família t de certos tipos de bens; − rdispt é o rendimento real disponível da família t; − nef 16t é o número de elementos da família t com mais de 16 anos.
Sabendo que nef 16n +1 = 3 e rdispn +1 = 24 , a questão da alínea a) consiste em prever o consumo médio das famílias com rendimento disponível igual a 24 unidades monetárias e 3 elementos com idade superior a 16 anos. A questão da alínea b) corresponde à previsão do consumo de uma certa família nas mesmas condições. ∇ Considere-se no MRLCN a relação amostral, Y = Xβ + U , e suponha-se que se dispõe de r observações adicionais dos regressores. Estas observações vão ser agrupadas numa matriz X 0 de tipo r × k ,
xn +1,1 xn +1, 2 L xn +1, k xn + 2,1 xn + 2, 2 L xn + 2, k . X0 = M M M xn + r ,1 xn + r , 2 L xn + r , k
Capítulo 2 – O Modelo de Regressão Linear Clássico
108
No domínio de previsão ( t = n + 1, n + 2, K , n + r ) continuam a verificar-se as mesmas hipóteses do modelo que se tinha no domínio de estimação ( t = 1, 2, K , n ). Daqui resulta que
(2.108)
Y0 = X 0 β + U 0 , E (U 0 | X , X 0 ) = 0, 2 Cov(U 0 | X , X 0 ) = σ I r , U | X , X ~ N ( r ) (0, σ 2 I ), 0 r 0 Cov(U , U 0 | X , X 0 ) = O,
onde
yn+1 u n+1 y u n+2 , U 0 = n+ 2 , Y0 = M M yn+r u n + r
e Cov(U , U 0 | X , X 0 ) é a matriz n × r das covariâncias, condicionadas por X e X 0 , entre as variáveis residuais, ut , relativas ao domínio de estimação e as variáveis residuais, u s , referentes ao domínio de previsão. Assim, Cov(ut , us | X , X 0 ) = 0 (t = 1, 2, K , n ; s = n + 1, n + 2, K , n + r ) .
Evidentemente não se dispõe de – ou não se consideram as – observações do regressando no domínio de previsão. Nas condições (2.108), facilmente se verifica que
E (Y0 | X , X 0 ) = X 0 β , 2 Cov(Y0 | X , X 0 ) = σ I r , (r ) 2 Y0 | X , X 0 ~ N ( X 0 β , σ I r ), Cov(Y , Y | X , X ) = O. 0 0
Também se tem, em termos marginais,
E (U 0 ) = 0, 2 Cov(U 0 ) = σ I r , (r ) 2 U 0 ~ N (0, σ I r ), Cov(U , U ) = O. 0
Previsão em média No caso da previsão em média, pretende estimar-se o vector r × 1 ,
θ = E (Y0 | X , X 0 ) = X 0 β ,
Capítulo 2 – O Modelo de Regressão Linear Clássico
109
que não é mais do que um sistema de r combinações lineares dos coeficientes de regressão. Naturalmente que (2.109)
θˆ = X 0b
é BLUE para θ = X 0 β , condicionado por X e X 0 . Tem-se
(2.110)
E (θˆ | X , X ) 0 Cov(θˆ | X , X ) 0 θˆ | X , X 0
= E ( X 0b | X , X 0 ) = X 0 β = θ ,
= Cov( X 0b | X , X 0 ) = X 0 Cov(b | X , X 0 ) X 0T = σ 2 X 0 ( X T X ) −1 X 0T ,
~ N ( r ) θ , σ 2 X 0 ( X T X ) −1 X 0T .
Como s 2 = Uˆ T Uˆ /(n − k ) é o estimador MQ de σ 2 , tem-se
Cov(θˆ | X , X 0 ) = Cov( X 0b | X , X 0 ) = s 2 X 0 ( X T X ) −1 X 0T . ^
(2.111)
Então,
e (2.112)
^
(θˆ − θ )T { X 0 ( X T X ) −1 X 0T }−1 (θˆ − θ ) X , X 0 ~ F (r , n − k ) , r s2
(θˆ − θ )T { X 0 ( X T X ) −1 X 0T }−1 (θˆ − θ ) ~ F (r , n − k ) . r s2
Este resultado é semelhante a (2.79), onde R foi substituído por X 0 (no entanto, R é não estocástica e X 0 é matriz aleatória), e permite fazer inferência estatística sobre θ = X 0 β : construir regiões de confiança (elipsóides de previsão) e testar hipóteses. Quando se abandona a hipótese REX.6, a distribuição anterior é assintótica, e o resultado (2.112) só é válido para grandes amostras (ver capítulo 3). Quando se tem apenas uma observação adicional ( r = 1 ), para simplificar, vai fazer-se X 0 = c = [ c1 c2 L ck ],
onde c é um vector 1 × k . O parâmetro a estimar e o respectivo estimador são, respectivamente, os seguintes escalares:
θ = E ( y0 | X , c) = cβ = c1β1 + c2 β 2 + L + ck β k ,
θˆ = Eˆ ( y0 | X , c) = cb = c1b1 + c2b2 + L + ck bk . Recorrendo à distribuição t-Student, obtém-se (2.113)
θˆ − θ sθˆ
=
Eˆ ( y0 | X , c) − E ( y0 | X , c) s c( X T X ) −1 cT
~ t (n − k ) ,
Capítulo 2 – O Modelo de Regressão Linear Clássico onde
110
sθˆ = s c( X T X ) −1 cT
é o erro padrão da previsão em média. Este resultado serve para determinar intervalos de confiança (intervalos de previsão) para θ , e fazer testes de hipóteses. Supondo que se pretende construir um intervalo de confiança de grau 1 − α para θ = cβ , o intervalo é dado por (2.114)
[ θˆ − tα / 2 sθˆ , θˆ + tα / 2 sθˆ ].
Quando o modelo tem termo independente, o cálculo de θˆ e de sθˆ pode ser feito utilizando uma técnica já conhecida (ver secção 2.10, subsecção “Inferência estatística sobre uma combinação linear dos coeficientes de regressão”). Com efeito, seja o MRL, yt = β1 + β 2 xt 2 + L + β k xtk + ut e θ = β1 + β 2c2 + L + β k ck . Como
β1 = θ − β 2c2 − L − β k ck ,
substituindo no modelo, vem
yt = θ + β 2 ( xt 2 − c2 ) + L + β k ( xtk − ck ) + ut .
Então, θˆ e sθˆ são, respectivamente, o estimador do termo independente desta equação e o respectivo erro padrão. Como a variância do estimador do termo independente é mínima quando as médias das observações dos regressores são nulas [ver (2B.9)], o erro padrão da previsão é mínimo quando x2 = c2 , K , xk = ck . Considere-se o MRLCN simples, yt = β1 + β 2 xt + ut , e suponha-se que r = 1 (mais uma observação da variável explicativa). Fazendo xn +1 = c , pode deduzir-se, sem dificuldade, que
θˆ − θ sθˆ
onde
e
=
Eˆ ( y0 | X , c) − E ( y0 | X , c) 1 s + n
∑
(c − x ) 2
n
t =1
( xt − x ) 2
~ t (n − 2) ,
θˆ = Eˆ ( y0 | X , c) = b1 + b2 c , θ = E ( y0 | X , c) = β1 + β 2c , sθˆ = s
1 + n
∑
(c − x ) 2
( xt − x ) 2 t =1 n
.
A expressão do erro padrão mostra claramente quais os factores que influem na maior ou menor confiança que se pode atribuir à previsão, todos eles susceptíveis de fácil interpretação. Assim, a confiança é tanto maior: − Quanto menor for a dispersão da variável residual, medida por s; − Quanto maior for o número de observações, n, utilizadas na estimação;
Capítulo 2 – O Modelo de Regressão Linear Clássico
111
− Quanto mais dispersas forem as observações da variável explicativa, o que é traduzido por Σ( xt − x ) 2 ; − Quanto mais perto c (observação adicional da variável explicativa) estiver de x (média das observações da mesma variável no domínio de estimação). Fazendo variar o valor c, as extremidades do intervalo de confiança também variam, afastando-se da recta b1 + b2c à medida que c se afasta do valor médio das observações, x . Para cada c, o intervalo de confiança para θ encontra-se entre as duas curvas que definem as extremidades do intervalo. A região compreendida entre as duas curvas chama-se manga de previsão para θ . Previsão pontual
Em muitos casos, especialmente com dados temporais, a previsão em média não tem interesse, devido à própria natureza dos dados. De facto, em muitas situações não tem sentido prever o comportamento médio do regressando, estando o investigador interessado em prever apenas um particular valor do regressando referido a outro período ou a outro contexto. Considere-se de novo uma matriz X 0 com r observações adicionais dos regressores, e Y0 = X 0 β + U 0 , onde U 0 verifica as condições referidas em (2.108). Enquanto na previsão em média se pretendia estimar θ = E (Y0 | X , X 0 ) , agora, procura prever-se valores assumidos por Y0 (previsão pontual). Considere-se o seguinte previsor MQ de Y0 , (2.115)
Yˆ0 = X 0b = X 0 ( X T X ) −1 X T Y ,
e o erro de previsão, (2.116)
D = Y0 − Yˆ0 .
Utilizando o vector aleatório D, vão estudar-se as propriedades estatísticas do previsor. Como E ( D | X , X 0 ) = E (Y0 − Yˆ0 | X , X 0 ) = 0 , diz-se que Yˆ0 , condicionado por X e X 0 , é um previsor não enviesado de Y0 . Verifica-se que E (D) = 0 . A matriz das covariâncias de D, condicionadas por X e X 0 , é dada por (2.117)
Cov( D | X , X 0 ) = σ 2{I r + X 0 ( X T X ) −1 X 0T } .
Com efeito,
Cov( D | X , X 0 ) = Cov(Y0 | X , X 0 ) + Cov(Yˆ0 | X , X 0 ) − 2 Cov(Y0 , Yˆ0 | X , X 0 ) = σ 2 I r + σ 2 X 0 ( X T X ) −1 X 0T − 2 E{(Y0 − X 0 β )(Yˆ0 − X 0 β )T | X , X 0 } = σ 2 I r + σ 2 X 0 ( X T X ) −1 X 0T − 2 E{U 0 ( X 0b − X 0 β )T | X , X 0 } = σ 2 I r + σ 2 X 0 ( X T X ) −1 X 0T − 2 E{U 0 (b − β )T X 0T | X , X 0 }
= σ 2 I r + σ 2 X 0 ( X T X ) −1 X 0T − 2 E{U 0U T | X , X 0 } X ( X T X ) −1 X 0T
= σ 2{I r + X 0 ( X T X ) −1 X 0T } ,
Capítulo 2 – O Modelo de Regressão Linear Clássico
112
pois b − β = ( X T X ) −1 X T U , e E (U 0U T | X , X 0 ) = O . Verifica-se, assim, que a matriz das covariâncias do erro de previsão, condicionadas por X e X 0 , é a soma de duas matrizes: − A matriz das covariâncias condicionadas de Y0 , que não depende dos dados, Cov(Y0 | X , X 0 ) = σ 2 I r ;
− A matriz das covariâncias condicionadas de Yˆ0 = X 0b ,
Cov(Yˆ0 | X , X 0 ) = σ 2 X 0 ( X T X ) −1 X 0T .
Como X 0b é BLUE para X 0 β , então diz-se que Yˆ0 = X 0b é o melhor previsor linear não enviesado (BLUP: Best Linear Unbiased Predictor) para Y0 . Isto significa ~ ~ que, para qualquer outro previsor de Y0 , Y0 , linear em Y ( Y0 = CY ) e não enviesado – ~ ~ E ( D | X , X 0 ) = E (Y 0 − Y 0 | X , X 0 ) = 0 –, tem-se ~ Cov( D | X , X 0 ) − Cov( D | X , X 0 ) é semidefinida positiva. Facilmente se conclui, utilizando o procedimento habitual, que (2.118)
(Y 0 − Yˆ 0 )T {I r + X 0 ( X T X ) −1 X 0T }−1 (Y 0 − Yˆ 0 ) r s2
~ F (r , n − k ) .
Quando se abandona a hipótese REX.6, a distribuição anterior é assintótica, e o resultado (2.118) só é válido para grandes amostras (ver capítulo 3). Quando se tem apenas uma observação adicional, r = 1 , o erro de previsão é um escalar, d = y0 − yˆ 0 , e verifica-se sem dificuldade que Var(d | X , c) = Var( y0 | X , c) + Var( yˆ 0 | X , c) = σ 2 + σ 2c( X T X ) −1 cT
= σ 2{1 + c( X T X ) −1 cT }. Então, (2.119) onde
d y0 − yˆ 0 ~ t (n − k ) , = sd s 1 + c( X T X ) −1 cT sd = s 1 + c( X T X ) −1 cT
é o erro padrão do erro de previsão. Um intervalo de confiança de nível 1 − α para y0 é dado por (2.120) de, que
[ yˆ 0 − tα / 2 sd , yˆ 0 + tα / 2 sd ].
Quando se considera o MRLCN simples e r = 1 , pode deduzir-se, sem dificulda-
Capítulo 2 – O Modelo de Regressão Linear Clássico d = sd
onde
y0 − yˆ 0
1 s 1+ + n
∑
sd = s 1 +
(c − x ) 2
n
t =1
1 + n
( xt − x ) 2
∑
113 ~ t ( n − 2) ,
(c − x ) 2
( xt − x ) 2 t =1 n
,
podendo construir-se os respectivos intervalos de confiança e a manga de previsão. Para qualquer r, pode verificar-se que Cov( D | X , X 0 ) − Cov(θˆ | X , X 0 )
é semidefinida positiva. Em particular, considerando r = 1 , tem-se
Var (d | X , c) = σ 2{1 + c( X T X ) −1 cT } > Var{θˆ | X , c} = σ 2{c( X T X ) −1 cT }. n +1
Isto significa que, embora cb seja o estimador de cβ na previsão em média e o previsor de y0 na previsão pontual, as variâncias neste tipo de previsão são maiores do que as variâncias naquele. Teste de previsão de Chow
Considere-se o modelo (2.94). Supondo, tal como se fez na secção 2.12, que se dispõe de n1 observações para o grupo 1, e n2 para o grupo 2, a relação amostral correspondente é dada por (2.98). No teste de Chow de alteração da estrutura, em que se utiliza a estatística (2.102), pressupõe-se que n1 > k e que n2 > k , e fazem-se três ajustamentos MQ (com n1 observações, com n2 observações e com n = n1 + n2 observações). Para efectuar o teste de previsão de Chow, vai adoptar-se outro ponto de vista: as observações do grupo 1 são utilizadas para estimar os coeficientes de regressão, obtendo-se b•1 = ( X 1T X 1 ) −1 X 1T Y•1 (supõe-se que n1 > k ); as observações do grupo 2 são usadas para testar a hipótese (2.95), H 0 : β •1 = β • 2 contra H1 : β •1 ≠ β • 2 ,
mesmo no caso em que n2 ≤ k . Para isso, vai utilizar-se o previsor Yˆ• 2 = X 2b•1 de Y• 2 , tal como se fez na previsão pontual. Nestas condições, o erro de previsão é dado por D = Y• 2 − Yˆ• 2 = Y• 2 − X 2b•1 ou D = X 2 β • 2 + U • 2 − X 2b•1 = U • 2 − X 2 (b•1 − β • 2 ) . Como D = U • 2 − X 2 (b•1 − β•1 ) sob a hipótese nula, é imediato verificar que E ( D | X 1 , X 2 ) = 0 e Cov( D | X 1 , X 2 ) = σ 2{I n2 + X 2 ( X 1T X 1 ) −1 X 2T } ,
obtendo-se uma estatística-teste semelhante a (2.118):
Capítulo 2 – O Modelo de Regressão Linear Clássico
(2.121)
114
(Y• 2 − Yˆ• 2 )T {I n2 + X 2 ( X 1T X 1 ) −1 X 2T }−1 (Y• 2 − Yˆ• 2 ) / n2 ~ F (n2 , n1 − k ) , Uˆ T Uˆ /(n − k ) •1
•1
1
onde Uˆ •1 é o vector dos resíduos MQ do ajustamento com n1 observações. Este resultado pode ser obtido de forma equivalente. Com efeito, notando que Y• 2 = X 2 β • 2 + U • 2 = X 2 β •1 + X 2 ( β • 2 − β•1 ) + U • 2 = X 2 β •1 + γ + U • 2 ,
onde γ = X 2 ( β• 2 − β•1 ) é um vector n2 × 1 , (2.98) pode apresentar-se da seguinte maneira: (2.122) ou
Y•1 = X 1β •1 + U •1 Y• 2 = X 2 β •1 + γ + U • 2 ,
Y•1 X 1 O β•1 U •1 + , = X I Y n 2 •2 2 γ U • 2
onde γ é um vector n2 × 1 de parâmetros. Facilmente se verifica que H 0 : β•1 = β• 2 é equivalente a H 0 : γ = 0 . O estimador MQ dos vectores β•1 e γ é dado por βˆ•1 X 1T X 1 + X 2T X 2 X 2T X 1T Y•1 + X 2T Y• 2 = . X I Y ˆ γ 2 n2 •2 −1
Invertendo a matriz por blocos, vem
− ( X 1T X 1 ) −1 X 2T X 1T Y•1 + X 2T Y• 2 βˆ•1 ( X 1T X 1 ) −1 = , T T T −1 −1 Y• 2 γˆ − X 2 ( X 1 X 1 ) I n2 + X 2 ( X 1 X 1 ) X 2
ou
βˆ•1 b•1 ( X 1T X 1 ) −1 X 1T Y•1 b•1 = = = . −1 T T γˆ Y• 2 − X 2 ( X 1 X 1 ) X 1 Y•1 Y• 2 − X 2b•1 D
Deste modo, o estimador MQ de β •1 , a partir da relação amostral (2.122), coincide com o estimador MQ de β•1 resultante da primeira relação amostral de (2.98); o estimador MQ de γ é igual ao erro de previsão. Os respectivos resíduos MQ são dados por Uˆ •1 = Y•1 − X 1b•1 Uˆ • 2 = Y• 2 − ( X 2b•1 + D) = 0,
e, portanto, a respectiva soma dos quadrados dos resíduos MQ é Uˆ •T1Uˆ •1 . Pode fazer-se o teste de H 0 : γ = 0 recorrendo ao resultado geral (2.81). Neste caso, têm-se n2 restrições e R = [ O I n2 ], onde O é a matriz nula de tipo n2 × k . Então,
Capítulo 2 – O Modelo de Regressão Linear Clássico
[
X 1T X 1 + X 2T X 2 X 2T R RT = O I n2 X2 I n2 −1
]
115
( X 1T X 1 ) −1 − ( X 1T X 1 ) −1 X 2T O −1 −1 T T T − X 2 ( X 1 X 1 ) I n2 + X 2 ( X 1 X 1 ) X 2 I n2
= I n2 + X 2 ( X 1T X 1 ) −1 X 2T .
O número de graus de liberdade da estimação MQ de (2.122) é igual ao número de observações, n, menos o número de coeficientes de regressão a estimar k + n2 , isto é, n − (k + n2 ) = n1 − k . Então, facilmente se verifica que
γˆT {I n + X 2 ( X 1T X 1 )−1 X 2T }−1γˆ / n2 2
Uˆ •T1Uˆ •1 /(n1 − k )
~ F (n2 , n1 − k ) ,
ou seja, obtém-se (2.121) uma vez que γˆ = D = Y• 2 − Yˆ• 2 e a soma dos quadrados dos resíduos MQ que resulta da estimação de (2.122) é ainda Uˆ •T1Uˆ •1 . O teste da hipótese nula H 0 : γ = 0 pode, também, fazer-se recorrendo ao resultado (2.82) [equivalente a (2.81)]. A soma dos quadrados dos resíduos MQ sem restrições é Uˆ •T1Uˆ •1 . Quando se verifica γ = 0 , são impostas n2 restrições, (2.122) reduz-se a (2.100) ou (2.101), e a respectiva soma dos quadrados dos resíduos MQ é igual a Vˆ T Vˆ . Então, admitindo que a hipótese nula é verdadeira, tem-se (2.123)
(Vˆ TV − Uˆ •T1Uˆ •1 ) / n2 ~ F (n2 , n1 − k ) . Uˆ •T1Uˆ •1 /(n1 − k )
Quando se abandona a hipótese REX.6, os resultados (2.121) e (2.123) só são válidos assintoticamente, ou seja, para grandes amostras (ver capítulo 3). É particularmente interessante o caso particular em que há apenas uma observação adicional, n2 = 1 . Neste caso, (2.123) reduz-se a
onde s 2 = Uˆ •T1Uˆ •1 /(n1 − k ) . Donde, (2.124)
Vˆ TVˆ − Uˆ •T1Uˆ •1 ~ F (1, n1 − k ) , s2
Vˆ T Vˆ − Uˆ •T1Uˆ •1 ~ t (n1 − k ) . s
Prever y quando ln(y) é o regressando Quando o MRLCN resulta de uma transformação linearizante de um modelo inicial, as previsões obtidas dizem naturalmente respeito ao modelo transformado. Pretendendo-se fazer previsões em termos da variável explicada original, é necessário proceder à transformação inversa. Neste contexto, tem particular interesse o caso do regressando ln(y). Para facilitar a exposição vai utilizar-se a seguinte notação: ly = ln( y ) . Assim, o MRLCN a considerar é dado por lyt = xt • β + ut , a verificar:
Capítulo 2 – O Modelo de Regressão Linear Clássico
116
E (lyt | X ) = xt • β ;
Var(lyt | X ) = σ 2 ;
Cov(lyt , ly s | X ) = 0 (t ≠ s ); (lyt | X ) ~ NID( xt • β , σ 2 ) .
Como yt = exp{lyt } = exp{xt • β + ut } = exp{xt • β } exp{ut } , tem-se
E ( yt | X ) = E (exp{xt • β } exp{ut } | X ) = exp{xt • β }E (exp{ut } | X ) .
Conclui-se imediatamente que
E (lyt | X ) = xt • β ≠ ln{ E ( yt | X )} = xt • β + ln{ E (exp{ut } | X )} ,
e
exp{E (lyt | X )} = exp{xt • β } ≠ E ( yt | X ) = exp{xt • β }E (exp{ut } | X ) ,
isto é, a transformação inversa do valor esperado condicionado de lyt não conduz ao valor esperado condicionado de yt . Pode provar-se que E ( yt | X ) = exp {xt • β + σ 2 / 2} > exp {xt • β } ,
recorrendo à função geradora dos momentos de variável aleatória com distribuição normal, e notando que exp {σ 2 / 2} > 1 (porque σ 2 > 0 ). Nestas condições, o previsor
^ yˆ 0 = exply 0 = exp{cb} ,
é enviesado (o respectivo erro de previsão não tem valor esperado nulo) e inconsistente (subestima sistematicamente o valor esperado condicionado de y0 ). Facilmente se verifica que este enviesamento é tanto maior quanto maior for σ 2 . Na prática, este enviesamento é tanto maior quanto menor for o coeficiente de determinação, ou quanto maior for o erro padrão, s, da regressão de lyt sobre xt • . Refira-se, ainda, que este problema tem consequências diferentes quando se pretende fazer uma previsão pontual ou quando se efectua uma previsão por intervalos. Com efeito, na primeira situação, a previsão é enviesada em termos da variável original, y0 , e deve ser corrigida sempre que possível. No segundo caso, obtém-se uma previsão com o grau de confiança desejado, embora descentrada em relação ao valor esperado condicionado de y0 . Em vez de centrar o intervalo de previsão no valor esperado condicionado de y0 , opta-se por utilizar um intervalo de previsão com idêntica probabilidade à esquerda e à direita. As considerações anteriores mostram que é necessária uma correcção simples para prever y0 . O novo previsor é dado por (2.125)
s 2 ^ s 2 yˆ 0 = exp exply 0 = exp exp{cb} , 2 2
Capítulo 2 – O Modelo de Regressão Linear Clássico
117
que continua a ser enviesado, mas é consistente. Quando não se verifica a hipótese REX.6, (2.125) não pode ser utilizado. Como E ( yt | X ) = α exp{xt • β } , onde α = E (exp{ut } | X ) , o previsor pode ser dado por
^ yˆ 0 = αˆ exply 0 = αˆ exp{cb} ,
(2.126)
desde que se conheça um estimador consistente, αˆ , de α . Pode provar-se que, fazendo a regressão auxiliar (sem constante) de
^ yt sobre wt = exply t ( t = 1, 2, K , n ),
o estimador do coeficiente de wt é αˆ . A técnica de estimação do factor α , referido em (2.126), pode servir para obter um coeficiente de determinação relativo ao modelo lyt = xt • β + ut , comparável com o R 2 habitual referente ao modelo yt = xt • β + vt . Uma proposta possível de tal coeficiente de determinação resume-se a calcular o quadrado do coeficiente de correlação empírico entre os yt e os yˆ t = αˆ wt .
Exemplo 2.31 – Suponha-se que se vai fazer a previsão pontual do salário (previsão para um determinado trabalhador), quando os regressores assumem os seguintes valores: educt = 14 ; expert = 7 ; empct = 4 . A previsão é a seguinte: lsalar0 = 5.81505 + 14 × 0.055383 + 7 × 0.022988 + 4 × 0.00395 = 6.76714 . ^
Este valor podia ser obtido fazendo a regressão de lsalart sobre 1, educt − 14 , expert − 7 e empct − 4 . A estimativa do termo independente é, então, 6.76714; o respectivo erro padrão é igual a 0.020314. Como sd = s 2 + sθ2ˆ = 0.141009 + 0.0203142 = 0.37606 ,
e t0.025 = 1.9624 (com 996 graus de liberdade), o intervalo de confiança é dado por [6.02918, 7.50511]. O valor previsto para o salário (sem correcção do enviesamento) é, então, igual a exp{ 6.76714 } = 868.82491 . Calculando os anti-logaritmos das extremidades daquele intervalo, obtém-se [415.3725, 1817.29631]. Como era de esperar, a amplitude deste intervalo é elevada, uma vez que, tratando-se de previsão pontual, o cálculo dos anti-logaritmos acentua a disparidade de valores. O valor previsto anteriormente para o salário, 868.82491, pertence a este intervalo, mas encontra-se claramente mais perto da extremidade inferior do que da extremida-
Capítulo 2 – O Modelo de Regressão Linear Clássico
118
de superior. Para corrigir este enviesamento, vai determinar-se o factor de correcção, αˆ , fazendo a regressão auxiliar (sem termo independente) de
^ salart sobre explsalart .
Como αˆ = 1.07272 (estimativa do coeficiente do regressor), o valor previsto para o salário passa a ser
1.07272 × exp{ 6.76714 } = 932.00229 ,
∇
mais afastado daquela extremidade inferior.
Previsão ex-post
Todos os resultados apresentados nesta secção supõem que se conhece a matriz X 0 , ou seja, conhecem-se as observações adicionais dos regressores ( X 0 não faz parte da previsão). Neste caso, a previsão (relativamente a Y0 ) é ex post. Este tipo de previsão deve distinguir-se da previsão ex ante, que inclui a previsão das observações adicionais dos regressores. Estão disponíveis alguns critérios para avaliar a qualidade das previsões ex post, desde que se conheça o vector Y0 . São eles: a) A raiz do erro quadrático médio
∑
n+r
REQM = b) O erro absoluto médio
t = n +1
( yt − yˆ t ) 2
.
r
∑ EAM =
n+r
t = n +1
| yt − yˆ t | r
.
Estas duas estatísticas têm um problema de escala (dependem da unidade de medida dos yt ). As duas estatísticas seguintes evitam este problema. c) A estatística U T de Theil UT =
d) A estatística U T∆ de Theil U = ∆ T
∑
( y − yˆ t ) 2
n+ r t t = n +1 n+ r
∑
∑t =n+1 yt
n+r
∑
2
.
(∆yt − ∆yˆ t ) 2
t = n +1 n+r
(∆yt ) 2 t = n +1
.
Esta estatística, que pode também ser apresentada em taxas de variação, é uma variante de U T . Ela permite detectar pontos de viragem (turning points) nas observações do regressando.
Capítulo 2 – O Modelo de Regressão Linear Clássico
119
Análise dos resíduos
Muitas vezes é útil examinar individualmente as observações para verificar se o valor efectivamente observado do regressando, yt , é maior ou menor do que o respectivo valor ajustado, yˆ t ; ou seja, trata-se de analisar individualmente os resíduos MQ, uˆt . Exemplo 2.32 – Considere-se o modelo de regressão linear (a verificar as hipóteses básicas do MRLCN),
nestt = β1 + β 2 assidt + β3 taet + β 4 mist + ut ,
onde as variáveis já são conhecidas do exemplo 1.5. A estimação MQ deste modelo, com os dados disponíveis, permitiria conhecer os respectivos resíduos, uˆt = nestt − nestt . ^
Admitindo que as variáveis de controlo são as mais adequadas para explicar a nota no exame final de Estatística, o aluno com o maior resíduo negativo é aquele que teve menor desempenho (em relação a si próprio), porque obteve a diferença máxima entre a nota prevista pelo modelo e a nota efectivamente verificada. O aluno com o maior resíduo positivo seria, então, aquele que fez maiores progressos. Evidentemente as considerações anteriores pressupõem que o modelo está bem especificado, uma vez que os resíduos poderiam resultar do facto de não serem correctamente seleccionados os controlos de nest. Uma nota substancialmente inferior (superior) ao valor previsto pelo modelo pode ser indicador de uma especificação deficiente. Acreditando que o modelo estava bem especificado, podia ter-se a pretensão de propor um ranking dos alunos baseado na ordem dos resíduos, e não na ordem das notas obtidas. Isto seria, no mínimo, arriscado, pois poderia acontecer a situação absurda de alunos com notas baixas ficarem melhor classificados do que alunos com notas altas! Este ranking seria semelhante a alguns que já se fizeram para estabelecer rankings de escolas básicas e secundárias. Nestes casos, controla-se o desempenho médio dos alunos em exames nacionais com factores socioeconómicos considerados relevantes. As conclusões absurdas foram óbvias. ∇ Outro aspecto interessante a ter em conta na análise dos resíduos, consiste em determinar um intervalo de confiança para cada observação, utilizando (2.120). Neste caso, yt seria considerada a “observação a prever”, os parâmetros seriam estimados com as outras observações, e o erro de previsão seria d t = yt − yˆ t . A observação t tem de ser excluída da estimação, pois, caso contrário, a variância condicionada do resíduo uˆt (um falso “erro de previsão”) não seria Var(uˆt | X ) = σ 2{1 + xt • ( X T X ) −1 xtT•} ,
Capítulo 2 – O Modelo de Regressão Linear Clássico mas sim
Var(uˆt | X ) = σ 2{1 − xt • ( X T X ) −1 xtT• } ,
120
porque Cov(Uˆ | X ) = σ 2 PX (ver secção 2.4). A este propósito, fica ao cuidado do leitor verificar que Var( yˆ t | X ) = Cov( yt , yˆ t | X ) = σ 2 xt • ( X T X ) −1 xtT• , donde se conclui que Var(uˆt | X ) = Var( yt − yˆ t | X ) = Var( yt | X ) − Var( yˆ t | X ) ≥ 0 .
Capítulo 2 – O Modelo de Regressão Linear Clássico
121
PALAVRAS-CHAVE Acontecimento de referência Alteração da estrutura Análise dos resíduos Armadilha das variáveis artificiais
Interacção Intervalo de confiança Linearidade Matriz das covariâncias das variáveis residuais Associação (não) linear Matriz das covariâncias dos estimadores MQ Ausência de autocorrelação Matriz dos regressores Autocorrelação Método da máxima verosimilhança (MV) Coeficiente de correlação (parcial) Método dos mínimos quadrados (MQ) Coeficiente de determinação Método dos momentos Coeficiente de determinação ajustado Modalidades Coeficiente de determinação não centrado Modelo com restrições Coeficiente de regressão Modelo de regressão linear (clássico) Condição de característica Modelo de regressão linear normal Condição de ortogonalidade Modelo de regressão linear simples Diagrama de dispersão Modelo sem restrições Dimensão do teste Multicolinearidade (aproximada) Distribuição assintótica Multicolinearidade exacta Distribuição do qui-quadrado Parâmetro característico Distribuição exacta Parâmetro perturbador Distribuição F-Snedcor Previsão em média Distribuição normal Previsão ex-ante Distribuição t-Student Previsão ex-post Domínio de estimação Previsão pontual Domínio de previsão Previsor Eficiência Previsor BLUP Enviesamento Princípio da analogia Equações de verosimilhança Princípio da razão de verosimilhanças Equações normais Princípio de Wald Erro de amostragem Rácio-F Erro de previsão Rácio-t Erro padrão da previsão em média Região crítica Erro padrão da regressão Região de confiança Erro padrão do erro de previsão Regressando Erro padrão do estimador MQ Regressor Escala nominal Regressores fixos Escala ordinal Relação amostral Estimador BLUE Resíduo MQ com restrições Estimador de máxima verosimilhança Resíduo (dos mínimos quadrados) Estimador dos mínimos quadrados Sazonalidade determinística
Capítulo 2 – O Modelo de Regressão Linear Clássico
PALAVRAS-CHAVE Estimador eficiente Estimador linear Estimador MQ com restrições Estimador não enviesado Exogeneidade contemporânea Exogeneidade estrita Factor qualitativo Função de regressão linear ajustada Função de regressão linear (teórica) Função de verosimilhança (concentrada) Grau de multicolinearidade Graus de liberdade Heterocedasticidade condicionada Homocedasticidade condicionada Hipótese a manter Hipótese alternativa Hipótese nula Identificação Inferência estatística Inferência estatística sobre a variância da variável residual Inferência estatística sobre combinações lineares de coeficientes de regressão Inferência estatística sobre um coeficiente de regressão isolado Inferência estatística sobre uma combinação linear de coeficientes de regressão
Significância estatística Significância prática Soma dos quadrados dos resíduos Soma dos quadrados explicada Soma total dos quadrados Teorema de Frisch-Waugh-Lovell Teorema de Gauss-Markov Teorema do limite central Teste de Chow Teste de hipóteses Teste de nulidade conjunta Teste de previsão de Chow Teste de significância global Valor ajustado Valor-p Variação explicada Variação residual Variação total Variável artificial Variável binária Variável residual Variáveis centradas
122
Capítulo 2 – O Modelo de Regressão Linear Clássico
123
PERGUNTAS DE REVISÃO 1. 2. 3. 4. 5.
6. 7. 8.
9. 10.
11. 12. 13. 14.
15.
Considere o modelo de regressão linear, yt = xt • β + ut . Defina regressor estritamente exógeno. Considere o modelo de regressão linear, yt = α + β xt + ut . Em que condições pode afirmar que o regressor é estritamente exógeno. Considere o modelo de regressão linear, yt = β1 + β 2 xt 2 + β 3 xt 3 + β 4 xt 4 + ut . Demonstre que E (ut | xt 2 , xt 3 , xt 4 ) = 0 ⇒ E (ut | xt 2 , xt 3 ) = 0 . Prove que: se um regressor é estritamente exógeno então existe ortogonalidade entre o regressor e as variáveis residuais. Prove que: a exogeneidade estrita dos regressores é equivalente a que o valor esperado do regressando condicionado por todas as observações possíveis dos regressores é igual à componente sistemática do modelo. Mostre que no modelo AR(1), yt = β1 + β 2 yt −1 + ut , não existe exogeneidade estrita. Prove que: se um regressor é contemporaneamente exógeno então existe ortogonalidade contemporânea entre o regressor e a variável residual. Considere o MRLC, yt = xt • β + ut , onde xt • é o vector dos regressores, cuja componente genérica é xtj . Quando se escreve Cov( xsj , ut ) = 0 e E (ut | xsj ) = 0 , que tipo de associações se estabelecem, respectivamente, entre o regressor e as variáveis residuais. Considere a relação amostral Y = Xβ + U , associada ao modelo de regressão linear clássico. Prove que: E (ut | X ) = 0 ⇒ E ( xsj ut ) = 0 . Considere a relação amostral Y = Xβ + U , associada ao modelo de regressão linear clássico. Prove que: E (ut | X ) = 0 ⇒ E (ut | x• j ) = 0 , onde x• j é a coluna genérica da matriz X. Considere um MRLC com dados seccionais, e onde a amostragem é casual. Indique a relação entre Var(ut | xt • ) e Var(ut | X T ) . No caso de regressores estritamente exógenos, enuncie a hipótese de ausência de autocorrelação. Considere a relação amostral Y = Xβ + U , associada ao modelo de regressão linear clássico. Prove que: Cov(ut , u s | X ) = 0 ⇒ E (ut u s ) = 0 . Considere a relação amostral Y = Xβ + U , associada ao modelo de regressão linear. De acordo com as hipóteses clássicas, sabe-se que a matriz das covariâncias de U condicionada por X é dada por Cov(U | X ) = σ 2 I . Determine a respectiva matriz das covariâncias marginal, Cov(U ) . Considere o modelo de regressão linear, yt = α + β xt + ut . Seja: a) se o regressor é estritamente exógeno então existe ortogonalidade entre o regressor e a variável residual; b) se existe ortogonalidade entre o regressor e a variável residual então o regressor é estritamente exógeno; c) o regressor é estritamente exógeno se e só se existe ortogonalidade entre o regressor e a variável residual. Quais destas afirmações são verdadeiras?
Capítulo 2 – O Modelo de Regressão Linear Clássico 16.
17.
18. 19. 20.
21.
22.
23.
24.
25.
26.
27.
124
Considere o modelo yt = α + β xt + ut . Quais das seguintes afirmações são verdadeiras: a) xt é estritamente exógeno se e só se E (ut | X T ) = 0 ; b) xt é estritamente exógeno se e só se Cov( xt , u s ) = 0 (t ≠ s) . Considere o modelo de regressão linear, yt = α + β xt + ut , e suponha que se verifica a hipótese de ausência de autocorrelação: E (ut u s | xt , xs ) = 0, ∀t ≠ s . Prove que E (ut u s ) = 0, ∀t ≠ s . Considere o MRL, yt = β 0 + β1 ln( xt ) + β 2 ln( xt2 ) + ut . Construa a matriz Qxx , e verifique se pode admitir a hipótese da condição de característica. A partir das hipóteses clássicas do MRL, yt = xt • β + ut , deduza a expressão que permite identificar o vector β . Considere os resíduos MQ no modelo de regressão linear clássico, e as seguintes afirmações: a) o vector dos resíduos é ortogonal ao vector dos valores ajustados; b) a soma dos resíduos é sempre nula; c) a soma dos quadrados dos resíduos é igual ao produto do número de observações pela variância das variáveis residuais; d) a soma dos quadrados das observações da variável dependente é sempre igual à soma dos quadrados dos valores ajustados mais a soma dos quadrados dos resíduos. Indique quais são verdadeiras, e quais são falsas. Considere a relação amostral Y = Xβ + U associada ao modelo de regressão linear clássico. Determine a transformação do vector U de modo a obter o vector dos resíduos MQ, Uˆ . Quais são as propriedades algébricas da matriz de transformação? Considere a relação amostral Y = Xβ + U associada ao modelo de regressão linear clássico. Deduza a transformação do vector Y de modo a obter o vector dos valores ajustados, Yˆ . Quais são as propriedades algébricas da matriz de transformação? Considere a relação amostral Y = Xβ + U associada ao modelo de regressão linear clássico. Determine a forma quadrática em Y (em U) que lhe permite obter a soma dos quadrados dos resíduos MQ. Qual é a matriz da forma quadrática? Considere a relação amostral Y = Xβ + U associada ao modelo de regressão linear clássico. Prove a ortogonalidade entre o vector dos resíduos MQ e o vector dos valores ajustados. Considere a relação amostral Y = Xβ + U associada ao modelo de regressão linear clássico. Sabe-se que X T Uˆ = 0 . Utilize este sistema de k equações (em que as incógnitas são os n resíduos MQ) para justificar a expressão “graus de liberdade” do MRL. Considere a relação amostral Y = Xβ + U associada ao modelo de regressão linear clássico. Utilize a relação X T Uˆ = 0 para provar que a soma dos resíduos MQ é nula quando o modelo tem termo independente. Considere a relação amostral Y = Xβ + U associada ao modelo de regressão linear clássico. Deduza a relação entre a soma dos quadrados das observações do regressando, a soma dos quadrados dos respectivos valores ajustados, e a soma dos quadrados dos resíduos. Indique uma utilização desta relação.
Capítulo 2 – O Modelo de Regressão Linear Clássico 28.
29. 30.
31.
32.
33. 34.
Considere o modelo de regressão linear, yt = α + β xt + ut . Além disso, suponha que E (ut | xt ) = 0 . Que pode afirmar sobre o enviesamento do estimador dos mínimos quadrados (MQ) do parâmetro β ? Justifique. Num modelo de regressão linear, yt = xt • β + ut , que hipóteses se devem considerar para que o estimador MQ de β verifique o teorema de Gauss-Markov. Considere o modelo de regressão linear, yt = xt • β + ut , onde xt • é o vector dos regressores, a verificar as hipóteses clássicas. Indique a expressão da matriz das covariâncias do estimador dos mínimos quadrados de β condicionada por X. Considere o modelo yt = β 0 + β1 xt1 + β 2 xt 2 + ut com regressores estritamente exógenos e com dados temporais. Suponha que xt1 é uma variável com tendência linear. Reespecifique o modelo de forma a capturar o efeito, sobre yt , da variação de xt1 em torno da sua tendência. Considere, no modelo de regressão linear clássico, o erro padrão associado com o estimador MQ de um coeficiente de regressão. Considere, também, as seguintes afirmações: a) o erro padrão é tanto maior quanto maior for o erro padrão da regressão; b) o erro padrão é tanto menor quanto maior for a variação total das observações do respectivo regressor; c) o erro padrão é tanto menor quanto maior for o grau de associação linear entre este regressor e os outros; d) o erro padrão é tanto menor quanto maior for o número de observações. Indique quais são verdadeiras, e quais são falsas. Considere o MRLC, yt = β1 + β 2 xt 2 + β3 xt 3 + ut . Indique a expressão que permite relacionar Var (b2 | X ) com a variação total do regressor xt 2 . Para efectuar inferência estatística sobre σ 2 no MRLCN começa-se por obter o resultado Uˆ T Uˆ
σ2
35.
36.
37.
38.
125
X ~ χ 2 (n − k ) ou
(n − k ) s 2
σ2
X ~ χ 2 (n − k ) .
Apresente a estatística-teste que permite testar H 0 : σ 2 = σ 02 (qualquer que seja a hipótese alternativa), e justifique a sua obtenção a partir do resultado referido. No MRLCN, obtenha a distribuição de b j | X , onde b j é a componente genérica de b. A partir deste resultado, obtenha a estatística-teste para testar H 0 : β j = β 0j (qualquer que seja a hipótese alternativa), e justifique a sua obtenção a partir da distribuição de b j | X . Suponha que y é explicada por x (variável quantitativa) e por um factor qualitativo com quatro modalidades. Definindo quatro variáveis artificiais, especifique o MRL de modo a evitar a “armadilha da multicolinearidade”. Considere o MRL, com dados trimestrais, yt = β1 + β2 xt + ut , como modelo de referência. Admitindo que pode existir sazonalidade com influência no termo independente, este termo seria β11 no 1.º trimestre, β12 no 2.º trimestre, β13 no 3.º trimestre e β14 no 4.º trimestre. Reformule o modelo de referência de modo a contemplar a possibilidade de sazonalidade. Considere o modelo yt = β 0 + β1 xt + ut , com regressores estritamente exógenos e com dados trimestrais. Considere que variáveis xt e yt têm sazonalidade trimes-
Capítulo 2 – O Modelo de Regressão Linear Clássico
39. 40.
126
tral. Como sabe β1 não mede o efeito dessazonalizado de xt sobre yt . Reespecifique o modelo de forma a obter uma estimativa daquele efeito. Explique porque se deve dizer estimador BLUE na previsão em média, e previsor BLUP na previsão pontual. Suponha que, num modelo de regressão linear simples com termo independente, pretendia fazer previsão pontual para uma observação adicional. Considere as seguintes afirmações: a) o erro padrão da previsão é tanto menor quanto menor for o erro padrão da regressão; b) o erro padrão da previsão é tanto menor quanto maior for a dispersão das observações da variável explicativa; c) o erro padrão da previsão é tanto maior quanto menor for o desvio entre a observação adicional da variável explicativa e a média das observações desta variável utilizadas na estimação dos parâmetros; d) o erro padrão da previsão é tanto maior quanto maior for o número de observações. Indique quais são verdadeiras, e quais são falsas.
CAPÍTULO 3 O MODELO DE REGRESSÃO LINEAR COM REGRESSORES PRÉ-DETERMINADOS No capítulo 2 estudou-se o modelo de regressão linear clássico, onde impera a hipótese da exogeneidade estrita dos regressores. Impondo a hipótese de que a variável residual segue uma distribuição normal, foi possível obter distribuições exactas para os estimadores MQ, e para as estatísticas-teste necessárias para a inferência estatística. Não é possível continuar a dispor deste tipo de distribuições quando são violadas as hipóteses do MRLCN, nomeadamente a exogeneidade estrita dos regressores (REX.2) e a normalidade das variáveis residuais (REX.6). No presente capítulo apresenta-se outro modelo de regressão linear (mantém-se a hipótese da linearidade), onde os regressores deixam de ser estritamente exógenos. Este simples facto faz com que as distribuições indispensáveis para inferência estatística passem a ser assintóticas, o que torna inútil a hipótese REX.6 (as distribuições só são válidas para grandes amostras, quer se mantenha ou não esta hipótese). Antes de apresentar o MRL em causa, é vantajoso dedicar as duas primeiras secções ao estudo de alguns conceitos e resultados fundamentais sobre convergência estocástica e sobre processos estocásticos. 3.1 - Convergência estocástica Considere-se uma sucessão de variáveis aleatórias, z1 , z 2 , K , z n , K ou {z n } , ou de vectores aleatórios, z•1 , z•2 ,K , z•n , K ou {z•n } ,
onde z•n (n = 1, 2, K) é um vector m × 1 , de elemento genérico zin (i = 1, 2, K , m) . Modos de convergência estocástica
O comportamento limite destas sucessões pode ser analisado segundo vários modos de convergência estocástica. Nesta subsecção vão estudar-se três modos de convergência: em probabilidade; em distribuição; em média quadrática.
Capítulo 3 – MRL com Regressores Pré-Determinados
2
Definição 3.1 – Convergência em probabilidade A sucessão de variáveis aleatórias {z n } converge em probabilidade para a constante c se e só se, qualquer que seja ε > 0 ,
(3.1)
lim P( | zn − c | < ε ) = 1 .
n → +∞
A constante c chama-se o limite em probabilidade da sucessão, e escreve-se plim( zn ) = c ou z n → c . p
A sucessão de vectores aleatórios {z•n } converge em probabilidade para o vector de constantes c se e só se cada elemento de {z•n } converge em probabilidade para o elemento homólogo do vector c. Neste caso, tem-se plim( z• n ) = c ou z•n → c . p
Podem fazer-se os seguintes comentários: a) Na definição de convergência em probabilidade pode usar-se, em vez de (3.1), a condição lim P( | zn − c | > ε ) = 0 . n → +∞
b) É possível apresentar outra definição de convergência em probabilidade no caso vectorial. Como lim P( | z − c | < ε ) = 1 1n 1 n → +∞ lim P( | z2 n − c2 | < ε ) = 1 p z• n → c ⇔ n → +∞ L lim P( | z − c | < ε ) = 1, mn m n → +∞
e notando que
( z• n − c)T ( z• n − c) = ( z1n − c1 ) 2 + ( z2 n − c2 ) 2 + L + ( zmn − cm ) 2 ,
facilmente se verifica que
z• n → c ⇔ lim P{( z• n − c)T ( z• n − c) < δ } = 1, ∀δ > 0 . p
n → +∞
Para vectores aleatórios, a condição correspondente a (3.1) também se pode escrever na forma lim P( | z•n − c | < ε ) = 1 , n→+∞
onde | z•n − c | representa o módulo da diferença entre os vectores z•n e c (a raiz quadrada da distância euclideana). Esta definição adapta-se imediatamente às sucessões de matrizes aleatórias, notando que uma matriz de tipo m × p pode ser encarada como um vector mp × 1 .
Capítulo 3 – MRL com Regressores Pré-Determinados
3
c) A convergência de sucessões de números reais é um caso particular da convergência em probabilidade de sucessões de variáveis aleatórias. De facto, se {z n } é uma sucessão de números reais, o acontecimento, dado pela condição | zn − c | < ε , é certo a partir de certa ordem. Então, P( | zn − c | < ε ) = 1 e plim( zn ) = c . Vai enunciar-se a seguir uma propriedade muito importante da convergência em probabilidade (teorema de Slutsky) que preserva este tipo convergência para quaisquer transformações, desde que sejam contínuas. Preservação da convergência em probabilidade (teorema de Slutsky) Suponha-se que a função g : ℜ m → ℜ p é contínua em c, e não depende de n. Tem-se
(3.2)
plim( z• n ) = c ⇒ plim{g ( z• n )} = g{plim( z• n )} = g (c) .
Os resultados seguintes são consequência imediata desta propriedade. Assim, se existirem os respectivos limites em probabilidade, obtém-se: Propriedades da convergência em probabilidade
a) b) c) d) e) f) g)
plim(c) = c ; plim ( z• n + w• n ) = plim( z• n ) + plim(w• n ) ; plim (λ z• n ) = λ plim( z• n ) ; plim ( zn wn ) = plim( zn ) plim(wn ) ; Se wn ≠ 0 e plim(wn ) ≠ 0 então plim ( zn / wn ) = plim( zn )/plim(wn ) ; plim ( Z n + Wn ) = plim(Z n ) + plim(Wn ) , onde Z n e Wn são matrizes aleatórias; plim ( Z n Wn ) = plim(Z n ) plim(Wn ) , onde Z n e Wn são matrizes aleatórias;
h) plim ( Z n−1 ) = {plim(Z n )}−1 , onde Z n é uma matriz aleatória invertível.
A partir da definição 3.1 é possível definir convergência em probabilidade para uma variável aleatória. Assim, (3.3)
plim( zn ) = z ⇔ plim ( zn − z ) = 0 .
Para o caso de vectores aleatórios, tem-se
plim( z• n ) = z ⇔ plim ( z• n − z ) = 0 ,
onde z é um vector aleatório m × 1 , de elemento genérico zi (i = 1, 2, K , m) . A propriedade da preservação da convergência em probabilidade continua válida, bem como as propriedades a) a h) que daí decorrem. Além disso, é possível verificar que: − plim( zn ) = z ∧ plim( zn ) = w ⇒ P( z = w) = 1 ; − plim( zn ) = z ⇒ plim( zn w) = z w , onde w é uma variável aleatória.
Capítulo 3 – MRL com Regressores Pré-Determinados
4
Dada a sucessão de variáveis aleatórias, {z n } (escalar), e supondo que existem E ( zn ) e Var( zn ) , pode demonstrar-se que (3.4)
lim E ( zn ) = c e lim Var( z n ) = 0 ,
n→+∞
n→+∞
são condições suficientes de convergência em probabilidade [ver (3.13)]. Do mesmo modo, quando se considera {z•n } (sucessão de vectores aleatórios), as respectivas condições suficientes são (3.5)
lim E ( z•n ) = c e lim Cov( z•n ) = O ,
n→+∞
n→+∞
desde que existam E ( z• n ) e Cov( z• n ) . A seguir, apresenta-se a definição de convergência em distribuição. Definição 3.2 – Convergência em distribuição Considere-se a sucessão de variáveis aleatórias, {z n } , e a respectiva sucessão de funções de distribuição, {Fn } [ Fn ( x) = Pn ( zn ≤ x) ]. A sucessão {z n } converge em distribuição para a variável aleatória z, com função de distribuição F [ F ( x) = P( z ≤ x) ], se e só se
(3.6)
lim Fn ( x) = F ( x) ,
n→+∞
em todos os pontos de continuidade de F. Nestas condições, escreve-se
zn → z , d
e diz-se que F é a distribuição limite de z n . No caso de sucessões de vectores aleatórios {z•n } , tem-se uma definição semelhante. Assim, se {Fn } é a respectiva sucessão de funções de distribuição, diz-se que {z•n } converge em distribuição para o vector aleatório z, com função de distribuição F, se e só se a condição (3.6) se verifica em todos os pontos de continuidade de F. Não se pode definir a convergência em distribuição para sucessões de vectores aleatórios, considerando os elementos homólogos de z•n e de z. De facto, afirmar que cada elemento de z•n tende em distribuição para o elemento homólogo de z, não implica que {z•n } convirja do mesmo modo para z. Para indicar que {z n } tende em distribuição para z, pode escrever-se zn → z ~ F , d
ou, simplesmente, zn → F , d
quando a função de distribuição de z, F, é bem conhecida. Quando, por exemplo, z ~ N ( µ , σ 2 ) , escreve-se
Capítulo 3 – MRL com Regressores Pré-Determinados
5
zn → z ~ N ( µ , σ 2 ) ou zn → N ( µ , σ 2 ) , d
d
ou seja, a distribuição limite de zn é N ( µ , σ 2 ) . O valor esperado e a variância de z (se existirem) designam-se, respectivamente, por valor esperado limite e variância limite de z n . No caso vectorial, a matriz das covariâncias de z (se existir) é a matriz das covariâncias limite de z•n . Em muitos casos, a variável aleatória z é contínua, mesmo que as variáveis aleatórias z n sejam discretas. Tal acontece, por exemplo, com o teorema de De Moivre-Laplace, em que xn − np , zn = np (1 − p) onde xn tem distribuição binomial com parâmetros n e p, e z é N (0,1) . Um caso especial de convergência em distribuição é aquele em que z = c . Nestas condições a distribuição limite é degenerada (toda a massa de probabilidade está concentrada em c). Tal como se fez para a convergência em probabilidade, é possível garantir a preservação da convergência em distribuição. Preservação da convergência em distribuição Suponha-se que a função g : ℜ m → ℜ p é contínua no seu domínio, e não depende de n. Tem-se z •n → z ⇒ g ( z •n ) → g ( z ) . d
(3.7)
d
Pode provar-se que a convergência em probabilidade implica a convergência em distribuição, zn → z ⇒ zn → z . p
(3.8)
d
Obviamente que zn → c ⇔ zn → c . p
(3.9)
d
Tem-se: Propriedades que relacionam a convergência em probabilidade com a convergência em distribuição
a) z•n → z ∧ w•n → c ⇒ ( z•n + w•n ) → z + c . d
p
d
b) wn → c ≠ 0 ∧ z•n → z ⇒ ( wn z•n ) → c z . p
d
d
c) w• n → 0 ∧ z• n → z ⇒ ( w•Tn z• n ) → 0 . p
d
d
Capítulo 3 – MRL com Regressores Pré-Determinados
6
d) z•n → z ∧ An → A ⇒ ( An z•n ) → A z , onde An é matriz aleatória k × m e A matriz não aleatória do mesmo tipo; em particular, deve considerar-se o caso em que An = A . d
p
d
e) Se, nas condições de d), z ~ N ( m ) ( µ , V ) então ( An z• n ) → N ( k ) ( Aµ , AVAT ) . d
z•n → z ∧ An → A ⇒ ( z•Tn An−1 z•n ) → z T A −1 z , se as matrizes An e A tiverem inversa. d
f)
p
d
g) z• n → z ~ N ( m ) (0, V ) ∧ Vn → V ⇒ ( z•TnVn−1 z• n ) → z TV −1 z ~ χ 2 (m) , se Vn tiver inversa; em particular, deve considerar-se o caso em que Vn = V . d
p
d
Diz-se que as sucessões { y•n } e {z•n } são assintoticamente equivalentes se e só se têm a mesma distribuição limite: a d d y• n ~ z• n ⇔ y• n → F ∧ z• n → F .
Suponha-se que na propriedade a) se tem c = 0 . Fazendo y•n = z•n + w•n , conclui-se imediatamente que { y•n } e {z•n } são assintoticamente equivalentes. Este resultado [a propriedade a) com c = 0 ] é conhecido pela designação de lema da equivalência assintótica. A vantagem deste lema é a seguinte: suponha-se que é difícil obter a distribuição limite de z•n ; no entanto, dispõe-se de uma sucessão { y•n } tal que a distribuição limite de y•n é conhecida (ou é fácil de obter). Se se verificar que plim ( y• n − z• n ) = 0 ,
pode concluir-se as distribuições limites de y•n e de z•n são iguais. Suponha-se que z•n → z ∧ w•n → c . p
d
Então, de acordo com a propriedade c), tem-se ( w•Tn z•n − c T z•n ) → 0 ou plim ( w•Tn z•n − cT z•n ) = 0 , d
ou seja, a
w•Tn z•n ~ cT z•n . Assim, verifica-se que substituir w•n pelo seu limite em probabilidade, não altera a distribuição limite de w•Tn z•n , desde que z•n convirja em distribuição para algum vector aleatório z. A seguir vai apresentar-se e demonstrar-se um teorema (conhecido pelo nome de método delta), que permite obter distribuições limite que envolvem uma função (não linear) dos vectores de uma sucessão de vectores aleatórios.
Capítulo 3 – MRL com Regressores Pré-Determinados
7
Teorema 3.1 (método delta) Considere-se uma sucessão de vectores aleatórios m × 1 , {z•n } a verificar
plim( z• n ) = θ e
n ( z• n − θ ) → z . d
Seja a função g : ℜ m → ℜ p , com primeiras derivadas contínuas, e represente-se por ∇ g (θ ) a matriz Jacobiana, de tipo p × m , calculada em θ . Então, n{g ( z• n ) − g (θ )} → ∇ g (θ ) z . d
(3.10)
Em particular,
n ( z• n − θ ) → N ( m ) (0, V ) ⇒ d
(3.11)
n{g ( z• n ) − g (θ )} → N ( p ) 0, ∇g (θ ) V ∇g (θ )T . d
Dem.: De acordo com o teorema dos acréscimos finitos da análise diferencial, existe um vector w•n entre z•n e θ a verificar
g ( z• n ) − g (θ ) = ∇ g ( w• n )( z• n − θ ) ,
ou
n{g ( z• n ) − g (θ )} = ∇ g ( w• n ) n ( z• n − θ ) .
Como w•n está entre z•n e θ e plim( z• n ) = θ , então também plim(w• n ) = θ . Como ∇ g é contínua, tem-se, devido a (3.2), plim{∇g ( w• n )} = ∇g (θ ) . Atendendo a que n ( z• n − θ ) → z , d
e à propriedade d) anterior, obtém-se
∇ g ( w• n ) n ( z• n − θ ) → ∇g (θ ) z , d
ficando assim demonstrado (3.10). Para demonstrar (3.11) basta invocar a propriedade e) das relações entre a convergência em probabilidade e a convergência em distribuição. ∇∇ Como vai ver-se, este teorema permite testar hipóteses não lineares, dada a distribuição limite de um estimador. É altura de apresentar a definição de convergência em média quadrática.
Capítulo 3 – MRL com Regressores Pré-Determinados
8
Definição 3.3 – Convergência em média quadrática A sucessão de variáveis aleatórias {z n } converge em média quadrática para a constante c se e só se (3.12)
lim E{( z n − c) 2 } = 0 ,
n→+∞
supondo que existe E ( z n2 ) . Então, escreve-se
zn → c . mq
A sucessão de vectores aleatórios {z•n } converge em média quadrática para o vector de constantes c se e só se cada elemento de z•n converge em média quadrática para o elemento homólogo do vector c. Neste caso, tem-se z •n → c . mq
É possível apresentar outra definição de convergência em média quadrática no caso vectorial. Sabe-se que z• n → c ⇔ lim E{( z1n − c1 ) 2 } = 0 ∧ lim E{( z2 n − c2 ) 2 } = 0 ∧ K ∧ lim E{( zmn − cm ) 2 } = 0 . mq
n → +∞
n → +∞
n → +∞
Notando que
E{( z• n − c)T ( z• n − c)} = E{( z1n − c1 ) 2 } + E{( z2 n − c2 ) 2 } + L + E{( zmn − cm ) 2 } , conclui-se imediatamente que lim E{( z• n − c)T ( z• n − c)} = 0 ⇔ z• n → c . mq
n → +∞
Facilmente se verifica que a condição necessária e suficiente para a sucessão {z n } convergir em média quadrática para c é (3.13)
lim E ( z n ) = c e lim Var( z n ) = 0 .
n→+∞
n→+∞
Com efeito, basta notar que
E{( zn − c) 2 } = E {zn − E ( zn ) + E ( zn ) − c}2
= E {zn − E ( zn )}2 + {E ( zn ) − c}2 + 2{zn − E ( zn )}{E ( zn ) − c} 2 = Var ( zn ) + {E ( zn ) − c} .
No caso de uma sucessão de vectores aleatórios, a condição necessária e suficiente escreve-se da seguinte maneira: (3.14)
lim E ( z•n ) = c e lim Cov( z•n ) = O .
n→+∞
n→+∞
É possível provar que a convergência em média quadrática implica a convergência em probabilidade,
Capítulo 3 – MRL com Regressores Pré-Determinados
9
zn → c ⇒ zn → c . mq
(3.15)
p
Verifica-se, assim, que as condições (3.13) são apenas condições suficientes de convergência em probabilidade. A definição 3.3 pode ser estendida à convergência em média quadrática para uma variável aleatória. Assim, supondo que existem E ( z n2 ) e E ( z 2 ) , z n → z ⇔ ( z n − z ) → 0 ⇔ lim E{( z n − z ) 2 } = 0 . mq
(3.16)
mq
n→+∞
Então, zn → z ⇒ zn → z . mq
(3.17)
p
Apresentam-se a seguir três propriedades muito importantes sobre a convergência em média quadrática para uma variável aleatória: a) z n → z ⇔ lim E{( z m − z n ) 2 } = 0 . mq
m→+∞ n→+∞
b) zn → z ⇒ lim E ( z n ) = E ( z ) . mq
n→+∞
c) wn → w ∧ z n → z ⇒ lim E ( wn z n ) = E ( w z ) . mq
mq
n→+∞
No caso de vectores aleatórios, tem-se z• n → z ⇔ ( z• n − z ) → 0 . mq
mq
As relações de implicação entre os três modos de convergência estocástica estão resumidas na figura 3.1. Convergência em média quadrática
⇒
Convergência em probabilidade
⇒ Convergência em distribuição
Fig. 3.1 - Modos de convergência estocástica. Estimadores consistentes e assintoticamente normais
Seja ( z1 , K , zn ) uma amostra aleatória com função densidade f ( z1 , K , zn | θ ) , onde θ é o vector m × 1 dos respectivos parâmetros desconhecidos. Suponha-se que θˆ•n é um estimador de θ , baseado na amostra de dimensão n. A sucessão {θˆ•n } é exemplo de uma sucessão de vectores aleatórios, pelo que os conceitos estudados na subsecção anterior são aplicáveis a estas sucessões. Quando a dimensão da amostra aumenta deve exigir-se de um bom estimador precisão cada vez maior, ou seja, uma probabilidade cada vez mais elevada de pertencer a uma vizinhança do verdadeiro valor do parâmetro. Em termos formais, se θˆ•n é um es-
Capítulo 3 – MRL com Regressores Pré-Determinados
10
timador de θ ∈ Θ ⊂ ℜ m [ Θ é o espaço-parâmetro de θ ], obtido a partir de uma amostra de dimensão n, deve ter-se P ( | θˆ•n − θ | < ε ) < P ( |θˆ•n′ − θ | < ε ) ,
qualquer que seja ε > 0 e n′ > n . Esta condição sugere que θˆ•n deve tender em probabilidade para θ . Definição 3.4 – Consistência O estimador θˆ•n é consistente para θ se e só se
(3.18)
plim(θˆ• n ) = θ , ∀θ ∈ Θ .
Como não se conhece o verdadeiro valor de θ , a condição (3.18) deve verificar-se para qualquer valor de θ no espaço-parâmetro. O enviesamento assintótico de θˆ•n é definido por Env a (θˆ• n ) = plim(θˆ• n ) − θ .
Assim, estimador consistente tem enviesamento assintótico nulo (o estimador é assintoticamente não enviesado). Um estimador consistente, θˆ•n , tem evidentemente distribuição limite degenerada, uma vez que os seus limites em distribuição e em probabilidade são iguais a θ . No entanto, em muitas situações, é possível encontrar uma transformação de θˆ•n que tenha uma distribuição limite adequada. Definição 3.5 – Estimador assintoticamente normal Seja θˆ•n um estimador de θ . Quando se tem
n (θˆ• n − θ ) → N ( m ) (0, V ) , d
(3.19)
diz-se que o estimador θˆ•n é assintoticamente normal ou
n -assintoticamente normal.
A matriz das covariâncias limite do vector aleatório n (θˆ•n − θ ) é V, que se designa por matriz das covariâncias assintóticas de θˆ•n . Escreve-se Cov a (θˆ• n ) = V .
Como o valor esperado limite de n (θˆ•n − θ ) é 0 , diz-se que o valor esperado assintótico de θˆ•n é θ , Ea (θˆ•n ) = θ . Alguns autores preferem utilizar a matriz (1 / n) V para matriz das covariâncias assintóticas de θˆ•n (que converge para zero), o que tem a ver com a circunstância de que Cov n (θˆ• n − θ ) = n Cov(θˆ• n ) .
Capítulo 3 – MRL com Regressores Pré-Determinados
11
No entanto, vai adoptar-se a convenção de que a matriz das covariâncias assintóticas de θˆ•n coincide com a matriz das covariâncias limite de n (θˆ•n − θ ) . Sem dificuldade se prova que estimador assintoticamente normal é comsistente, ou seja, d ( m) n (θˆ• n − θ ) → N (0, V ) ⇒ plim(θˆ• n ) = θ . Com efeito, como
θˆ• n − θ =
1 1 n (θˆ• n − θ ) e plim = 0, n n
e devido à propriedade c) que relaciona a convergência em probabilidade com a convergência em distribuição, tem-se d θˆ• n → θ ⇔ plim(θˆ• n ) = θ .
Vão apresentar-se dois resultados gerais muito usados nos testes de hipóteses em Econometria: 1) Suponha-se que θˆ•n é um estimador assintoticamente normal de θ , e que R é uma matriz p × m tal que p ≤ m e r ( R) = p . Então, n R (θˆ• n − θ ) → N ( p ) (0, R V RT ) , d
e
n{R (θˆ• n − θ )}T ( R V RT ) −1{R (θˆ• n − θ )} → χ 2 ( p ) . d
Se plim (Vˆn ) = V , então
n{R (θˆ• n − θ )}T ( R Vˆn RT ) −1{R (θˆ• n − θ )} → χ 2 ( p ) . d
Para testar a hipótese nula H 0 : Rθ = δ contra H1 : Rθ ≠ δ , onde δ é um vector conhecido p × 1 , a respectiva estatística-teste tem distribuição limite do qui-quadrado com p graus de liberdade. Assim, ( R θˆ• n − δ )T {R (Vˆn / n) RT }−1 ( R θˆ• n − δ ) → χ 2 ( p) . d
(3.20)
2) Suponha-se que θˆ•n é um estimador assintoticamente normal de θ . Seja a função g : ℜ m → ℜ p , com primeiras derivadas contínuas, e represente-se por ∇ g (θ ) a matriz Jacobiana, de tipo p × m , calculada em θ . O método delta permite concluir que n{g (θˆ• n ) − g (θ )} → N ( p ){0, ∇g (θ ) V ∇g (θ )T } , d
e
n{g (θˆ• n ) − g (θ )}T {∇g (θ ) V ∇g (θ )T }−1{g (θˆ• n ) − g (θ )} → χ 2 ( p) . d
Capítulo 3 – MRL com Regressores Pré-Determinados
12
Se plim (Vˆn ) = V , e como plim {∇g (θˆ• n )} = ∇g (θ ) , então
n{g (θˆ• n ) − g (θ )}T {∇g (θˆ• n ) Vˆn ∇g (θˆ• n )T }−1{g (θˆ• n ) − g (θ )} → χ 2 ( p ) . d
Para testar a hipótese nula H 0 : g (θ ) = 0 contra H1 : g (θ ) ≠ 0 , a respectiva estatísticateste tem distribuição limite do qui-quadrado com p graus de liberdade. Assim, g (θˆ• n )T {∇g (θˆ• n ) (Vˆn / n)∇g (θˆ• n )T }−1 g (θˆ• n ) → χ 2 ( p ) . d
(3.21)
Leis dos grandes números
A experiência acumulada ensina que: os acontecimentos com probabilidade muito grande (próxima de 1) realizam-se quase sempre; os acontecimentos com probabilidade muito pequena (próxima de 0) raramente ocorrem. Esta circunstância desempenha um papel fundamental em todas as aplicações práticas que envolvem incerteza, uma vez que este facto permite considerar como praticamente impossíveis os acontecimentos com probabilidade muito próxima de 0, e como praticamente certos, os acontecimentos com probabilidade muito próxima de 1. Contudo, não pode responder-se sem ambiguidade à seguinte pergunta: qual a probabilidade que permite considerar um acontecimento como praticamente impossível (praticamente certo)? Como se sabe da teoria da probabilidade, os acontecimentos com probabilidade próxima de 1 (ou de 0) são de grande importância. De facto, um dos principais problemas daquela teoria é o estabelecimento de regularidades envolvendo probabilidades próximas de 1; nesta matéria, um papel particular deve ser desempenhado por leis que resultam da sobreposição de um grande número de factores aleatórios independentes ou com fraco grau de dependência, uns em relação aos outros. A mais importante destas leis é a lei dos grandes números. Considere-se um resultado ou efeito de intensidade aleatória que é calculado a partir das intensidades de um grande número, n, de factores aleatórios, cada um exercendo reduzida influência no resultado, quando considerado individualmente. A intensidade do efeito representa-se por uma variável aleatória yn ; as intensidades aleatórias dos n factores representam-se por n variáveis aleatórias, z1 , z2 , K , zn ; o facto de a intensidade do efeito ser calculada a partir das intensidades dos n factores, leva a escrever yn = ϕ ( z1 , z2 , K , zn ) . A lei dos grandes números deve afirmar a existência de um número cn que, quando n for suficientemente grande, possa ser tomado como valor aproximado de yn , de maneira a ter-se uma certeza prática de que o erro cometido não excede determinada magnitude. Esta concepção geral e vaga da lei dos grandes números vai ser seguidamente apresentada de uma forma mais precisa, construindo a sucessão das intensidades dos efeitos a partir das intensidades dos factores. Considere-se a sucessão de variáveis aleatórias z1 , z 2 ,K, z n ,K ,
Capítulo 3 – MRL com Regressores Pré-Determinados
13
a partir da qual se constrói outra sucessão,
y1 = ϕ1 ( z1 ), y2 = ϕ 2 ( z1 , z 2 ), K , yn = ϕ n ( z1 , z 2 , K , z n ), K .
Se existem constantes c1 , c2 , K , cn , K ,
tais que a sucessão { yn − cn } converge em probabilidade para zero, diz-se que a sucessão {z n } obedece à lei dos grandes números (LGN). É esta convergência estocástica que, como vai ver-se, dá uma certeza prática de que o valor de yn não se afasta significativamente de cn , desde que se considere n suficientemente grande. Assim, tem-se plim ( yn − cn ) = 0 ⇔ lim P ( | yn − cn | < ε ) = 1 . n→+∞
Normalmente, as funções ϕ n consideradas são as médias aritméticas das variáveis z1 ,K, z n , 1 n yn = zn = ∑i=1 zi , n e as constantes cn são os respectivos valores esperados,
cn = E ( z n ) =
1 n ∑ E ( zi ) , n i =1
tendo-se, assim, uma concepção mais restrita da lei dos grandes números. A definição adoptada é, então, a seguinte: Definição 3.6 – Lei dos grandes números A sucessão de variáveis aleatórias {z n } obedece à lei dos grandes números se e só se a sucessão {z n − E ( z n )} converge em probabilidade para zero,
(3.22)
plim {zn − E ( zn )} = 0 .
Esta concepção mais restrita é, mesmo assim, suficientemente geral para abranger, como casos particulares, as várias leis clássicas dos grandes números (Bernoulli, Poisson, etc.). Vão apresentar-se a seguir alguns teoremas sobre lei dos grandes números que vão ser úteis para o estudo do modelo de regressão linear considerado neste capítulo. Estes teoremas estabelecem condições suficientes relativamente a três aspectos do comportamento da sucessão de variáveis aleatórias: 1) Dependência ou “memória”: supõe-se que as variáveis aleatórias zn (n = 1,2, K) são independentes? Caso contrário, a dependência está sujeita a algumas comdições? 2) Heterogeneidade: as variáveis aleatórias zn são identicamente distribuídas (homogeneidade)? Caso contrário (heterogeneidade), que condições se devem impor? 3) Momentos: que hipóteses se estabelecem sobre os momentos das variáveis aleatórias zn ? Assim, os teoremas sobre a lei dos grandes números têm o seguinte formato:
Capítulo 3 – MRL com Regressores Pré-Determinados
14
Teoremas sobre a lei dos grandes números (formato) Dadas certas restrições sobre a dependência, a heterogeneidade e os momentos da sucessão de variáveis aleatórias {z n } , verifica-se que plim {zn − E ( zn )} = 0 .
O primeiro teorema (Khinchine) supõe que a sucessão de variáveis aleatórias é iid, e que existe o valor esperado. Teorema 3.2 (Khinchine) Considere-se a sucessão de variáveis aleatórias iid, {z n } . Se E ( z n ) = µ , então a sucessão {z n } obedece à lei dos grandes números,
plim {zn − E ( zn )} = plim ( zn − µ ) = 0 .
Chebychev, com base na desigualdade que tem o seu nome, provou uma condição suficiente para que uma sucessão de variáveis aleatórias independentes (mas não necessariamente identicamente distribuídas), obedeça à lei dos grandes números: Teorema 3.3 (Chebychev) Considere-se a sucessão de variáveis aleatórias independentes, {z n } . Se E ( z n ) = µ n e Var( z n ) ≤ k (as variâncias são limitadas por uma certa constante), então a sucessão {z n } obedece à lei dos grandes números,
1 n plim {zn − E ( zn )} = plim zn − ∑i =1 µi = 0 . n
Posteriormente, Markov notou que um raciocínio semelhante permite obter um resultado ainda mais geral (em que as variáveis aleatórias da sucessão podem ser dependentes, e pode existir heterogeneidade). Teorema 3.4 (Markov) Considere-se a sucessão de variáveis aleatórias, {z n } . Se E ( z n ) = µ n e
1 n n lim {zn − E ( zn )} = lim 2 ∑i =1 zi − ∑i =1 µi = 0 , n → +∞ n → +∞ n 2
2
então a sucessão {z n } obedece à lei dos grandes números,
1 n plim {zn − E ( zn )} = plim zn − ∑i =1 µi = 0 . n
Na secção seguinte vai apresentar-se outro teorema sobre a lei dos grandes números (teorema da ergodicidade), em que se supõe dependência (sob certas condições) e homogeneidade.
Capítulo 3 – MRL com Regressores Pré-Determinados
15
Estes teoremas sobre as leis dos grandes números podem ser enunciados para sucessões de vectores aleatórios, {z•n } , considerando a convergência em probabilidade de cada elemento de z•n . Teoremas do limite central
Os teoremas do limite central (TLC) referem-se às distribuições limite de zn − E ( zn ) , Var ( zn )
e obedecem ao seguinte formato: Teoremas do limite central (formato) Dadas certas restrições sobre a dependência, a heterogeneidade e os momentos da sucessão de variáveis aleatórias {z n } , verifica-se que zn − E ( zn ) d → N (0,1) . Var ( z n )
O único TLC que vai ser enunciado é o conhecido teorema de Lindeberg-Levy.
Teorema 3.5 (Lindeberg-Levy) Seja {z n } uma sucessão de variáveis aleatórias iid, tal que E ( z n ) = µ e Var ( zn ) = σ 2 . Como E ( zn ) = µ e Var ( zn ) = σ 2 / n , tem-se (3.23)
n{zn − µ}
σ
=
1 n
∑
zi − µ d → N (0,1) . i =1 σ n
Este teorema pode ser enunciado para sucessões de vectores aleatórios.
Teorema 3.6 [Lindeberg-Levy (versão vectorial)] Seja {z•n } uma sucessão de vectores aleatórios (com m componentes) iid. Se E ( z•n ) = µ e Cov( z• n ) = V então (3.24)
n{z• n − E ( z• n )} =
1 n
∑i =1 ( z•i − µ ) → N ( m) (0,V ) . d
n
O teorema de Lindeberg-Levy e o método delta podem combinar-se para obter a distribuição limite relativa a transformações de zn , g ( zn ) . Assim, considere-se, nas condições daquele teorema, que n ( zn − µ ) → N (0, σ 2 ) . d
Capítulo 3 – MRL com Regressores Pré-Determinados
16
Por exemplo, se g ( zn ) = 1 / zn , de acordo com o método delta, obtém-se 2 1 1 d σ n − → N 0, 4 , zn µ µ
uma vez que g ( µ ) = 1 / µ e g ′( µ ) = −1 / µ 2 . Na secção seguinte apresentar-se outro TLC, de grande utilidade para o estudo do modelo de regressão linear. 3.2 - Alguns conceitos fundamentais sobre processos estocásticos Nesta secção vão apresentar-se alguns conceitos e resultados básicos sobre processos estocásticos (recorde-se que o termo processo estocástico é apenas outro nome que se pode dar a uma sucessão de variáveis aleatórias). É particularmente importante o caso em que o índice destas variáveis é interpretado como sendo o tempo, e os termos da sucessão referem-se a sucessivas datas (períodos ou instantes); diz-se, então, que o processo estocástico, z1 , z 2 , K , zt , K ou {zt } , é uma série temporal ou sucessão cronológica [note-se que uma série temporal é uma sucessão, e não deve confundir-se com o conceito matemático de série]. Uma sucessão de valores assumidos pelas variáveis aleatórias zt é uma realização da série temporal. Frequentemente usa-se o termo série temporal para designar o processo estocástico ou qualquer das suas realizações. Muitas vezes, o processo estocástico a estudar é uma sucessão de vectores aleatórios, e não uma sucessão de variáveis aleatórias (escalares). Neste caso, usa-se a notação {z•t } ou z•1 , z•2 , K , z•t , K , onde z•t é um vector aleatório m × 1 . Diz-se, então, que se tem um processo estocástico vectorial, que não é mais do que um sistema de m processos estocásticos escalares. Considerando o processo estocástico {z•t } , admita-se que existe o valor esperado de cada z•t , µ •t = E ( z•t ) , que, em geral, varia com t (cada termo da sucessão tem o seu valor esperado). A matriz das autocovariâncias de ordem s na data t é dada por Γts = Cov( z•t , z•,t −s ) = E{( z•t − µ •t )( z•,t −s − µ •,t −s )T } ( s = 0,1, 2, K) .
Utiliza-se o prefixo “auto” para salientar que os dois vectores aleatórios, z•t e z•,t −s , pertencem ao mesmo processo estocástico. Quando o processo estocástico é escalar, {zt } , a autocovariância de ordem s na data t é
γ ts = Cov( zt , zt −s ) = E{( zt − µ t )( zt −s − µ t −s )} ( s = 0,1, 2, K) .
Estacionaridade Quando se considera um processo estocástico, {z•t } , a função de distribuição, F ( z•t ;θ•t ) , depende de t, bem como o vector dos parâmetros, θ•t , que caracteriza a dis-
Capítulo 3 – MRL com Regressores Pré-Determinados
17
tribuição. Assim, o processo estocástico é, em geral, heterogéneo. Nestas circunstâncias, a modelação do fenómeno em estudo pode apresentar dificuldades incontornáveis, porque, geralmente, só se dispõe de uma observação para cada t. Assim, na prática, teria que se “estimar” θ•t apenas com uma observação, o que é impossível. É necessário impor restrições à heterogeneidade do processo estocástico. Neste sentido, vão definir-se classes importantes de processos estocásticos, que gozam de considerável homogeneidade, e que podem ser utilizados para modelar fenómenos que “convergem para um estado de equilíbrio de longo prazo” (steady-state equilibrium). Definição 3.7 – Estacionaridade (em sentido restrito) Considere-se o processo estocástico {z•t } , onde z•t é um vector aleatório m × 1 . O processo {z•t } é estacionário em sentido restrito ou fortemente estacionário se e só se, para qualquer conjunto finito de p índices, {t1 , t 2 , K , t p } , e qualquer que seja r, são iguais as distribuições conjuntas de z•t1 , z•t2 , K , z•t p e z•,t1 +r , z•,t2 +r , K , z•,t p +r ,
ou seja,
F ( z•t1 , z•t 2 , K , z•t p ) = F ( z•t1 + r , z•t 2 + r , K , z•t p + r ) .
A definição anterior significa que o comportamento probabilístico de conjuntos de vectores aleatórios que compõem o processo estocástico depende apenas das suas posições relativas na sucessão (dos desfasamentos entre eles), e não da posição absoluta. Por exemplo, a distribuição conjunta de z•7 , z•11 , z•14 é a mesma que a distribuição conjunta de z•13 , z•17 , z•20 ( r = 6 ) ou de z•3 , z•7 , z•10 ( r = −4 ). Em particular, o mesmo se passa com os momentos (se existirem) destas distribuições conjuntas. Por exemplo (ver definição 3.8): − O valor esperado dos z•t é constante (não varia com t): E ( z•t ) = µ ; − A matriz das covariâncias dos z•t é constante (não varia com t): Cov( z•t ) = Γ0 ; − A matriz das autocovariâncias de ordem s na data t, não varia com t, mas varia com s: Cov( z•t , z•,t −s ) = Γs .
Também se pode concluir que, se {z•t } é estacionário então {h( z•t )} também é estacionário, onde h é uma função real (escalar ou vectorial). Por exemplo, {z•t z•Tt } ou {z•Tt z•t } são estacionários, se {z•t } o for. Um exemplo típico de processo estocástico estacionário é uma sucessão de variáveis aleatórias iid, {ε t } . Outro exemplo é o processo z1 , z1 , K (as variáveis aleatórias da sucessão são todas iguais). Note-se que, no primeiro caso, tem-se uma situação de ausência de autocorrelação; no segundo, a autocorrelação é máxima. Evidentemente, se o processo estocástico {z•t } é estacionário, os processos formados pelos elementos homólogos dos vectores z•t são também estacionários. Contudo, a recíproca não é verdadeira. Com efeito, suponha-se que {ε t } é um processo iid e que
Capítulo 3 – MRL com Regressores Pré-Determinados
18
se constrói um processo bidimensional, {z•t } , tal que z1t = ε t e z 2t = ε1 . Embora os processos {z1t } e {z 2t } sejam estacionários, o mesmo não se verifica com {z•t } . De facto, por exemplo, as distribuições de ε ε z•1 = 1 e z•2 = 2 ε1 ε 1
são diferentes. Muitas séries temporais {zt } de variáveis económicas (sobretudo, macroeconómicas) são processos não estacionários porque apresentam uma tendência temporal. Contudo, em muitos casos, é possível transformá-los em processos estacionários, subtraindo a cada zt uma função de t (tempo). Nestas condições, diz-se que o processo {zt } é estacionário em tendência. Pode, também, acontecer que {zt } não seja estacionário, mas o processo das diferenças, {zt − zt −1} , o seja. Neste caso, o processo {zt } dizse estacionário em diferenças (este tópico é retomado em capítulo posterior). A estacionaridade em sentido restrito é, muitas vezes, de difícil verificação. No entanto, é possível apresentar outro conceito de estacionaridade. No caso de existirem os momentos de segunda ordem (variâncias e covariâncias), este conceito é mais fraco (mais amplo) que o anterior. No entanto, embora seja menos exigente, pode utilizar-se em muitas situações de interesse. Definição 3.8 – Estacionaridade em covariância Considere-se o processo estocástico {z•t } , onde z•t é um vector aleatório m × 1 . O processo {z•t } é estacionário em covariância, estacionário em sentido amplo ou fracamente estacionário se e só se: − o valor esperado dos z•t é constante (não varia com t), E ( z•t ) = µ ; − a matriz das covariâncias entre z•t e z•,t −s existe, não varia com t, e varia com s,
Cov( z•t , z•,t −s ) = Γs ( s = 0,1, 2, K) .
Facilmente se conclui que, se existirem os momentos de 2.ª ordem, a estacionaridade em sentido restrito implica a estacionaridade em covariância, mas a recíproca não é verdadeira. Quando o processo é estacionário em covariância, a matriz Γs chama-se matriz das autocovariâncias de ordem s, que, como se sabe, não depende de t. Utiliza-se o prefixo “auto” para salientar que os dois vectores aleatórios, z•t e z•,t −s pertencem ao mesmo processo estocástico. Fazendo Γ−s = Cov( z•t , z•,t + s ) , e notando que Cov( z•t , z•,t −s ) = Cov( z•,t + s , z•t ) = {Cov ( z•t , z•,t + s )}T ,
verifica-se imediatamente que Γs = Γ−Ts . A matriz das autocovariâncias de ordem 0, Γ0 , é a matriz das covariâncias de qualquer z•t : Γ0 = Cov( z•t ) . Quando se tem um processo estocástico {zt } , as autocovariâncias são escalares,
Capítulo 3 – MRL com Regressores Pré-Determinados
19
γ s = Cov( zt , zt −s ) ( s = 0,1, 2, K) ,
e facilmente se verifica que γ 0 = Var( zt ) , e que γ s = γ −s . O processo estocástico iid, {ε t } , e o processo z1 , z1 , K , atrás referidos, são dois exemplos de estacionaridade fraca (em covariância), se existirem as respectivas variâncias. No primeiro caso, tem-se γ 0 = Var(ε t ) e γ s = 0 para s = 1, 2, K ; no segundo caso, γ s = Var( z1 ) para s = 0,1, 2, K O coeficiente de autocorrelação de ordem s é dado por
ρs =
γ s Cov( zt , zt −s ) ( s = 0,1, 2, K) . = γ0 Var ( zt )
Note-se que ρ 0 = 1 e ρ s = ρ −s . Chama-se correlograma ao gráfico onde se representam os ρ s em função de s. Uma classe muito importante de processos estacionários em covariância é a dos ruídos brancos. Definição 3.9 – Ruído branco Considere-se o processo estocástico {ε •t } , onde ε •t é um vector aleatório m × 1 . O processo {ε •t } é um ruído branco se e só se:
− E (ε •t ) = 0 ;
− Cov(ε •t ) = Γε (não varia com t); − Cov(ε •t , ε •,t −s ) = O para s ≠ 0 .
Desta definição facilmente se conclui que um ruído branco é um processo estacionário em covariância. No caso particular em que o ruído branco é uma sucessão de variáveis aleatórias, os valores esperados são nulos, as variâncias são constantes e as covariâncias são nulas. Um processo iid com valor esperado nulo, em que existem os segundos momentos, é um caso especial de ruído branco, habitualmente chamado ruído branco independente. Assim, enquanto um ruído branco, em geral, requer a ausência de autocorrelação, aquele exige a independência das variáveis aleatórias. No anexo 3A apresenta-se um exemplo de um ruído branco que não é independente. Podem referir-se outros exemplos de processos estocásticos estacionários em covariância, que pertencem à família dos processos ARMA. Embora o seu estudo mais completo seja feito noutro capítulo, vão apresentar-se dois casos particulares: 1) Os processos auto-regressivos de 1.ª ordem. O processo estocástico {zt } é auto-regressivo de 1.ª ordem se e só se (3.25)
zt = α + ϕ zt −1 + ε t ,
onde {ε t } é um ruído branco. Nestas condições, é habitual escrever, zt ~ AR (1) . Supondo, para simplificar, que α = 0 , e notando que, zt −1 = ϕ zt −2 + ε t −1 , tem-se zt = ϕ (ϕ zt −2 + ε t −1 ) + ε t = ϕ 2 zt −2 + ε t + ϕ ε t −1 .
Capítulo 3 – MRL com Regressores Pré-Determinados
20
Como zt −2 = ϕ zt −3 + ε t −2 , vem
zt = ϕ 2 (ϕ zt −3 + ε t −2 ) + ε t + ϕ ε t −1 = ϕ 3 zt −3 + ε t + ϕ ε t −1 + ϕ 2ε t −2 .
Procedendo sucessivamente deste modo, obtém-se
zt = ϕ s zt − s + ε t + ϕ ε t −1 + ϕ 2ε t − 2 + L + ϕ s −1ε t − s +1 .
Fazendo s → +∞ , é fácil verificar que a série obtida converge se e só se | ϕ | < 1 . Neste caso, tem-se zt = ε t + ϕ ε t −1 + ϕ 2ε t −2 + L ,
donde se conclui imediatamente que E ( zt ) = 0 . Facilmente se obtém Var ( zt ) = σ z2 =
σ ε2 , 1−ϕ2
onde σ ε2 = Var (ε t ) . Com efeito, basta considerar a série atrás obtida, e notar que {ε t } é um ruído branco. Obtém-se Var ( zt ) = σ ε2 + ϕ 2 σ ε2 + ϕ 4 σ ε2 + L = σ ε2 (1 + ϕ 2 + ϕ 4 + L) =
De forma semelhante pode calcular-se Cov( zt , zt − s ) = γ s = σ z2 ϕ s = σ ε2
σ ε2 . 1−ϕ 2
ϕs ; ρ s = ϕ s ( s = 0,1, 2, K) . 1−ϕ 2
Pode, então, concluir-se o seguinte:
− O processo AR(1), zt = ϕ zt −1 + ε t , é estacionário em covariância se e só se | ϕ | < 1.
2) Os processos de médias móveis de 1.ª ordem. Diz-se que {zt } é um processo de médias móveis de 1.ª ordem se e só se (3.26)
zt = α + ε t + θ ε t −1 ,
onde {ε t } é um ruído branco. Escreve-se então, zt ~ MA(1) [MA é a sigla para moving average]. Admitindo, para simplificar, que α = 0 , tem E ( zt ) = 0 , e facilmente se conclui que Var ( zt ) = σ z2 = σ ε2 (1 + θ 2 ) ,
Cov( zt , zt −1 ) = γ 1 = σ ε2θ , Cov( zt , zt − s ) = γ s = 0 ( s = 2, 3,K) ,
ρ1 =
θ , ρ s = 0 ( s = 2, 3,K) . 1+θ 2
Pode, então, concluir-se o seguinte:
− O processo MA(1), zt = ε t + θ ε t −1 , é sempre estacionário em covariância.
Capítulo 3 – MRL com Regressores Pré-Determinados
21
Ergodicidade
A estacionaridade é um conceito que tem a ver com distribuições conjuntas de variáveis aleatórias de um processo estocástico (ou alguns aspectos destas distribuições), quando se fazem translações no tempo. Outro ponto de vista, diz respeito à dependência entre variáveis aleatórias do processo, sobretudo quando estão suficientemente afastadas no tempo. No caso típico de uma série económica temporal, encarada como uma realização particular do processo estocástico {zt } , é de esperar que a dependência entre zt e zt + s tenda a enfraquecer à medida que s cresce. Por exemplo, a dependência entre o PIB de 1998 e o PIB de 1999 é maior do que a dependência entre o PIB de 1999 e o PIB de 1910. Assim, para a modelação de certos fenómenos económicos introduzem-se restrições sobre a dependência ou memória dos processos estocásticos. Em termos vagos, diz-se que o processo estocástico estacionário, {zt } , é fracamente dependente se zt e zt + s são “quase independentes”, para s “suficientemente” grande (duas variáveis aleatórias “suficientemente” afastadas são “quase” independentes). Pode apresentar-se uma noção semelhante para os processos estocásticos não estacionários, onde se supõe que a “quase” independência não depende da data inicial t. Esta descrição intuitiva da noção de dependência fraca pode ser esmiuçada para o caso da estacionaridade em covariância. Neste caso, o processo é fracamente dependente se a correlação entre zt e zt + s tende para 0 quando s → +∞ (quanto mais afastadas estiverem as variáveis aleatórias, mais “perto” de 0 está a respectiva correlação), e se esta convergência é “suficientemente” rápida. Quando se verifica a condição lim Corr ( zt , zt + s ) = 0 ,
s→+∞
diz-se que o processo estacionário em covariância é assintoticamente não correlacionado. Intuitivamente, é assim que usualmente se descreve a ideia de dependência fraca. Tecnicamente, é necessário ainda considerar que Corr ( zt , zt + s ) converge para zero de modo “suficientemente” rápido. A descrição feita de dependência fraca é, como se referiu, necessariamente vaga, uma vez que não se pode apresentar uma definição formal que abranja todos os casos pertinentes. Existem muitos modos de caracterizar a ideia de dependência fraca, que são outras tantas maneiras de a definir. Uma forma específica de dependência fraca é dada por uma propriedade muito importante dos processos estocásticos, a ergodicidade. A definição rigorosa desta propriedade está fora do âmbito deste livro. Para os propósitos do estudo que se vai efectuar do modelo de regressão linear, basta considerar a noção intuitiva de processo fracamente dependente, identificando-a com a de processo estacionário e ergódico. Quando um processo é estacionário e ergódico, diz-se que verifica a propriedade da estacionaridade ergódica. Esta propriedade é essencial para o estudo do modelo de regressão linear que se vai abordar neste capítulo, sobretudo no que se refere às propriedades assintóticas dos estimadores, e respectivas distribuições limite. O resultado fundamental para este efeito é o seguinte:
Capítulo 3 – MRL com Regressores Pré-Determinados
22
Teorema 3.7 (da ergodicidade) Considere-se um processo estocástico {z•t } estacionário e ergódico. Se E ( z•t ) = µ , então o processo obedece à lei dos grandes números, z• n − µ → 0 ou z• n = p
p 1 n z → µ. ∑ • t n t =1
Este teorema sobre a lei dos grandes números é uma generalização do teorema de Kinchine (teorema 3.2). De facto, o teorema da ergodicidade permite a existência de dependência entre os termos da sucessão, embora ela desapareça a longo prazo. Também se pode verificar que se {z•t } é estacionário e ergódico, o mesmo acontece com {h( z•t )} , onde h é uma função real (escalar ou vectorial). Por exemplo, os processos {z•t z•Tt } ou {z•Tt z•t } são estacionários e ergódicos, se {z•t } o for. Este resultado tem uma importância fundamental, pois permite concluir que um estimador consistente de qualquer momento (se existir) de um processo estacionário e ergódico é o respectivo momento amostral. Por exemplo, quando se considera o processo {z•t z•Tt } , um estimador consistente de E ( z•t z•Tt ) é 1 n z zT . ∑ t =1 •t •t n
O teorema da ergodicidade garante, em particular, que, se o processo {z•t } é estacionário em covariância, e se ( z•1 , z•2 , K , z•n ) é uma amostra de dimensão n do processo estocástico, então a média amostral, z •n ≡
1 n ∑ z•t , n t =1
∑
| γ s | < +∞ ,
converge em probabilidade para µ (que se pode designar por valor esperado do processo). Nestas condições, diz-se que o processo é ergódico em relação à média. Pode demonstrar-se que um processo é ergódico em relação à média desde que as autocovariâncias, γ s , convirjam para zero, de forma “suficientemente” rápida. Pode, também, provar-se que se as autocovariâncias, γ s , de um processo estacionário em covariância verificam a condição +∞
t =1
então o processo é ergódico em relação à média. O exemplo mais simples de processo estacionário e ergódico (em relação à média) é o dos processos iid (e, em particular, os ruídos brancos independentes). Outros exemplos importantes são os seguintes: 1) O processo MA(1), zt = ε t + θ ε t −1 . Com efeito, já se sabe que este processo é estacionário em covariância, e pode verificar-se que é ergódico (em relação á média). Com efeito, basta notar que γ s = 0 , logo a partir da 2.ª ordem ( s = 2, 3, K ). Obviamente verifica-se que
Capítulo 3 – MRL com Regressores Pré-Determinados
∑
+∞
t =1
23
| γ s | = | γ 1 | = σ ε2 | θ | < +∞ .
2) O processo AR(1), zt = ϕ zt −1 + ε t a verificar | ϕ | < 1 . Com efeito, este processo é estacionário em covariância, como se viu atrás. Para mostrar que é ergódico (em relação à média) basta notar que
γ s = σ z2 ϕ s e
∑t =1 | γ s | = σ z2 ∑t =1 | ϕ |s = +∞
+∞
σ z2 < +∞ . 1− | ϕ |
Heuristicamente, facilmente se mostra que ρ s = ϕ s tende rapidamente para 0, quando s → +∞ . No quadro seguinte apresentam-se os valores de alguns coeficientes de autocorrelação para vários valores de ϕ :
ϕ = 0.20 : ϕ = 0.50 : ϕ = 0.90 :
ϕ = 0.95 : ϕ = 0.99 :
Corr ( zt , zt + 3 ) = 0.00800 Corr ( zt , zt + 4 ) = 0.00160 Corr ( zt , zt + 7 ) = 0.00781 Corr ( zt , zt +8 ) = 0.00391 Corr ( zt , zt + 44 ) = 0.00970 Corr ( zt , zt + 51 ) = 0.00464 Corr ( zt , zt + 200 ) = 0.00000 Corr ( zt , zt + 90 ) = 0.00989 Corr ( zt , zt +104 ) = 0.00482 Corr ( zt , zt + 200 ) = 0.00004 Corr ( zt , zt + 459 ) = 0.00992 Corr ( zt , zt + 528 ) = 0.00496 Corr ( zt , zt + 600 ) = 0.00241
Martingalas
A seguir vai apresentar-se a definição de martingala. Definição 3.10 – Martingala O processo estocástico {z•t } , a verificar E ( | zit | ) < +∞ ( i = 1, 2, K , m ), é uma martingala se e só se, qualquer que seja t, se tem
(3.27)
E ( z•t | z•,t −1 , z•,t −2 , K) = z•,t −1 .
O conjunto {z•,t −1 , z•,t −2 , K} chama-se conjunto de informação em t − 1 . Seja zit uma componente do vector z•t . O processo {zit } é uma martingala em relação a {z•t } se e só se E ( zit | z•,t −1 , z•,t −2 , K) = zi ,t −1 .
Capítulo 3 – MRL com Regressores Pré-Determinados
24
Nestas condições, facilmente se verifica que {zit } é uma martingala, E ( zit | zi ,t −1 , zi ,t −2 , K) = zi ,t −1 .
Com efeito,
E ( zit | zi ,t −1 , zi ,t −2 , K) = E{E ( zit | z•,t −1 , z•,t −2 , K) | zi ,t −1 , zi ,t −2 , K} = zi ,t −1 .
Um exemplo muito interessante de martingala retirado da teoria macroeconómica é dado pela hipótese de Hall da teoria do consumo. Seja z•t um vector composto por várias variáveis macroeconómicas (oferta monetária, PNB, etc.), incluindo o consumo agregado, Ct . A hipótese de Hall estabelece que E (Ct | z•,t −1 , z•,t −2 , K) = Ct −1 ,
ou seja, o valor esperado do consumo no período t, condicionado pelo conjunto de informação no período t − 1 , de todas as variáveis macroeconómicas consideradas, é igual ao consumo no período t − 1 . Esta hipótese é conhecida, na teoria económica, pelo nome de “alisamento do consumo”. Uma característica interessante das martingalas é a de que E ( zi ,t + s +1 − zi ,t + s | z•,t −1 , z•,t − 2 , K) = 0 ( s = 0,1, 2, K) ,
ou seja, o valor esperado das variações futuras, condicionadas pelo passado, é nulo (as martingalas não conseguem prever variações!). Com efeito, supondo que {zit } é uma martingala em relação a {z•t } , facilmente se conclui que E ( zi ,t + s +1 | z•,t −1 , z•,t − 2 , K) = E{E ( zi ,t + s +1 | z•,t + s , z•,t + s −1 , K , z•t , z•,t −1 , K) | z•,t −1 , z•,t − 2 , K}
= E ( zi ,t + s | z•,t −1 , z•,t − 2 , K) ,
o que prova o resultado pretendido. Do mesmo modo se verifica que
E ( zi ,t + s | z•,t −1 , z•,t − 2 , K) = E ( zi ,t + s −1 | z•,t −1 , z•,t − 2 , K) = L = E ( zit | z•,t −1 , z•,t − 2 , K) = zi ,t −1 . Uma classe importante de martingalas é a dos passeios aleatórios.
Definição 3.11 – Passeio aleatório Seja {ε •t } um ruído branco independente. O processo {z•t } é um passeio aleatório se e só se {z•t } é a sucessão das somas acumuladas,
(3.28)
z•1 = ε •1 , z•2 = ε •1 + ε •2 ,K, z•t = ε •1 + ε •2 + L + ε •t , K
Facilmente se verifica que
ε •1 = z•1 , ε •2 = z•2 − z•1 ,K, ε •t = z•t − z•,t −1 , K ,
ou seja, o processo das diferenças de um passeio aleatório é um ruído branco independente.
Capítulo 3 – MRL com Regressores Pré-Determinados
25
Pode concluir-se, sem dificuldade, que E ( z•t ) = 0 e Cov( z•t , z•,t − s ) = (t − s )Γε , onde Γε = Cov(ε •t ) . Deste modo, o passeio aleatório é um processo não estacionário em covariância. No caso do passeio aleatório {zt } (escalar), sabendo que σ ε2 = Var (ε t ) , vem E ( zt ) = 0 ; Var ( zt ) = tσ ε2 ; Cov( zt , zt −s ) = (t − s )σ ε2 ; Cov( zt , zt + s ) = tσ ε2 ;
Corr ( zt , zt − s ) =
t t−s ; Corr ( zt , zt + s ) = . t+s t
Como os conjuntos {z•,t −1 , K , z•1} e {ε •,t −1 , K , ε •1} contêm a mesma informação, pode demonstrar-se que um passeio aleatório é uma martingala. Com efeito, E ( z•t | z•,t −1 , K , z•1 ) = E ( z•t | ε •,t −1 , K , ε •1 )
= E (ε •1 + ε • 2 + L + ε •t | ε •,t −1 , K , ε •1 )
= ε •1 + ε • 2 + L + ε •,t −1 + E (ε •t | ε •,t −1 , K , ε •1 )
= ε •1 + ε • 2 + L + ε •,t −1
= z•,t −1 ,
uma vez que E (ε •t | ε •,t −1 , K , ε •1 ) = 0 , porque {ε •t } é um ruído branco independente.
Definição 3.12 – Diferença-martingala O processo estocástico {w•t } , a verificar E ( | wit | ) < +∞ ( i = 1, 2, K , m ), é uma diferença-martingala se e só se (3.29)
E ( w•t | w•,t −1 , w•,t − 2 , K) = 0 .
Este processo é assim chamado porque o processo das somas acumuladas criado a partir de {w•t } , z•1 = w•1 , z•2 = w•1 + w•2 , K , z•t = w•1 + w•2 + L + w•t , K ,
é uma martingala. Com efeito, basta fazer uma demonstração semelhante àquela em que se provou que um passeio aleatório é uma martingala. Inversamente, se {z•t } é uma martingala, então o processo das diferenças, w•1 = z•1 , w•2 = z•2 − z•1 , K , w•t = z•t − z•,t −1 , K ,
é uma diferença-martingala. Com efeito, como os termos da sucessão {w•1 , w• 2 , K} se podem calcular a partir dos termos da sucessão {z•1 , z• 2 , K} , e inversamente, os conjuntos {w•1 , w• 2 , K} e {z•1 , z• 2 , K} partilham a mesma informação. Então, E ( w•t | w•,t −1 , w•,t − 2 , K) = E ( w•t | z•,t −1 , z•,t − 2 , K)
= E ( z•t − z•,t −1 | z•,t −1 , z•,t − 2 , K) = z•,t −1 − z•,t −1 = 0.
Logo, {w•t } é uma diferença-martingala. Facilmente se prova também que (3.29) implica E ( w•t ) = 0 .
Capítulo 3 – MRL com Regressores Pré-Determinados
26
Pode provar-se, também, que numa diferença-martingala não existe autocorrelação, Cov( w•t , w•,t − s ) = O , para s ≠ t (supondo que existe esta matriz das covariâncias). Com efeito, basta demonstrar que E ( w•t w•T,t − s ) = O , porque o valor esperado de cada w•t é nulo. Então, devido à regra do valor esperado total, e à linearidade do valor esperado condicionado, tem-se E ( w•t w•T,t −s ) = E{E ( w•t w•T,t − s | w•,t − s )} = E{E ( w•t | w•,t −s ) w•T,t − s } .
Como s ≥ 1 , ( w•,t −1 , K , w•,t − s , K , w•1 ) inclui w•,t − s . Então, devido à regra do valor esperado iterado, e a (3.29), obtém-se E ( w•t | w•,t − s ) = E{E ( w•t | w•,t −1 , K , w•,t − s , K , w•1 ) | w•,t − s } = 0 .
Finalmente, vem E ( w•t w•T,t − s ) = O . Um exemplo óbvio de diferença-martingala é um ruído branco independente. No anexo 3A apresentam-se exemplos das seguintes situações: − Um ruído branco (não independente) pode não ser uma diferença-martingala; − Um ruído branco (não independente) pode ser uma diferença-martingala; − Uma diferença-martingala pode não ser estacionária. Considere-se o processo { yt } tal que E ( yt | yt −1 , yt − 2 , K) existe. Seja wt = E ( yt | yt −1 , yt − 2 , K) − E ( yt | yt − 2 , yt − 3 , K) ,
que mede a variação do valor esperado condicionado quando mais uma observação é incluída no conjunto de informação. Pode provar-se que este processo, {wt } , de revisão de expectativas é uma diferença-martingala. Com efeito, devido à regra do valor esperado iterado, vem E ( wt | yt − 2 , yt − 3 , K) = E{E ( yt | yt −1 , yt − 2 , K) | yt − 2 , yt − 3 , K}
− E{E ( yt | yt − 2 , yt − 3 , K) | yt − 2 , yt − 3 , K}
= E ( yt | yt − 2 , yt − 3 , K) − E ( yt | yt − 2 , yt − 3 , K) = 0 . Como {wt −1 , wt − 2 , K} não tem mais informação do que { yt − 2 , yt − 3 , K} , tem-se E ( wt | wt −1 , wt − 2 , K) = E{E ( wt | yt − 2 , yt − 3 , K) | wt −1 , wt − 2 , K} = 0 ,
o que prova que {wt } é uma diferença-martingala. Finalmente vai apresentar-se outro teorema do limite central, que estende o teorema de Lindeberg-Levy ao caso de diferença-martingalas estacionárias e ergódicas.
Teorema 3.8 [do limite central de Billingsley (1961)] Seja {w•t } uma diferença-martingala, estacionária e ergódica, tal que Cov( w•t ) = E ( w•t w•Tt ) = Σ .
Então,
n w• n → N ( m ) (0, Σ) , onde w•n = d
1 n ∑ w•t . n t =1
Capítulo 3 – MRL com Regressores Pré-Determinados
27
Obviamente o teorema de Billingsley é mais geral do que o teorema de Lindeberg-Levy. Com efeito, fazendo w•t = z•t − µ , onde {z•t } verifica as hipóteses deste teorema, facilmente se verifica que {w•t } , nestas condições, é um ruído branco independente, e, portanto, é uma diferença-martingala estacionária e ergódica.
3.3 - Hipóteses do modelo de regressão linear com regressores pré-determinados Na secção 1.2 (capítulo 1) foi enfatizado que o modelo adoptado é considerado a fonte geradora dos dados observáveis. Assim, vai utilizar-se a expressão processo gerador dos dados (PGD) para designar o processo estocástico que gerou a amostra finita (Y , X ) . Portanto, especificando o PGD, a distribuição conjunta de (Y , X ) pode ser determinada. Pode, então, apurar-se a definição de modelo econométrico (ver definição 1.2).
Definição 3.13 – Modelo econométrico Um modelo econométrico é uma família de PGDs das observações das variáveis explicadas e das variáveis explicativas, a verificar um conjunto de restrições ou hipóteses. Nesta secção vai definir-se um modelo de regressão linear, a verificar um conjunto de hipóteses que o tornam mais adequado para as aplicações à Economia, sobretudo quando os dados são temporais. A primeira hipótese é a mera reprodução de REX.1 (linearidade), agora designada por hipótese RPD.1, por razões a esclarecer mais adiante. Os comentários feitos para REX.1 continuam válidos para RPD.1.
Hipótese RPD.1 – Linearidade yt = xt • β + ut (t ∈ T ) , onde: yt é o regressando; xt • = [ xt1 xt 2 L xtk ] é o vector 1 × k dos regressores; β é o vector k × 1 de parâmetros desconhecidos (coeficientes de regressão), não sujeitos a restrições; ut é a variável residual. Os conceitos de estacionaridade e de ergodicidade desempenham um papel decisivo no modelo de regressão linear em discussão.
Hipótese RPD.2 – Estacionaridade ergódica O processo estocástico ( k + 1 )-dimensional {( yt , xt • ) : t ∈ T } é estacionário e ergódico. Um caso particular muito importante de estacionaridade ergódica tem-se quando o processo {( yt , xt • )} é iid. Neste caso, os dados são obtidos por amostragem casual, ou seja, obtém-se a amostra casual
Capítulo 3 – MRL com Regressores Pré-Determinados
28
( y , x ), ( y , x ), K , ( y , x ) . 2 2• n n• 1 1• Pode, portanto, considerar-se nesta análise, os modelos com dados seccionais obtidos de forma casual, como acontece com muitos dados microeconómicos (sobre famílias, empresas, etc.), em que as observações formam uma amostra casual de uma determinada população. Como {( yt , xt • )} é estacionário e ergódico, conclui-se imediatamente que o processo {ut } , onde ut = yt − xt • β , é também estacionário e ergódico. Então, a hipótese RPD.2 implica que E (ut2 ) , se existir, não varia com t, ou seja, existe homocedasticidade marginal (não condicionada), (3.30)
E (ut2 ) = σ 2 .
Note-se que: em (3.30) não pode escrever-se Var (ut ) = σ 2 , porque não está garantido que E (ut ) = 0 [a homocedasticidade marginal estabelece que o segundo momento de ut em relação à origem, E (ut2 ) , é constante]; pode ter-se heterocedasticidade condicionada, isto é, E (ut2 | xt • ) pode depender de xt • (esta situação vai ser estudada mais adiante). A hipótese que vai apresentar-se a seguir é crucial, na medida em que se afasta da exogeneidade estrita dos regressores (REX.2). Enquanto esta hipótese garante a ortogonalidade entre qualquer observação dos regressores e qualquer variável residual, E ( xtj u s ) = 0 (para qualquer t e s, e para j = 1, 2, K , k ), a hipótese seguinte postula a ortogonalidade, mas apenas para a mesma observação t, ou seja, E ( xtj ut ) = 0 (para qualquer t e para j = 1, 2, K , k ).
Definição 3.14 – Regressor pré-determinado Diz-se que o regressor x j é pré-determinado (RPD) se e só se E ( xtj ut ) = 0 , qualquer que seja t. A terceira hipótese estabelece que todos os regressores são pré-determinados. Daí o prefixo RPD que se utiliza para designar as hipóteses do modelo.
Hipótese RPD.3 – Regressores pré-determinados Todos os regressores são pré-determinados, (3.31)
E ( xt •ut ) = E ( gt • ) = 0 (t ∈ T ) ,
onde g t • = xt •ut .
Note-se que
gt • = [ gt1 gt 2 L gtk ] = [ xt1ut xt 2ut L xtk ut ] .
Evidentemente, é imediato verificar que qualquer regressor estritamente exógeno é pré-determinado, mas a recíproca não é verdadeira.
Capítulo 3 – MRL com Regressores Pré-Determinados
29
No caso em que o modelo tem termo independente ( xt1 = 1 ) – o que acontece em grande parte das aplicações – verifica-se imediatamente que E (ut ) = 0 e Cov( xt • , ut ) = 0 .
Quando se consideram modelos com dados temporais, (3.31) significa que há ortogonalidade contemporânea entre os regressores e as variáveis residuais [ver no capítulo 2, o comentário 4) à hipótese REX.2]. Quando o modelo tem termo independente, também se diz que os regressores não estão contemporaneamente correlacionados com as variáveis residuais. Ainda considerando modelos com dados temporais, a exogeneidade estrita dos regressores exclui a possibilidade de a variável residual no período t, ut , estar correlacionada com observações futuras dos regressores, xt + s ,• , para s = 1, 2, K . No entanto, isto pode verificar-se, quando apenas se exige a ausência de correlação contemporânea. Por exemplo, é o que acontece com o modelo AR(1) [ver no capítulo 2, o comentário 3) à hipótese REX.2]. Quando se verifica a condição E ( xtj ut ) ≠ 0 , diz-se que o regressor x j é endógeno. A hipótese RPD.3 elimina a possibilidade de existirem regressores deste tipo. O estudo do MRL com regressores endógenos vai ser feito no capítulo 4. No entanto, é importante desde já fazer uma breve referência a três situações típicas de endogeneidade: a) Omissão de variáveis. Supondo que os regressores da equação estrutural são xt • (vector 1 × k ) e wt , o valor esperado condicionado estrutural é da forma E ( yt | xt • , wt ) = xt • β + δ wt . Explicitando a variável residual vt , vem yt = xt • β + δ wt + vt , onde E (vt | xt • , wt ) = 0 . Fica garantido que os regressores são pré-determinados, ou seja, E ( xtT•vt ) = 0 e E ( wt vt ) = 0 . Se wt é omisso (por exemplo, não é observável), o regressor x j é endógeno se existir correlação entre xtj e wt . De facto, incluindo δ wt na componente residual, obtém-se a equação yt = xt • β + ut , com ut = δ wt + vt ; o regressor x j é endógeno, porque está correlacionado com a variável residual, ut : E ( xtj ut ) ≠ 0 . Nesta situação, pode sempre estimar-se E ( yt | xt • ) , desde que este valor esperado condicionado não tenha qualquer relação com E ( yt | xt • , wt ) , quando xt • e wt estão correlacionados. A correlação entre variáveis observáveis e variáveis não observáveis é, muitas vezes, devida ao problema da auto-selecção (self-selection): os agentes escolhem xtj , mas este valor depende de factores que não são observáveis para o analista. O problema da omissão de variáveis com dados seccionais já foi ilustrado no exemplo 2.3 (capítulo 2). No caso de dados temporais, considere-se, por exemplo, o modelo DL(2), yt = α + δ 0 xt + δ1 xt −1 + δ 2 xt − 2 + vt . A omissão de xt −2 , dá lugar à equação estimável yt = α + δ 0 xt + δ1 xt −1 + ut , sendo natural que se tenha Cov( xt −1 , ut ) ≠ 0 ou Cov( xt , ut ) ≠ 0 . b) Erros de medida nas variáveis explicativas. Suponha-se que pretende medir-se o efeito parcial de xk∗ sobre y, mas a variável explicativa é observada com erro: xtk = xtk∗ + et , onde xtk é o valor observado e et é o erro de medida. Neste caso, a equação estrutural é
Capítulo 3 – MRL com Regressores Pré-Determinados
30
yt = β1 xt1 + β 2 xt 2 + L + β k −1 xt , k −1 + β k xtk∗ + vt ,
e a equação estimável é
yt = β1 xt1 + β 2 xt 2 + L + β k −1 xt , k −1 + β k xtk + ut ,
onde ut = vt − β k et (a variável residual inclui o erro de medida). O regressor xk é endógeno, porque existe correlação entre xtk e et . Para concretizar, suponha-se que a equação estrutural é yt = β1 + β 2 xt∗ + vt , onde a variável explicativa é pré-determinada, mas observável com erro. Os valores observáveis são dados por xt = xt∗ + et , onde et é o erro de medida. Fazendo a substituição, obtém-se yt = β1 + β 2 xt + ut , onde ut = vt − β 2et . Supondo que Cov(vt , et ) = 0 e que Cov( xt∗ , et ) = 0 , vem Cov( xt , ut ) = Cov( xt∗ + et , vt − β 2et ) = − β 2 Var(et ) ≠ 0 .
c) Simultaneidade. Considere-se a equação
yt1 = β1 + β 2 xt1 + β 3 yt 2 + ut1 ,
onde as variáveis explicativas são xt1 e yt 2 . A simultaneidade ocorre quando pelo menos um dos regressores (por exemplo, yt 2 ) é determinado conjuntamente com o regressando, yt1 . Implicitamente, está a admitir-se que, por exemplo, yt 2 = γ 1 + γ 2 xt 2 + γ 3 yt1 + ut 2 .
Facilmente se verifica que tanto yt1 como yt 2 estão correlacionados com ut1 e ut 2 . Para isso, basta resolver, em relação a yt1 e yt 2 , o sistema formado pelas duas equações para pôr em evidência aquelas correlações. Tem-se:
β1 + β 3γ 1 β 3γ 2 β3 1 β2 yt1 = 1 − β γ + 1 − β γ xt1 + 1 − β γ xt 2 + 1 − β γ ut1 + 1 − β γ ut 2 3 3 3 3 3 3 3 3 3 3 1 y = β1γ 3 + γ 1 + β 2γ 3 x + γ 2 x + γ 3 u + ut 2 . t2 t1 t2 t1 1 − β 3γ 3 1 − β 3γ 3 1 − β 3γ 3 1 − β 3γ 3 1 − β 3γ 3
O problema da simultaneidade é aflorado nos exemplos 1.7 a 1.10 (capítulo 1). Esta questão será retomada noutro capítulo. A distinção entre estas três formas possíveis de endogeneidade nem sempre é tão evidente. De facto, numa mesma equação pode coexistir mais do que um tipo de endogeneidade. Por exemplo, se se quisesse analisar o efeito do consumo de bebidas alcoólicas (CA) sobre o salário das trabalhadores, é bem possível que CA esteja correlacionada com factores abrangidos pela variável residual (por exemplo, factores que têm a ver com os antecedentes familiares), e tinha-se, então, uma situação de omissão de variáveis. É de admitir, também, que a variável CA seja observada com erro. Finalmente, é razoável supor que CA depende do salário, havendo, portanto, uma situação de simultaneidade.
Capítulo 3 – MRL com Regressores Pré-Determinados
31
Na hipótese RPD.3, em vez de (3.31), podia ter sido considerada a condição mais forte, (3.32)
E (ut | xt • ) = 0 ,
que, no caso de modelos com dados temporais, significa que os regressores são contemporaneamente exógenos. Note-se que (3.32) implica que E (ut ) = 0 (mesmo que o modelo não tenha termo independente); também se verifica que a condição (3.32) é equivalente a E ( yt | xt • ) = xt • β . Como (3.32) implica (3.31), pode haver alguma vantagem em utilizar (3.32). Pode provar-se que (3.32) implica que qualquer função de xt • , g ( xt • ) , é ortogonal a ut . Com efeito, E{g ( xt • ) ut } = E{E ( g ( xt • ) ut | xt • )} = E{g ( xt • ) E (ut | xt • )} = 0 ,
o que significa que, tal como se comentou no capítulo 2, a condição (3.32) garante que não há associação (linear ou outra) entre xtj e ut . Em consequência, pode afirmar-se que a hipótese (3.32) é mais natural quando a equação estrutural, yt = xt • β + ut , é directamente estimável, porque está garantido que outras funções dos regressores não contribuem para explicar yt . No entanto, como vai ver-se, basta considerar a condição mais fraca (3.31), na hipótese RPD.3, para estabelecer os resultados indispensáveis para a inferência estatística. Note-se, também, o seguinte: se ut e xt • são independentes, e se E (ut ) = 0 , então E (ut | xt • ) = 0 (a recíproca não é verdadeira). Nestas condições, conclui-se imediatamente que Var(ut | xt • ) é constante (existe homocedasticidade condicionada). A quarta hipótese é a condição de característica já conhecida do MRLC (hipótese REX.5).
Hipótese RPD.4 – Condição de característica A matriz quadrada de ordem k, (3.33)
Qxx = E ( xtT• xt • ) (t ∈ T )
existe e tem inversa. Nas condições desta hipótese fica garantido, devido ao teorema da ergodicidade, que o processo {S xx } , onde S xx =
1 n T 1 x x = XTX , ∑ t =1 t • t • n n
obedece à lei dos grandes números. Assim, verifica-se que plim(S xx ) = Qxx .
Então, para n suficientemente grande, a matriz dos segundos momentos amostrais, S xx , tem inversa, devido às hipóteses RPD.2 e RPD.4. Fica, assim, garantido que X T X tem inversa, com probabilidade 1, para n suficientemente grande.
Capítulo 3 – MRL com Regressores Pré-Determinados
32
Como as condições de ortogonalidade e de característica permitem a identificação de β [ver (2.18), capítulo 2], o estimador MQ de β pode ser calculado da maneira habitual. Assim, tem-se b = S xx−1s xy . Finalmente, apresenta-se a quinta hipótese do modelo.
Hipótese RPD.5 – Diferença-martingala O processo {g t • } é uma diferença-martingala (3.34)
E ( gt • | gt −1,• , gt − 2,• , K) = 0 ,
tal que existe a matriz quadrada de ordem k, (3.35)
S = E ( g tT• g t • ) = E (ut2 xtT• xt • ) ,
e a correspondente matriz inversa. Note-se que
ut2 xt21 2 u x x 2 T ut xt • xt • = t t1 t 2 M 2 ut xt1 xtk
ut2 xt1 xt 2 K ut2 xt1 xtk ut2 xt22 L ut2 xt 2 xtk . M M ut2 xt 2 xtk L ut2 xtk2
Como vai ver-se, esta hipótese é necessária para obter a distribuição assintótica de b (estimador MQ de β ). Note-se que RPD.5 é mais forte que RPD.3, uma vez que (3.34) implica E ( gt • ) = 0 , e, portanto, S = Cov( gt • ) . A condição (3.34) implica, também, que não existe autocorrelação no processo {g t • } : Cov( g t • , g t −s ,• ) = O . Como g t • = xt •ut = xt • ( yt − xt • β ) , verifica-se que {g t • } é estacionário e ergódico. Então, fazendo, 1 n 1 n 1 g •n = ∑t =1 g tT• = ∑t =1 xtT•ut = X T U , n n n e atendendo ao teorema do limite central de Bilingsley (teorema 3.8) tem-se n g• n → N ( k ) (0, S ) , d
onde Ea ( g• n ) = 0 e Cov a ( g •n ) = S . Note-se que: n g •n =
1 n
∑
n
t =1
g tT• =
1 n
∑
n
t =1
xtT•ut =
1 T X U. n
Quando o modelo tem termo independente ( xt1 = 1 ), o primeiro elemento do vector g t • é igual a ut , e E (ut | g t −1,• , g t −2,• ,K) = 0 . Então, de acordo com a regra do valor esperado iterado, tem-se E (ut | ut −1 , ut −2 , K) = E{E (ut | g t −1,• , g t −2,• , K) | ut −1 , ut −2 , K} = 0 ,
Capítulo 3 – MRL com Regressores Pré-Determinados
33
ou seja, o processo {ut } das variáveis residuais é também uma diferença-martingala. Portanto, E (ut ) = 0 e Cov(ut , ut −s ) = 0 (não há autocorrelação). A condição (3.34) relativa aos vectores gt • = xt •ut é difícil de interpretar. Para melhor esclarecimento, é possível apresentar a condição suficiente de interpretação mais fácil, (3.36)
E (ut | ut −1 , ut −2 , K , xt • , xt −1,• , xt −2,• , K) = 0 ,
onde o conjunto de informação inclui as variáveis residuais desfasadas e as observações correntes e desfasadas dos regressores. Esta condição implica que as variáveis residuais não estão autocorrelacionadas, e que cada variável residual não está correlacionada com as observações correntes e desfasadas dos regressores (a demonstração é semelhante àquela que permitiu provar que numa diferença-martingala não existe autocorrelação). Para demonstrar que (3.36) implica (3.34), basta atender à regra do valor esperado iterado e notar que, comparando os conjuntos de informação {ut −1 , ut −2 , K , xt • , xt −1,• , xt −2,• , K} e {g t −1,• , g t −2,• , K} , o primeiro contém toda a informação do segundo, e a informação adicional dada por xt • . Assim, E ( gt • | gt −1,• , gt − 2,• , K) = E{E ( gt • | ut −1 , ut − 2 , K , xt • , xt −1,• , xt − 2,• , K) | gt −1,• , gt − 2,• , K}
= E{xt • E (ut | ut −1 , ut − 2 , K , xt • , xt −1,• , xt − 2,• , K) | gt −1,• , g t − 2,• , K} = 0.
Considere-se o MRL com dados temporais, yt = xt • β + ut , onde xt • pode conter desfasamentos da variável y. Como ut = yt − xt • β , facilmente se conclui que (3.36) é equivalente a E (ut | yt −1 , yt − 2 , K , xt • , xt −1,• , xt − 2,• , K) = 0 .
Estabelecendo esta condição, tem-se
E ( yt | xt • , yt −1 , xt −1,• , yt −2 , K) = E ( yt | xt • ) ,
o que significa que foram considerados os desfasamentos suficientes (mais desfasamentos nas variáveis nada acrescentam para explicar yt ). Diz-se, então, que o modelo é dinamicamente completo. Por exemplo, se yt = β1 + β 2 yt −1 + β 3 xt + β 4 xt −1 + ut , e se E ( yt | yt −1 , yt − 2 , K , xt , xt −1 , xt − 2 , K) = E ( yt | yt −1 , xt , xt −1 ) ,
o MRL é dinamicamente completo, o que significa que um desfasamento em y e outro em x traduz adequadamente a estrutura dinâmica do comportamento explicativo de yt . Pode demonstrar-se que num modelo dinamicamente completo não há autocorrelação condicionada das variáveis residuais. Com efeito, supondo que s < t , tem-se Cov(ut , us | xt • , xs • ) = E (ut us | xt • , xs • ) = E{E (ut us | xt • , xs • , us ) | xt • , xs •}
= E{us E (ut | xt • , xs • , us ) | xt • , xs •}.
Como s < t , ( xt • , xs• , u s ) é um subconjunto de ( xt • , ut −1 , xt −1,• , ut −2 , K) , e tem-se
Capítulo 3 – MRL com Regressores Pré-Determinados
34
E (ut | xt • , xs• , u s ) = 0 , e portanto,
Cov(ut , u s | xt • , xs• ) = 0 .
Os modelos devem ser dinamicamente completos? A resposta é, em princípio, afirmativa, uma vez que se admite, muitas vezes, que um modelo com autocorrelação está mal especificado. No entanto, este ponto de vista é demasiado rígido, pois pode estar-se interessado num modelo estático ou num modelo com desfasamento escalonado finito. Finalmente, convém fazer três observações sobre a matriz S: 1. Atendendo a (3.35), facilmente se conclui que S é uma matriz de quartos momentos [de elemento genérico E (ut2 xti xtj ) ]; 2. Devido à hipótese de {g t • } ser uma diferença-martingala, tem-se Cov a ( g •n ) = S (sem esta hipótese, a matriz das covariâncias assintóticas de g •n é mais complicada, envolvendo autocovariâncias de g t • ); 3. Pode apresentar-se uma expressão alternativa para a matriz S. Com efeito, fazendo σ 2 ( xt • ) = E (ut2 | xt • ) , tem-se S = E (ut2 xtT• xt • ) = E{E (ut2 xtT• xt • ) | xt • } = E{E (ut2 | xt • ) xtT• xt • } = E{σ 2 ( xt • ) xtT• xt • } .
4. As hipóteses RPD.1 a RPD.5 não implicam que exista E (ut2 ) , porque um processo estritamente estacionário pode não ter segundos momentos. No entanto, se o modelo tem termo independente, o elemento (1,1) da matriz gtT• gt • = ut2 xtT• xt • é ut2 . Logo, de acordo com a segunda parte de RPD.5, existe E (ut2 ) . Assim, devido a RPD.2, garante-se a homocedasticidade marginal. O modelo de regressão linear que verifica as cinco hipóteses referidas (RPD.1 a RPD.5) chama-se modelo de regressão linear com regressores pré-determinados (MRL-RPD).
3.4 - Propriedades dos estimadores dos mínimos quadrados As propriedades dos estimadores MQ que vão apresentar-se nesta secção são propriedades assintóticas ou aproximadas, já que apenas são válidas para grandes amostras. No modelo de regressão linear clássico (MRLC) demonstrou-se que b, estimador MQ de β , é BLUE. Este tipo de caracterização deixa de fazer sentido no modelo de regressão linear com regressores pré-determinados (MRL-RPD) – o teorema de Gauss-Markov perde toda a sua importância –, procurando-se antes mostrar que aquele estimador é CAN (consistente e assintoticamente normal). Notando que b depende da dimensão da amostra, n (para simplificar a notação, vai continuar a usar-se o símbolo b, e não b•n ), vai demonstrar-se que b é consistente.
Capítulo 3 – MRL com Regressores Pré-Determinados
35
Propriedade 3.1 – As hipóteses RPD.1 a RPD.4 implicam que o estimador MQ de β , b, é consistente, (3.37)
plim(b) = β .
Dem.: Com efeito, começa-se por escrever o erro de amostragem, b − β , em termos das médias amostrais. Assim,
1 1 1 n 1 n b − β = X T X X T U = ∑t =1 xtT• xt • ∑t =1 xtT•ut = S xx−1 g •n . n n n n −1
−1
Como, devido à hipótese RPD.2, o processo {( yt , xt • )} é estacionário e ergódico, o mesmo acontece com {xtT• xt • } ; o teorema da ergodicidade (teorema 3.7) permite concluir que plim(S xx ) = Qxx ; da hipótese RPD.4, e da propriedade da preservação do limite em probabilidade, obtém-se plim(S xx−1 ) = Qxx−1 .
De forma semelhante: o processo {g t • } , onde g t • = xt •ut = xt • ( yt − xt • β ) , é estacionário e ergódico; o teorema da ergodicidade (teorema 3.7) e a hipótese RPD.3 permitem obter plim ( g• n ) = 0 . Então, plim (b − β ) = plim ( S xx−1 g• n ) = plim(S xx−1 )plim( g• n ) = Qxx−1 0 = 0 ,
∇∇
ficando assim provado (3.37).
As hipóteses RPD.1 a RPD.4 não permitem provar que o estimador b é não enviesado. Contudo, supondo amostragem casual (o processo da hipótese RPD.2 é iid) e (3.32), [hipótese mais forte do que RPD.3], vai verificar-se que E (b | X ) = β . Com efeito, sabe-se que E (b | X ) = β + ( X T X ) −1 X T E (U | X ) . A componente genérica do vector E (U | X ) é E (ut | X ) = E (ut | x1• , x2• , K , xt −1,• , xt • , xt +1,• , K , xn • ) = E (ut | xt • , wt • ) ,
onde wt • = [ x1• x2• L xt −1,• xt +1,• L xn • ]. Como o vector ( ut , xt • ) é independente de wt • , pode concluir-se que E (ut | xt • , wt • ) = E (ut | xt • ) = 0 . [ver os comentários às propriedades dos valores esperados condicionados (capítulo 1)].
Propriedade 3.2 – Verificadas as hipóteses RPD.1 a RPD.5, o estimador MQ de β , b, é assintoticamente normal, n (b − β ) → N ( k ) (0, Qxx−1 S Qxx−1 ) . d
(3.38)
Dem.: Com efeito, como
n (b − β ) = S xx−1 ( n g •n ) ,
n g• n → N ( k ) (0, S ) e plim(S xx−1 ) = Qxx−1 , d
Capítulo 3 – MRL com Regressores Pré-Determinados
36
obtém-se imediatamente (3.38), atendendo às propriedades d) e e) que relacionam a convergência em probabilidade com a convergência em distribuição. ∇∇ O resultado (3.38) permite explicitar o valor esperado assintótico e a matriz das covariâncias assintóticas de b. Assim: (3.39)
Ea (b) = β ; Cov a (b) = Qxx−1 S Qxx−1 ,
sendo de notar que esta matriz das covariâncias assintóticas de b reflecte o facto de poder existir heterocedasticidade condicionada (ver os comentários subsequentes à hipótese RPD.2). Quando se admite a hipótese da homocedasticidade condicionada, a matriz Cov a (b) é mais simples (ver secção 3.6). As considerações anteriores mostram que o estimador MQ é caracterizado por ter boas propriedades assintóticas no contexto de modelo de regressão linear com regressores pré-determinados, o que mantém intacta a importância do método dos mínimos quadrados para a Econometria. Como vai ver-se no capítulo 4, quando existem regressores endógenos, o estimador MQ tem que ser abandonado. A propósito da hipótese RPD.2, verificou-se que E (ut2 ) = σ 2 , se existir, não varia com t, ou seja, existe homocedasticidade marginal (não condicionada). Quando, o modelo tem termo independente vem E (ut ) = 0 , podendo concluir-se que σ 2 é a variância marginal das variáveis residuais. A seguir vai provar-se que o estimador MQ de σ 2 , (3.40)
s2 =
1 n−k
∑t =1 uˆt2 = n
Uˆ T Uˆ , n−k
onde uˆt é o resíduo MQ relativo à observação t, é estimador consistente.
Propriedade 3.3 – As hipóteses RPD.1 a RPD.4 implicam que s 2 , estimador MQ de σ 2 , é consistente, (3.41)
plim(s 2 ) = σ 2 .
∇∇
Dem.: Ver secção 3B.1.
No MRL-RPD, os coeficientes de determinação amostrais, R 2 e R 2 , podem ser encarados como estimadores consistentes do coeficiente de determinação da população,
ρ2 =1−
σ u2 , σ y2
onde σ u2 = Var(ut ) [variância não condicionada da variável residual], e σ y2 = Var ( yt ) [variância não condicionada do regressando]. Com efeito, basta notar que: VR / n ou
Capítulo 3 – MRL com Regressores Pré-Determinados
37
VR /(n − k ) são estimadores consistentes de σ u2 ; VT / n ou VT /(n − 1) são estimadores consistentes de σ y2 . A interpretação das medidas de ajustamento, R 2 e R 2 , não é afectada pela existência de heterocedasticidade condicionada, uma vez que σ u2 e σ y2 são variâncias da população não condicionadas; estas variâncias são estimadas de forma consistente pelos estimadores atrás referidos, mesmo que Var (ut | xt • ) não seja constante (dependa de xt • ). Assim, R 2 e R 2 são estimadores consistentes do coeficiente de determinação da população, com ou sem heterocedasticidade condicionada. Deste modo, é falsa a seguinte frase que aparece em alguns manuais de econometria: “na presença de heterocedasticidade, o R 2 da regressão MQ não tem sentido”.
3.5 - Inferência estatística O resultado (3.38) não é operacional para fazer inferência estatística porque a matriz das covariâncias assintóticas não é conhecida, uma vez que depende das matrizes Qxx = E ( xtT• xt • ) e S = E (ut2 xtT• xt • ) . Para dispor de um estimador consistente de Cov a (b) = Qxx−1 S Qxx−1 ,
é necessário conhecer estimadores consistentes para aqueles parâmetros desconhecidos. Como um estimador consistente de Qxx−1 é S xx−1 [ plim(S xx−1 ) = Qxx−1 ], basta obter um estimador consistente para S, Sˆ . Uma vez conhecido este estimador, vem Cov a (b) = S xx−1 Sˆ S xx−1 . ^
(3.42)
Se as variáveis residuais fossem observáveis, um estimador consistente para S seria a média amostral dos ut2 xtT• xt • , 1 n 2 T ∑ ut xt• xt• . n t =1
Como ut não é observável, propõe-se o estimador 1 n Sˆ = ∑t =1 uˆt2 xtT• xt • , n
onde uˆt = yt − xt • βˆ , e βˆ é um estimador consistente de β (em particular, se βˆ = b , os uˆt são os resíduos MQ). A propriedade seguinte garante, em certas condições, a consistência de Sˆ .
Propriedade 3.4 – Supondo que existe S = E (ut2 xtT• xt • ) , e que existem os momentos E{( xti xtj ) 2 } ( i, j = 1, 2, K , k ; qualquer que seja t), as hipóteses RPD.1 e RPD.5 implicam que o estimador (3.43)
1 n Sˆ = ∑t =1 uˆt2 xtT• xt • n
é consistente para S.
Capítulo 3 – MRL com Regressores Pré-Determinados
38 ∇∇
Dem.: Ver secção 3B.2.
O cálculo de Sˆ pode ser feito com (3.43). Contudo, fazendo gˆ t • = xt •uˆt e gˆ1• gˆ 2• Gˆ = , M ˆ gn•
obtém-se
1 n 1 n 1 Sˆ = ∑t =1 uˆt2 xtT• xt • = ∑t =1 gˆ tT• gˆ t • = Gˆ T Gˆ . n n n
Notando que S xx = (1 / n) X T X , pode escrever-se
Cov a (b) = n ( X T X ) −1 Gˆ T Gˆ ( X T X ) −1 , ^
que é uma expressão alternativa a (3.42). Fazendo
1 n 1 ˆX , Sˆ = ∑t =1 uˆt2 xtT• xt• = X T Φ n n
onde
também se tem
uˆ12 L 0 ˆ = M Φ M , 0 L uˆn2 ˆ X ( X T X ) −1 . Cov a (b) = n ( X T X ) −1 X T Φ ^
Esta última expressão matricial, embora seja útil nalgumas situações, não deve ˆ é, em geral, muito ser utilizada nos cálculos, porque a ordem, n, da matriz quadrada Φ elevada (n é a dimensão da amostra). Fazendo 1 n 2 T 1 u x x = X T ΦX , ∑ t =1 t t • t • n n
onde
u12 L 0 Φ= M M , 0 L un2
ˆ não é um estimador de Φ , tratando-se apenas de uma notadeve ficar bem claro que Φ ção para representar estas matrizes diagonais.
Capítulo 3 – MRL com Regressores Pré-Determinados
39
Inferência estatística sobre um coeficiente de regressão isolado Considerem-se as matrizes Cov a (b) = Qxx−1 S Qxx−1 e Cov a (b) = S xx−1 Sˆ S xx−1 , ^
e os elementos de ordem j das respectivas diagonais principais, ^
Vara (b j ) e Vara (b j ) . A partir de (3.38), facilmente se conclui que n (b j − β j ) Vara (b j )
→ N (0,1) . d
Este resultado não permite fazer inferência estatística sobre o parâmetro β j , porque Vara (b j ) é desconhecida. Esta dificuldade pode ser contornada, substituindo a variância assintótica de b j pelo respectivo estimador consistente: ^ plim Var a (b j ) = Vara (b j ) .
Notando que
n (b j − β j ) ^
=
Vara (b j ) e que
n (b j − β j )
Vara (b j )
Vara (b j )
Var a (b j )
^
Vara (b j ) plim ^ =1, Var a (b ) j
atendendo à propriedade b), que relaciona a convergência em probabilidade com a convergência em distribuição, tem-se (3.44)
n (b j − β j ) ^
Vara (b j ) onde
=
bj − β j d → N (0, 1) , sb∗ j
sb∗j =
1 ^ Vara (b j ) n
é o erro padrão heterocedástico-consistente de b j . Este erro padrão também é conhecido pelas designações de erro padrão heterocedástico-robusto ou erro padrão de White. Esta terminologia justifica-se pelo facto de poder existir heterocedasticidade condicionada das variáveis residuais. Conclui-se imediatamente que
Capítulo 3 – MRL com Regressores Pré-Determinados
40
^ 1 ^ 1 plim Vara (b j ) = 0 , plim(sb∗ j ) = plim Vara (b j ) = plim n n
ou seja, o erro padrão robusto de b j degenera no valor zero (como era de esperar, uma vez que b j é estimador consistente). Pode demonstrar-se que
∑ Var (b ) = ^
a
j
n 2 2 t =1 tj t 2 j
rˆ uˆ
VT
,
onde os rˆtj (t = 1, 2, K , n) são os resíduos MQ da regressão de x j sobre os outros regressores, e VT j = Σtn=1 ( xtj − x ) 2 é a variação total do regressor x j . No caso particular do MRL simples, yt = β1 + β 2 xt + ut , tem-se
∑ Var (b ) = ^
a
2
n
t =1
( xt − x ) 2 uˆt2 VTx2
,
onde VTx = Σtn=1 ( xt − x ) 2 . Quando se pretende fazer o teste da hipótese H 0 : β j = β 0j , contra uma alternativa unilateral ou bilateral, a estatística-teste é dada por (3.45)
t = ∗ j
b j − β 0j sb∗ j
→ N (0, 1) , d
designando-se t ∗j por rácio-t robusto, para o distinguir dos rácios-t do MRLCN. Podem referir-se três diferenças essenciais entre este teste, e o teste correspondente no contexto do MRLCN: 1) O rácio-t robusto é diferente do rácio-t clássico (o erro padrão é diferente); 2) O rácio-t robusto tem distribuição limite normal estandardizada; 3) A dimensão exacta do teste não é igual à dimensão nominal, α , embora se possa ter uma boa aproximação quando a dimensão da amostra é grande. A diferença entre as dimensões exacta e nominal do teste chama-se distorção da dimensão. Como t ∗j tem distribuição limite normal estandardizada, esta distorção tende para 0 quando n → +∞ . O resultado (3.44) também permite a construção de intervalos de confiança de nível 1 − α , aproximados.
Inferência estatística sobre combinações lineares dos coeficientes de regressão Seja δ = Rβ , onde R é uma matriz m × k com característica igual a m ≤ k . Fazendo δˆ = Rb , vai demonstrar-se que Q = n (δˆ − δ )T R Cov a (b) R T (δˆ − δ ) → χ 2 (m) . ^
(3.46)
−1
d
Com efeito, começa-se por fazer Q = w•TnVn−1w•n , onde
Capítulo 3 – MRL com Regressores Pré-Determinados
41
w•n = n (δˆ − δ ) e Vn = R Cov a (b) R T . ^
Atendendo a (3.38), conclui-se facilmente que w• n → w ~ N ( m ) (0, V ) , d
V = R Cov a (b) R T .
onde
Como plim(Vn ) = V , e as matrizes Vn e V têm inversa, utilizando a propriedade f) que relaciona a convergência em probabilidade com a convergência em distribuição, obtém-se Q = w•TnVn−1w•n → wT V −1w . d
Como w ~ N ( m ) (0, V ) , atendendo à propriedade 2) sobre distribuições de vectores aleatórios (ver capítulo 2), vem wT V −1w ~ χ 2 (m) . Então, a distribuição limite de Q é uma qui-quadrado com m graus de liberdade. Fica, assim, provado (3.46). A expressão (3.46) pode escrever-se da seguinte maneira: d Q = (δˆ − δ )T R ( X T X ) −1 Gˆ T Gˆ ( X T X ) −1 R T (δˆ − δ ) → χ 2 (m) . −1
Quadro 3.1 Teste de hipóteses no MRLCN e MRL-RPD Hipótese nula
bj − β
MRLCN
H 0 : β j = β 0j
tj =
H 0 : Rβ = δ 0
(δˆ − δ 0 )T R ( X T X ) −1 R T F= ms 2
ou
F=
Hipótese nula H 0 : β j = β 0j
H 0 : Rβ = δ 0
t ∗j =
0 j
sb j
~ t (n − k )
(
)
−1
(δˆ − δ 0 )
~ F (m, n − k )
Uˆ rT Uˆ r − Uˆ T Uˆ ~ F (m, n − k ) ms 2 bj − β sb∗ j
0 j
→ N (0, 1)
MRL-RPD
d
^ d Q = n (δˆ − δ 0 )T R Cov a (b) RT (δˆ − δ 0 ) → χ 2 (m) −1
Suponha-se que se pretende testar
H 0 : Rβ = δ 0 contra H1 : Rβ ≠ δ 0 ,
onde δ 0 é um valor assumido pelo vector m × 1 , δ . A estatística-teste é dada por
Capítulo 3 – MRL com Regressores Pré-Determinados
42
d ^ Q = n (δˆ − δ 0 )T R Cov a (b) RT (δˆ − δ 0 ) → χ 2 (m) . −1
(3.47)
A obtenção da distribuição da estatística Q foi feita de acordo com o princípio de Wald (ver secção 8.4 do capítulo 8) porque se baseia nos estimadores sem restrições (não sujeitos à hipótese nula), ^
b e Cov a (b) . Os resultados (3.45) e (3.47) diferem dos resultados homólogos referentes ao MRLCN, dados por (2.75) e (2.81) [ou (2.82)], respectivamente. No quadro 3.1 faz-se o resumo da aplicação destes resultados a testes de hipóteses.
Teste de hipóteses não lineares O resultado (3.46) pode ser generalizado para testar um conjunto de restrições não lineares sobre β . Seja a função g : ℜ k → ℜ m , com primeiras derivadas contínuas, e ∇g ( β ) a matriz Jacobiana, de tipo m × k , calculada em β , com característica igual ao número de linhas [ r{∇g ( β )} = m ]. Suponha-se que se pretende testar a hipótese H 0 : g (β ) = 0 .
Atendendo ao método delta [ver (3.11)] e a (3.38), tem-se
n{g (b) − g ( β )} → N ( m ) 0, ∇g ( β ) Cov a (b) ∇g ( β )T . d
Como plim(b) = β ⇒ plim{∇g(b)} = ∇g ( β ) , e
^ plim Cov a (b) = Cov a (b) ,
obtém-se
^ plim ∇g (b) Cov a (b) ∇g (b)T = ∇g ( β ) Cov a (b) ∇g ( β )T .
Donde, atendendo à propriedade f) que relaciona a convergência em probabilidade com a convergência em distribuição, vem d ^ Q = n {g (b) − g ( β )} ∇g (b) Cov a (b) ∇g (b)T {g (b) − g ( β )} → χ 2 (m) . −1
(3.48)
T
Este resultado é uma generalização de (3.46), onde g ( β ) = Rβ − δ . A estatística-teste é, então, dada por ^ d Q = n g (b) ∇g (b) Cov a (b) ∇g (b)T g (b) → χ 2 (m) . −1
(3.49)
T
Capítulo 3 – MRL com Regressores Pré-Determinados
43
A escolha de g para representar um dado conjunto de restrições sobre β não é única. Por exemplo, a restrição β1 β 2 = 1 pode ser apresentada na forma β1 β 2 − 1 = 0 ou β1 − 1 / β 2 = 0 . Embora, (3.48) seja válido para qualquer escolha de g, os resultados numéricos podem ser muito diferentes em pequenas amostras. Suponha-se, por exemplo, que λ = − ln(β j ) , e que se pretende determinar o erro padrão robusto de λˆ = − ln(b j ) . Devido ao método delta, tem-se 1 Vara (λˆ ) = 2 Vara (b j ) .
βj
Donde
ou
^ 1 ^ Vara (λˆ ) = 2 Vara (b j ) , bj
1 s = bj ∗ λˆ
sb∗ j 1 ^ . Vara (b j ) = bj n
Pequenas amostras No caso de pequenas amostras, a potência dos testes referidos pode ser claramente inferior a 1, contra certas alternativas. Além disso, a probabilidade do erro de 1.ª espécie pode ser muito diferente da dimensão escolhida para o teste. Davidson e MacKinnon (1963) propõem, baseados em estudos de simulação, algumas correcções da matriz Sˆ que podem atenuar o problema da sobre-rejeição da hipótese nula. As matrizes Sˆ corrigidas podem ser dadas pela seguinte expressão geral: 1 n c uˆ 2 x T x , ∑ t =1 t t t • t • n
onde ct é o factor de correcção. Os casos propostos são os seguintes: 1) 2) 3)
n n 1 uˆ 2 x T x (correcção dos graus de liberdade); ⇒ Sˆ1 = ∑ t =1 t t • t • n−k n−k 1 n uˆ 2 1 ct = ⇒ Sˆ2 = ∑t =1 t xtT• xt • ; n 1 − ht 1 − ht
ct =
ct =
uˆt2 1 ˆ =1 n S xT x ; ⇒ ∑ 3 2 2 t• t• t =1 n (1 − ht ) (1 − ht )
onde ht = xt • ( X T X ) −1 xtT• é o elemento genérico da diagonal principal da matriz H X (ver propriedade 2.3 dos resíduos MQ). Deve, ainda, notar-se o seguinte: − Como as matrizes H X e I n − H X são semidefinidas positivas, conclui-se imediatamente que 0 ≤ ht ≤ 1 ;
Capítulo 3 – MRL com Regressores Pré-Determinados
44
− Sabe-se que Var(uˆt | X ) = E (uˆt2 | X ) = σ 2 (1 − ht ) , quando se admite a hipótese de homocedasticidade condicionada. Então, no caso 2), o factor uˆt2 /(1 − ht ) é um estimador não enviesado de σ 2 ; − Quando ct = 1 , tem-se a matriz Sˆ (sem correcção); − Tem-se: plim(Sˆi ) = S ( i = 1, 2, 3 ). Se se utilizarem os respectivos erros padrão corrigidos em (3.44), (3.46) e (3.48), mantêm-se as correspondentes distribuições limite.
3.6 - Implicações da homocedasticidade condicionada Existe uma situação particular em que as estatísticas-teste referidas no quadro 3.1 são numericamente equivalentes: o cálculo do rácio-t clássico, t j , dá o mesmo resultado que o cálculo do rácio-t robusto, t ∗j ; o cálculo do rácio-F clássico dá o mesmo resultado que o cálculo de Q / m . Esta situação particular corresponde à introdução da hipótese da homocedasticidade condicionada das variáveis residuais.
Hipótese RPD.6 – Homocedasticidade condicionada As variáveis residuais são condicionalmente homocedásticas, (3.50)
E (ut2 | xt • ) = σ 2 > 0 (t ∈ T ) .
Evidentemente, a homocedasticidade condicionada implica homocedasticidade marginal [ E (ut2 ) = σ 2 ], mas a recíproca não é verdadeira. Quando se verifica a hipótese RPD.6, a matriz S de quartos momentos pode ser expressa como um produto de segundos momentos, (3.51)
S = σ 2 E ( xtT• xt • ) = σ 2Qxx .
Com efeito,
S = E ( gtT• gt • ) = E (ut2 xtT• xt • ) = E{E (ut2 xtT• xt • | xt • )} = E{E (ut2 | xt • ) xtT• xt • } = σ 2 E ( xtT• xt • ) . Esta igualdade mostra que ut2 não está correlacionado com qualquer elemento da matriz xtT• xt • , uma vez que E (ut2 xtT• xt • ) = E (ut2 ) E ( xtT• xt • ) . Devido a RPD.5, a matriz S tem inversa; então, a matriz Qxx também tem inversa. Assim, as hipóteses RPD.5 e RPD.6 implicam a condição de característica (RPD.4). De (3.51), resulta que (3.52)
Cov a (b) = σ 2 Qxx−1 .
(3.53)
Sˆ = s 2 S xx .
Como plim(S xx ) = Qxx e plim(s 2 ) = σ 2 , tem-se plim ( s 2 S xx ) = σ 2Qxx = S . Donde se conclui que
Então,
Capítulo 3 – MRL com Regressores Pré-Determinados
45
Cov a (b) = s 2 S xx−1 = n s 2 ( X T X ) −1 . ^
(3.54)
Nestas condições, o erro padrão robusto coincide com o erro padrão clássico. De facto, 1 ^ sb∗j = Vara (b j ) = s m jj = sb j , n donde se conclui que t ∗j = t j (o rácio-t robusto é igual ao rácio-t clássico). Assim, t ∗j = t j =
(3.55)
Como
b j − β 0j sb j
→ N (0,1) . d
Q = n (δˆ − δ 0 )T R {n s 2 ( X T X ) −1} RT (δˆ − δ 0 ) 0 T T −1 T −1 ˆ ˆ = (δ − δ ) {R ( X X ) R } (δ − δ 0 ) / s 2 = (Uˆ TUˆ − Uˆ TUˆ ) / s 2 , −1
r
r
conclui-se imediatamente que
Q = mF → χ 2 (m) . d
(3.56)
Suponha-se que o MRL tem termo independente, e considere-se a hipótese nula de que todos os coeficientes são iguais a zero, excepto o termo independente. Vai provar-se que n R 2 → χ 2 (k − 1) . d
Com efeito, sabe-se que F= ou
n R2 =
Como
R 2 /(k − 1) , (1 − R 2 ) /(n − k )
1 (k − 1) F . n−k 1 + (k − 1) F n n (k − 1) F → χ 2 (k − 1) , d
resulta que
e
1 plim (k − 1) F = 0 , n n−k 1 plim + (k − 1) F = 1 . n n
Capítulo 3 – MRL com Regressores Pré-Determinados
46
Então a distribuição limite de n R 2 é a mesma de (k − 1) F . Existem algumas variantes de (3.55) e de (3.56), respectivamente, que dão resultados assintoticamente equivalentes. Uma variante possível consiste em substituir s 2 por σˆ 2 = Uˆ T Uˆ / n . Assim, as estatísticas-teste respectivas passam a ser t ′j =
b j − β 0j Uˆ TUˆ − Uˆ TUˆ e Q′ = r r 2 , σˆ σˆ b j
onde σˆ b2j = σˆ 2 m jj e m jj é o elemento diagonal de ordem j da matriz ( X T X ) −1 . Como plim ( s 2 − σˆ 2 ) = 0 , conclui-se imediatamente que t ′j → N (0,1) e Q′ → χ 2 (m) . d
d
Outra variante de (3.55) consiste em considerar a distribuição t (n − k ) em vez de N (0,1) . Como t (n − k ) converge em distribuição para N (0,1) ( n → +∞ , com k fixo), tem-se (3.57)
tj =
b j − β 0j sb j
→ t (n − k ) . d
Como F (m, n − k ) converge em distribuição para χ 2 (m) / m ( n → +∞ , com k fixo), pode considerar-se a seguinte variante de (3.56): F → F (m, n − k ) . d
(3.58)
Os resultados (3.57) e (3.58) mostram que se podem utilizar no MRL-RPD, com homocedasticidade condicionada, as estatísticas-teste já conhecidas do MRLCN [no entanto, note-se que se no modelo clássico não se considerar a hipótese REX.6, da normalidade das variáveis residuais, não se conhecem a distribuições exactas do rácio-t e do rácio-F, e, portanto, tem que se trabalhar com as respectivas distribuições limite: (3.55) ou (3.57); (3.56) ou (3.58)]. Quando a amostra disponível é pequena, ou não é muito grande, põe-se a questão de saber qual das variantes é a mais adequada. Como a distribuição exacta depende do PGD, não há uma regra simples que permita escolher entre as distribuições N (0,1) ou t (n − k ) , ou escolher entre as distribuições χ 2 (m) ou F (m, n − k ) . No entanto, alguns estudos de simulação dão indicações que parecem suportar a escolha das distribuições t (n − k ) e F (m, n − k ) , respectivamente.
Exemplo 3.1 – Retome-se o exemplo 1.3, e considere-se o modelo
ln(importt ) = β1 + β 2 ln( prmt ) + β3 ln( pibt ) + ut ,
onde import designa as importações portuguesas a preços constantes; prm, o rácio entre o índice de preços implícito nas importações e o índice de preços implícito no PIB; e pib, o produto interno bruto português a preços constantes. Os dados disponíveis são anuais e referem-se ao período de 1966 a 1984 (ver quadro 3.2). A função de regressão ajustada é a seguinte:
Capítulo 3 – MRL com Regressores Pré-Determinados
47
ln(import t ) = 0.1296 − 0.3882 ln( prmt ) + 1.2425 ln( pibt ) ( s = 0.08374) . ^
Os erros padrão dos b j reportam-se no quadro 3.3. Estes resultados permitem calcular os rácios-t respectivos. Verifica-se que para efectuar o teste de nulidade do coeficiente de ln(prm), os valores-p são, respectivamente, 0.053, 0.009, 0.015, 0.023 e 0.055. No teste de nulidade do coeficiente de ln(pib), os valores-p respectivos são aproximadamente iguais a zero.
Quadro 3.2 Importações, preços relativos e PIB (Portugal) Anos 1966 1967 1968 1969 1970 1971 1972 1973 1974 1975 1976 1977 1978 1979 1980 1981 1982 1983 1984
import 4.77 4.48 5.96 6.42 6.47 7.41 8.30 9.35 9.80 7.33 7.58 8.49 8.47 9.44 10.55 11.13 11.68 10.83 10.48
prm 78.10 85.30 70.20 63.70 74.90 72.40 69.30 72.00 87.20 86.60 84.10 86.00 86.80 96.40 100.00 107.30 103.10 106.90 111.80
pib 11.97 12.87 14.02 14.31 15.62 16.65 17.99 20.00 20.23 19.35 20.69 21.85 22.59 23.99 25.07 25.17 26.05 25.97 25.53
Quadro 3.3 Erros padrão Erros padrão robustos, sb∗j , com a matriz Regressores Constante ln(prm) ln(pib)
sb j
0.59306 0.18599 0.12298
Sˆ
0.35984 0.13010 0.09727
Sˆ1
Sˆ2
Sˆ3
0.39212 0.14177 0.10600
0.40941 0.15485 0.11865
0.47192 0.18761 0.14731
Por mera curiosidade indicam-se as matrizes Sˆ :
Capítulo 3 – MRL com Regressores Pré-Determinados
48
0.0059 0.0264 0.0179 0.0070 0.0313 0.0212 ˆ ˆ S = 0.0264 0.1180 0.0799 ; S1 = 0.0313 0.1402 0.0949 0.0179 0.0799 0.0542 0.0212 0.0949 0.0644
0.0067 0.0301 0.0203 0.0078 0.0351 0.0234 Sˆ2 = 0.0301 0.1347 0.0907 ; Sˆ3 = 0.0351 0.1567 0.1047 0.0203 0.0907 0.0612 0.0234 0.1047 0.0703
∇
Quando não se verifica a hipótese RPD.6, sabe-se que Cov a (b) = Qxx−1 S Qxx−1 . Obviamente (3.54) não é estimador consistente desta matriz, uma vez que plim(s 2 S xx−1 ) = σ 2Qxx−1 .
Além disso, o rácio-t clássico, dado por (3.55), não tem distribuição limite normal estandardizada; a estatística Q, referente a (3.56), não tem distribuição limite do qui-quadrado. Supondo verificada RPD.6, (3.54) é estimador consistente de (3.52). Também se prova com facilidade que (3.42) estima de forma consistente (3.52). Com efeito, devido a (3.51), plim(S xx−1Sˆ S xx−1 ) = Qxx−1S Qxx−1 = σ 2 Qxx−1 = Cov a (b) .
Qual a razão para preferir s 2 S xx−1 a S xx−1 Sˆ S xx−1 para estimar σ 2Qxx−1 ? As propriedades de pequenas amostras de um estimador são, em geral, melhores quanto menor é o número de parâmetros que é necessário estimar. Para obter s 2 S xx−1 basta estimar um escalar, σ 2 , e uma matriz, Qxx ; para calcular S xx−1 Sˆ S xx−1 é necessário estimar duas matrizes, Qxx e S; logo, deve preferir-se s 2 S xx−1 .
3.7 - Heterocedasticidade condicionada e amostragem casual Como se sabe, o MRL-RPD abrange a situação de heterocedasticidade condicionada, isto é, admite-se que E (ut2 | xt • ) = σ t2 seja, em geral, função de xt • Pode continuar-se a estimar os parâmetros com o método dos mínimos quadrados, e fazer inferência estatística baseada no estimador MQ (estimador consistente e assintoticamente normal). Por exemplo, para efectuar testes de hipóteses, podem utilizar-se os rácios-t robustos e a estatística Q, dados, respectivamente por (3.45) e (3.47). Quando se introduz a hipótese RPD.6 [as variáveis residuais são condicionalmente homocedásticas, E (ut2 | xt • ) = σ 2 > 0 ], verifica-se uma significativa simplificação do modelo. Contudo, em muitas situações, sobretudo com dados seccionais, esta hipótese é demasiado restritiva, sendo de admitir que existe heterocedasticidade condicionada. Por exemplo, quando se pretende explicar, com dados seccionais por famílias, a despesa em consumo de certos bens em função do rendimento, é natural supor que a variância do consumo cresce com o rendimento. Considere-se um modelo de regressão a verificar as seguintes hipóteses:
Capítulo 3 – MRL com Regressores Pré-Determinados − − − − −
49
RPD.1 – Linearidade; RPD.2’ – O processo {( yt , xt • )} é iid; RPD.3’ – E (ut | xt • ) = 0 , qualquer que seja t; RPD.4 – A matriz Qxx = E ( xtT• xt • ) existe e tem inversa; RPD.5’ – A matriz S = E ( g tT• g t • ) = E (ut2 xtT• xt • ) existe e tem inversa.
As hipóteses novas, em relação às definidoras de um MRL-RPD, são as hipóteses RPD.2’ e RPD.3’: − Em geral, quando se estuda o problema da heterocedasticidade, é natural introduzir a hipótese simplificadora RPD.2’, porque, na prática, este problema é típico de modelos com dados seccionais onde o processo de amostragem é casual. − A hipótese RPD.3’, que já foi referida a propósito dos comentários feitos à hipótese RPD.3, estabelece que os regressores são exógenos para a mesma observação t; − A hipótese RPD.5’ é parte de RPD.5. Facilmente se prova que se está em presença de um MRL-RPD, uma vez que se verificam as hipóteses RPD.1 a RPD.5. Assim: − A hipótese RPD.2’ implica RPD.2, uma vez que um processo iid é caso particular de processo estacionário e ergódico. − A hipótese RPD.3’ é mais forte que RPD.3 (os regressores são pré-determinados), porque E (ut | xt • ) = 0 ⇒ E ( xt •ut ) = E ( gt • ) = 0 . − Tem-se: E (ut | xt • ) = 0 ⇒ E (ut ) = 0 . − A hipótese RPD.2’ implica que o processo {g t • } , onde g t • = xt •ut , é também iid. Então, resulta imediatamente que este processo é uma diferença-martingala, uma vez que se tem E ( gt • | gt −1,• , gt − 2,• , K) = E ( gt • ) = E ( xt •ut ) = 0 , devido à hipótese RPD.3. − Obviamente que as hipóteses RPD.2’ e RPD.5’ implicam RPD.5. Nas condições estabelecidas, pode concluir-se que: − Não existe autocorrelação, já que o processo {ut } , onde ut = yt − xt • β , é iid. − Há homocedasticidade marginal, isto é, E (ut2 ) é constante com t. − Pode haver heterocedasticidade condicionada [em geral, σ t2 = E (ut2 | xt • ) é função de xt • ]. Como {ut } é iid, pode escrever-se
E (ut | xt • ) = E (ut | XT ) e Var(ut | xt • ) = Var(ut | XT ) ,
o que significa que o modelo tanto pode ser encarado como um MRLC com heterocedasticidade condicionada (verificam-se as hipóteses REX.1, REX.2, REX.4 e REX.5) ou como um MRL-RPD (verificam-se as hipóteses RPD.1 a RPD.5). Dispondo de uma amostra, (Y , X ) , pode construir-se a matriz
Capítulo 3 – MRL com Regressores Pré-Determinados
50
σ 12 0 L 0 Var(u1 | x1• ) L 0 0 2 0 Var(u2 | x2• ) L 0 0 σ2 L 0 , Σ= = M M M M M M L Var(un | xn • ) 0 0 L σ n2 0 0
onde σ t2 é, em geral, função de xt • : σ t2 = σ t2 ( xt • ) . Como E (ut | xt• ) = E (ut | X ) e Var(ut | xt • ) = Var(ut | X ) , pode fazer-se
(3.59)
σ 12 0 L 0 0 σ 22 L 0 . Σ = Cov(U | X ) = M M M 0 L σ n2 0
Este resultado pode ser obtido sem admitir que E (ut | xt • ) = 0 (RPD.3’), mas mantendo a hipótese RPD.3, e supondo que o modelo tem termo independente. Raramente, nas aplicações práticas, o padrão de heterocedasticidade condicionada é conhecido (ver anexo 3C), já que não se conhece o comportamento da variância σ t2 ( xt• ) . Neste caso, o modelo tem n + k parâmetros desconhecidos (os k coeficientes de regressão, β j , e as n variâncias, σ t2 ) e não é possível estimar tantos parâmetros com apenas n observações. No entanto, no caso de amostragem casual (ver as hipóteses RPD.1, RPD.2’, RPD.3’, RPD.4 e RPD.5’), o modelo verifica as hipóteses clássicas, excepto REX.3. O estimador MQ de β , b = ( X T X ) −1 X T Y , é linear e não enviesado, sendo também possível demonstrar que se trata de um estimador consistente. No entanto, não é BLUE, já que não é o estimador mais eficiente na classe dos estimadores lineares não enviesados. Devido à presença de heterocedasticidade condicionada, a matriz das covariâncias condicionadas de b já não é σ 2 ( X T X ) −1 , mas sim (3.60)
Cov(b | X ) = ( X T X ) −1 X T Σ X ( X T X ) −1 = ( X T X ) −1 ∑t =1σ t2 xtT• xt• ( X T X ) −1 . n
Com efeito, basta notar que
Cov(b | X ) = Cov{( X T X ) −1 X T Y | X } = ( X T X ) −1 X T Cov(Y | X ) X ( X T X ) −1 ,
uma vez que Cov(Y | X ) = Cov(U | X ) = Σ . Além disso, tem-se
[
X T Σ X = x1T•
x2T• L xnT•
]
σ 12 0 L 0 x1• 2 0 σ 2 L 0 x2• = n σ 2 xT x , ∑t =1 t t • t • M M M M 0 L σ n2 xn • 0
onde xtT• xt • é uma matriz quadrada de ordem k. Como a diagonal da matriz Σ é completamente desconhecida, não é possível estimar esta matriz, e não é fácil propor outro estimador dos coeficientes de regressão. Assim, tem de continuar a utilizar-se o estimador MQ de β , apesar da sua ineficiência,
Capítulo 3 – MRL com Regressores Pré-Determinados
51
e de a respectiva matriz das covariâncias condicionadas, dada por (3.60), depender de Σ. Quando o modelo é encarado como um MRL-RPD, sabe-se que b é CAN e que um estimador consistente da matriz das covariâncias assintóticas de b é dado por 1 1 n 1 Cov a (b) = S Sˆ S xx−1 = X T X ∑t =1 uˆt2 xtT• xt • X T X . n n n ^
(3.61)
−1
−1 xx
−1
A este propósito, convém notar que
S = E ( gtT• gt • ) = E (ut2 xtT• xt • ) = E{E (ut2 xtT• xt • | xt • )} = E{E (ut2 | xt • ) xtT• xt • } = E (σ t2 xtT• xt • ) ,
uma vez que σ t2 = E (ut2 | xt • ) .
Exemplo 3.2 – Recapitula-se a estimação apresentada nos exemplos 2.6 e 2.9 do modelo explicativo dos salários dos trabalhadores: lsalart = 5.81505 + 0.055383 educt + 0.022988 expert + 0.003953 empct . ( s = 0.3755) . ^
Os erros padrão dos b j apresentam-se no quadro 3.4. Verifica-se que os erros padrão robustos pouco diferem dos erros padrão clássicos, o que é sintoma de que a heterocedasticidade condicionada, que possivelmente existe, é fraca. Efectuando os cálculos, conclui-se que, para efectuar os testes de nulidade individual dos coeficientes dos três regressores, os valores-p associados a educ e exper são aproximadamente iguais a zero, e o valor-p correspondente a empc é aproximadamente 0.1. Quadro 3.4 Erros padrão Erros padrão robustos, sb∗j , com a matriz Regressores Constante educ exper empc
sb j
0.07197 0.00486 0.00245 0.00242
Sˆ
0.06600 0.00456 0.00254 0.00239
Sˆ1
Sˆ2
Sˆ3
0.06613 0.00457 0.00255 0.00240
0.06618 0.00457 0.00255 0.00240
0.06636 0.00459 0.00256 0.00240
∇
3.8 - Teste da forma funcional Nas secções 3.5 (com heterocedasticidade condicionada) e 3.6 (com homocedasticidade condicionada) apresentaram-se os testes habituais relativos aos parâmetros do MRL-RPD, tendo por base respectiva estimação MQ. Estes testes são válidos apenas no caso em se supõe verdadeiras as hipóteses respectivas do MRL-RPD (hipótese a manter). Nesta secção e nas secções 3.9 e 3.10 vai estudar-se alguns testes referentes às hipóteses do modelo.
Capítulo 3 – MRL com Regressores Pré-Determinados
52
Muitas vezes é necessário dispor de um teste para detectar não linearidades. Um método muito usado consiste em somar ao modelo certas funções não lineares das variáveis, tais como quadrados e produtos de duas variáveis, e testar a significância dos novos regressores. Contudo, antes de se apresentar o teste mais utilizado para a finalidade referida, vão fazer-se algumas considerações gerais sobre a questão da geração de regressores. Seja o modelo de regressão linear, yt = xt • β + δ wt + ut , onde wt é uma variável explicativa não observável (admite-se, para simplificar, que existe apenas uma variável nestas condições). Suponha-se que wt é função de certas variáveis observáveis, isto é, wt = h( zt • , α ) , onde h é uma função conhecida, zt • é um vector de variáveis observáveis e α é um vector de parâmetros desconhecidos (este desconhecimento é a razão pela qual wt é não observável). Em muitos casos, wt é função linear de zt • e de α . Se αˆ é um estimador consistente de α , pode fazer-se wˆ t = h( zt • , αˆ ) . Pode, então, substituir-se wt por wˆ t no modelo original, obtendo-se yt = xt • β + δ wˆ t + vt (equação estimável). O regressor wˆ t designa-se por regressor gerado. É razoável conjecturar que a regressão MQ de yt sobre xt • e wˆ t fornece estimadores consistentes de β e δ . Que hipóteses se devem estabelecer para garantir a consistência? Como plim(αˆ ) = α , é razoável supor, atendendo à lei dos grandes números, que p p 1 n 1 n ˆ ˆ w u → E w u e x w → E ( xtj wt ) . ( ) t t n ∑t =1 t t n ∑t =1 tj t A partir destas relações, facilmente se demonstra que a ortogonalidade entre ut e as variáveis explicativas do modelo original, xt • e wt , e a respectiva condição de característica são suficientes para que os estimadores MQ de β e δ sejam consistentes. Com efeito, seguindo o mesmo raciocínio da demonstração da propriedade 3.1 considere-se o respectivo erro de amostragem, b β (1 / n)∑t =1 xtT• xt • (1 / n)∑t =1 xtT• wˆ t ˆ − = n n 2 δ δ (1 / n)∑t =1 xt • wˆ t (1 / n)∑t =1 wˆ t n
n
−1
(1 / n)∑n xtT•ut t =1 , n (1 / n)∑ wˆ t ut t =1
onde os estimadores MQ de β e δ são b e δˆ , respectivamente. Então, b β p E ( xtT• xt • ) E ( xtT• wt ) E ( xtT•ut ) =0. ˆ − → δ δ E ( xt • wt ) E ( wt2 ) E ( wt ut ) −1
A questão da inferência estatística é mais complicada. Os erros padrão e as estatísticas-teste habituais obtidas a partir da equação yt = xt • β + δ wˆ t + vt , são, em geral, inadequados porque não têm em conta a distribuição probabilística de αˆ . Contudo, assintoticamente há pelo menos um caso em que esta distribuição pode ser ignorada. De facto, quando E{∇α h( zt • , α ) ut } = 0 e δ = 0 , a distribuição limite de n (b − β ) n (δˆ − δ )
Capítulo 3 – MRL com Regressores Pré-Determinados
53
é a mesma para os dois modelos (quer fosse possível utilizar wt como regressor, quer substituindo wt por wˆ t ). Note-se que E (ut | xt • , zt • ) = 0 (hipótese razoável no contexto da geração de regressores) implica E{∇α h( zt • , α ) ut } = 0 , porque ut é ortogonal a qualquer função de xt • e zt • . Quando δ ≠ 0 , a inferência estatística referida nas secções 3.5 e 3.6 não é válida. Muitas vezes, pretende-se testar H 0 : δ = 0 , para decidir quanto à inclusão do regressor wˆ t na equação estimável. Nas condições enunciadas, o rácio-t habitual tem distribuição limite normal estandardizada quando E (ut2 | xt • , wt ) = σ 2 (homocedasticidade condicionada). No caso de heterocedasticidade condicionada, pode fazer-se o teste habitual, mas usando o erro padrão robusto. Retome-se a questão do teste da forma funcional. Como facilmente se compreende, a inserção de quadrados e produtos de variáveis como regressores pode reduzir drasticamente o número de graus de liberdade. Ramsey (1969) propôs um teste em que o número de graus de liberdade não depende de k. Para isso, considere-se o modelo yt = xt • β + ut , com a hipótese E (ut | xt • ) = 0 [ver (3.32) e os respectivos comentários]. Assim, não basta supor a hipótese RPD.3 [ver (3.31)], uma vez que deve garantir-se a ortogonalidade entre a variável residual e qualquer função de xt • . Em particular, (3.32) implica que ( xt • β )i , para qualquer i inteiro e positivo, é ortogonal a ut . O teste a efectuar baseia-se, por exemplo, no modelo yt = xt • β + δ 2 ( xt • β ) 2 + δ 3 ( xt • β )3 + δ 4 ( xt • β ) 4 + ut ,
em que a hipótese nula é a seguinte:
H 0 : δ 2 = 0 ∧ δ3 = 0 ∧ δ 4 = 0 .
Como ( xt • β )i não é observável, vão gerar-se os regressores yˆt2 , yˆt3 e yˆt4 , e considerar a equação estimável, yt = xt • β + δ 2 yˆt2 + δ 3 yˆt3 + δ 4 yˆt4 + vt ,
onde yˆt = xt •b e b é o estimador MQ de β que resulta da regressão de yt sobre xt • β . No caso de homocedasticidade condicionada, pode fazer-se o teste habitual do rácio-F de nulidade conjunta dos coeficientes das potências de yˆ t . A distribuição limite deste rácio é a distribuição do F-Snedcor com 3 e n − k − 3 graus de liberdade, uma vez que se supõe que os coeficientes dos regressores gerados são nulos, e existe ortogonalidade entre as potências de xt • β e ut . Quando existe heterocedasticidade condicionada, pode recorrer-se a um resultado do tipo (3.47), onde a distribuição limite do qui-quadrado tem 3 graus de liberdade. Os testes agora descritos são conhecidos pela designação de testes RESET. O teste RESET não é um teste geral de especificação, porque não é adequado para testar outros aspectos importantes de especificação como sejam a omissão de variáveis, a heterocedasticidade condicionada ou a autocorrelação. Por exemplo, considere-se o modelo yt = xt • β + δ wt + ut , onde E (ut | xt • , wt ) = 0 . Suponha-se que a variável explicativa wt é omissa, mas se fosse considerada no modelo seria significativa. Quando wt é omissa e o modelo utilizado para fazer o teste RESET é yt = xt • β + vt , não há qualquer
Capítulo 3 – MRL com Regressores Pré-Determinados
54
possibilidade de o teste concluir que o modelo está bem especificado, uma vez que os regressores gerados são as potências de yˆt = xt •b (onde: b é o estimador de β quando o vector dos regressores é xt • ; vˆt = yt − xt •b são os respectivos resíduos MQ), e não as potências de yˆt = xt • βˆ + δˆ wt (onde: βˆ e δˆ são estimadores MQ de β e δ , respectivamente; os resíduos MQ são uˆt = yt − xt • βˆ − δˆ wt ). Se a variável omitida, wt , está correlacionada com xt • , existem regressores endógenos, e o teste RESET não pode ser utilizado. No entanto, se E ( wt | xt • ) = xt •α (linear em xt • ) é imediato verificar que E ( yt | xt • ) é também linear em xt • . Com efeito, E ( yt | xt • ) = E ( xt • β + δ wt + ut | xt • ) = xt • β + xt • (δ α ) = xt • ( β + δ α ) .
Fazendo wt = xt •α + et , onde E (et | xt • ) = 0 , obtém-se yt = xt • ( β + δ α ) + vt , onde vt = ut + et e E (vt | xt • ) = 0 . Então, pode fazer-se o teste RESET deste modelo, não sendo possível detectar a variável omitida, wt . A hipótese E ( wt | xt • ) = xt •α permite concluir que wt e xt • estão correlacionados porque E ( wt xt • ) = E{E ( wt xt • | xt • )} = E{E ( wt | xt • ) xt • } = E{( xt •α ) xt • } ≠ 0 . Contudo, facilmente se conclui que a utilização do teste RESET não depende da intensidade (forte ou fraca) daquela correlação.
Exemplo 3.3 – Retome-se o modelo do exemplo 3.2, onde as variáveis explicativas de lsalar são educ, exper e empc. Acrescente-se, por exemplo, o quadrado e cubo dos valores ajustados de lsalar. Assim, lsalart = β1 + β 2educt + β 3expert + β 4empct + δ 2 lsalart 2 + δ 3 lsalart3 + vt . ^
^
A hipótese nula do teste RESET é H 0 : δ 2 = 0 ∧ δ 3 = 0 . Supondo que existe homocedasticidade condicionada, o valor observado do rácio-F é 0.4398. Neste caso, como a distribuição limite é uma F-Snedcor com 2 e 994 graus liberdade, o valor-p é 0.664. Então, não se rejeita a hipótese nula, isto é, a evidência estatística é favorável a que a forma funcional do modelo original, com as variáveis explicativas consideradas, é adequada. Se se acrescentasse a potência de expoente 4 dos valores ajustados de lsalar, a conclusão seria semelhante, porque o valor-p subia para 0.8. No caso de heterocedasticidade condicionada, o valor observado da estatística Q [ver (3.47)] é 0.9958, em que a distribuição do qui-quadrado tem 2 graus de liberdade. Como o respectivo valor-p é 0.608, mantém-se a evidência a favor da adequação do modelo original. Quando se acrescenta a variável explicativa qi, pode verificar-se que a estimação MQ do novo modelo mostra que a esta variável é significativa (o rácio-t clássico é 6.6). É óbvio que os testes RESET atrás efectuados não permitem detectar a omissão da variável qi. Pode apenas testar se a forma funcional adoptada não é rejeitada quando se consideram as variáveis explicativas educ, exper e empc. ∇
Capítulo 3 – MRL com Regressores Pré-Determinados
55
3.9 - Testes de heterocedasticidade condicionada Como se sabe, os resultados obtidos no contexto do MRL-RPD (embora assintóticos) permitem continuar a fazer inferência estatística sobre os parâmetros do modelo, mesmo quando há heterocedasticidade condicionada, e é desconhecido o seu padrão. Nestas circunstâncias, pode afirmar-se que os testes disponíveis para detectar heterocedasticidade condicionada perdem muito da sua importância. Apesar disso, nalguns casos é razoável testar a presença de heterocedasticidade condicionada para fundamentar a escolha dos erros padrão do estimador MQ dos coeficientes de regressão: clássicos ou robustos. Considere-se o modelo yt = xt • β + ut , com termo independente. Vão manter-se as hipóteses apresentadas no início da secção 3.7 (RPD.1, RPD.2’, RPD.3’, RPD.4 e RPD.5’). De notar que a hipótese RPD.3’, E (ut | xt • ) = 0 , é particularmente importante porque a classe de testes que se vai apresentar não é válida se se considerar a hipótese mais fraca da ortogonalidade: E ( xt •ut ) = 0 . Assim, supõe-se que o modelo está correctamente especificado, isto é, E ( yt | xt • ) = xt • β . A formalização de qualquer teste de heterocedasticidade condicionada é a seguinte: H 0 : E (ut2 | xt • ) = σ 2 contra H1 : E (ut2 | xt • ) depende de xt • . Nestes testes, a hipótese nula contempla sempre o caso de homocedasticidade condicionada, e a hipótese alternativa refere-se à heterocedasticidade condicionada. Para testar H 0 vai considerar-se as covariâncias, Cov{h( xt • ), ut2 } , onde h( xt • ) = [ h2 ( xt • ) h3 ( xt • ) L hq ( xt • ) ]
é uma função vectorial de xt • , com q − 1 componentes. Sob H 0 , estas covariâncias são nulas, qualquer que seja a escolha de h( xt • ) . O teste é efectuado com base no modelo ut2 = α1 + ht •α + vt ,
onde ht • = h( xt • ) , α = [ α 2 α 3 L α q ] T é um vector de parâmetros de tipo (q − 1) × 1 e a característica da matriz Cov(ht • ) é igual a q − 1 (não há multicolinearidade exacta). Sob H 0 , tem-se E (vt | ht • ) = E (vt | xt • ) = 0 , α = 0 e α1 = σ 2 . Deste modo, qualquer teste de heterocedasticidade condicionada resume-se a testar H 0 : α = 0 contra H1 : α ≠ 0 .
Para usar os testes clássicos é necessário que a variável residual vt seja condicionalmente homocedástica, ou seja, E (vt2 | xt • ) = σ v2 (constante). Sob H 0 , esta condição implica que E (ut4 | xt • ) seja também constante [com efeito, como ut2 = σ 2 + vt e ut4 = σ 4 + vt2 + 2σ 2vt , vem E (ut4 | xt • ) = σ 4 + σ v2 = κ 2 ]. A condição E (ut4 | xt • ) = κ 2 chama-se homokurtosis condicionada, e estabelece que o quarto momento de ut condicionado por xt • é constante. A homokurtosis verifica-se sempre que ut é independente de xt • . Caso contrário, pode acontecer que E (ut | xt • ) = 0 , E (ut2 | xt • ) = σ 2 e E (ut4 | xt • ) depende de xt • .
Capítulo 3 – MRL com Regressores Pré-Determinados
56
Na prática, não se pode fazer a regressão de ut2 sobre 1 e ht • porque ut não é observável. Deve, então, substituir-se ut por uˆt (resíduos MQ do modelo original), e fazer a regressão auxiliar de uˆt2 sobre 1 e ht • . Para testar H 0 : α = 0 , é imediato que pode usar-se, de acordo com o princípio de Wald, o rácio-F clássico que tem distribuição limite F (q − 1, n − q) . Alternativamente, baseado no princípio do multiplicador de Lagrange, pode demonstrar-se que a estatística n R 2 , onde R 2 é o coeficiente de determinação da regressão auxiliar, tem distribuição limite χ 2 (q − 1) (ver secção 3B.3). Em resumo, a mecânica deste teste é a seguinte: 1) Calcular os resíduos MQ do modelo proposto, yt = xt • β + ut : uˆt . 2) Fazer a regressão auxiliar MQ de uˆt2 sobre 1 e ht • . 3) A estatística-teste é n R 2 → χ 2 (q − 1) , d
(3.62)
onde R 2 é o coeficiente de determinação da regressão auxiliar. Para esclarecer a importância da hipótese RPD.3’, deve notar-se o seguinte: como E ( xt •ut ) = 0 não implica E (ut | xt • ) = 0 , a mera hipótese de ortogonalidade não garante que xt • β seja a especificação correcta de E ( yt | xt • ) . Quando se faz um teste de heterocedasticidade condicionada nestas condições, mediante a regressão MQ de uˆt2 sobre 1 e ht • , a detecção de “heterocedasticidade” pode apenas significar que a forma funcional de E ( yt | xt • ) não está correcta. Pode referir-se dois casos particulares, muito utilizados nas aplicações práticas, de testes de heterocedasticidade condicionada: o teste de Breusch-Pagan e o teste de White. No teste de Breusch-Pagan (BP), faz-se h( xt • ) = [ xt 2 xt 3 L xtk ] ( q = k ). O teste é baseado no modelo: ut2 = α1 + α 2 xt 2 + α 3 xt 3 + L + α k xtk + vt .
A estatística-teste é
BP = n R 2 → χ 2 (k − 1) , d
(3.63)
onde R 2 é o coeficiente de determinação da regressão auxiliar MQ de uˆt2 sobre xt • . Este teste é baseado no princípio do multiplicador de Lagrange, mas também podia utilizar-se o rácio-F (princípio de Wald) para testar a nulidade de todos os coeficientes da regressão auxiliar (excepto o termo independente). Pode provar-se que as estatísticas BP e F são assintoticamente equivalentes. No teste de White, supõe-se que ht • é formado por todos os elementos únicos e não constantes da matriz xtT• xt • . Por exemplo, se yt = β1 + β 2 xt 2 + β 3 xt 3 + ut , tem-se ht • = [ xt 2 xt 3 xt22 xt23 xt 2 xt 3 ] ( q = 6 ).
Neste exemplo, o teste é baseado no modelo:
Capítulo 3 – MRL com Regressores Pré-Determinados
57
ut2 = α1 + α 2 xt 2 + α 3 xt 3 + α 4 xt22 + α 5 xt23 + α 6 xt 2 xt 3 + vt . A estatística-teste é dada por W = n R 2 → χ 2 (q − 1) , d
(3.64)
onde R 2 é o coeficiente de determinação da regressão auxiliar MQ de uˆt2 sobre 1 e ht • (q é o respectivo número de regressores, incluindo o termo independente). Alternativamente, com base no princípio de Wald, pode utilizar-se o rácio-F para testar a nulidade de todos os coeficientes da regressão auxiliar (excepto o termo independente), provando-se que as estatísticas W e F são assintoticamente equivalentes. Os números de graus de liberdade das distribuições do qui-quadrado dos testes de Breusch-Pagan e de White dependem de k (o número de regressores do modelo original). No caso do teste de White, o número de regressores pode tornar-se muito elevado, o que tende a reduzir a potência do teste. Por exemplo, se no modelo proposto existirem oito regressores (incluindo o termo independente), vem q = 36 . Em geral, tem-se q = k (k + 1) / 2 . O problema da potência do teste é ilustrado no exemplo 3.4. Para mitigar este inconveniente, pode propor-se um teste, designado por teste de White simplificado, que combina aspectos daqueles dois testes, e em que o número de graus de liberdade não depende de k. Fazendo ht • = [ yˆt yˆt2 ], onde yˆt = xt •b (função linear de xt • ), a distribuição do qui-quadrado (distribuição limite da estatística-teste) tem sempre dois graus de liberdade. Assim, o teste é baseado no modelo ut2 = α1 + α 2 yˆt + α 3 yˆt2 + vt .
A estatística-teste é
Ws = n R 2 → χ 2 (2) , d
onde R 2 é o coeficiente de determinação da regressão auxiliar MQ de uˆt2 sobre 1, yˆt e yˆ t2 . O facto de se utilizarem os regressores gerados, yˆ t e yˆ t2 , não prejudica a validade do teste porque, sob a hipótese nula, tem-se α 2 = 0 e α 3 = 0 .
Exemplo 3.4 – Retome-se o exemplo 3.2. Pretende-se testar se existe heterocedasticidade condicionada. Quando se utiliza o teste de Breusch-Pagan, faz-se a regressão auxiliar MQ de uˆt2 (quadrados dos resíduos MQ do modelo original) sobre 1, educt , expert e empct , de forma a obter o respectivo coeficiente de determinação, o único resultado de interesse para efectuar o teste. Tem-se BP = n R 2 = 1000 × 0.00166176 = 1.66176 . Como o valor crítico da distribuição do qui-quadrado com 3 graus de liberdade, a 0.05, é 7.81 (o valor-p é 0.64), não se rejeita a hipótese da homocedasticidade condicionada. No teste de White faz-se a regressão auxiliar MQ de uˆt2 sobre 1, educt , expert , empct , educt2 , expert 2 , empct2 , educt × expert , educt × empct e expert × empct . Obtém-se W = n R 2 = 1000 × 0.013975 = 13.975 . Como o valor crítico da distribuição do qui-quadrado com 9 graus de liberdade (número de coeficientes da regressão auxiliar sem contar com o termo independente), a 0.05, é igual a 16.92 (o valor-p é aproximadamente
Capítulo 3 – MRL com Regressores Pré-Determinados
58
0.12), pode ainda concluir-se que não se rejeita a hipótese da homocedasticidade condicionada. No caso do teste de White simplificado, faz-se a regressão auxiliar de ^
^
uˆt2 sobre 1, lsalart e lsalart 2 ,
obtendo-se Ws = n R 2 = 1000 × 0.00920578 = 9.20578 . Como o valor crítico da distribuição do qui-quadrado com 2 graus de liberdade, a 0.05, é igual a 5.99 (o valor-p é aproximadamente 0.01), a evidência aponta para rejeitar a hipótese da homocedasticidade condicionada. Na dúvida, a inferência estatística deve basear-se nos erros padrão robustos calculados no exemplo 3.2. ∇
3.10 - Autocorrelação Quando os dados são temporais pode ter-se uma situação de autocorrelação, isto é, uma situação em que existe alguma covariância não nula entre as variáveis residuais. A propósito da hipótese RPD.5 foi observado que, se o modelo tem termo independente, o processo {ut } das variáveis residuais é uma diferença-martingala, não havendo autocorrelação. Assim, a existência de autocorrelação implica que {g t • } , onde g t • = xt •ut , não é uma diferença-martingala, não se verificando uma das hipóteses básicas do MRL-RPD (RPD.5). Quando se considera o modelo de regressão linear yt = xt • β + ut , se dispõe de n observações ( t = 1, 2, K , n ), e se estabelece que Cov(ut , ut −s ) ≠ 0 ( s = 1, 2, K , n − 1) , sem mais restrições, o número de autocovariâncias desconhecidas pode ser muito elevado, podendo atingir m = n(n − 1) / 2 (se n = 20 , m = 190 ). Como o número de parâmetros desconhecidos excede o número de observações, é necessário impor algumas condições sobre as covariâncias entre as variáveis residuais de forma a reduzir o número de parâmetros a estimar. A hipótese da estacionaridade em covariância permite escrever
γ s = Cov(ut , ut −s ) ,
o que introduz uma redução drástica no número de autocovariâncias desconhecidas. Com efeito, se existirem n observações, o número de autocovariâncias (coeficientes de autocorrelação) a estimar é de n − 1 . Tem-se, então,
(3.65)
γ0 γ Cov(U ) = Σ = 1 M γ n −1
γ1 γ0 M
γ n−2
γ n −1 L γ n − 2 L
L
1 ρ 1 2 = σu M M γ0 ρ n −1
ρ1
L
1
L
M
ρn − 2
L
ρ n −1 ρ n − 2 M 1
.
Capítulo 3 – MRL com Regressores Pré-Determinados
59
Esta redução do número de autocovariâncias ainda não é suficiente, pois existem agora n + k parâmetros desconhecidos (os k coeficientes de regressão, β j ; a variância, σ u2 = γ 0 ; as n − 1 autocovariâncias, γ t , t = 1, K , n − 1 ). Quando existe autocorrelação, podem adoptar-se três procedimentos: 1) A existência de autocorrelação pode ser um sintoma de inadequada especificação do modelo. Com efeito, quando se estabelece a relação yt = xt • β + ut , e se admite que todas as variáveis explicativas relevantes estão incluídas na componente sistemática do modelo, xt • β , é razoável esperar que as variáveis residuais não estão autocorrelacionadas. Contudo, se existirem variáveis explicativas relevantes que não foram explicitadas naquela componente, estas variáveis omitidas estão abrangidas pela variável residual. Se alguma daquelas variáveis omitidas estiver autocorrelacionada (como sucede com muitas variáveis económicas), obviamente também existe autocorrelação nas variáveis residuais. Deste modo, a autocorrelação pode ser um indicador de uma inadequada especificação do modelo. Nestas condições, é natural que o investigador procure alterar a especificação do modelo, aprofundando a análise do fenómeno em estudo. Em muitos casos, esta reformulação passa por alterar a estrutura dinâmica do modelo (por exemplo, introduzindo mais desfasamentos nas variáveis de forma a obter um modelo dinamicamente completo). 2) Admitir que a autocorrelação é inerente ao fenómeno em estudo, e introduzir mais restrições sobre as covariâncias, modelando o comportamento das variáveis residuais. Neste caso, procura estabelecer-se um padrão de autocorrelação. 3) Aceitar a existência de autocorrelação sem conhecer o seu padrão, e estimar os parâmetros com o método MQ, calculando os respectivos erros padrão robustos. Na prática, provavelmente o procedimento mais utilizado é o primeiro. O segundo, vai ser explorado nesta subsecção, embora seja a via menos interessante. O terceiro procedimento vai ser explorado no final desta secção. O padrão de autocorrelação mais conhecido estabelece que as variáveis ut seguem um processo auto-regressivo de primeira ordem, (3.66)
ut = ϕ ut −1 + ε t ,
onde {ε t } é um ruído branco, isto é, qualquer que seja t, E (ε t ) = 0 , Var(ε t ) = σ ε2 , e quaisquer que sejam t e s, Cov(ε t , ε s ) = 0 para t ≠ s ; escreve-se ut ~ AR (1) . Como se sabe (ver secção 3.2), este processo é estacionário em covariância se e só se | ϕ | < 1 . Tem-se: − ut = ε t + ϕ ε t −1 + ϕ 2ε t −2 + L ; − E (ut ) = 0 ;
σ ε2 − Var (ut ) = σ = ; 1−ϕ 2 2 u
− Cov(ut , ut −s ) = γ s = σ u2 ϕ s = σ ε2 − ρs = ϕ s
( s = 0,1, 2, K) .
ϕs ; 1−ϕ 2
Capítulo 3 – MRL com Regressores Pré-Determinados
60
1 ϕ L ϕ n −1 1 ϕ 1 L ϕ n−2 2 . Cov(U ) = Σ = σ ε 1−ϕ2 M M M n −1 n − 2 L 1 ϕ ϕ
Então,
(3.67)
Neste caso, o modelo tem apenas k + 2 parâmetros desconhecidos (os k coeficientes de regressão, β j , a variância de ε t , σ ε2 , e o parâmetro do processo auto-regressivo de primeira ordem, ϕ ). Outra especificação possível do comportamento das variáveis residuais é dada pelo processo de médias móveis de primeira ordem, (3.68)
ut = ε t + θ ε t −1 ,
onde {ε t } é um ruído branco. Escreve-se então, ut ~ MA(1) . Tem-se (ver secção 3.2): − E (ut ) = 0 ;
− Var(ut ) = σ u2 = σ ε2 (1 + θ 2 ) ;
− Cov(ut , ut −1 ) = γ 1 = σ ε2θ ; Cov(ut , ut − s ) = γ s = 0 ( s = 2, 3,K) ; − ρ1 =
θ ; ρ s = 0 ( s = 2, 3,K) . 1+θ 2
1 + θ 2 θ L 0 1+θ 2 L 0 2 θ . Cov(U ) = Σ = σ ε M M M 0 L 1+θ 2 0
Então,
(3.69)
Neste caso, o modelo tem k + 2 parâmetros desconhecidos (os k coeficientes de regressão, β j , a variância de ε t , σ ε2 , e o parâmetro do processo de médias móveis de primeira ordem, θ ). Podem definir-se com facilidade processos AR e MA de ordens superiores à primeira. Assim, tem-se um processo AR(p) quando ut = ϕ1ut −1 + ϕ 2ut −2 + L + ϕ p ut − p + ε t .
Os processos MA(q) são definidos por
ut = ε t + θ1 ε t −1 + θ 2 ε t −2 + L + θ q ε t −q .
É possível combinar os dois tipos de processos,
ut = ϕ1ut −1 + ϕ 2ut −2 + L + ϕ p ut − p + ε t + θ1 ε t −1 + θ 2 ε t −2 + L + θ q ε t −q ,
obtendo-se os processos ARMA(p,q). Estes processos mais gerais vão ser estudados no capítulo 9.
Capítulo 3 – MRL com Regressores Pré-Determinados
61
Propriedades do estimador MQ na presença de autocorrelação De acordo com a propriedade 3.1, as hipóteses RPD.1 a RPD.4 bastam para provar que o estimador MQ de β é consistente, mesmo que haja heterocedasticidade condicionada e autocorrelação. Quando existe autocorrelação, e o modelo tem termo independente, não se verifica a hipótese RPD.5, e o estimador b não verifica (3.38). Em particular, a respectiva matriz das covariâncias assintóticas não é dada por (3.39). Deste modo, os resultados para a inferência estatística apresentados nas secções 3.5 e 3.6 deixam de ser válidos. Apresentam-se a seguir dois exemplos que ajudam a esclarecer as relações entre a consistência do estimador MQ e a autocorrelação: − Considere-se que o valor esperado de yt condicionado por yt −1 é linear, isto é, seja o modelo E ( yt | yt −1 ) = α + β yt −1 , onde se supõe que | β | < 1 . Fazendo ut = yt − E ( yt | yt −1 ) = yt − (α + β yt −1 ) , facilmente se verifica que yt = α + β yt −1 + ut
E (ut | yt −1 ) = 0 .
Como, por construção, este modelo satisfaz a hipótese RPD.3, fica garantido que os estimadores MQ dos coeficientes de regressão são consistentes, haja ou não haja autocorrelação dos ut . A condição E (ut | yt −1 ) = 0 garante a não correlação de ut com yt −1 , mas ut e yt −2 podem estar correlacionados. Neste caso, como ut −1 = yt −1 − (α + β yt − 2 ) , tem-se Cov(ut , ut −1 ) = E (ut ut −1 ) = E{ut ( yt −1 − α − β yt − 2 )}
= − β E (ut yt − 2 ) = − β Cov(ut , yt − 2 ) ≠ 0 ,
se Cov(ut , yt − 2 ) ≠ 0 . Assim, obtém-se um modelo em que o regressor (a variável explicada desfasada) é pré-determinado, existe autocorrelação das variáveis residuais, mas os estimadores MQ dos coeficientes de regressão são consistentes. − Considere-se, agora, o modelo yt = α + β yt −1 + ut
ut = ϕ ut −1 + ε t ( | ϕ | < 1)
E (ε t | ut −1 , ut − 2 , K) = E (ε t | yt −1 , yt − 2 , K) = 0 .
Facilmente se conclui que
Cov( yt −1 , ut ) = E ( yt −1ut ) = E{ yt −1 (ϕ ut −1 + ε t )}
= ϕ E ( yt −1ut −1 ) = ϕ Cov( yt −1 , ut −1 ) ≠ 0 ,
isto é, não se verifica a hipótese RPD.3. Neste caso, os estimadores MQ dos coeficientes de regressão não são consistentes.
Capítulo 3 – MRL com Regressores Pré-Determinados
62
Mas qual é o interesse em estimar os coeficientes de regressão do modelo anterior, quando ut ~ AR (1) ? Considerar o regressor yt −2 implica que a autocorrelação desaparece? Com efeito, notando que ut −1 = yt −1 − (α + β yt −2 ) , obtém-se yt = α + β yt −1 + ut = α + β yt −1 + ϕ ut −1 + ε t = α + β yt −1 + ϕ ( yt −1 − α − β yt − 2 ) + ε t , yt = δ 0 + δ1 yt −1 + δ 2 yt − 2 + ε t ,
ou
onde: δ 0 = α (1 − ϕ ) ; δ 1 = β + ϕ ; δ 2 = −ϕ β . Verifica-se, portanto, que a variável yt segue um processo AR(2), e não há autocorrelação nas variáveis residuais. Neste caso, os estimadores MQ dos δ j são consistentes.
Testes de autocorrelação A detecção de autocorrelação é feita por meio de testes de hipóteses, onde a hipótese nula é sempre a da ausência de autocorrelação. Nesta subsecção vão estudar-se vários métodos para testar a existência de autocorrelação, supondo, para simplificar, que o modelo de regressão tem termo independente. Começa por apresentar-se um teste do t para o caso particular em que a hipótese alternativa é a de que as variáveis residuais seguem um processo AR(1) nos moldes atrás referidos. A mecânica do teste, conhecido pela designação de teste de Durbin alternativo, é a seguinte: 1) Obter os resíduos MQ, uˆt , do modelo de regressão proposto. 2) Fazer a regressão de uˆt sobre uˆt −1 e os regressores originais do modelo de regressão, de modo a obter o estimador ϕˆ do coeficiente de uˆt −1 . O respectivo rácio-t tem distribuição limite normal estandardizada, tϕˆ → N (0,1) , d
supondo a hipótese nula verdadeira. 3) Utilizar a estatística tϕˆ para efectuar o teste, reportando o respectivo valor-p. A apresentação dos testes de detecção de autocorrelação em geral (no MRL com regressores pré-determinados) necessita que se faça previamente um estudo mais geral, considerando um processo estocástico {zt } , estacionário em covariância. Como se sabe, as autocovariâncias e os coeficientes de autocorrelação de ordem s são, respectivamente,
γ s = Cov( zt , zt −s ) e ρ s =
γ s Cov( zt , zt −s ) ( s = 0,1, 2, K) . = γ0 Var( zt )
Capítulo 3 – MRL com Regressores Pré-Determinados
63
Dispondo de uma amostra de dimensão n deste processo, {z1 , z2 ,K, z n } , pode obter-se as respectivas autocovariâncias amostrais, e os respectivos coeficientes de autocorrelação amostrais de ordem s ( s = 0,1, 2, K) : (3.70)
1 n γˆ γˆs = ∑t =s +1 ( zt − z n )( zt −s − z n ) ; ρˆ s = s = n γˆ0
onde
zn =
1 n ∑ zt . n t =1
∑
n
( zt − z n )( zt −s − z n )
∑t =1 ( zt − zn ) 2
t = s +1
n
,
Deve notar-se que embora na expressão de γˆ s haja apenas n − s parcelas, a soma é dividida por n, e não por n − s . Esta diferença não é importante no caso de grandes amostras, mas pode ser substancial quando se tem uma amostra pequena. Facilmente se prova que se {zt } é estacionário e ergódico, então γˆ s é consistente para γ s , (3.71)
plim(γˆs ) = γ s ( s = 0,1, 2, K) .
Com efeito, como
γ s = E ( zt zt −s ) − E ( zt ) E ( zt −s ) = E ( zt zt −s ) − µ z2 ,
onde µ z = E ( zt ) = E ( zt −s ) , e
γˆs =
tem-se
n−s 1 n 1 n 1 n z z − z n ∑t =s +1 zt −s + z n ∑t =s +1 zt − ( zn ) 2 , ∑ t = s +1 t t − s n n n n
1 n plim ∑t =s +1 zt zt −s = E ( zt zt −s ) , n
1 n n−s 1 n plim z n ∑t =s+1 zt −s + z n ∑t =s +1 zt − ( zn ) 2 = µ z2 + µ z2 − µ z2 = µ z2 , n n n ficando, assim, provado (3.71). Conclui-se imediatamente que (3.72)
plim(ρˆ s ) = ρ s ( s = 0,1, 2, K) .
Em particular, se {zt } é não autocorrelacionado, todos os coeficientes de autocorrelação convergem em probabilidade para 0. Embora estes resultados sejam importantes, é necessário conhecer a distribuição assintótica de ρˆ s . Pode provar-se que:
Capítulo 3 – MRL com Regressores Pré-Determinados
64
Teorema 3.9 [Hall e Heyde (1980)] Suponha-se que zt = µ + ε t , onde o processo {ε t } é uma diferença-martingala estacionária a verificar E (ε t2 | ε t −1 , ε t −2 , K) = σ 2 > 0 (auto-homocedasticidade condicionada). Seja: γˆ1 ρˆ1 γˆ ρˆ 2 2 γˆ = ; ρˆ = . M M γˆ p ρˆ p Então,
n γˆ → N ( p ) (0, σ 4 I p ) e
n ρˆ → N ( p ) (0, I p ) .
d
(3.73)
d
∇∇
Dem.: Ver secção 3D.3
O processo {ε t } considerado no teorema anterior é mais geral do que um ruído branco independente, mas o segundo momento condicionado tem que ser constante. Para testar isoladamente se existe autocorrelação de ordem s, a hipótese nula é H 0 : ρ s = 0 . O teorema anterior garante que a respectiva estatística-teste tem distribuição limite normal estandardizada, n ρˆ s → N (0,1) ( s = 1, 2, K , p) . d
(3.74)
Tem particular interesse o teste de autocorrelação de 1.ª ordem. Neste caso, a hipótese nula é H 0 : ρ1 = 0 . Também se pode testar se várias autocorrelações (da ordem 1 até à ordem p) são conjuntamente nulas: H 0 : ρ = 0 , onde ρ 1 ρ ρ = 2 . M ρ p
Atendendo a (3.73), os elementos do vector
n ρˆ1 n ρˆ 2 n ρˆ = M n ρˆ p
são assintoticamente independentes, e cada um deles tem distribuição limite normal estandardizada, n ρˆ s → N (0,1) ( s = 1, 2, K , p) . d
Capítulo 3 – MRL com Regressores Pré-Determinados
65
Fazendo a soma dos quadrados destas variáveis aleatórias, obtém-se a estatística Q de Box-Pierce, que tem distribuição limite do qui-quadrado com p graus de liberdade, p p QBP = n ∑ s =1 ρˆ s2 = ∑ s =1 n ρˆ s → χ 2 ( p) . 2 d
(3.75)
Pode dispor-se de uma estatística alternativa a esta, chamada estatística Q de Ljung-Box, assintoticamente equivalente. Tem-se (3.76)
QLB = n(n + 2) ∑ s =1 p
ρˆ s2
n−s
= ∑ s =1 p
2 d n+2 2 ˆ ρ n s → χ ( p) . n−s
Para provar a equivalência assintótica entre (3.75) e (3.76) basta verificar que a diferença QBP − QLB converge em probabilidade para 0. Seja 2 n + 2 p T ˆ n ρ QBP − QLB = ∑ s =1 1 − s = a• n w• n , n − s
2 n+2 n ρˆ − 1 1 n −1 2 + n 2 1 − ˆ n ρ2 − n 2 e w = . a• n = •n M M 2 + n 2 1 − n ρˆ p n − p
onde
Como
w1 d w2 lim a• n = 0 e w• n → w = , M n → +∞ wp
com ws ~ χ 2 (1) ( s = 1, 2, K , p) , então, devido à propriedade c) que relaciona a convergência em probabilidade com a convergência em distribuição, conclui-se imediatamente que plim (QBP − QLB ) = 0 . Muitas vezes, com pequenas amostras, (3.76) fornece resultados mais aproximados do que (3.75). Em qualquer dos casos, não se têm indicações para a escolha de p. Se p é demasiado pequeno, há o perigo de ignorar autocorrelações de ordem superior; se p é demasiado grande, os resultados, para pequenas amostras, podem deteriorar-se. Retome-se o MRL-RPD, a verificar as hipóteses RPD.1 a RPD.5, e o processo {ut } das variáveis residuais. Como se admite que o modelo tem termo independente, tem-se E (ut ) = 0 . Então,
Capítulo 3 – MRL com Regressores Pré-Determinados
γ 0 = E (ut2 ) = σ 2 ; γ s = E (ut ut −s ) ( s = 1, 2, K) ; ρ s =
66
γ s E (ut ut −s ) = . γ0 σ2
Se as variáveis residuais fossem observáveis, os coeficientes de autocorrelação amostrais seriam dados por γ~ (3.77) ρ~s = ~s ( s = 1, 2, K) , γ 0
onde (3.78)
γ~s =
1 n ∑ ut ut −s (s = 0,1, 2,K) . n t =s +1
Como o processo {ut ut −s } é estacionário e ergódico, conclui-se que:
− plim(γ~s ) = γ s ; plim(ρ~s ) = ρ s ;
n ρ~s → N (0,1) ; d
2 d 2 d p n+2 p 2 ~ n − QBP = ∑ s =1 n ρ~s → χ 2 ( p) ; QLB = ∑ s =1 ρ s → χ ( p) . n−s
Como as variáveis residuais não são observáveis, deve utilizar-se os resíduos MQ, uˆt . Assim, tem-se (3.79) onde (3.80)
ρˆ s =
γˆ s ( s = 1, 2, K) , γˆ0
γˆ s =
1 n ∑ uˆt uˆt −s (s = 0,1, 2,K) . n t =s +1
[Note-se que a soma dos resíduos é nula, pois o modelo tem termo independente]. Quando se utiliza (3.79) em (3.75) e (3.76), põe-se a seguinte questão: as respectivas estatísticas QBP e QLB têm distribuições limite do qui-quadrado, sendo então possível testar a autocorrelação? A resposta a esta questão é afirmativa no caso em que os regressores são estritamente exógenos (ver secção 3D.4). Quando os regressores são pré-determinados, não está garantido que se verifique E ( xt •ut − s ) = 0 e E ( xt − s ,•ut ) = 0 . Logo, as estatísticas Q podem não ter distribuição limite do qui-quadrado, e, portanto, têm de ser modificadas. Para este efeito, considerem-se as seguintes condições: 1) E (ut | ut −1 , ut −2 , K , xt • , xt −1,• , K) = 0 ;
2) E (ut2 | ut −1 , ut −2 , K , xt • , xt −1,• , K) = σ 2 > 0 .
A condição 1) é meramente a reprodução de (3.36); é uma hipótese mais forte de pré-determinação, e implica (3.34) [o processo {g t • } , onde g t • = xt •ut , é uma diferença-martingala]. A condição 2) é uma hipótese mais forte de auto-homocedasticidade condicionada – comparada com a do teorema de Hall e Heyde –, uma vez que o conjunto de variáveis aleatórias condicionantes inclui também as observações correntes e passadas dos regressores.
Capítulo 3 – MRL com Regressores Pré-Determinados
67
O teorema seguinte permite estabelecer uma modificação da estatística QBP , apropriada para testar autocorrelação em modelos com regressores pré-determinados.
Teorema 3.10 Considere-se um modelo de regressão a satisfazer as hipóteses RPD.1, RPD.2, RPD.4 e as condições 1) e 2). Se ρˆ s é dado por (3.79) então, n γˆ → N ( p ){ 0, σ 4 ( I p − Φ)} e d
(3.81)
n ρˆ → N ( p ) (0, I p − Φ ) , d
onde o elemento φsr da matriz quadrada de ordem p, Φ , é dado por (3.82)
φsr =
E ( xt •ut − s ) E ( xtT• xt • ) −1 E ( xtT•ut − r )
σ2
( s, r = 1, 2, K , p ) ,
e os vectores γˆ e ρˆ são definidos tal como em (3.73).
∇∇
Dem.: Ver secção 3D.5.
ˆ é um estimador consisDe acordo com o teorema da ergodicidade, a matriz Φ tente de Φ , onde
(3.83) e
1 n 1 n ∑t = s +1 xt •uˆt − s S xx−1 ∑t = r +1 xtT•uˆt − r n ( s, r = 1, 2, K , p ) , n φˆsr = 2 s
s2 =
n 1 uˆ 2 . ∑ t =1 t n−k
Nestas condições, a estatística Q de Box-Pierce modificada é a seguinte: ˆ ) −1 ρˆ → χ 2 ( p ) . ′ = n ρˆ T ( I p − Φ QBP d
(3.84)
Embora o cálculo desta estatística não seja difícil, é útil conhecer uma estatística assintoticamente equivalente, que pode ser calculada mediante duas regressões MQ: 1) Regressão de yt sobre xt • (regressão correspondente ao modelo proposto), com o objectivo de calcular os respectivos resíduos MQ, uˆt . 2) Regressão auxiliar de uˆt sobre xt • , uˆt −1 , uˆt −2 , K , uˆt − p , com t = p + 1, p + 2, K , n . Em alternativa, esta regressão auxiliar pode ser feita com n observações, mas para isso é necessário atribuir valores aos resíduos uˆ0 , uˆ −1 , K , uˆ − p+1 . Pouco importa quais são estes valores, pois isso não altera os resultados assintóticos, mas é aconselhável propor valores iguais aos respectivos valores esperados, ou seja, zero. A regressão auxiliar do passo 2) permite calcular o rácio-F para testar a hipótese de nulidade conjunta dos coeficientes de uˆt −1 , uˆt −2 , K , uˆt − p . Atendendo a (3.56), é de esperar que
Capítulo 3 – MRL com Regressores Pré-Determinados
68
pF → χ 2 ( p) . d
(3.85)
Esta conjectura é, de facto, verdadeira. Assim, atendendo a (3.84), basta provar ′ e pF são assintoticamente equivalentes (a diferença entre estas duas estatísticas que QBP converge em probabilidade para 0).
Teorema 3.11 ˆ ) −1 ρˆ , dada por (3.84), e pF , referida em (3.85), são ′ = n ρˆ T ( I p − Φ As estatísticas QBP assintoticamente equivalentes. ∇∇
Dem.: Ver secção 3D.6.
Além disso, é possível demonstrar que as estatísticas pF e (n − p) R 2 , onde R 2 é o coeficiente de determinação relativo à regressão auxiliar, são assintoticamente equivalentes. Com efeito, sabe-se que o rácio-F pode ser calculado com uma fórmula semelhante a (2.80) [ver capítulo 2], utilizando as somas dos quadrados dos resíduos MQ com restrições e sem restrições. Neste caso, a regressão sem restrições é a regressão auxiliar, e seja Vˆ TVˆ a respectiva soma dos quadrados dos resíduos MQ. A regressão com restrições corresponde a fazer a regressão de uˆt sobre xt • . Como xt • não tem qualquer poder explicativo nesta regressão, conclui-se que VˆrTVˆr = Uˆ TUˆ . Então, R2 Uˆ TUˆ − Vˆ TVˆ ( ) n k p = − − , pF = (n − k − p ) 1 − R2 Vˆ TVˆ notando que, neste caso,
R2 = 1 −
Vˆ TVˆ . Uˆ TUˆ
Resolvendo aquela igualdade em relação a R 2 e multiplicando por n − p , obtém-se
ou
(n − p) R 2 =
n− p 1 × pF , n − k − p 1 + n−pF k− p
n− p 1 pF . × pF − (n − p ) R 2 = 1 − n − k − p 1 + pF n−k − p
Atendendo a (3.85), e como lim
n→+∞
vem imediatamente que
n− p pF = 1 e plim = 0, n−k − p n−k − p
Capítulo 3 – MRL com Regressores Pré-Determinados
69
plim{ pF − (n − p) R 2 } = 0 . Então, tem-se
(n− p) R 2 → χ 2 ( p) . d
O teste para detectar autocorrelação baseado neste resultado designa-se por teste de Breusch-Godfrey, e a respectiva estatística-teste é BG = (n − p) R 2 . Em resumo, o procedimento para efectuar este teste é o seguinte: 1) Calcular os resíduos MQ, uˆt , do modelo proposto. 2) Fazer a regressão auxiliar dos resíduos MQ sobre os mesmos resíduos desfasados até à ordem p, uˆt −1 , uˆt −2 , K , uˆt − p , e os regressores considerados no modelo proposto. 3) A estatística-teste é BG = (n − p) R 2 → χ 2 ( p) , d
(3.86)
onde R 2 é o coeficiente de determinação da regressão auxiliar; a região de rejeição encontra-se na aba direita da distribuição. Quando se faz a regressão auxiliar com as n observações de todas as variáveis, e se considera que uˆ0 = uˆ −1 = L = uˆ − p +1 = 0 , a estatística BP passa a ser BG = nR 2 → χ 2 ( p) . d
(3.87)
Exemplo 3.5 – Considere-se que numa empresa monopolista a função custo total (CT) permite especificar o modelo de regressão linear dado por CTt = β1 + β 2Qt + β 3Qt2 + ut ,
onde Q é a quantidade produzida. No quadro 3.5 estão disponíveis 48 obervações trimestrais das variáveis do modelo. Fazendo a respectiva regressão, obtém-se CTt = 742.923 + 13.4 Qt + 0.1872 Qt2 . ^
(9.005)
(0.0275)
Para verificar se existem problemas de autocorrelação é necessário efectuar o teste de Breusch-Godfrey, onde a hipótese nula corresponde à ausência de autocorrelação, e a hipótese alternativa, à presença de autocorrelação de uma certa ordem, p. Fixando esta ordem, faz-se a regressão auxiliar dos resíduos MQ do modelo dado sobre os mesmos resíduos desfasados até à ordem p, e os regressores do modelo inicial. Como os dados são trimestrais, é razoável admitir que p = 4 . Considerando sucessivamente p = 1, 2, 3, 4 , apresentam-se no quadro 3.6 alguns resultados relativos às quatro regressões auxiliares: − Coeficientes de determinação; − Valores da estatística BG e respectivos valores-p [versão (3.86)]; − Valores críticos da distribuição do qui-quadrado correspondentes α = 0.05 ;
Capítulo 3 – MRL com Regressores Pré-Determinados
70
− Valores da estatística pF e respectivos valores-p [versão (3.85)]; − Diferenças entre os respectivos pF e BG.
Quadro 3.5 Observações trimestrais do custo total e da quantidade produzida por uma empresa monopolista Obs 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
CT
Q
Obs
11790 14503 15323 3276 13523 5337 8431 8960 12207 14756 5923 13297 8342 4593 10851 5746 4925 10087 13007 3449 3930 9281 9463 7005
206 231 245 96 228 133 178 183 220 244 134 223 161 108 198 138 126 196 226 95 101 183 184 153
25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48
CT
Q
10501 6246 9419 5053 8791 15690 3633 9230 13459 8026 7375 10517 7685 5900 4393 10066 3525 5580 5217 6513 5638 2839 8692 2151
196 138 180 115 173 248 91 177 225 158 151 190 155 129 91 184 73 128 123 141 130 86 187 83
Quadro 3.6 Teste com BG 2
p
R
1 2 3 4
0.56 0.56 0.61 0.64
BG
Valor-p
26.530 25.722 27.423 28.336
0.00 0.00 0.00 0.00
χ
Teste com pF 2 p , 0.05
3.841 5.991 7.815 9.488
pF
Valor-p
pF – BG
55.704 51.418 59.872 65.387
0.00 0.00 0.00 0.00
29.174 25.696 32.449 37.051
No quadro 3.7 apresenta-se o mesmo tipo de resultados quando se consideram as 48 observações para todas as variáveis, e resíduos iniciais nulos.
Capítulo 3 – MRL com Regressores Pré-Determinados
71
Quadro 3.7 Teste com BG 2
p
R
1 2 3 4
0.56 0.56 0.57 0.57
BG
Valor-p
26.714 26.813 27.187 27.293
0.00 0.00 0.00 0.00
χ
Teste com pF 2 p , 0.05
3.841 5.991 7.815 9.488
pF
Valor-p
pF – BG
55.218 54.416 54.861 54.040
0.00 0.00 0.00 0.00
28.504 27.603 27.654 26.747
Observando estes quadros, conclui-se sempre que existe autocorrelação. Nestas circunstâncias, devia propor-se outra especificação da função custo total. ∇
Exemplo 3.6 – Considere-se os seguintes modelos (ver exemplo 3.1):
Modelo A: ln(importt ) = β1 + β 2 ln( prmt ) + β3 ln( pibt ) + ut . Modelo B: ln(importt ) = β1 + β 2 ln(importt −1 ) + β3 ln( prmt ) + β 4 ln( pibt ) + ut . A estimação MQ do modelo A já é conhecida (exemplo 3.1): ln(importt ) = 0.1296 − 0.3882 ln( prmt ) + 1.2425 ln( pibt ) ( s = 0.08374) . ^
Para efectuar o teste de nulidade de cada coeficiente de regressão, os valores-p são, respectivamente, 0.053 e 0.000. O teste de autocorrelação, para p = 1 e p = 2 , é apresentado no quadro 3.8. Verifica-se que há evidência empírica que suporta a existência de autocorrelação de 1.ª ordem, o que pode ser considerado como um sintoma de incorrecta especificação do modelo A.
Quadro 3.8
p 1 2
Modelo A Valor-p pF 3.942 3.804
0.047 0.149
Modelo B Valor-p pF 3.571 2.273
0.059 0.321
Considere-se o modelo B, introduzindo o regressor ln(importt −1 ) . Estimando este modelo, obtém-se ln(importt ) = 0.6008 + 0.2976 ln(importt −1 ) − 0.4516 ln( prmt ) + 0.9722 ln( pibt ) . ^
Os valores-p para testar a nulidade dos coeficientes são 0.115, 0.038 e 0.001, respectivamente. Os resultados apresentados no quadro 3.8 mostram que, a 5%, não é de rejeitar a hipótese da ausência de autocorrelação. ∇
Capítulo 3 – MRL com Regressores Pré-Determinados
72
Utilização do estimador MQ em presença de autocorrelação e inferência robusta Suponha-se que se tem um modelo de regressão linear com regressores pré-determinados, yt = xt • β + ut . Admita-se que existe autocorrelação (não se verifica a hipótese RPD.5), mas não se conhece a sua estrutura. Que estimador se propõe para o vector dos coeficientes de regressão? Uma resposta possível é a de continuar a utilizar o estimador MQ, b, mas dispondo de um estimador consistente para a respectiva matriz das covariâncias assintóticas, Cov a (b) . Trata-se de um problema semelhante ao que se estudou no caso da heterocedasticidade condicionada, tendo-se obtido, neste caso, o estimador robusto de White daquela matriz. Embora continue garantida a consistência do estimador b, o abandono da hipótese RPD.5 invalida todos os resultados de inferência estatística obtidos nas secções 3.4, 3.5 e 3.6. Para construir a análise estatística do MRL-RPD com autocorrelação é necessário substituir RPD.5 por outra hipótese, que, entre outras comdições, redefina a matriz S [ver no capítulo 9 a condição de Gordin e (9.120)]. Pode provar-se que a distribuição de b é assintoticamente normal (ver capítulo 9), fazendo (3.88)
S = ∑s=−∞ Γs = Γ0 + ∑s=1 (Γs + ΓsT ) +∞
+∞
Γs = E (ut ut − s xtT• xt −s ,• ) ( s = 0,±1,±2, K ).
onde
[Quando se admite a hipótese RPD.5, tem-se S = Γ0 = E (ut2 xtT• xt • ) ]. Assim: n (b − β ) → N ( k ) (0, Qxx−1S Qxx−1 ) ; d
(3.89) (3.90)
Ea (b) = β e Cov a (b) = Qxx−1S Qxx−1 .
Para obter um estimador consistente da matriz S, dada por (3.88), é necessário começar por estimar individualmente as matrizes Γs . Tem-se: (3.91)
1 n Γˆ s = ∑t =s +1 uˆt uˆt − s xtT• xt −s ,• ( s = 0,1, 2, K , n − 1 ), n l Sˆ = Γˆ 0 + ∑s =1ω s (Γˆ s + Γˆ sT ) ,
onde os uˆt são os resíduos MQ. Newey e West (1987) mostraram que (3.92)
onde ω s = 1 − s /(l + 1) , é um estimador consistente de S. Fazendo Sˆ = (1 / n)Vˆ , facilmente se verifica que
(3.93)
l n n Vˆ = ∑t =1 uˆt2 xtT• xt • + ∑s =1 ∑t =s +1 ω s uˆt uˆt −s ( xtT• xt −s ,• + xtT−s ,• xt • ) .
A escolha de l depende do tipo de dados temporais: para dados anuais, toma-se l = 1 , 2 ou 3; com dados trimestrais escolhe-se l = 4 ou 8; se os dados forem mensais
Capítulo 3 – MRL com Regressores Pré-Determinados
73
faz-se l = 12 ou 24. Newey e West recomendam escolher l igual à parte inteira de 4(n / 100) 2 / 9 . Outros autores propõem l igual à parte inteira de n1/ 4 . Por exemplo, para n = 50 tem-se l = 3 , no primeiro caso, e l = 2 , no segundo. Note-se que: 1 n n l = 1 ⇒ Vˆ = ∑t =1 uˆt2 xtT• xt • + ∑t = 2 uˆt uˆt −1 ( xtT• xt −1,• + xtT−1,• xt • ) ; 2
n 2 n l = 2 ⇒ Vˆ = ∑t =1 uˆt2 xtT• xt • + ∑t = 2 uˆt uˆt −1 ( xtT• xt −1,• + xtT−1,• xt • ) 3 1 n + ∑t = 3 uˆt uˆt − 2 ( xtT• xt − 2,• + xtT− 2,• xt • ) ; 3
3 n n l = 3 ⇒ Vˆ = ∑t =1 uˆt2 xtT• xt • + ∑t = 2 uˆt uˆt −1 ( xtT• xt −1,• + xtT−1,• xt • ) 4 1 n + ∑t =3 uˆt uˆt − 2 ( xtT• xt − 2,• + xtT− 2,• xt • ) 2 1 n + ∑t = 4 uˆt uˆt −3 ( xtT• xt − 3,• + xtT−3,• xt • ) ; 4
4 n n l = 4 ⇒ Vˆ = ∑t =1 uˆt2 xtT• xt • + ∑t = 2 uˆt uˆt −1 ( xtT• xt −1,• + xtT−1,• xt • ) 5 3 n + ∑t =3 uˆt uˆt − 2 ( xtT• xt − 2,• + xtT− 2,• xt • ) 5 2 n + ∑t = 4 uˆt uˆt −3 ( xtT• xt − 3,• + xtT−3,• xt • ) 5 1 n + ∑t =5 uˆt uˆt − 4 ( xtT• xt − 4,• + xtT− 4,• xt • ) . 5
Finalmente, obtém-se o estimador consistente de Newey-West de Cov a (b) , Cov a (b) = S xx−1 Sˆ S xx−1 = n ( X T X ) −1Vˆ ( X T X ) −1 . ^
(3.94)
Este resultado permite continuar a fazer inferência estatística baseada no estimador MQ, mesmo desconhecendo o processo de autocorrelação das variáveis residuais. Embora os erros padrão robustos possam ser calculados a partir dos elementos da diagonal principal de (3.94), fazendo sb∗j =
1 ^ Vara (b j ) , n
é possível deduzir uma fórmula que relaciona estes erros padrão com os erros padrão clássicos, sb j . Pode demonstrar-se que sb s = j s ∗ bj
onde: − s é o erro padrão clássico da regressão;
2
vˆ ,
Capítulo 3 – MRL com Regressores Pré-Determinados
74
− vˆ = ∑t =1 aˆtj2 + 2∑ s =1 ∑t = s +1 ωs aˆtj aˆt − s , j ; l
n
n
− aˆtj = rˆtj uˆt ;
− uˆt são os resíduos MQ da regressão do modelo original; − rˆtj são os resíduos MQ da regressão auxiliar de xtj sobre os outros regressores do modelo original; − ω s = 1 − s /(l + 1) . l = 1 ⇒ vˆ = ∑t =1 aˆtj2 + ∑t = 2 aˆtj aˆt −1, j ;
Note-se que: n
l = 2 ⇒ vˆ = ∑t =1 aˆtj2 + n
l = 3 ⇒ vˆ = ∑t =1 aˆtj2 + n
l = 4 ⇒ vˆ = ∑t =1 aˆtj2 + n
n
4 n 2 n aˆ aˆ + ∑t =3 aˆtj aˆt − 2, j ; ∑ t = 2 tj t −1, j 3 3
3 n 1 n n aˆ aˆ + ∑t =3 aˆtj aˆt − 2, j + ∑t = 4 aˆtj aˆt −3, j ; ∑ t = 2 tj t −1, j 2 2
8 n 6 n 4 n 2 n aˆ aˆ + ∑t =3 aˆtj aˆt − 2, j + ∑t = 4 aˆtj aˆt − 3, j + ∑t =5 aˆtj aˆt − 4, j . ∑ t = 2 tj t −1, j 5 5 5 5
Capítulo 3 – MRL com Regressores Pré-Determinados
75
PALAVRAS-CHAVE Amostragem casual Ausência de correlação assintótica Autocorrelação Autocovariância Coeficiente de autocorrelação Coeficiente de determinação Condição de característica Conjunto de informação Consistência Convergência estocástica Convergência em distribuição Convergência em média quadrática Convergência em probabilidade Correlação contemporânea Correlograma Dependência Dependência fraca Diferença-martingala Dimensão exacta (nominal) do teste Distorção da dimensão Distribuição limite Distribuição limite degenerada Enviesamento assintótico Equivalência assintótica Ergodicidade (em relação à média) Erro de medida Erro padrão de White Erro padrão heterocedástico-robusto Erro padrão de Newey-West Erro padrão robusto à autocorrelação Especificação inadequada Estacionaridade em covariância Estacionaridade ergódica Estacionaridade (em sentido restrito) Estatística Q de Box-Pierce (modificada) Estatística Q de Ljung-Box Estimador assintoticamente normal
Matriz das covariâncias assintóticas Matriz das covariâncias limite Memória Método delta Modelo de regressão linear com regressores pré-determinados (MRL-RPD) Modelo dinâmicamente completo Modelo econométrico Momentos Omissão de variáveis Ortogonalidade (contemporânea) Padrão de heterocedasticidade condicionada Padrão de autocorrelação Passeio aleatório Preservação da convergência em distribuição Preservação da convergência em probabilidade Princípio de Wald Princípio do multiplicador de Lagrange Processo estocástico Processo AR(1) Processo gerador de dados (PGD) Processo MA(1) Rácio-t robusto Regressor contemporaneamente exógeno Regressor endógeno Regressor estritamente exógeno Regressor gerado Regressor pré-determinado Ruído branco (independente) Série temporal Simultaneidade Situação de autocorrelação Teorema da ergodicidade Teorema de Chebychev Teorema de Khinchine Teorema de Hall e Heyde Teorema de Lindeberg-Levy Teorema de Markov
Capítulo 3 – MRL com Regressores Pré-Determinados
76
PALAVRAS-CHAVE Estimador CAN Estimador consistente Geração de regressores Heterocedasticidade condicionada
Teorema de Slutsky Teorema do limite central de Billingsley Teoremas do limite central (formato) Teoremas sobre a lei dos grandes números (formato) Homocedasticidade condicionada Teste da forma funcional Homokurtosis condicionada Teste de autocorrelação Heterogeneidade Teste de Breusch-Godfrey Inferência estatística Teste de Breusch-Pagan Inferência estatística sobre combinações Teste de Durbin alternativo lineares de coeficientes de regressão Inferência estatística sobre um coeficiente Teste de heterocedasticidade condicionade regressão isolado da Intervalo de confiança Teste de hipóteses não lineares Lei dos grandes números Teste de White (simplificado) Lema da equivalência assintótica Teste pF Limite em probabilidade Teste RESET Linearidade Valor esperado assintótico Martingala Valor esperado limite Matriz das autocovariâncias Variância limite
Capítulo 3 – MRL com Regressores Pré-Determinados
77
PERGUNTAS DE REVISÃO 1. 2. 3. 4. 5. 6. 7. 8.
Enuncie o lema da equivalência assintótica. Considere o processo estocástico {z t } . Enuncie o teorema da ergodicidade. Considere o processo estocástico {z t } (escalar). Enuncie o teorema do limite central de Billingsley. Considere o processo {xt : t = 1,2, K} . Apresente as condições que permitem afirmar que o processo é estacionário em covariância. Considere o modelo yt = α + ϕ yt −1 + ε t , onde {ε t } é um ruído branco. A variável yt é estacionária em covariância? Justifique. Seja xt = ε t + θ1ε t −1 + θ 2ε t − 2 , onde {ε t } é um ruído branco. Em que condições se pode afirmar que a variável xt é estacionária em covariância. Considere o processo estocástico estacionário {xt : t = 1,2, K} . Apresente a condição que garante que o processo é assintoticamente não correlacionado. Suponha que yt é AR(1), yt = ϕ yt −1 + ε t , a verificar | ϕ | < 1 . Demonstre que Corr ( yt , yt + s ) → 0 , quando s → +∞ , sabendo que yt + s = ϕ s yt + ϕ s −1ε t +1 + L + ϕ ε t + s −1 + ε t + s .
9.
10. 11. 12. 13. 14. 15. 16. 17. 18.
19.
Considere as seguintes afirmações: a) um passeio aleatório é um processo estocástico não estacionário; b) num modelo de regressão linear com um regressor apenas contemporaneamente exógeno, o estimador dos mínimos quadrados do respectivo coeficiente de regressão é não enviesado. Indique quais destas afirmações são verdadeiras. Considere o passeio aleatório {z t } . Determine a expressão de Corr ( z t , z t + s ) . Considere o passeio aleatório, yt = yt −1 + ε t . Deduza a fórmula do coeficiente de autocorrelação entre yt e yt − s ( s > 0) . Prove que estimador assintoticamente normal é consistente. Considere o MRL-RPD, yt = β 0 + β1 xt + β 2 xt2 + ut . Indique o processo estocástico que verifica a hipótese da estacionaridade ergódica. Suponha que num MRL yt = xt • β + ut , com termo independente, todos os regressores são pré-determinados. Prove que E (ut ) = 0 e que Cov( xtj , ut ) = 0 . Considere o MRL, yt = β 0 + β1 xt + β 2 xt2 + ut . Enuncie, para este modelo, a hipótese da condição de característica. Considere o MRL-RPD, yt = β 0 + β1 xt + β 2 xt2 + ut . Construa, para este modelo, a matriz S indispensável para a inferência estatística. Considere o MRL-RPD, yt = xt • β + ut , com termo independente. Prove que o processo {ut } é uma diferença-martingala. Considere o MRL-RPD, yt = xt • β + ut , com termo independente. Sabendo que {ut } é uma diferença-martingala, prove que o valor esperado das variáveis residuais é nulo, e que não há autocorrelação. Considere o modelo de regressão linear, yt = α + β xt + ut , com dados temporais, e suponha que o regressor é contemporaneamente exógeno, E (ut | xt ) = 0 . Esta
Capítulo 3 – MRL com Regressores Pré-Determinados
20. 21.
22.
23.
24.
25. 26. 27.
28. 29. 30.
31. 32.
33.
34.
78
condição significa que ut é independente em média de xt . Demonstre que esta independência em média implica que a covariância entre ut e xt é nula. Considere o MRL, com dados temporais, yt = α + β yt −1 + ut , onde {ut } é um ruído branco. Classifique o regressor yt −1 . Considere o modelo da pergunta anterior, mas supondo que ut ~ AR (1) (estável). Neste caso, verifica-se, sem dificuldade, que yt −1 é regressor endógeno. Reformule o modelo de forma a eliminar a endogeneidade. Considere o modelo de regressão linear, yt = xt • β + ut , com dados temporais, onde xt • é o vector dos regressores. Quais das seguintes afirmações são verdadeiras: a) os regressores são contemporaneamente exógenos se e só se E ( yt | xt • ) = xt • β ; b) os regressores são contemporaneamente exógenos se e só se ut = yt − E ( yt | xt• ) . Considere o modelo de regressão linear, yt = xt • β + ut , com regressores pré-determinados. Indique as hipóteses que se devem estabelecer para que o estimador MQ de β seja consistente. Considere o modelo de regressão linear, yt = β 0 + β1 xt1 + β 2 xt 2 + ut . Suponha que xt1 é estritamente exógeno e xt 2 é contemporaneamente exógeno. Escreva as respectivas condições de ortogonalidade. Considere o modelo yt = α + β t + ρ yt −1 + ε t , onde | ρ | < 1 e {ε t : t = 1,2, K} é um ruído branco. A variável yt é estacionária? Justifique. Seja xt = ε t − (1 / 3) ε t −1 + (1 / 3) ε t − 2 , onde {ε t } é um ruído branco. Determine a covariância Cov( xt , xt +1 ) . Seja o processo xt = ε t − (1 / 4) ε t −1 + (1 / 2) ε t − 2 , onde {ε t } é um ruído branco. Quais das seguintes afirmações são verdadeiras: a) o processo é ergódico; b) o processo é estacionário em covariância; c) o processo é assintoticamente não correlacionado. Considere o modelo yt = α + yt −1 + ε t , onde {ε t : t = 1,2,K} é um ruído branco. Determine a variância de yt , supondo que y0 = 0 . Considere o MRL, com dados temporais, yt = α + β1 yt −1 + β 2 yt − 2 + β 3 yt −3 + ut , onde {ut } é um processo MA(2). Classifique os regressores. Considere o modelo yt = xt • β + ut onde xt • é o vector dos regressores. Indique a condição, utilizando valores esperados condicionados de yt , para que o modelo seja dinamicamente completo. Considere o modelo yt = α + β 0 xt + β1 xt −1 + γ 1 yt −1 + γ 2 yt − 2 + ut . Apresente a condição que garante que o modelo é dinamicamente completo. Considere o modelo de regressão linear, yt = β 0 + β1 xt + β 2 xt −1 + β 3 xt − 2 + ut , supondo que ut = ε t + θ ε t −1 , onde ε t é um ruído branco. O modelo é dinamicamente completo? Justifique. Considere o modelo yt = xt • β + ut com regressores pré-determinados, e suponha que a matriz Qxx = E ( xtT• xt • ) existe e tem inversa. Indique um estimador consistente da variância assintótica de b j , estimador MQ de β j . Considere o MRL-RPD, yt = xt • β + ut . Prove a consistência do estimador MQ do vector dos coeficientes de regressão.
Capítulo 3 – MRL com Regressores Pré-Determinados 35.
36.
37. 38. 39. 40. 41.
42.
43.
44.
45.
46.
47.
79
Considere o MRL-RPD, yt = xt • β + ut , e o estimador MQ, b, do vector dos coeficientes de regressão. Demonstre o resultado que permite afirmar que b é assintoticamente normal. Considere o MRL-RPD, yt = xt • β + ut , e o estimador MQ, b, do vector dos coeficientes de regressão. Indique um estimador consistente da matriz de covariâncias assintótica de b. Considere o MRL-RPD, yt = xt • β + ut . Indique um estimador consistente da matriz S = E (ut2 xtT• xt • ) . No caso de pequenas amostras, a matriz Sˆ pode ser corrigida. Indique uma das propostas possíveis de matriz Sˆ corrigida. Suponha que existe homocedasticidade condicionada. Considere o MRL-RPD, yt = xt • β + ut . Obtenha a respectiva matriz S a partir de S = E (ut2 xtT• xt • ) . Prove que, no caso de homocedasticidade condicionada, os erros padrão clássico e robusto são iguais. No caso de homocedasticidade condicionada, prove que Q = mF , onde Q é a estatística para efectuar o teste H 0 : Rβ = δ 0 contra H 1 : Rβ ≠ δ 0 (R é uma matriz m × k com característica igual a m), e F = (Uˆ rTUˆ r − Uˆ TUˆ ) / ms 2 . Suponha que existe homocedasticidade condicionada. Considere o MRL-RPD, yt = xt • β + ut , e o estimador MQ, b, do vector dos coeficientes de regressão. Indique um estimador consistente da matriz de covariâncias assintótica de b. Seja uˆt os resíduos MQ de um modelo de regressão linear com dados temporais. Considere a regressão de uˆt sobre uˆt −1 para testar a existência de autocorrelação de 1.ª ordem. Seja: a) esta regressão permite fazer o teste apenas na condição de exogeneidade estrita de todos os regressores; b) esta regressão permite fazer o teste apenas na condição de exogeneidade contemporânea de todos os regressores; c) esta regressão permite fazer o teste apenas quando todos os regressores são estacionários e ergódicos. Quais destas afirmações são verdadeiras? Considere o modelo yt = α + β xt + γ yt −1 + ut e suponha que pretende testar se a variável residual segue um processo auto-regressivo de 2.ª ordem. Indique a regressão auxiliar necessária para efectuar este teste, bem como a respectiva estatística-teste construída a partir do coeficiente de determinação daquela regressão. Considere o modelo yt = α + β xt + γ yt −1 + ut com dados trimestrais. Suponha que pretende testar se a variável residual segue o processo auto-regressivo sazonal ut = ρ ut −4 + ε t . Indique a regressão auxiliar necessária para efectuar este teste, bem como a respectiva estatística-teste. Considere o modelo yt = xt • β + ut onde xt • é o vector dos regressores. Descreva o teste de Breusch-Godfrey para testar a autocorrelação de 2.ª ordem das variáveis residuais. Considere o modelo yt = xt • β + ut , com regressores pré-determinados e autocorrelação. Sendo b o estimador MQ de β , que estimador deveria utilizar para a matriz das covariâncias assintóticas de b? [indique apenas o nome do estimador, e não a sua fórmula]
Capítulo 3 – MRL com Regressores Pré-Determinados 48. 49. 50.
80
Descreva a mecânica do teste pF para testar a existência de autocorrelação. Descreva a mecânica do teste BG (Breusch-Godfrey) para testar a existência de autocorrelação. Considere um MRL-RPD com autocorrelação. Indique o estimador consistente de Newey-West da matriz das covariâncias assintótica do estimador MQ dos coeficientes de regressão.
CAPÍTULO 4 O MODELO DE REGRESSÃO LINEAR COM REGRESSORES ENDÓGENOS A hipótese crucial do modelo de regressão linear apresentado no capítulo 3 é a da ortogonalidade entre os regressores e as variáveis residuais, ficando garantido que os regressores são pré-determinados (hipótese RPD.3). Esta hipótese é decisiva para a aplicação do método dos mínimos quadrados, uma vez que, sem ela, o estimador MQ nem sequer é consistente [como resulta claramente da demonstração de (3.37), propriedade 3.1 dos estimadores MQ]. Este capítulo tem por objectivo essencial estudar o modelo de regressão linear quando existem regressores que não são pré-determinados, ou seja, quando o modelo tem regressores endógenos. Como na presença deste tipo de regressores não é possível estimar, de forma consistente, os parâmetros pelo método MQ, é necessário dispor de um método mais geral de obtenção de estimadores. Este método dá lugar a uma classe vasta de estimadores, a classe dos estimadores do método generalizado dos momentos (MGM) [em inglês, generalized method of moments; a sigla consagrada é GMM]. O estimador MQ é um caso particular de estimador MGM, existindo muitos outros estimadores importantes que também pertencem a esta classe (é o caso, entre outros, do estimador de variáveis instrumentais e do estimador dos mínimos quadrados em dois passos; ver adiante). O estudo desta classe de estimadores, e suas propriedades, é o objectivo essencial do presente capítulo. No entanto, vão abordar-se, previamente, dois tópicos. O primeiro (secção 4.1), destina-se a resolver o seguinte problema: suponha-se que no modelo de regressão linear, yt = xt • β + ut , há regressores que não são pré-determinados (não se verificam as hipóteses RPD.3 e RPD.5), não estando, portanto, garantido que o estimador MQ, b = ( X T X ) −1 X T Y , seja consistente para o vector β dos coeficientes de regressão. Se, apesar disso, se continuar a utilizar este estimador, põe-se a questão de saber se existe algum outro vector de parâmetros que é estimado de forma consistente. O segundo tópico, a tratar na secção 4.2, tem a ver com o papel que desempenham os regressores endógenos em Economia. A sua importância vai ser ilustrada por meio de vários exemplos, onde surgem naturalmente este tipo de regressores.
Capítulo 4 – MRL com Regressores Endógenos
2
Nas secções seguintes apresentam-se e analisam-se as hipóteses básicas do modelo de regressão linear com regressores endógenos, a classe dos estimadores MGM e suas propriedades, e as respectivas questões de inferência estatística. 4.1 - A projecção linear dos mínimos quadrados
Antes de dar resposta ao problema atrás referido, vai analisar-se uma situação mais geral. Considere-se uma variável aleatória (escalar), y, e um vector aleatório de tipo 1 × k , x = [ x1 x2 K xk ]. Suponha-se que se pretende prever o valor assumido por y, conhecendo a distribuição do vector (k + 1) -dimensional, ( y, x) , e o valor de x. Um previsor de y é uma função de x, h(x) , determinada pela distribuição conjunta de y e de x. Naturalmente, h(x) deve ser escolhida de acordo com algum critério que deve ter em conta o erro de previsão, η = y − h(x) . O critério que vai ser adoptado consiste em minimizar o erro quadrático médio da previsão (EQMP), E (η 2 ) = E { y − h( x)}2 .
Habitualmente, este critério é designado por princípio dos mínimos quadrados, e as variáveis aleatórias que compõem o vector x chamam-se regressores. Nestas condições, obtém-se o seguinte: Teorema 4.1 O melhor previsor de y, de acordo com o princípio dos mínimos quadrados, é o valor esperado de y condicionado por x: µ ( x) = E ( y | x) . Dem.: Com efeito, seja
y − h( x ) = y − µ ( x ) + µ ( x ) − h( x ) .
Donde
{ y − h( x)}2 = { y − µ ( x)}2 + 2 { y − µ ( x)} {µ ( x) − h( x)} + {µ ( x) − h( x)}2 .
Notando que
E ({ y − µ ( x)} {µ ( x) − h( x)}) = E E ({ y − µ ( x)} {µ ( x) − h( x)} | x) = E {µ ( x) − h( x)} E ({ y − µ ( x) | x}) = 0,
tem-se
E ({ y − h( x)}2 ) = E ({ y − µ ( x)}2 ) + E ( {µ ( x) − h( x)}2 ) ≥ E ({ y − µ ( x)}2 ) .
Assim, o erro quadrático médio da previsão é limitado inferiormente, e o limite inferior é obtido quando h( x) = µ ( x) . ∇∇
Capítulo 4 – MRL com Regressores Endógenos
3
A regressão que corresponde à aplicação do princípio dos mínimos quadrados designa-se por regressão de tipo I. Quando a relação entre y e x é linear, y = xβ , é óbvio que o melhor previsor de y é h( x) = xβ , uma vez que E ( y | x) = xβ . Vai provar-se que o erro de previsão, η , é ortogonal a qualquer função de x, φ (x) : E{ηφ ( x)} = 0 . Com efeito, começa por notar-se que
E (η | x) = E{ y − µ ( x) | x} = E ( y | x) − E{µ ( x) | x} = µ ( x) − µ ( x) = 0 .
Então,
E{ηφ ( x)} = E ( E{ηφ ( x) | x})= E{φ ( x) E (η | x)} = 0 .
Note-se que é necessário conhecer a distribuição de ( y, x) para calcular o previsor h( x) = E ( y | x) , que, em geral, é essencialmente não linear. Impondo a condição de ~ ~ o previsor ser uma função linear de x, h( x) = xβ , onde β é um vector k × 1 , põe-se a questão de determinar o previsor que minimiza o respectivo erro quadrático médio. Nes~ te caso, o erro de previsão é dado por y − xβ , e o critério designa-se, naturalmente, por princípio dos mínimos quadrados lineares, a que corresponde a regressão de tipo II (ou regressão linear). Seja β ∗ o vector que satisfaz a condição de ortogonalidade
E{xT ( y − xβ∗ )} = 0 ou E ( x T x) β ∗ = E ( x T y ) ,
o que pressupõe que existem os respectivos momentos de 2.ª ordem. Se E ( x T x) tem inversa, vem (4.1)
β∗ = E ( xT x) −1 E ( xT y ) .
Pode, então, apresentar-se a seguinte definição:
Definição 4.1 – Projecção linear de mínimos quadrados A função linear de x, (4.2)
E ∗ ( y | x) = xβ∗ ,
onde β ∗ satisfaz (4.1), chama-se projecção linear de mínimos quadrados (projecção linear MQ) de y sobre x. O vector β ∗ é o vector dos coeficientes da projecção linear MQ. Assim, tem-se
E ∗ ( y | x) = xβ∗ = x E ( xT x) −1 E ( xT y ) .
O teorema que permite justificar a escolha do melhor previsor linear é o seguinte:
Capítulo 4 – MRL com Regressores Endógenos
4
Teorema 4.2 O melhor previsor linear de y, de acordo com o princípio dos mínimos quadrados lineares, é a projecção linear MQ de y sobre x: E ∗ ( y | x) = xβ ∗ .
~ Dem.: Com efeito, considere-se um previsor linear qualquer, xβ , e o respectivo erro quadrático médio, ~ E{( y − xβ ) 2 } . Tem-se ~ ~ E{( y − xβ ) 2 } = E ( {( y − xβ∗ ) + x( β∗ − β )}2 )
~ ~ = E {( y − xβ∗ ) 2 } + 2 E{( y − xβ∗ ) x( β∗ − β )} + E ({x( β∗ − β )}2 ) ~ ~ = E {( y − xβ∗ ) 2 } + 2 E{( β∗ − β )T xT ( y − xβ∗ )} + E ({x( β∗ − β )}2 ) ~ ~ = E {( y − xβ∗ ) 2 } + 2 ( β∗ − β )T E{xT ( y − xβ∗ )} + E ({x( β∗ − β )}2 ) ~ = E {( y − xβ∗ ) 2 } + E ({x( β∗ − β )}2 )
≥ E {( y − xβ∗ ) 2 } ,
notando que E{xT ( y − xβ∗ )} = 0 . Assim, o erro quadrático médio da previsão é limitado inferiormente, e o limite ~ inferior é obtido quando β = β ∗ . ∇∇ Verifica-se, assim, que para calcular o melhor previsor linear, E ∗ ( y | x) = xβ ∗ , basta conhecer os segundos momentos, referidos em (4.1), da distribuição de ( y, x) . A relação E ∗ ( y | x) = xβ ∗ , com o vector β ∗ dado por (4.1), é equivalente a escrever y = xβ∗ + u∗ , onde u∗ é o resíduo da projecção linear MQ de y sobre x. Este resíduo representa a variável y expurgada da influência de x. Como E ( xT u∗ ) = 0 , a correlação entre x e u∗ é nula, ou seja, a correlação parcial entre x e y (expurgada da influência de x) é nula. Facilmente se verifica que E ∗ (u∗ | x) = 0 . Com efeito, E ∗ (u∗ | x) = E ∗ ( y − xβ∗ | x) = x E ( xT x) −1 E{xT ( y − xβ∗ )} = x E ( xT x) −1 E ( xT y ) − x E ( xT x) −1 E ( xT x) β∗ = x E ( xT x) −1 E ( xT y ) − x β∗ = 0.
Em geral, E ( y | x) ≠ xβ∗ (o previsor obtido que resulta do princípio dos mínimos quadrados não coincide, em geral, com o previsor que decorre do princípio dos mínimos quadrados lineares). Então, não é verdade que E (u∗ | x) = 0 , e, muito menos, que u∗ e x sejam independentes. Em geral, tem-se E (u∗ | x) = E ( y − xβ∗ | x) = E ( y | x ) − xβ∗ ≠ 0 .
Vão apresentar-se algumas propriedades gerais da projecção linear MQ.
Propriedades das projecções lineares MQ
Capítulo 4 – MRL com Regressores Endógenos
5
Seja a variável aleatória y, e os vectores aleatórios x, z. Tem-se: a) Se E ( y | x) = xβ , então E ∗ ( y | x) = xβ . b) Linearidade da projecção linear MQ:
E * (α1 y1 + α 2 y2 + L + α m ym | x) = α1E * ( y1 | x) + α 2 E * ( y2 | x) + L + α m E * ( ym | x) ,
onde α i são constantes e yi são variáveis aleatórias ( i = 1, 2, K , m ). c) Regra da projecção linear MQ iterada: E ∗ ( y | x) = E ∗{E ∗ ( y | x, z ) | x}
E ∗ ( y | x) = E ∗{E ( y | x, z ) | x} .
d) Tem-se:
Em particular, E ∗ ( y | x) = E ∗{E ( y | x) | x} . e) Seja E ∗ ( y | x, z ) = xβ∗ + zγ ∗ , r = x − E ∗ ( x | z ) [vector dos resíduos da projecção linear MQ de x sobre z] e v = y − E ∗ ( y | z ) [resíduo da projecção linear MQ de y sobre z]. Então, E ∗ (v | r ) = rβ∗ e E ∗ ( y | r ) = rβ∗ ,
onde β∗ = E (r T r ) −1 E (r T v) = E (r T r ) −1 E (r T y ) .
Podem fazer-se os seguintes comentários a estas propriedades: • A demonstração da propriedade a) é fácil. Com efeito,
E ∗ ( y | x) = x E ( xT x) −1 E ( xT y ) = x E ( xT x) −1 E{E ( xT y | x)}
= x E ( xT x) −1 E{xT E ( y | x)} = x E ( xT x) −1 E ( xT x) β = x β .
A propriedade a) pode generalizar-se da seguinte maneira: − Se E ( y | x) = β1h1 ( x) + β 2 h2 ( x) + L + β k hk ( x) , então
E ∗ ( y | w1 , w2 , K , wk ) = β1w1 + β 2 w2 + L + β k wk ,
onde w j = h j (x) , com j = 1, 2, K , k .
Esta propriedade estabelece que: se o valor esperado de y condicionado por x é uma função linear de certas funções de x, esta função linear também representa a projecção linear MQ. • Uma aplicação interessante da linearidade [propriedade b)] é a seguinte: suponha-se que y = xβ + zδ , onde os vectores x, β , z e δ são do tipo 1 × k , k × 1 , 1 × m e m × 1 , respectivamente. Seja w outro vector, de tipo 1× p . Facilmente se verifica que E ∗ ( y | w) = E ∗ ( x | w) β + E ∗ ( z | w)δ .
Com efeito,
E ∗ ( y | w) = w E ( wT w) −1 E ( wT y ) = w E ( wT w) −1 E{wT ( xβ + zδ )} = w E ( wT w) −1 E ( wT x) β + w E ( wT w) −1 E ( wT z )δ = E ( x | w) β + E ( z | w)δ . ∗
∗
.
Capítulo 4 – MRL com Regressores Endógenos
6
• Demonstração da propriedade c). Com efeito, sabe-se que
E ∗ ( y | x) = xβ∗ = x E ( xT x) −1 E ( xT y ) .
Para determinar E ∗ ( y | x, z ) , começa-se por notar, de acordo com técnica de inversão de matrizes por blocos, E ( xT x ) E ( x T z ) Qxx Qxz A11 A12 = Q Q = A A , T T zz 21 22 zx E ( z x) E ( z z ) −1
−1
onde: −
Qxx = E ( xT x) ; Qxz = E ( xT z ) ; Qzx = E ( z T x) ; Qzz = E ( z T z ) ;
−
A11 = Qxx−1 + Qxx−1Qxz A22QzxQxx−1 ;
−
−
−
A22 = (Qzz − QzxQxx−1Qxz ) −1 ;
A12 = −Qxx−1Qxz A22 ;
A21 = − A22QzxQxx−1 .
Então,
E ( x T x ) E ( xT z ) E ( xT y ) E ( y | x, z ) = [ x z ] T T T E ( z x) E ( z z ) E ( z y ) A11 A12 E ( xT y ) = [ x z ] T A21 A22 E ( z y ) −1
∗
A E ( xT y ) + A12 E ( z T y ) = [ x z ] 11 T T A21E ( x y ) + A22 E ( z y ) = x{ A11E ( xT y ) + A12 E ( z T y )} + z{ A21E ( xT y ) + A22 E ( z T y )} = xδ ∗ + zγ ∗ ,
onde δ ∗ = A11E ( xT y ) + A12 E ( z T y ) e γ ∗ = A21E ( xT y ) + A22 E ( z T y ) . Logo,
E ∗{E ∗ ( y | x, z ) | x} = E ∗ ( xδ ∗ + zγ ∗ | x) = xδ ∗ + E ∗ ( z | x) γ ∗ = xδ ∗ + xQxx−1Qxz γ ∗
= x{ A11E ( xT y ) + A12 E ( z T y )} + xQxx−1Qxz { A21E ( xT y ) + A22 E ( z T y )} = x{ A11 + Qxx−1Qxz A21}E ( xT y ) + x{ A12 + Qxx−1Qxz A22 }E ( z T y ) = xβ∗ ,
uma vez que A11 + Qxx−1Qxz A21 = Qxx−1 e A12 + Qxx−1Qxz A22 = O . A regra da projecção linear MQ iterada permite obter um resultado interessante. Sabe-se que E ∗ ( y | x) = xβ∗ e E ∗{E ∗ ( y | x, z ) | x} = xδ ∗ + E ∗ ( z | x) γ ∗ . Fazendo Π = Qxx−1Qxz ,
vem E ∗ ( z | x) = xQxx−1Qxz = x Π , e, portanto, β∗ = δ ∗ + Πγ ∗ [este resultado deve ser
comparado com aquele que permite obter o enviesamento das variáveis omitidas num modelo de regressão linear; ver adiante].
Capítulo 4 – MRL com Regressores Endógenos
7
• Demonstração da propriedade d). Seja µ ( x, z ) = E ( y | x, z ) e y = µ ( x, z ) + u , onde E (u | x, z ) = 0 . Então, E ∗ ( y | x) = E ∗{µ ( x, z ) + u | x} = E ∗{µ ( x, z ) | x} + E ∗ (u | x) = E ∗{µ ( x, z ) | x} ,
porque E ( xT u ) = 0 e E ∗ (u | x) = x E ( xT x) −1 E ( xT u ) = 0 . • Demonstração da propriedade e). Com efeito, tem-se y = xβ∗ + zγ ∗ + u∗ , a verificar E ( xT u∗ ) = 0 e E ( z T u∗ ) = 0 . Então, E ∗ ( y | z ) = E ∗ ( x | z ) β∗ + zγ ∗ . Subtraindo ordenadamente esta igualdade da primeira, tem-se y − E ∗ ( y | z ) = {x − E ∗ ( x | z )}β∗ + u∗ , ou v = r β∗ + u∗ . Como r é uma combinação linear de x e z, vem E (r T u∗ ) = 0 . Multiplicando à esquerda v = r β∗ + u∗ por r T , obtém-se r T v = r T r β∗ + r T u∗ . Portanto, E (r T v) = E (r T r ) β∗ e β∗ = E (r T r ) −1 E (r T v) ,
supondo que existe E (r T r ) −1 . Tem-se E (r T v) = E (r T { y − E ∗ ( y | z )}) = E (r T y ) − E{r T E ∗ ( y | z )} . Como r é ortogonal a z, e como E ∗ ( y | z ) é função linear de z, r também ortogonal a E ∗ ( y | z ) . Então,
E (r T v) = E (r T y ) . • É importante analisar o significado da propriedade e). Por hipótese, β∗ é o vector dos coeficientes das variáveis consideradas no vector x, quando se faz a projecção linear MQ de y sobre x e z. Como r = x − E ∗ ( x | z ) , o vector dos resíduos r pode ser interpretado como sendo o vector x expurgado da influência de z, em que esta influência é dada pela projecção linear MQ de x sobre z; da mesma forma, v é considerado o vector y expurgado da influência de z. A propriedade e) prova que β∗ também pode obtido fazendo a projecção linear MQ de v sobre r: β∗ é o vector dos coeficientes desta projecção. Quando x1 = 1 (um dos regressores é constante), fazendo x = [ 1 x2 K xk ] = [ 1 x( 2 ) ],
onde x( 2 ) = [ x2 K xk ], obtém-se
1 xT x = T x( 2 )
Considerando
y e xT y = T . x x x( 2 ) y x
( 2) T ( 2) ( 2)
β 2∗ β β ∗ = , onde β •∗2 = M , β β k∗ ∗ 1 ∗ •2
E ∗ ( y | x) = E ∗ ( y | 1, x( 2) ) = xβ∗ = β1∗ + x( 2 ) β •∗2 .
tem-se
Como
Capítulo 4 – MRL com Regressores Endógenos
8
1 E ( x( 2) ) β1∗ E ( y ) , = E ( x T x ) β ∗ = E ( xT y ) ⇔ E ( x(T2 ) ) E ( x(T2 ) x( 2 ) ) β ∗ E ( x(T2) y ) • 2 vem
β1∗ + E ( x( 2 ) ) β •∗2 = E ( y ) ∗ ∗ T T T E ( x( 2 ) ) β1 + E ( x( 2 ) x( 2 ) ) β •2 = E ( x( 2) y ) .
Resolvendo a primeira equação em ordem a β1∗ , e substituindo na segunda, obtém-se
E ( x T x ) − E ( xT ) E ( x ) β ∗ = E ( xT y ) − E ( xT ) E ( y ) . ( 2) ( 2) ( 2) ( 2) • 2 ( 2) ( 2)
Deste modo, (4.3)
β •∗2 = Cov( x( 2 ) ) −1 Cov( x(T2 ) , y ) ∗ ∗ β1 = E ( y ) − E ( x( 2 ) ) β • 2 .
Como y = xβ∗ + u∗ , com E ( xT u∗ ) = 0 , a existência de um regressor constante ( x1 = 1 ) implica que E (u∗ ) = 0 . Então, Cov( x j , u∗ ) = E ( x j u∗ ) − E ( x j ) E (u∗ ) = 0. Assim, o resíduo da projecção linear MQ tem valor esperado nulo e não está correlacionado com qualquer regressor. Suponha-se que se pretende determinar E ∗ (ε t | ε t −1 , K , ε t − m ) , quando {ε t } é um ruído branco. Fazendo
y = ε t e x = [ ε t −1 ε t − 2 L ε t − m ] ,
tem-se
ε2 ε ε ε t −1ε t − 2 L ε t −1ε t − m t −1 t −1 t 2 ε t − 2ε t ε ε ε t − 2 L ε t − 2ε t − m T xT x = t − 2 t −1 e x y= . M M M M ε ε 2 ε ε t − m t t − m t −1 ε t − mε t − 2 L ε t − m
Donde
E ( xT x) = σ ε2 I m , E ( xT y ) = 0 e β∗ = (σ ε2 I m ) −1 0 = 0 .
Logo,
E ∗ (ε t | ε t −1 , K , ε t − m ) = 0 .
Do mesmo modo, se prova que
E ∗ (ε t | 1, ε t −1 , K , ε t − m ) = 0 .
Contudo, não fica garantido que E (ε t | ε t −1 , K , ε t − m ) = 0 , porque há ruídos brancos que não são diferença-martingalas; é o caso do processo {ε t } , onde ε t = cos(t w) e w ~ U (0, 2π ) [ver anexo 3A].
Capítulo 4 – MRL com Regressores Endógenos
9
O modelo de regressão linear com regressores endógenos Considere-se, de novo, o modelo de regressão linear, yt = xt • β + ut (equação estrutural). Quando este modelo verifica as hipóteses RPD.3 (todos os regressores são pré-determinados) e RPD.4 (condição de característica), conclui-se imediatamente que xt • β é a projecção linear MQ de yt sobre xt • , e β é o respectivo vector dos coeficientes. Antes de prosseguir, vai formalizar-se a definição de regressor endógeno.
Definição 4.2 – Regressor endógeno Diz-se que o regressor x j é endógeno se e só se, qualquer que seja t, E ( xtj ut ) ≠ 0 . Suponha-se que no modelo de regressão linear há pelo menos um regressor endógeno, não se verificando, portanto, a hipótese RPD.3. Quando se considera o vector β dos verdadeiros valores dos coeficientes de regressão, a condição de ortogonalidade (4.4)
E{xtT• ( yt − xt • β )} = 0
não é verdadeira. Continuando a supor que o processo {( yt , xt • )} é estacionário e ergódico (hipótese RPD.2) e que Qxx = E ( xtT• xt • ) existe e tem inversa (RPD.4), pode concluir-se que, tendo em conta as considerações feitas sobre a regressão de tipo II, existe um vector β ∗ que satisfaz as condições de ortogonalidade, (4.5)
(4.6)
E{xtT• ( yt − xt • β∗ )} = 0 .
Assim, E ∗ ( yt | xt • ) = xt• β ∗ é a respectiva projecção linear MQ, e
β∗ = E ( xtT• xt • ) −1 E ( xtT• yt ) = Qxx−1 qxy
é o vector dos coeficientes na projecção linear MQ. Note-se que
β∗ = E ( xtT• xt • ) −1 E{xtT• ( xt • β + ut )} = β + E ( xtT• xt • ) −1 E ( xtT•ut ) ,
e que
E ∗ ( yt | xt • ) = xt • β∗ = xt • β + xt • E ( xtT• xt • ) −1 E ( xtT•ut ) = xt • β + E ∗ (ut | xt • ) . ~ Nestas condições, tem-se yt = xt • β∗ + ut∗ = yt∗ + ut∗ , onde β (valor hipotético de β ) é igual a β ∗ , ut∗ é o respectivo resíduo e yt∗ = xt • β∗ . Como E ( xtT•ut∗ ) = 0 , é imediato verificar que E ( yt∗ut∗ ) = 0 . Além disso, não se verifica E ( yt | xt • ) = xt • β , uma vez que E (ut | xt • ) ≠ 0 ; apenas é possível escrever E ( yt | xt• ) = xt • β + E (ut | xt • ) . A presença de regressores endógenos implica que o estimador MQ, b, não é consistente para estimar β . No entanto, atendendo a (4.6) e ao teorema da ergodicidade, é imediato que
Capítulo 4 – MRL com Regressores Endógenos
10
1 n 1 n b = S s = ∑t =1 xtT• xt • ∑t =1 xtT• yt = ( X T X ) −1 X T Y n n −1
−1 xx xy
é estimador consistente de β ∗ . Pode, então, afirmar-se que, existindo regressores endógenos, b não é estimador consistente de β (vector dos coeficientes de regressão), mas é estimador consistente de outro vector de parâmetros, o vector β ∗ dos coeficientes na projecção linear MQ. O enviesamento assintótico do estimador MQ, quando se pretende estimar β , é dado por plim(b) − β = β∗ − β = E ( xtT• xt • ) −1 E ( xtT•ut ) ,
que se designa por enviesamento da endogeneidade. Pode aprofundar-se esta questão, fazendo a separação entre regressores pré-determinados e regressores endógenos. Seja o MRL yt = zt • β•1 + xt • β• 2 + ut a verificar: E ( ztT•ut ) = 0 ( zt • é pré-determinado); E ( xtT•ut ) ≠ 0 ( xt • é endógeno); E ( ztT• xt • ) = O ( zt • e xt • não estão correlacionados). Considerando esta partição dos regressores em endógenos e em pré-determinados, vai demonstrar-se que, na projecção linear MQ de yt sobre zt • e xt • , o vector dos coeficientes de zt • é β •1 . Com efeito, fazendo E ∗ ( yt | zt • , xt • ) = zt • β •∗1 + xt • β•∗2 , obtém-se β ∗ E ( zT z ) E ( zT x ) t• t• t• t• •1 β∗ = = T β•∗2 E ( xt • zt • ) E ( xtT• xt • )
−1
E ( z T y ) E ( z T z ) −1 E ( zT y ) O t• t t• t• t• t = , T T E ( xt • yt ) O E ( xt • xt • ) −1 E ( xtT• yt )
β•∗1 E ( ztT• zt • ) −1 E ( ztT• yt ) = . T T −1 ∗ β • 2 E ( xt • xt • ) E ( xt • yt )
ou
β∗ = Como
E ( ztT• yt ) = E{ztT• ( zt • β •1 + xt • β• 2 + ut )} = E ( ztT• zt • ) β •1 ,
E ( xtT• yt ) = E{xtT• ( zt • β •1 + xt • β • 2 + ut )} = E ( xtT• xt • ) β • 2 + E ( xtT•ut ) , vem
β•1 β •∗1 β∗ = ∗ = . T T −1 β • 2 β • 2 + E ( xt • xt • ) E ( xt •ut ) Conclui-se, então, que
E ∗ ( yt | zt • , xt • ) = zt • β•1 + xt • β • 2 + xt • E ( xtT• xt • ) −1 E ( xtT•ut ) .
Pode também calcular-se E ∗ (ut | zt • , xt • ) = zt •δ •∗1 + xt •δ •∗2 . Tem-se:
Capítulo 4 – MRL com Regressores Endógenos
11
E ( zT u ) δ ∗ E ( z T z ) −1 O t• t• t• t •1 δ∗ = ∗ = 1 − T δ • 2 O E ( xt • xt • ) E ( xtT•ut ) E ( z T z ) −1 E ( z T u ) 0 t• t• t• t . = = E ( xtT• xt • ) −1 E ( xtT•ut ) E ( xtT• xt • ) −1 E ( xtT•ut ) E ∗ (ut | zt • , xt • ) = xt • E ( xtT• xt • ) −1 E ( xtT•ut ) ,
Então,
e, portanto,
E ∗ ( yt | zt • , xt • ) = zt • β •1 + xt • β • 2 + E ∗ (ut | zt • , xt • ) .
Como ut∗ = yt − E ∗ ( yt | zt • , xt • ) , conclui-se que
ut∗ = yt − E ∗ ( yt | zt • , xt • ) = yt − zt • β •1 − xt • β • 2 − xt • E ( xtT• xt • ) −1 E ( xtT•ut ) = ut − E ∗ (ut | zt • , xt • ),
ou ut = ut∗ + E ∗ (ut | zt • , xt • ) . No capítulo 3, nos comentários à hipótese RPD.3, fez-se uma referência a três situações típicas de endogeneidade: omissão de variáveis; erros de medida nas variáveis; simultaneidade. Nas duas subsecções seguintes vão analisar-se as duas primeiras situações. A simultaneidade vai ser abordada na próxima secção. Omissão de variáveis Começa-se por analisar o enviesamento da endogeneidade no caso de omissão de variáveis (regressores). Considere-se a equação estrutural, E ( yt | xt • , wt • ) = xt • β + wt •δ ,
onde: xt • é um vector 1 × k de regressores; β é o vector k × 1 dos respectivos coeficientes; wt • é outro vector 1 × m de regressores; δ é o respectivo vector m × 1 dos coeficientes. Explicitando a variável residual, vem yt = xt • β + wt •δ + vt ,
onde E (vt | xt • , wt • ) = 0 . Deste modo, todos os regressores são pré-determinados: E ( xtT•vt ) = 0 ; E ( wtT•vt ) = 0 .
Em particular, o interesse pode incidir sobre cada parâmetro estrutural β j (as componentes do vector β ), que mede o efeito parcial de x j sobre y (considerando constante todos os outros regressores). Admitindo que os regressores wt • são omitidos (porque, por exemplo, não são observáveis), a equação estimável (MRL subparametrizado) é yt = xt • β + ut ,
Capítulo 4 – MRL com Regressores Endógenos
12
onde ut = wt •δ + vt . Se o modelo tem termo independente ( xt1 = 1 ), pode, sem perda de generalidade, supor-se que E ( wt • ) = 0 . Neste caso, a variável residual da equação estimável tem valor esperado nulo, E (ut ) = 0 . Como, em geral, Cov( xt • , wt • ) ≠ O , o modelo disponível tem regressores endógenos, e o estimador MQ de β não é consistente. Embora E (ut | xt • ) ≠ E (ut ) , cada β j continua a ter a interpretação estrutural referida, porque β j aparece em yt = xt • β + ut . Para calcular a projecção linear MQ de yt sobre xt • , faz-se E ∗ ( yt | xt • ) = xt • β∗ , e tem-se E ∗ ( yt | xt • ) = E ∗ ( xt • β + wt •δ + vt | xt • ) = E ∗ ( xt • | xt • ) β + E ∗ ( wt • | xt • )δ + E ∗ (vt | xt • )
= xt • β + xt • E ( xtT• xt • ) −1 E ( xtT• wt • )δ + xt • E ( xtT• xt • ) −1 E ( xtT•vt )
= xt • β + xt • E ( xtT• xt • ) −1 E ( xtT• wt • )δ
= xt •{β + E ( xtT• xt • ) −1 E ( xtT• wt • )δ } = xt • ( β + Γ∗δ ),
onde Γ∗ = E ( xtT• xt • ) −1 E ( xtT• wt • ) . Neste caso, tem-se
β∗ = β + Γ∗ δ .
O resíduo da projecção linear MQ de yt sobre xt • é
ut∗ = yt − E ∗ ( yt | xt • ) = yt − xt • ( β + Γ∗ δ ) ,
que é ortogonal a xt • : E ( xtT•ut∗ ) = 0 [se o modelo tem termo independente, o resíduo ut∗ tem valor esperado nulo e não está correlacionado com xt • ]. Notando que a projecção linear MQ de wt • sobre xt • é E ∗ ( wt • | xt • ) = xt • E ( xtT• xt • ) −1 E ( xtT• wt • )= xt •Γ∗ ,
pode escrever-se wt • = xt •Γ∗ + rt • , onde E ( xtT•rt • ) = O [se o modelo tem termo independente, E (rt • ) = 0 e Cov( xt • , rt • ) = O ]. Então, yt = xt • β + wt •δ + vt = xt • β + ( xt •Γ∗ + rt • )δ + vt = xt • ( β + Γ∗δ ) + ut∗ ,
em que ut∗ = rt •δ + vt é o resíduo da projecção linear MQ de yt sobre xt • . Daqui, também, se conclui que ut = xt •Γ∗δ + ut∗ . Naturalmente, xt •Γ∗δ é a projecção linear MQ de ut sobre xt • . O cálculo directo confirma este resultado: E ∗ (ut | xt • ) = E ∗ ( wt •δ + vt | xt • ) = E ∗ ( wt • | xt • )δ = xt •Γ∗δ .
Quando se utiliza o estimador b para estimar β , tem-se plim(b) = β + Γ∗ δ .
O respectivo enviesamento da endogeneidade, Γ∗ δ , chama-se enviesamento das variáveis omitidas. Pode concluir-se o seguinte: quando há variáveis omitidas, os estimadores MQ de todos os coeficientes de regressão da equação estimável são assintoticamente enviesados.
Capítulo 4 – MRL com Regressores Endógenos
13
Em particular, suponha-se que apenas se tem uma variável omitida, wt , e que a atenção incide especialmente sobre a correlação entre wt e um dos regressores não omitidos (por exemplo, xtk ). Admitindo que há termo independente, suponha-se que todos os coeficientes da projecção linear MQ de wt sobre xt • são nulos, excepto o termo independente e o coeficiente de xtk , ou seja, wt = γ 1∗ + γ k∗ xtk + rt . Neste caso, plim(b j ) = β j ( j = 2, 3, K , k − 1 ), e plim(bk ) = β k + δ
Cov( xtk , wt ) . Var ( xtk )
Esta fórmula permite, sem dificuldade, determinar o sinal, e talvez a magnitude, da inconsistência de bk . Por exemplo, se δ > 0 , e xtk e wt estão positivamente correlacionados, o enviesamento assintótico é positivo. Se a variância de xtk (na população) é grande relativamente à covariância entre xtk e wt , então o enviesamento é pequeno. Por exemplo, sabe-se que a equação estrutural é yt = β1 + β 2 xt 2 + β 3 xt 3 + δ wt + vt ,
mas foi omitido wt . A equação estimável é dado por
yt = β1 + β 2 xt 2 + β3 xt 3 + ut .
Tem-se
Então,
γ 1∗ 1 E ( xt 2 ) E ( xt 3 ) ∗ Γ∗ = γ 2 = E ( xt 2 ) E ( xt22 ) E ( xt 2 xt 3 ) ∗ 2 γ 3 E ( xt 3 ) E ( xt 2 xt 3 ) E ( xt 3 )
−1
E ( wt ) E ( xt 2 wt ) . E ( xt 3 wt )
E ∗ ( yt | 1, xt 2 , xt 3 ) = β1 + β 2 xt 2 + β 3 xt 3 + δ E ∗ ( wt | 1, xt 2 , xt 3 ) .
Fazendo E ∗ ( wt | 1, xt 2 , xt 3 ) = γ 1∗ + γ 2∗ xt 2 + γ 3∗ xt 3 , obtém-se
E ∗ ( yt | 1, xt 2 , xt 3 ) = β1 + β 2 xt 2 + β3 xt 3 + δ (γ 1∗ + γ 2∗ xt 2 + γ 3∗ xt 3 )
= ( β1 + δ γ 1∗ ) + ( β 2 + δ γ 2∗ ) xt 2 + ( β 3 + δ γ 3∗ ) xt 3 .
Alternativamente, como
wt = γ 1∗ + γ 2∗ xt 2 + γ 3∗ xt 3 + rt ,
onde E (rt ) = 0 , Cov( xt 2 , rt ) = 0 e Cov( xt 2 , rt ) = 0 , tem-se
yt = ( β1 + δ γ 1∗ ) + ( β 2 + δ γ 2∗ ) xt 2 + ( β3 + δ γ 3∗ ) xt 3 + ut∗ ,
onde ut∗ = δ rt + vt é o resíduo da projecção linear de MQ de yt sobre 1, xt 2 e xt 3 . Pode concluir-se que plim(b1 ) = β1 + δ γ 1∗ , plim(b2 ) = β 2 + δ γ 2∗ e plim(b3 ) = β3 + δ γ 3∗ . Verifica-se, assim, que os três estimadores sofrem do enviesamento da variável omitida. Em particular, se, por exemplo, apenas existe uma correlação importante entre xt 3 e wt , pode fazer-se γ 2∗ = 0 . Então, plim(b2 ) = β 2 e
Capítulo 4 – MRL com Regressores Endógenos plim(b3 ) = β 3 + δ
14
Cov( xt 3 , wt ) . Var ( xt 3 )
O enviesamento das variáveis omitidas pode ser eliminado, ou atenuado, introduzindo variáveis proxy, isto é, variáveis que podem representar razoavelmente as variáveis omitidas não observáveis. Para facilitar a exposição, vai supor-se que wt (escalar) é a única variável omitida (não observável), e que a equação estrutural tem termo independente:
yt = xt • β + δ wt + vt = β1 + β 2 xt 2 + β 3 xt 3 + L + β k xtk + δ wt + vt .
Supõe-se que qt é uma variável proxy de wt . Para isso, é necessário que qt verifique dois requisitos: 1) A variável proxy qt é redundante (ignorável) na equação estrutural:
E ( yt | xt • , wt , qt ) = E ( yt | xt • , wt ) .
Facilmente se interpreta esta condição: qt é redundante para explicar yt , desde que se controle xt • e wt . A hipótese da redundância é raramente controversa, pois admite-se que a única razão para haver preocupação com qt é porque wt não é observável. Por exemplo, seja wt a aptidão do indivíduo t, e qt , o QI; supondo que a aptidão afecta os salários, o QI não teria importância se fosse possível observar a aptidão. A condição de redundância poderia ser substituída por outra condição mais fraca, que estabelece a não correlação entre vt e qt . A utilização da condição mais forte permite cobrir os casos em que qt tem interacções com os xtj . 2) A correlação entre wt e xt • , expurgada da influência de qt , é nula. Este requisito pode ser apresentado usando o operador de projecção linear MQ:
E ∗ ( wt | xt • , qt ) = E ∗ ( wt | 1, qt ) .
Para melhor se compreender esta condição, seja E ∗ ( wt | 1, qt ) = θ0 + θ1 qt , ou
wt = θ 0 + θ1 qt + rt ,
onde, por definição, E (rt ) = 0 e Cov(qt , rt ) = 0 . Se qt é uma proxy razoável de wt , tem-se θ1 ≠ 0 (em geral, θ1 > 0 ). Mas, a segunda condição exige muito mais: é equivalente a Cov( xtj , rt ) = 0 , para j = 2, 3, K , k . Esta condição requer que qt esteja suficientemente correlacionado com wt , para que a correlação parcial entre xtj e wt (expurgada da influência de qt ) seja nula. Substituindo na equação estrutural wt por θ 0 + θ1 qt + rt , obtém-se a equação estimável, yt = β1 + β 2 xt 2 + β 3 xt 3 + L + β k xtk + δ (θ 0 + θ1 qt + rt ) + vt
= ( β1 + δ θ 0 ) + β 2 xt 2 + β 3 xt 3 + L + β k xtk + δ θ1 qt + (δ rt + vt ),
ou
yt = β10 + β 2 xt 2 + β 3 xt 3 + L + β k xtk + δ 0 qt + ut ,
onde β10 = β1 + δ θ 0 , δ 0 = δ θ1 e ut = δ rt + vt .
Capítulo 4 – MRL com Regressores Endógenos
15
Deste modo, os regressores xtj não estão correlacionados com ut ; a proxy qt também não está correlacionada com ut (devido à redundância, a correlação com vt é nula; por definição, não está correlacionada com rt ). Desta forma, o método MQ fornece estimadores consistentes de β10 , β 2 , β 3 ,..., β k e δ 0 . Assim, podem estimar-se os coeficientes estruturais β j ( j = 2, 3, K , k ) [que permite medir os efeitos parciais dos xtj sobre E ( yt | xt • , wt ) ]. Quando qt é uma proxy imperfeita, rt está correlacionado com um ou mais xtj . Se não se impuser a segunda condição, a projecção linear MQ de wt sobre xt • e qt é dada por
wt = θ 0 + α 2 xt 2 + α 3 xt 3 + L + α k xtk + θ1 qt + rt .
Então,
yt = β10 + β 20 xt 2 + β 30 xt 3 + L + β k0 xtk + δ 0 qt + ut ,
onde β10 = β1 + δ θ 0 , β 0j = β1 + δ α j ( j = 2, 3, K , k ), δ 0 = δ θ1 e ut = δ rt + vt . Neste caso, tem-se plim(b j ) = β j0 = β1 + δ α j ( j = 2, 3, K , k ) [o estimador MQ com proxy imperfeita não é consistente]. Para qt ser uma proxy razoável é de esperar que α j seja pequeno. Se a inclusão de qt induz multicolinearidade substancial, é mais aconselhável fazer a regressão sem a variável proxy. Contudo, a inclusão de qt reduz a variância da variável residual (se θ1 ≠ 0 ): Var (δ rt + vt ) < Var (δ wt + vt ) [porque Var (rt ) < Var ( wt ) ], e vt não está correlacionado com rt e com wt ]. Pode utilizar-se mais do que uma variável proxy para wt . Por exemplo, fazendo wt = θ 0 + θ1 qt1 + θ 2 qt 2 + rt , com Cov( xtj , rt ) = 0 ( j = 2, 3, K , k ), o problema da omissão de variáveis fica resolvido. Quando existem interacções entre regressores observáveis e variáveis explicativas não observáveis, o problema da omissão de variáveis ainda pode ser resolvido com variáveis proxy. Suponha-se que a equação estrutural é
yt = β1 + β 2 xt 2 + β 3 xt 3 + L + β k xtk + δ1wt + δ 2 wt xtk + vt ,
onde E (vt | xt • , wt ) = 0 [para simplificar, considerou-se apenas a interacção entre xtk e wt ]. Supondo que xtk é quantitativa e contínua, o efeito parcial sobre E ( yt | xt • , wt ) é dado por
∂ E ( yt | xt • , wt ) = β k + δ 2 wt , ∂ xtk
verificando-se que este efeito depende do nível de wt , e, portanto, não é estimável. Contudo, supondo que E ( wt ) = 0 , o efeito parcial médio (EPM) é E ( β k + δ 2 wt ) = β k . Se xtk é quantitativa e discreta, pode fazer-se uma interpretação semelhante. Se xtk é uma variável artificial, o efeito parcial é
E ( yt | xt 2 , xt 3 , K , xt , k −1 ,1, wt ) − E ( yt | xt 2 , xt 3 , K , xt , k −1 , 0, wt ) = β k + δ 2 wt .
Se E ( wt ) = µ w ≠ 0 , o efeito parcial médio é β k + δ 2 µ w .
Capítulo 4 – MRL com Regressores Endógenos
16
A seguir vai analisar-se a questão da estimação da equação estrutural. Começa-se por supor que E ( wt | xt • ) = 0 [não há qualquer associação, linear ou não, entre wt e xt • ]. Neste caso, as parcelas que envolvem a variável não observável vão incluir-se na componente residual, obtendo-se
yt = β1 + β 2 xt 2 + β3 xt 3 + L + β k xtk + ut ,
onde ut = δ1wt + δ 2 wt xtk + vt . Como E (vt | xt • ) = E{E (vt | xt • , wt ) | xt •} = 0 e
E (ut | xt • ) = δ1 E ( wt | xt • ) + δ 2 xtk E ( wt | xt • ) + E (vt | xt • ) = 0 ,
o estimador MQ de cada β j é consistente [a hipótese E ( wt | xt • ) = 0 é crucial para obter esta conclusão; não basta exigir que não há correlação entre wt e xt • , pois pode existir correlação entre wt xtk e xt • ]. Quando wt e xt • estão correlacionados, o estimador MQ de cada β j é consistente, desde que se disponha de uma proxy adequada para wt . Neste caso, os requisitos a exigir são os seguintes: 1) E ( yt | xt • , wt , qt ) = E ( yt | xt • , wt ) (redundância); 2) E ( wt | xt • , qt ) = E ( wt | qt ) = θ1 qt , com E (qt ) = 0 .
Este segundo requisito é mais forte do que no caso em que não há interacções. Para obter a equação estimável, começa-se por notar que, devido à redundância, tem-se E (vt | xt • , wt , qt ) = E (vt | xt • , wt ) = 0 . Então, a regra do valor esperado iterado permite estabelecer que E (vt | xt • , qt ) = 0 . O segundo requisito é equivalente a supor que E (rt | xt • , qt ) = E (rt | qt ) = 0 , uma vez que wt = θ1 qt + rt . Então, considerando a equação estrutural, obtém-se
yt = β1 + β 2 xt 2 + β 3 xt 3 + L + β k xtk + δ1 (θ1 qt + rt ) + δ 2 (θ1 qt + rt ) xtk + vt
= β1 + β 2 xt 2 + β3 xt 3 + L + β k xtk + δ1θ1 qt + δ 2θ1 qt xtk + δ1rt + δ 2 rt xtk + vt ,
ou
yt = β1 + β 2 xt 2 + β3 xt 3 + L + β k xtk + δ10 qt + δ 20 qt xtk + ut ,
onde δ10 = δ1θ1 , δ 20 = δ 2θ1 e ut = δ1rt + δ 2 rt xtk + vt . Facilmente se verifica que E (ut | xt • , qt ) = 0 . Com efeito,
E (ut | xt • , qt ) = E (δ1rt + δ 2 rt xtk + vt | xt • , qt )
= δ1E (rt | xt • , qt ) + δ 2 xtk E (rt | xt • , qt ) + E (vt | xt • , qt ) = 0 .
Se E (qt ) ≠ 0 , faz-se E ( wt | qt ) = θ 0 + θ1 qt , e o coeficiente de xtk na equação estimável é β k + δ 2θ 0 . Neste caso, o estimador MQ de β k não é consistente. Como na prática não se conhece E (qt ) , deve utilizar-se as observações centradas da proxy, qt − q , para fazer a interacção com xtk : o regressor passa a ser (qt − q ) xtk , em vez de qt xtk . Mesmo que não haja heterocedasticidade condicionada na equação estrutural – Var ( yt | xt • , wt , qt ) = Var( yt | xt • , wt ) = σ 2 –, existe heterocedasticidade condicionada na equação estimável. De facto, recorrendo à propriedade i) dos valores esperados condicionados (ver capítulo 1), tem-se
Capítulo 4 – MRL com Regressores Endógenos
17
Var ( yt | xt • , qt ) = E{Var ( yt | xt • , wt , qt ) | xt • , qt } + Var{E ( yt | xt • , wt , qt ) | xt • , qt }
= σ 2 + (δ1 + δ 2 xtk ) 2 Var( wt | xt • , qt ).
Assim, existe heterocedasticidade condicionada, mesmo que Var ( wt | xt • , qt ) seja constante: Var ( yt | xt • , qt ) depende de xtk . Em qualquer caso, devem utilizar-se erros padrão robustos para fazer inferência estatística. Suponha-se, agora, que a equação de regressão que se vai estimar tem regressores em excesso. Assim, admita-se que a equação estrutural é dada por
yt = xt • β + vt ,
mas a equação a estimar é (MRL sobreparametrizado)
yt = xt • β + wt •δ + ut .
Considere-se que todas as variáveis são pré-determinadas:
E ( xtT•vt ) = 0 ; E ( wtT•vt ) = 0 .
Notando que ut = vt − wt •δ , verifica-se que wt • é endógeno na especificação disponível. De facto, tem-se E ( wtT•ut ) = E ( wtT•vt − wtT• wt •δ ) = − E ( wtT• wt • )δ . Seja E ( xtT• xt • ) E ( xtT• wt • ) A11 A12 A= = . A21 A22 E ( wtT• xt • ) E ( wtT• wt • ) −1
Para determinar a projecção linear MQ de yt sobre xt • e wt • ,
E ∗ ( yt | xt • , wt • ) = xt • β∗ + wt •δ ∗ ,
tem-se
ou
A A E ( xtT• yt ) E ∗ ( yt | xt • , wt • ) = [ xt • wt • ] 11 12 T A21 A22 E ( wt • yt ) A A E{xtT• ( xt • β + vt )} = [ xt • wt • ] 11 12 , T A21 A22 E{wt • ( xt • β + vt )}
E ( y t | xt • , wt • ) = [ xt • ∗
= [ xt •
A11 A12 E ( xtT• xt • ) wt • ] β T A21 A22 E ( wt • xt • ) I wt • ] β = x t • β , O
donde se conclui que β∗ = β e δ * = 0 . Assim,
plim( βˆ ) = β = β MQ ∗ plim(δˆMQ ) = δ ∗ = 0,
Capítulo 4 – MRL com Regressores Endógenos
18
ou seja, βˆMQ é assintoticamente não enviesado, e δˆMQ tem enviesamento assintótico igual a − δ . Pode, então, concluir-se o seguinte: o excesso de regressores não prejudica a estimação MQ dos coeficientes da equação estrutural. Erros de medida nas variáveis Começa-se por analisar o erro de medida no regressando. Suponha-se que a equação estrutural é
yt∗ = xt • β + vt
onde yt∗ representa qualquer observação de y sem erro. Supondo que E (vt | xt • ) = 0 , todos os regressores são pré-determinados, E ( xtT•vt ) = 0 , e E (vt ) = 0 . Quando y é observável com erro, os valores observados representam-se com yt ≠ yt∗ . O erro de medida (na população) é dado por et = yt − yt∗ . A equação estimável é, então,
yt = xt • β + ut ,
onde ut = et + vt . Em que condições se pode utilizar o método MQ para obter estimadores consistentes dos β j ? Vai supor-se que E (et ) = 0 [caso contrário, apenas se altera o termo independente da equação estimável]. A hipótese crucial para se ter consistência é a da ortogonalidade entre os regressores e o erro de medida, E ( xtT•et ) = 0 . Nestas condições, os regressores da equação estimável continuam a ser pré-determinados. Contudo, se E ( xtT•et ) ≠ 0 (ao contrário do que é habitual) há regressores endógenos, e o estimador MQ de algum β j não é consistente. Se et e vt não estão correlacionados, E (et vt ) = 0 , tem-se Var (et + vt ) = σ e2 + σ v2 > σ v2 ,
e, portanto, a variância da variável residual é maior quando existe erro de medição do regressando. Quando a equação estrutural é ln( yt∗ ) = xt • β + vt , tem-se et = ln( yt ) − ln( yt∗ ) ou ∗ yt = yt at , onde et = ln(at ) (erro de medida multiplicativo). A questão dos erros de medida nos regressores é mais complexa. Suponha-se que a equação estrutural é
yt = xt • β + zt∗•δ + vt ,
onde: xt • é um vector 1 × k de regressores; β é o vector k × 1 dos respectivos coeficientes; zt∗• é outro vector 1 × m de regressores; δ é o respectivo vector m × 1 dos coeficientes. Supõe-se que E (vt | xt • , zt∗• ) = 0 . Assim, admite-se que todos os regressores são pré-determinados [ E ( xtT•vt ) = 0 ; E{( zt∗• )T vt } = 0 ] e E (vt ) = 0 . Quando zt∗• é observável com erro, os valores observados são dados por
zt • = zt∗• + et • ,
onde et • é o erro de medição (na população).
Capítulo 4 – MRL com Regressores Endógenos
19
Vai admitir-se a hipótese de redundância de zt • ,
E ( yt | xt • , zt∗• , zt • ) = E ( yt | xt • , zt∗• ) .
Esta hipótese não é controversa, porque é razoável supor que zt • não tem efeito sobre yt , se se controlar zt∗• . Como E (vt | xt • , zt∗• , zt • ) = E (vt | xt • , zt∗• ) = 0 , facilmente se verifica que E ( ztT•vt ) = 0 . Com efeito,
E ( ztT•vt ) = E{E ( ztT•vt | zt • )} = E{ztT• E (vt | zt • )} = 0 ,
se se provar que E (vt | zt • ) = 0 . De facto, E (vt | zt • ) = E{E (vt | xt • , zt∗• , zt • ) | zt •} = 0 . Considerando os valores observados, zt • , a equação estimável é a seguinte:
yt = xt • β + zt •δ + ut ,
onde ut = vt − et •δ . Supõe-se que: E (et • ) = 0 [caso contrário, apenas se altera o termo independente da equação estimável]; E (et •vt ) = 0 ; E ( xtT•et • ) = O . Facilmente se verifica que
E ( ztT•et • ) = E{( zt∗• + et • )T et • } = E{( zt∗• )T et • } + E (etT•et • ) = E{( zt∗• )T et •} + Cov(et • ) .
Considerem-se os seguintes casos: 1) Se E ( ztT•et • ) = O , e como zt • = zt∗• + et • , resulta que E{( zt∗• )T et •} ≠ O . Neste caso, todos os regressores da equação estimável são pré-determinados, ou seja, E ( xtT•ut ) = 0 e E ( ztT•ut ) = 0 . Então, os vectores β e δ podem ser consistentemente estimados pelo método MQ. Neste caso, Var(ut ) = Var(vt − et •δ ) = σ v2 + Var(et •δ ) = σ v2 + δ T Cov(et • ) δ > σ v2 .
2) Se E{( zt∗• )T et •} = O , então E ( ztT•et • ) = E{( zt∗• + et • )T et •} = Cov(et • ) ≠ O . Como
E ( ztT•ut ) = E{ztT• (vt − et •δ )} = − Cov(et • ) δ ≠ 0 ,
existem regressores em zt • que são endógenos, e o método MQ fornece estimadores não consistentes de β e δ . A condição E{( zt∗• )T et • } = O é conhecida como a hipótese clássica dos erros nas variáveis (CEV). Para obter o enviesamento da endogeneidade neste caso, vai determinar-se a projecção linear MQ de yt sobre xt • e zt • : E ∗ ( yt | xt • , zt • ) = xt • β∗ + zt •δ ∗ . Começa-se por fazer E ( xtT• xt • ) E ( xtT• zt • ) A= T T E ( zt • xt • ) E ( zt • zt • )
−1
A11 A12 = . A21 A22
Então,
E ∗ ( yt | xt • , zt • ) = xt • β + zt •δ + E ∗ (ut | xt • , zt • )
= xt • β + zt •δ + E ∗ (vt | xt • , zt • ) − E ∗ (et • | xt • , zt • )δ ,
ou
Capítulo 4 – MRL com Regressores Endógenos
20
A A E ( xtT•vt ) E ∗ ( yt | xt • , zt • ) = xt • β + zt •δ + [ xt • zt • ] 11 12 T A21 A22 E ( zt •vt ) A A E ( xtT•et • ) δ − [ xt • zt • ] 11 12 T A21 A22 E ( zt •et • ) A A O = xt • β + zt •δ − [ xt • zt • ] 11 12 δ T A21 A22 E ( zt •et • ) A E ( ztT•et • ) = xt • β + zt •δ − [ xt • zt • ] 12 T δ A22 E ( zt •et • )
= xt •{β − A12 E ( ztT•et • ) δ } + zt •{δ − A22 E ( ztT•et • ) δ }.
Como E ( ztT•et • ) = Cov(et • ) , vem
E ∗ ( yt | xt • , zt • ) = xt •{β − A12Cov(et • ) δ } + zt •{δ − A22Cov(et • ) δ } .
Donde
β∗ = β − A12Cov(et • ) δ δ ∗ = δ − A22Cov(et • ) δ .
Assim,
plim( βˆ ) = β = β − A Cov(e ) δ t• MQ ∗ 12 plim(δˆMQ ) = δ ∗ = δ − A22Cov(et • ) δ ,
obtendo-se os enviesamentos de erros nos regressores (variáveis explicativas). A conclusão é a seguinte: quando existem regressores com erro, os estimadores MQ de todos os coeficientes de regressão do modelo disponível são assintoticamente enviesados. O estudo do enviesamento de erros nos regressores pode ser aprofundado tirando partido da projecção linear MQ de zt∗• sobre xt • , e da projecção linear MQ de zt • sobre xt • . A primeira projecção é dada por E ∗ ( zt∗• | xt • ) = xt • E ( xtT• xt • ) −1 E ( xtT• zt∗• ) = xt • ∆ ou zt∗• = xt •∆ + rt∗• ,
onde ∆ = E ( xtT• xt • ) −1 E ( xtT• zt∗• ) e rt∗• é o resíduo da projecção [ E ( xtT•rt∗• ) = O ; se existe termo independente, E (rt∗• ) = 0 e Cov( xt • , rt∗• ) = O ]. Como E ∗ (et • | xt • ) = xt • E ( xtT• xt • ) −1 E ( xtT•et • ) = 0 , a segunda projecção é E ∗ ( zt • | xt • ) = E ∗ ( zt∗• + et • | xt • ) = xt •∆ ou zt • = xt •∆ + rt • ,
onde rt • é o resíduo desta projecção [ E ( xtT•rt • ) = O ; se existe termo independente, vem E (rt • ) = 0 e Cov( xt • , rt • ) = O ]. De rt • = zt • − xt •∆ e zt • = zt∗• + et • , resulta imediatamente que rt • = rt∗• + et • .
Como E ∗ ( yt | xt • , zt • ) = xt • β∗ + zt •δ ∗ e zt • = xt •∆ + rt • , a propriedade e) das projecções lineares MQ permite concluir que E ∗ ( yt | rt • ) = rt •δ ∗ , onde δ ∗ = E (rtT• rt • ) −1 E (rtT• yt ) . Para obter uma expressão mais interessante para δ ∗ , começa-se por notar que
Capítulo 4 – MRL com Regressores Endógenos
21
E (rtT• yt ) = E{rtT• ( xt • β + zt •δ + vt − et •δ )}
= E (rtT• xt • ) β + E (rtT• zt • )δ + E (rtT• vt ) − E (rtT• et • )δ
= E (rtT• zt • )δ − E (rtT• et • )δ = E{rtT• ( zt • − et • )}δ = E (rtT• zt∗• )δ ,
porque E (rtT• xt • ) = O e E (rtT• vt ) = E{( zt • − xt •∆)T vt } = 0 . Logo, δ ∗ = E (rtT• rt • ) −1 E (rtT• zt∗• )δ . Como E (rtT• zt∗• ) = E{(rt∗• + et • )T ( xt •∆ + rt∗• )} = E{( rt∗• )T rt∗•} , obtém-se
δ ∗ = E (rtT• rt • ) −1 E{( rt∗• )T rt∗• }δ .
Quando existe termo independente, tem-se
δ ∗ = Cov(rt • ) −1 Cov(rt∗• )δ .
Notando que E{( rt∗• )T et • )} = E{( zt∗• − xt •∆)T et • )} = O , tem-se
E (rtT• rt • ) = E{( rt∗• + et • )T (rt∗• + et • )} = E{( rt∗• )T rt∗•} + Cov(et • ) .
Então,
ou
δ ∗ = {E{( rt∗• )T rt∗•} + Cov(et • )}−1 E{( rt∗• )T rt∗•}δ , δ ∗ = E (rtT• rt • ) −1{E (rtT• rt • ) − Cov(et • )}δ .
No caso de existir termo independente, obtém-se
δ ∗ = {Cov(rt∗• ) + Cov(et • )}−1 Cov(rt∗• )δ = Cov(rt • ) −1{Cov(rt • ) − Cov(et • )}δ .
Esta igualdade não é fácil de interpretar para m > 1 . Quando m = 1 [há apenas uma variável observável com erro; zt = zt∗ + et ], tem-se
plim(δˆMQ ) = δ ∗ =
Var(rt∗ ) Var(rt ) − Var (et ) δ= δ. ∗ Var(rt ) Var(rt ) + Var (et )
Como Var(rt∗ ) < Var(rt∗ ) + Var(et ) , conclui-se que | plim(δˆMQ ) | = | δ ∗ | < | δ | . Deste modo, em grandes amostras, o efeito parcial de z sobre y (medido por δ ), quando é estimado pelo método MQ, é atenuado devido à existência de erro de medida no regressor. Se δ > 0 , δˆMQ tende a sub-estimar δ ; se δ < 0 , δˆMQ tende a sobre-estimar δ . Para ilustrar as considerações anteriores, seja a equação estrutural
yt = β1 + β 2 xt 2 + β3 xt∗3 + vt ,
a verificar E (vt ) = 0 , E ( xt 2vt ) = 0 e E ( xt∗3vt ) = 0 . O regressor xt∗3 é observável com erro, e, portanto, xt 3 = xt∗3 + et , onde et é o erro de medição (na população). A hipótese da redundância de xt 3 garante que E ( xt 3vt ) = 0 . A equação estimável é dada por
yt = β1 + β 2 xt 2 + β3 xt 3 + ut ,
onde ut = vt − β3et . Supõe-se que E (et ) = 0 , E (et vt ) = 0 e E ( xt 2et ) = 0 . Supondo que se verifica a hipótese CEV, E ( xt∗3et ) = 0 , deduz-se que
E ( xt 3et ) = E{( xt∗3 + et ) et } = Var(et ) ≠ 0 ,
e que
Capítulo 4 – MRL com Regressores Endógenos
22
E ( xt 3ut ) = E{xt 3 (vt − β 3et )} = − β 3Var(et ) ≠ 0 , ou seja, xt 3 é regressor endógeno (na equação estimável). Facilmente se verifica que: E ∗ ( xt∗3 | 1, xt 2 ) = δ1 + δ 2 xt 2 ou xt∗3 = δ1 + δ 2 xt 2 + rt∗3 , on∗ de E (rt 3 ) = 0 e E ( xt 2 rt∗3 ) = 0 ; E ∗ ( xt 3 | 1, xt 2 ) = δ1 + δ 2 xt 2 ou xt 3 = δ1 + δ 2 xt 2 + rt 3 , a verificar E (rt 3 ) = 0 e E ( xt 2 rt 3 ) = 0 . Logo, rt 3 = rt∗3 + et e plim(b3 ) = β 3∗ =
Var(rt∗3 ) Var(rt 3 ) − Var(et 3 ) β3 = β3 . ∗ Var(rt 3 ) Var(rt 3 ) + Var (et )
Suponha-se, agora, que a equação estrutural é um modelo de regressão linear simples, yt = β1 + β 2 xt∗ + vt , em que a variável explicativa é pré-determinada, mas é observável com erro. Neste caso, a equação estimável passa a ser yt = β1 + β 2 xt + ut , em que xt = xt∗ + et e ut = vt − β 2 et . Com as hipóteses atrás referidas, pode calcular-se os enviesamentos assintóticos. Seja E ( xt ) a11 a12 1 A= = 2 a21 a22 E ( xt ) E ( xt )
Então,
−1
=
E ( xt2 ) − E ( xt ) 1 . Var( xt ) − E ( xt ) 1
E ( xt )Var (et ) β2 plim(b1 ) = β1∗ = β1 + Var ( xt ) plim(b ) = β ∗ = β − Var (et ) β . 2 2 2 Var( xt ) 2
Como plim(b2 ) = β 2∗ =
Var ( xt ) − Var(et ) Var ( xt∗ ) β2 = β Var ( xt ) Var( xt∗ ) + Var(et ) 2
e Var ( xt∗ ) < Var ( xt ) , tem-se | plim(b2 ) | = | β 2∗ | < | β 2 | ; quanto menor for Var (et ) relativamente a Var ( xt∗ ) , menor é o enviesamento assintótico. Nalguns casos, a hipótese clássica dos erros nas variáveis pode não ser verdadeira [como E ( ztT•et • ) = E{( zt∗• )T et • } + Cov(et • ) , pode acontecer que E{( zt∗• )T et • } ≠ O e que E ( ztT•et • ) ≠ O ]. Por exemplo, suponha-se que um dos factores que explica o salário dos trabalhadores é o consumo de marijuana. Seja marijuana∗ o número de dias por mês que o trabalhador fuma marijuana, e marijuana o número de dias por mês reportados pelo trabalhador. Postula-se que marijuana = marijuana∗ + e , e pode mesmo supor-se que os trabalhadores tentam reportar a verdade. É obvio que marijuana∗ = 0 implica marijuana = 0 [o erro de medida para os trabalhadores que não fumam marijuana é zero]. Quando marijuana ∗ > 0 , é mais provável que marijuana < marijuana∗ , do que o contrário. Deste modo, há correlação entre o erro de medida e marijuana∗ . Uma situação geral em que a hipótese CEV é necessariamente falsa é aquela em que Var ( zt ) < Var ( zt∗ ) ; neste caso, como Var ( zt ) = Var ( zt∗ ) + Var (et ) + 2 Cov( zt∗ , et ) , é óbvio que Cov( zt∗ , et ) < 0 . Por exemplo, se o número de anos de escolaridade é uma variável explicativa dos salários dos trabalhadores, há tendência para que educ (número
Capítulo 4 – MRL com Regressores Endógenos
23
de anos reportados) seja arredondado em relação a educ∗ (número de anos verificados). Portanto, Var(educ) < Var (educ∗ ) . 4.2 - Exemplos de modelos económicos com regressores endógenos
Na presente secção vão apresentar-se alguns exemplos, sendo os dois primeiros dedicados ao enviesamento da simultaneidade. Um modelo de procura e oferta num mercado em equilíbrio
Considere-se o seguinte modelo de procura e oferta de um certo produto:
(4.7)
qtd = α 0 + α1 pt + utd s s qt = β 0 + β1 pt + ut q d = q s t t
(equação da procura) (equação da oferta ) (equilíbrio de mercado),
onde: qtd qts pt utd uts
- quantidade do produto procurada no período t; - quantidade do produto oferecida no período t; - preço do produto no período t; - variável residual da equação da procura, relativa ao período t; - variável residual da equação da oferta, relativa ao período t.
A variável residual da equação da procura representa os factores que, para além do preço, influenciam a quantidade procurada (por exemplo, o rendimento dos consumidores); como as variações desta variável provocam deslocamentos da curva da procura (gráfico que representa a relação entre a quantidade procurada e o preço), a variável residual utd chama-se shifter da procura (não observável). A variável residual da equação da oferta diz respeito aos factores que, para além do preço, influenciam a quantidade oferecida (por exemplo, a dimensão média das empresas do mercado); como as variações desta variável implicam deslocamentos da curva da oferta, a variável residual uts chama-se shifter da oferta (não observável). Vai supor-se que: E (utd ) = 0 ; E (uts ) = 0 . Fazendo qt = qtd = qts , o modelo pode escrever-se da seguinte maneira: (4.8)
qt = α 0 + α1 pt + utd s qt = β 0 + β1 pt + ut
(equação da procura) (equação da oferta ).
Facilmente se verifica que o preço é função das duas variáveis residuais. Com efeito, resolvendo o sistema anterior em relação ao preço e à quantidade, tem-se
(4.9)
β 0 − α 0 uts − utd p = + t α 1 − β1 α 1 − β 1 s d q = α1 β 0 − α 0 β1 + α1ut − β1ut . t α1 − β1 α 1 − β1
Capítulo 4 – MRL com Regressores Endógenos
24
Então, como Cov( pt , utd ) =
Cov(utd , uts ) − Var(utd ) Var(uts ) − Cov(utd , uts ) ≠ 0 , Cov( pt , uts ) = ≠ 0, α1 − β1 α1 − β1
resulta que o preço é endógeno nas duas equações (procura e oferta); a endogeneidade é consequência do equilíbrio de mercado. Quando se estabelece que Cov(utd , uts ) = 0 , as covariâncias anteriores simplificam-se para (4.10)
Cov( pt , utd ) = −
Var(utd ) Var(uts ) ≠ 0 , Cov( pt , uts ) = ≠0. α 1 − β1 α1 − β1
Se, como habitualmente, α1 < 0 (curva da procura decrescente) e β1 > 0 (curva da oferta crescente) conclui-se que: a correlação entre o preço e o shifter da procura é positiva; a correlação entre o preço e o shifter da oferta é negativa. Quando se faz a regressão MQ da quantidade sobre uma constante e o preço, não se consegue estimar nem a equação da procura nem a equação da oferta, uma vez que o preço é endógeno nas duas equações. No entanto, como se viu na secção anterior, o estimador MQ é consistente para o vector dos coeficientes na projecção linear MQ. Atendendo a (4.3), o coeficiente do preço, nesta projecção, é dado por (4.11)
α1∗ = β1∗ =
Cov( pt , qt ) . Var( pt )
Considerando a equação da procura, tem-se
Cov( pt , qt ) = α1Var( pt ) + Cov( pt , utd ) ,
e
α1∗ = α1 +
Cov( pt , utd ) . Var( pt )
Representando por αˆ1 o estimador MQ de α1 , pode concluir-se que (4.12)
plim(αˆ1 ) = α1∗ = α1 +
Cov( pt , utd ) , Var( pt )
onde Cov( pt , utd ) Var( pt ) é o respectivo enviesamento da endogeneidade. Do mesmo modo, quando se considera a equação da oferta, obtém-se
β1∗ = β1 + e
Cov( pt , uts ) , Var( pt )
Capítulo 4 – MRL com Regressores Endógenos
25
Cov( pt , ut ) . plim( βˆ1 ) = β1∗ = β1 + Var ( pt ) s
(4.13)
Chega-se, então, à conclusão que para estimar o coeficiente do preço, quer na equação da procura quer na da oferta, o estimador MQ não é consistente. O enviesamento assintótico obtido, em cada caso, costuma designar-se também por enviesamento da simultaneidade, porque o regressor e a variável residual estão relacionadas entre si através de um sistema de equações simultâneas. No caso extremo em que não há shifters da procura ( utd = 0, ∀t ), verifica-se que: Cov( pt , utd ) = 0 ; plim(αˆ1 ) = α1 ; a curva da procura não se desloca; todos os pares de observações ( pt , qt ) pertencem a esta curva, correspondendo a deslocações da curva da oferta. No outro caso extremo, em que não há shifters da oferta ( uts = 0, ∀t ), tem-se: Cov( pt , uts ) = 0 ; plim( βˆ1 ) = β1 ; a curva da oferta não se desloca; todos os pares de observações ( pt , qt ) permitem construir esta curva, à medida que se desloca a curva da procura. No caso geral (ambas as curvas têm shifters não observáveis), e quando se supõe que Cov(utd , uts ) = 0 , o estimador MQ do coeficiente do preço é consistente para uma média ponderada de α1 e de β1 . Com efeito, atendendo a (4.9), tem-se Cov( pt , qt ) =
Então,
α1Var(uts ) + β1Var(utd ) Var(uts ) + Var(utd ) . e p = Var ( ) t (α1 − β1 ) 2 (α1 − β1 ) 2 Cov( pt , qt ) α1Var (uts ) + β1Var (utd ) . = Var( pt ) Var (uts ) + Var (utd )
Embora tenha menos interesse, também se podem calcular os enviesamentos da simultaneidade para os termos independentes das equações da procura e da oferta. Atendendo a (4.3) e a (4.12), e notando que E (qt ) = α 0 + α1E ( pt ) ,
obtém-se
α 0∗ = E (qt ) − α1∗ E ( pt )
Cov( pt , utd ) E ( pt ) = {α 0 + α1E ( pt )} − α1 + Var ( pt )
= α0 −
Cov( pt , utd ) E ( pt ) . Var ( pt )
Do mesmo modo, tem-se
β 0∗ = β 0 −
Cov( pt , uts ) E ( pt ) . Var ( pt )
Como não se pode inferir dos dados se as variações dos preços e das quantidades provêm de deslocações da procura ou da oferta, não se podem estimar os coeficientes de forma consistente. Isto sugere que pode ser possível estimar a equação da procura (da
Capítulo 4 – MRL com Regressores Endógenos
26
oferta) se houver shifters observáveis, ou seja, se algum ou alguns dos factores que fazem deslocar a curva da oferta (da procura) forem observáveis. Suponha-se, por exemplo, que o modelo (4.8) passa a ser (4.14)
qt = α 0 + α1 pt + utd s qt = β 0 + β1 pt + β 2 zt + ut
(equação da procura) (equação da oferta ),
onde zt corresponde a uma variável explicativa da quantidade oferecida, distinta do preço (por exemplo, um indicador da dimensão média das empresas do mercado respectivo). Neste caso, diz-se que zt é um shifter observável, da oferta. Supõe-se que zt é um regressor pré-determinado na equação da oferta, isto é, Cov( zt , uts ) = 0 (por exemplo, a dimensão média das empresas explica o comportamento da oferta, mas não está correlacionada com os outros factores não observáveis abrangidos pela variável residual uts ). Também se supõe que zt não está correlacionada com o shifter não observável da procura: Cov( zt , utd ) = 0 (por exemplo, a dimensão média das empresas, que não é regressor na equação da procura, não está correlacionada com os factores não observáveis que influenciam a procura). Pode mesmo dizer-se que zt é uma variável pré-determinada na equação da procura, embora não seja um regressor nesta equação. Resolvendo o sistema (4.14) em relação ao preço e à quantidade, obtém-se
(4.15)
uts − utd β0 − α0 β2 p z + + = t α1 − β1 α1 − β1 t α1 − β1 s d q = α1 β 0 − α 0 β1 + α1 β 2 z + α1ut − β1ut . t α1 − β1 α1 − β1 t α 1 − β1
Como Cov( zt , uts ) = 0 e Cov( zt , utd ) = 0 , tem-se Cov( pt , zt ) =
β2 Var( zt ) ≠ 0 . α1 − β 1
Verifica-se, assim, que zt (o shifter observável da oferta) não está correlacionado com a variável residual da equação da procura, utd (o shifter não observável da procura), mas está correlacionado com o preço (regressor endógeno da mesma equação). Nestas condições, diz-se que zt é uma variável instrumental (VI) ou instrumento do preço (ou da equação da procura). A definição, em termos gerais, deste tipo de variáveis vai ser apresentada mais adiante. Nestas condições, é possível estimar, de forma consistente, o parâmetro α1 . Para isso, vai calcular-se Cov(qt , zt ) , utilizando a equação da procura. Assim, Cov(qt , zt ) = Cov(α 0 + α1 pt + utd , zt ) = α1Cov( pt , zt ) + Cov(utd , zt ) = α1Cov( pt , zt ) ,
uma vez que Cov(utd , zt ) = 0 e Cov( pt , zt ) ≠ 0 . Então, (4.16)
α1 =
Cov(qt , zt ) . Cov( pt , zt )
Capítulo 4 – MRL com Regressores Endógenos
27
A partir de uma amostra de dimensão n das variáveis qt , pt e zt , o estimador naturalmente sugerido pelo princípio da analogia é a contrapartida amostral de (4.16), ou seja, o quociente das respectivas covariâncias amostrais, (4.17)
αˆ1,VI
∑ = ∑
n
t =1 n
(qt − q )( zt − z )
( pt − p )( zt − z ) t =1
,
que se chama estimador de variáveis instrumentais (VI), onde o instrumento é zt . O estudo destes estimadores – e, em geral, dos estimadores MGM – vai ser feito nas secções seguintes. A estimação da equação da oferta pode ser feita se a curva da procura apresentar um shifter observável. Fica ao cuidado do leitor verificar que no modelo (4.18)
qt = α 0 + α1 pt + α 2 rt + utd s qt = β 0 + β 1 pt + β 2 z t + u t
(equação da procura) (equação da oferta ),
onde rt é o rendimento médio dos consumidores do produto, é possível estimar α1 com (4.17) – desde que se verifiquem as mesmas hipóteses – e estimar β1 com (4.19)
βˆ1,VI
∑ = ∑
n
t =1 n
( qt − q )(rt − r )
( pt − p )(rt − r ) t =1
,
desde que Cov(rt , utd ) = 0 e Cov(rt , uts ) = 0 .
Um modelo macroeconómico simples Considere-se o seguinte modelo macroeconómico simples: (4.20)
Ct = α 0 + α1Yt + ut Yt = Ct + I t
(função consumo) (identidade do PNB),
onde: Ct Yt It ut
- consumo agregado no ano t; - PNB (produto nacional bruto) ou rendimento nacional no ano t; - investimento agregado no ano t; - variável residual da função consumo, relativa ao ano t.
O parâmetro α1 desempenha um papel fundamental neste modelo, já que representa a propensão marginal a consumir a partir do rendimento ( 0 < α1 < 1 ). Facilmente se obtém os valores de equilíbrio do consumo e do PNB,
(4.21)
α0 α1 1 Ct = 1 − α + 1 − α I t + 1 − α ut 1 1 1 Y = α 0 + 1 I + 1 u . t 1 − α1 1 − α1 t 1 − α1 t
Capítulo 4 – MRL com Regressores Endógenos
28
Supondo que Cov( I t , ut ) = 0 (o investimento é uma variável pré-determinada), obtém-se Cov(Yt , ut ) =
Var (ut ) Var( I t ) >0. > 0 e Cov(Yt , I t ) = 1 − α1 1 − α1
Conclui-se, então, que Yt é um regressor endógeno na função consumo, e que I t é um instrumento para este regressor. Tem-se
α1∗ =
(4.22)
Cov(Yt , Ct ) Cov(Yt , ut ) , = α1 + Var (Yt ) Var (Yt )
onde o enviesamento da endogeneidade (ou da simultaneidade) é dado por Cov(Yt , ut ) = Var (Yt ) Como
obtém-se (4.23)
α1 =
1 Var (ut ) 1 − α1
1 [Var( It ) + Var(ut )] (1 − α1 ) 2
=
(1 − α1 )Var (ut ) 1 − α1 = > 0. Var ( I t ) + Var (ut ) 1 + Var ( I t ) Var (ut )
Cov(Ct , I t ) = α1Cov(Yt , I t ) + Cov(ut , I t ) = α1Cov(Yt , I t ) ,
Cov(Ct , I t ) . Cov(Yt , I t )
Então, o estimador VI de α1 é (4.24)
αˆ1,VI
∑ = ∑
n
t =1 n
(Ct − C )( I t − I )
(Yt − Y )( I t − I ) t =1
.
A função de consumo microeconómica sob a hipótese do rendimento permanente Como se viu na secção anterior, a propósito da questão dos erros nas variáveis, um regressor pré-determinado torna-se endógeno se for medido com erro. Este problema é muito frequente, por exemplo, em modelos com micro-dados seccionais sobre famílias. Para ilustrar esta situação, vai considerar-se a versão microeconómica, com dados seccionais, da Hipótese do Rendimento Permanente (HRP) de Milton Friedman (1957). Esta hipótese estabelece que o “consumo permanente” da família t, Ct∗ , é proporcional ao respectivo “rendimento permanente”, Yt ∗ . Assim, (4.25)
Ct∗ = λ Yt ∗ ( 0 < λ < 1 ),
onde λ é a propensão marginal a consumir. Como o consumo observado, Ct , difere do consumo permanente, e o rendimento observado, Yt , não coincide com o rendimento permanente, tem-se
Capítulo 4 – MRL com Regressores Endógenos (4.26)
29
Ct = Ct∗ + utc e Yt = Yt ∗ + uty ,
onde utc e uty são os respectivos desvios; estes desvios podem ser interpretados, respectivamente, como os erros de medida do consumo permanente e do rendimento permanente. Vai supor-se que os erros têm valor esperado nulo e não estão correlacionados entre si, e com o consumo e rendimento permanentes. Assim, E (utc ) = 0 , E (uty ) = 0 , E (utc uty ) = 0 ,
E (Ct∗utc ) = 0 , E (Yt ∗uty ) = 0 , E (Ct∗uty ) = 0 , E (Yt ∗utc ) = 0 . Substituindo (4.26) em (4.25), obtém-se (4.27)
Ct = λ Yt + ut com ut = utc − λ uty .
Como este modelo não possui termo independente, deve calcular-se E (Yt ut ) , e não Cov(Yt , ut ) , para indagar se Yt é endógeno. Assim, E (Yt ut ) = E{(Yt ∗ + uty )(utc − λ uty )} = −λ E{(uty ) 2 } < 0 ,
o que permite afirmar que o rendimento observado é endógeno. Notando que
E (CtYt ) = E{(Ct∗ + utc )(Yt ∗ + uty )} = E (Ct∗Yt ∗ ) = λ E{(Yt ∗ ) 2 } ,
E (Yt 2 ) = E{(Yt ∗ + uty ) 2 } = E{(Yt ∗ ) 2 } + E{(uty ) 2 } , facilmente se obtém que (4.28)
λ∗ =
λ E{(Yt ∗ ) 2 } E (CtYt ) = k (sobre-identificação). Estimador de variáveis instrumentais (VI)
No primeiro caso, a matriz Qzx é quadrada e invertível. Então, devido à hipótese REN.2, S zx converge em probabilidade para Qzx , podendo concluir-se que, para n grande, existe a inversa de S zx com probabilidade 1. Assim, na prática, admite-se que esta matriz é invertível, pelo que o sistema (4.46) é possível e determinado. A sua única solução é dada por (4.47)
1 n T 1 n T z x z y = ( Z T X ) −1 Z T Y , ∑ ∑ t =1 t • t • t =1 t • t n n
βˆ VI = S zx−1s zy =
−1
que se chama estimador de variáveis instrumentais (VI) de β (a matriz Z é a matriz das observações dos instrumentos); o método de estimação designa-se, então, por método das variáveis instrumentais. Em rigor, deveria utilizar-se o símbolo βˆ VI ( Z ) , uma vez que o estimador VI depende da escolha dos instrumentos. É imediato verificar que este método generaliza o método dos mínimos quadrados. De facto, se todos os regressores forem pré-determinados, tem-se Z = X , e o estimador VI reduz-se ao estimador MQ: βˆ VI ( X ) = b .
Capítulo 4 – MRL com Regressores Endógenos
53
Exemplo 4.6 – Facilmente se obtêm os estimadores VI dos coeficientes da equação da procura de (4.14). Com efeito, como zt • = [ 1 zt ], xt • = [ 1 pt ] e yt = qt , vem
q p 1 1 n T 1 n T . S zx = ∑t =1 zt • xt • = e szy = ∑t =1 zt • yt = n n n n n z q ( 1 / ) z n z p ( 1 / ) ∑t =1 t t ∑t =1 t t Então,
p αˆ 0, VI 1 = n αˆ1, VI z (1 / n)∑t =1 zt pt =
ou
−1
q n (1 / n)∑t =1 zt qt
(1 / n)∑ n zt pt t =1 n (1 / n)∑t =1 zt pt − z p −z 1
q − p , n 1 (1 / n)∑t =1 zt qt
n n αˆ 0, VI (1 / n)∑t =1 zt pt q − (1 / n)∑t =1 zt qt 1 = (1 / n) n z p − z p n ∑t =1 t t αˆ1, VI (1 / n)∑t =1 zt qt − z q Donde
αˆ1, VI
(1 / n)∑t =1 zt qt − z q
∑ = = (1 / n)∑ z p − z p ∑ n
n
t =1 t
∑ = z p − nz p ∑ z q − nz q
n t =1 t t n t =1 t t
t
n
t =1 n
p .
( zt − z )(qt − q )
( zt − z )( pt − p ) t =1
,
tal como em (4.17). Quanto ao termo independente, tem-se
αˆ 0, VI = q − αˆ1, VI p .
Com efeito,
αˆ 0, VI ou
(1 / n) n z p q − (1 / n) n z q p n z p q − n z q p ∑t =1 t t ∑t =1 t t ∑t =1 t t ∑t =1 t t = = n n (1 / n)∑t =1 zt pt − z p ∑t =1 zt pt − n z p
αˆ 0, VI
(∑ =
(∑ =
n
n
)
z pt q − n z p q −
t =1 t
∑
) (∑ n
∑
n
n
)
z q − nz q p
t =1 t t
z p − nz p t =1 t t n
)
z q p + nz p q
t =1 t t
z pt − n z p
t =1 t
z pt − n z p q −
t =1 t
(∑
∑ =q− ∑
n
z q − nz q
t =1 t t n
z p − nz p t =1 t t
p.
Este resultado é a contrapartida empírica da condição de ortogonalidade relativa ao instrumento 1: E (1× utd ) = 0 . Com efeito, E (utd ) = 0 ⇔ α 0 = E (qt ) − α1E ( pt ) . ∇
Capítulo 4 – MRL com Regressores Endógenos
54
Uma situação particular interessante de estimador VI é quando uma das variáveis instrumentais é binária. Para simplificar, considere-se o modelo de regressão linear simples, yt = β1 + β 2 xt + ut , e suponha-se que o instrumento, zt , do regressor endógeno, xt , é binário. Sabe-se que
βˆ
∑ = ∑
n
2 , VI
t =1 n
∑ = − z )( x − x ) ∑
( zt − z )( yt − y )
( zt t =1
n
∑ = z (x − x) ∑
z ( yt − y )
t =1 t n
t
t =1 t
t
z yt − y ∑t =1 zt
z x − x ∑t =1 zt t =1 t t
n
t =1 t n
n
n
.
Sejam n1 e n0 os números de observações em que zt = 1 e zt = 0 , respectivamente. Então,
∑
n
z yt − y ∑t =1 zt = n1 ( y1 − y ) , n
t =1 t
onde y1 é a média das observações de yt quando zt = 1 . Como y=
n n0 y + 1y, n 0 n 1
onde y0 é a média das observações de yt quando zt = 0 , vem y1 − y =
n0 n n y1 − 0 y0 = 0 ( y1 − y0 ) . n n n
Então, o numerador de βˆ2, VI é dado por n1 ( y1 − y ) =
n0 n1 ( y1 − y0 ) . n
Procedendo de forma semelhante com o denominador de βˆ2, VI , obtém-se
βˆ2, VI =
y1 − y0 , x1 − x0
conhecido pela designação de estimador de grupos (Wald). Suponha-se que xt também é binário, representando, por exemplo, a participação ou não num programa de formação profissional. Admita-se que zt é a elegibilidade ( zt = 1 , se a pessoa é elegível para o programa; zt = 0 , no caso contrário). Então, x1 é a fracção de participantes quando zt = 1 (entre as pessoas elegíveis), e x0 é a fracção de participantes quando zt = 0 (entre as pessoas não elegíveis). Quando a elegibilidade é necessária para a participação, tem-se x0 = 0 . Assim, x1 − x0 é a diferença das taxas de participação para zt = 1 e zt = 0 . O estimador VI de β 2 obtém-se dividindo a diferença da resposta média dos dois grupos (os elegíveis e os não elegíveis) pela diferença das taxas de participação.
O estimador do método generalizado dos momentos (MGM) Quando p > k (segundo caso), o sistema (4.46) pode não ter solução, pelo que ~ não é possível, em geral, escolher um vector β que satisfaça as p equações do sistema. Como não se pode anular ~ ~ g• n ( β ) = szy − S zx β
Capítulo 4 – MRL com Regressores Endógenos
55
~ de forma exacta, espera-se que seja possível encontrar um β que minimize a distância ~ entre os vectores s zy e S zx β . A distância, que vai ser considerada, é dada por ~ ~ ~ ~ ~ J ( β , Wˆ ) = n {g• n ( β )}T Wˆ { g• n ( β )} = n ( szy − S zx β )T Wˆ ( szy − S zx β ) , (4.48) onde a matriz dos pesos, Wˆ , é simétrica definida positiva. Esta matriz pode ser aleatória e depender da dimensão da amostra, para cobrir o caso de poder ser estimada a partir da amostra. Supõe-se, também, que Wˆ é estimador consistente de alguma matriz W (não aleatória, simétrica definida positiva). Assim, plim(Wˆ ) = W . Como vai ver-se adiante, é conveniente que n apareça a multiplicar na expressão (4.48). Pode, então, apresentar-se a seguinte definição:
Definição 4.5 – Estimador MGM O estimador MGM (do método generalizado dos momentos) de β é aquele que minimiza a distância (4.48). Representando este estimador por βˆ (Wˆ ) , tem-se ~ (4.49) βˆ (Wˆ ) = argmin J ( β , Wˆ ) . ~ β
Como
~ ~ ~ ~ J ( β , Wˆ ) = n( s Tzy Wˆ s zy − 2 β T S zxT Wˆ s zy + β T S zxT Wˆ S zx β ) ,
~ quando se faz ∇ J ( β , Wˆ ) = 0 , obtém-se
~ S zxT Wˆ S zx β = S zxT Wˆ s zy .
Como para n grande, se tem r ( S zx ) = k com probabilidade 1, e como Wˆ é definida positiva, conclui-se que S zxT Wˆ S zx também é definida positiva (portanto, invertível) com probabilidade 1. Então, o estimador MGM de β é dado por (4.50)
βˆ (Wˆ ) = ( S zxT Wˆ S zx ) −1 S zxT Wˆ szy = ( X T Z Wˆ Z T X ) −1 X T Z Wˆ Z T Y .
Em rigor, o símbolo mais adequado para representar este estimador deveria ser ˆ ˆ β (W , Z ) , já que ele depende dos instrumentos considerados. ~ Mesmo no caso de sobre-identificação, o sistema Qzx β = q zy é possível, pois ~ ~ existe a solução β = β . No entanto, o sistema S zx β = s zy pode não ser possível, não obstante plim( S zx ) = Qzx e plim( szy ) = qzy ; mesmo que r ( S zx ) = k , não está garantido que r ( [ S zx szy ] ) = k . O estimador MGM, (4.50), continua válido, para n suficientemente grande, mesmo que W = plim(Wˆ ) seja singular, desde que QzxT W Qzx tenha inversa. ~ Quando p = k , o modelo é exactamente identificado, e tem-se J ( β , Wˆ ) = 0 , porque o sistema (4.46) é possível. É imediato verificar que o estimador VI é um caso particular de estimador MGM: βˆ (Wˆ ) = ( Z T X ) −1Wˆ −1 ( X T Z ) −1 ( X T Z ) Wˆ ( Z T Y ) = βˆVI . A fórmula (4.50) mostra que os estimadores MGM constituem uma família de estimadores indexada pela matriz Wˆ .
Capítulo 4 – MRL com Regressores Endógenos
56
Finalmente, vai determinar-se o erro de amostragem do estimador MGM. Considere-se a equação de regressão yt = xt• β + ut . Multiplicando ambos os membros por ztT• e calculando as respectivas médias amostrais, obtém-se 1 n T 1 n 1 n z y = ∑t =1 ztT• xt • β + ∑t =1 ztT•ut , ∑ t =1 t • t n n n s zy = S zx β + g •n .
ou
Substituindo em (4.50), s zy por esta expressão, obtém-se o erro de amostragem, (4.51)
βˆ (Wˆ ) − β = ( S zxT Wˆ S zx ) −1 S zxT Wˆ g •n .
Como
g• n =
1 T Z U, n
o erro de amostragem também pode ser apresentado da seguinte maneira: (4.52)
βˆ (Wˆ ) − β = ( X T Z Wˆ Z T X ) −1 X T Z Wˆ Z T U .
No caso particular do estimador VI tem-se (4.53)
βˆ VI − β = S zx−1 g •n = ( Z T X ) −1 Z T U .
4.5 - O estimador dos mínimos quadrados em dois passos Os estimadores MQ e VI pertencem à família dos estimadores MGM. No entanto, existem outros estimadores MGM importantes: é o caso do estimador dos mínimos quadrados em dois passos (MQ2P; a sigla inglesa consagrada é 2SLS, Two-Stage Least Squares), que vai apresentar-se a seguir. Considere-se o modelo de regressão, yt = xt • β + ut , com regressores endógenos, e seja zt• um vector de variáveis instrumentais. Seja xt∗• = zt •Π , onde Π é a matriz de tipo p × k dos coeficientes das projecções lineares MQ dos regressores, xt • , sobre os instrumentos, zt• (matriz dos coeficientes da respectivas formas reduzidas). Sabe-se que o vector 1 × k , xt∗• , é ainda um vector de variáveis instrumentais. Contudo, não se pode utilizar este vector para estimar β , porque as variáveis xtj∗ ( j = 1, 2, K , k ) não são observáveis. Vai, então, recorrer-se a um método de estimação que, ao tirar partido da estimação MQ dos coeficientes da forma reduzida, π lj ( l = 1, 2, K , p ; j = 1, 2,K, k ), permite determinar um estimador consistente de β (o vector dos coeficientes da equação estrutural): o estimador MQ2P. A partir de uma amostra de dimensão n, tem-se a relação amostral Y = Xβ + U , e a matriz Z das observações das variáveis pré-determinadas. O estimador MQ2P é obtido, como o próprio nome indica, mediante dois passos: 1º) Aplicando o método dos mínimos quadrados a cada uma das equações da forma reduzida, xtj = zt •π • j + vtj , obtém-se o estimador MQ de π • j , πˆ• j = ( Z T Z ) −1 Z T x• j
Capítulo 4 – MRL com Regressores Endógenos
57
( x• j é a coluna j da matriz X), os respectivos valores ajustados, xˆtj = zt •πˆ • j , e os resíduos MQ, vˆtj = xtj − xˆtj . ˆ é de tipo ˆ = ( Z T Z ) −1 Z T X , xˆ = z Π ˆ (a matriz Π Juntando as k equações, tem-se Π t• t• p × k , de elemento genérico πˆ lj , cujas colunas são πˆ • j ) e vˆt • = xt • − xˆt • . Considerando todas as equações e todas as observações, pode escrever-se X = Z Π +V = X∗ +V ,
onde: X ∗ = Z Π ; V é a matriz tipo n × k , de elemento genérico vtj . ˆ = Z ( Z T Z ) −1 Z T X = H Z X , onde H = Z ( Z T Z ) −1 Z T é uma matriz Tem-se: Xˆ = Z Π Z simétrica e idempotente; Vˆ = X − Xˆ = PZ X , onde PZ = I n − Z ( Z T Z ) −1 Z T (a matriz Vˆ é de tipo n × k , de linha genérica vˆt • ). Estes ajustamentos podem ter a seguinte interpretação: como xˆtj é a versão estimada de xtj∗ , e esta variável não está correlacionada com ut , o primeiro passo tem por objectivo expurgar xtj da sua correlação com ut . Com efeito, basta notar que yt = xt • β + ut = ( xt∗• + vt • ) β + ut = xt∗• β + (ut + vt • β ) ,
e que xt∗• não está correlacionado com ut + vt • β . Para os regressores pré-determinados não é necessário fazer o respectivo ajustamento do 1.º passo, já que xˆtj = xtj . 2º) Considere-se a relação Y = Xˆβ + V∗ , onde a matriz das observações dos regressores passa a ser Xˆ . Comparando com a regressão original, Y = Xβ + U , facilmente se verifica que V∗ = U + ( X − Xˆ ) β . Agora, tem-se yt = xˆt • β + vt∗ ,
onde vt∗ = ut + ( xt • − xˆt • ) β . Estimando o vector β pelo método MQ, obtém-se o estimador MQ2P do mesmo vector,
βˆ MQ2P = ( Xˆ T Xˆ ) −1 Xˆ T Y = ( X T H Z X ) −1 X T H Z Y ,
ou (4.54)
βˆMQ2P = { X T Z ( Z T Z ) −1 Z T X }−1 X T Z ( Z T Z ) −1 Z T Y .
Em rigor, seria mais aconselhado utilizar o símbolo βˆ MQ2P ( Z ) para representar o estimador dos mínimos quadrados em dois passos. Evidentemente, na prática, não é necessário fazer os cálculos relativamente aos dois passos atrás descritos para determinar as estimativas MQ2P; basta aplicar directamente (4.54). Pode verificar-se, sem dificuldade, que o estimador MQ2P de β pode ser obtido considerando, no 2.º passo, a relação Y = Xβ + Vˆδ + V∗ , em vez de Y = Xˆβ + V∗ . Com efeito, de acordo com o anexo 2A, o estimador MQ de β é dado por
βˆMQ = ( X T PVˆ X ) −1 X T PVˆ Y ,
onde
PVˆ = I − Vˆ (Vˆ TVˆ ) −1Vˆ T = I − PZ X ( X T PZ X ) −1 X T PZ .
Capítulo 4 – MRL com Regressores Endógenos Então,
58
βˆMQ = X T {I − PZ X ( X T PZ X ) −1 X T PZ } X X T {I − PZ X ( X T PZ X ) −1 X T PZ } Y −1
= ( X T X − X T PZ X ) −1 ( X T Y − X T PZ Y ) = { X T ( I − PZ ) X }−1 X T ( I − PZ )Y = ( X T H X ) −1 ( X T H Y ) = βˆ . Z
Z
MQ2P
Este resultado permite fazer outra interpretação muito interessante do estimador MQ2P: a inclusão dos regressores adicionais, vˆtj , “elimina” a possível endogeneidade dos regressores. Verifica-se facilmente que o estimador MQ2P é MGM. Com efeito, basta fazer em (4.50), Wˆ = S zz−1 . Assim, tem-se (4.55)
βˆMQ2P = ( S zxT S zz−1 S zx ) −1 S zxT S zz−1 szy = βˆ ( S zz−1 ) .
Notando que Xˆ T Xˆ = Xˆ T X , verifica-se também que o estimador MQ2P pode ser encarado como um estimador VI, onde a matriz dos instrumentos é Xˆ . Assim,
βˆMQ2P ( Z ) = βˆVI ( Xˆ ) = ( Xˆ T X ) −1 Xˆ T Y = ( Xˆ T Xˆ ) −1 Xˆ T Y = βˆMQ ( Xˆ ) .
Além disso, quando p = k , naturalmente que os estimadores MQ2P e VI coinciˆ dem, β MQ2P ( Z ) = βˆ VI ( Z ) . No caso do estimador MQ2P, o erro de amostragem é dado por
βˆMQ2P − β = ( S zxT S zz−1 S zx ) −1 S zxT S zz−1 g• n
(4.56)
= { X T Z ( Z T Z ) −1 Z T X }−1 X T Z ( Z T Z ) −1 Z TU = ( X T H Z X ) −1 X T H ZU .
Exemplo 4.7 – Retome-se o modelo (4.14) para estimar, pelo método MQ2P, a equação da procura. Neste caso, pt é o único regressor endógeno, e zt• = [ 1 zt ]. Atendendo a (4.15), tem-se pt = π 1 + π 2 zt + vt =
β0 − α0 u s − utd β2 zt + t . + α1 − β1 α1 − β1 α1 − β1
No primeiro passo faz-se a regressão MQ de pt sobre 1 e zt , de modo a obter ˆpt . O segundo passo permite obter, por exemplo, o estimador MQ2P de α1 , fazendo a regressão MQ de q t sobre 1 e pˆ t ,
αˆ1,MQ2P
∑ =
(qt − q )( pˆ t − pˆ )
∑
n
t =1
n
t =1
( pt − pˆ ) 2
Neste caso, os estimadores MQ2P e VI coincidem, uma vez que p = k = 2 . Assim, devido a (4.17), tem-se
αˆ1,MQ2P = αˆ1,VI
∑ = ∑
n
t =1 n
(qt − q )( zt − z )
( pt − p )( zt − z ) t =1
.
Capítulo 4 – MRL com Regressores Endógenos
59
Considere-se, agora, o modelo (4.41) e suponha-se que se pretende estimar a equação da oferta. Neste caso, tem-se p > k ( p = 4 e k = 3 ). O primeiro passo consiste em fazer a regressão MQ de pt sobre 1, zt , rt e at , com o objectivo de obter pˆ t . No segundo passo, faz-se a regressão de q t sobre 1, pˆ t e zt , o que permite obter os estimadores MQ2P dos β j ( j = 0,1, 2 ). Evidentemente, estes estimadores podem ser calculados utilizando directamente o resultado (4.54). ∇
Exemplo 4.8 – Seja o modelo (4.20) com a finalidade de estimar a função consumo pelo método MQ2P. O único regressor endógeno é Yt , e zt• = [ 1 I t ]. Atendendo a (4.21), vem Yt = π 1 + π 2 I t + vt =
u α0 1 + It + t . 1 − α1 1 − α1 1 − α1
No primeiro passo faz-se a regressão MQ de Yt sobre 1 e I t , obtendo-se Yˆt ; o segundo passo corresponde à regressão MQ de C t sobre 1 e Yˆt . O estimador MQ2P de α1 é dado por
αˆ1,MQ2P
∑ =
n
(Ct − C )(Yˆt − Yˆ )
∑t =1 (Yˆt − Yˆ ) 2
t =1
n
.
Como p = k = 2 , os estimadores MQ2P e VI coincidem. Atendendo a (4.24),
αˆ1,MQ2P = αˆ1,VI
∑ = ∑
n
t =1 n
(Ct − C )( I t − I )
t =1
(Yt − Y )( I t − I )
.
Se se pretender estimar a função investimento do modelo (4.42), o primeiro passo consiste na regressão MQ de Yt sobre 1, Ct −1 , Yt −1 , Rt e Gt , obtendo-se Yˆt . No segundo passo, a regressão MQ é de I t sobre 1, Rt , Yˆt , Yt −1 . Neste caso, p > k ( p = 5 e k = 3 ). Os estimadores MQ2P dos coeficientes de regressão β j ( j = 0,1, 2, 3 ), devem ser calculados com (4.54). ∇
Exemplo 4.9 – Retome-se o exemplo 4.3 com o objectivo de estimar a equação dos salários pelo método MQ2P. No primeiro passo faz-se a regressão MQ de qit (o único regressor endógeno) sobre 1, educt , expert , idadet e meduct , de modo a obter os valores ajustados de qit . No segundo passo efectua-se a regressão MQ de lsalart sobre 1, educt , expert e os valores ajustados, no primeiro passo, de qit . Tem-se p > k ( p = 5 e k = 4 ). Os estimadores MQ2P dos coeficientes de regressão β j ( j = 0,1, 2, 3 ), seriam calculados com (4.54). No entanto, se o regressor expert fosse também endógeno, o primeiro passo seria constituído por duas regressões MQ: qit sobre 1, educt , idadet e meduct , de modo a obter os valores ajustados de qit ; expert sobre 1, educt , idadet e meduct , obtendo-se os
Capítulo 4 – MRL com Regressores Endógenos
60
valores ajustados de expert . No segundo passo, fazia-se a regressão MQ de lsalart sobre 1, educt , os valores ajustados de expert e os valores ajustados de qit . Como p = k = 4 , os estimadores MQ2P podiam ser calculados com o resultado (4.47) relativo aos estimadores VI. ∇
4.6 - Propriedades dos estimadores MGM Nesta secção vão apresentar-se as propriedades assintóticas ou aproximadas dos estimadores MGM (para qualquer Wˆ nas condições enunciadas), com um desenvolvimento semelhante ao que se fez para o estimador MQ no MRL-RPD. As duas propriedades seguintes estabelecem que os estimadores MGM são consistentes e assintoticamente normais (CAN).
Propriedade 4.1 – As hipóteses REN.1 a REN.4 implicam que os estimadores MGM de β são consistentes, (4.57)
plim {βˆ (Wˆ )} = β .
Dem.: Com efeito, note-se que: − A hipótese REN.2 implica que {ztT• xt • } é estacionário e ergódico. Então, o teorema da ergodicidade garante que plim( S zx ) = Qzx ; − O processo {g t • } é estacionário e ergódico. Logo, o teorema da ergodicidade e a hipótese REN.3 permitem concluir que plim( g• n ) = 0 ; − plim(Wˆ ) = W .
Então, a partir do erro de amostragem, βˆ (Wˆ ) − β = ( S zxT Wˆ S zx ) −1 S zxT Wˆ g• n , resulta
(4.57).
∇∇
A propriedade 4.1 assegura que o estimador MGM de β é consistente para qualquer matriz Wˆ . Obviamente daqui decorre que os estimadores VI e MQ2P são consistentes. Não obstante esta conclusão, vão fazer-se os seguintes comentários: a) Sabe-se, a partir do erro de amostragem, que plim{βˆ (Wˆ )} = β + (QzxT W Qzx ) −1 QzxT Wqzu , onde qzu = E ( ztT•ut ) = E ( gtT• ) . Então, como plim( g• n ) = qzu , a consistência dos estimadores MGM depende crucialmente da nulidade do limite em probabilidade de g• n . Quando W = Qzz−1 , o estimador MGM é o estimador MQ2P. Neste caso, aquele limite em probabilidade é dado por plim(βˆMQ2P ) = β + (QzxT Qzz−1 Qzx ) −1 QzxT Qzz−1qzu . Obtém-se o estimador VI quando p = k ; tem-se plim(βˆVI ) = β + Qzx−1qzu . A utilização do estimador MQ, quando há regressores endógenos, origina plim(b) = β + Qzx−1qxu , onde qxu = E ( xtT•ut ) . É interessante comparar os possíveis enviesamentos dos estimadores MQ e VI. Para isso, vai considerar-se uma situação simplificada, recorrendo ao modelo de regressão linear simples, yt = β1 + β 2 xt + ut , onde xt é regressor endógeno.
Capítulo 4 – MRL com Regressores Endógenos Considere-se o estimador MQ de β 2 ,
∑ =
b2
∑ =
Facilmente se verifica que b2
( xt − x )( yi − y )
∑t =1 ( xt − x )2
n
t =1
n
ou
∑ = ∑
.
n
∑ =
( xt − x ) yi
n
plim(b2 ) − β 2 =
( xt − x )( yt − y )
∑t =1 ( xt − x )2
n
t =1
t =1 n
( xt − x ) 2 t =1
b2 = β 2
Então,
61
∑ + ∑
n
t =1 n
( xt − x )ut
( xt − x ) 2 t =1
n
t =1
( xt − x )( β1 + β 2 xt + ut )
∑t =1 ( xt − x )2 n
,
.
Cov( xt , ut ) σ u = Corr ( xt , ut ) , Var ( xt ) σx
onde σ x2 = Var( xt ) e σ u2 = Var (ut ) . Sendo zt uma variável instrumental de xt , tem-se
βˆ2, VI
∑ = ∑
∑ = ∑
n
t =1 n
∑ = − z )( x − x ) ∑
( zt − z )( yt − y )
( zt − z )( xt − x ) t =1
Para obter o enviesamento deste estimador, faz-se
βˆ ou
Então,
n
2 , VI
t =1 n
( zt − z )( yt − y )
( zt t =1
n
t =1 n
t
βˆ
2 , VI
= β2
( zt − z ) yt
( zt − z ) xt t =1
∑ =
n
.
t =1
( zt − z )( β1 + β 2 xt + ut )
∑t =1 ( zt − z ) xt n
,
∑ ( z − z )u . + ∑ ( z − z )( x − x )
plim(βˆ2, VI ) − β 2 =
n
t =1
t
t
n
t =1
t
t
Cov( zt , ut ) σ u Corr ( zt , ut ) . = Cov( zt , xt ) σ x Corr ( zt , xt )
Se as variáveis zt e ut estão correlacionados, a inconsistência do estimador VI cresce quando Corr ( zt , xt ) → 0 . Assim, mesmo que a correlação entre zt e ut seja pequena, pode haver uma severa inconsistência do estimador se zt está fracamente correlacionado com xt . Comparando as inconsistências, o estimador VI é “melhor” que o estimador MQ se Corr ( zt , ut ) < Corr ( xt , ut ) . Corr ( zt , xt )
Esta situação pode não ocorrer quando a correlação entre zt e xt é pequena em relação à correlação entre zt e ut .
Capítulo 4 – MRL com Regressores Endógenos
62
As correlações pequenas entre regressores endógenos e variáveis instrumentais, pode ser sintoma da fraca qualidade dos instrumentos. As implicações estatísticas desta situação vão ser analisadas mais adiante. b) O estimador MQ2P deve ser calculado directamente com a fórmula (4.54). Contudo, o uso errado dos dois passos é susceptível de originar problemas sérios de inconsistência. Por exemplo, pode descrever-se um método em dois passos, aparentemente semelhante ao método MQ2P, em que o respectivo estimador é inconsistente. Considere-se o modelo yt = xt′• β•1 + xt′′• β• 2 + ut , em que xt′• é o vector 1 × k ′ dos regressores pré-determinados, e xt′′• é o vector 1 × k ′′ dos regressores endógenos (k ′′ = k − k ′) . Seja o vector de variáveis instrumentais, zt • = [ zt′• zt′′• ], onde zt′• é o vector 1 × p′ dos instrumentos que são regressores ( xt′• = zt′• ; k ′ = p′ ); zt′′• é o vector 1× p′′ dos instrumentos que não são regressores ( p′′ = p − p′) . Os dois passos são os seguintes: 1.º) Fazer a regressão MQ de cada componente do vector xt′′• sobre zt′′• (omitindo os regressores pré-determinados), de modo a obter os respectivos valores ajustados, xˆt′′• . 2.º) Fazer a regressão MQ de yt sobre xt′• e xˆt′′• , de modo a obter os estimadores βˆ•1 e βˆ• 2 . Vai demonstrar-se que estes estimadores são inconsistentes. Seja xt∗• a projecção linear MQ de xt′′• sobre zt′′• : xt∗• = E ∗ ( xt′′• | zt′′• ) = zt′′• E{( zt′′• )T zt′′•}−1 E{( zt′′• )T xt′′•} = zt′′•Λ 2 ,
onde Λ 2 = E{( zt′′• )T zt′′•}−1 E{( zt′′• )T xt′′• } é uma matriz p′′ × k ′′ . Seja xt′′• = xt∗• + et′′• , onde et′′• é o vector dos resíduos da projecção. Sabe-se que E{( zt′′• )T et′′•} = O . Para simplificar, suponha-se que Λ 2 é conhecido e, portanto, xˆt′′• = xt∗• . Então (2.º passo), yt = xt′• β•1 + ( xt∗• + et′′• ) β• 2 + ut = xt′• β•1 + xt∗• β• 2 + (et′′• β• 2 + ut ) .
Para provar a consistência tem que haver ortogonalidade entre os regressores desta equação e a variável residual, et′′• β •2 + ut . Por hipótese, xt′• é ortogonal a ut , e xt∗• é ortogonal ut e a et′′• . Contudo, xt′• não é ortogonal a et′′• , porque xt′• não foi incluído na projecção linear MQ de xt′′• sobre zt′′• . Então, os estimadores MQ obtidos no 2.º passo são inconsistentes. Esta conclusão mostra que não se deve esquecer os regressores pré-determinados quando se faz o 1.º passo do método MQ2P.
Propriedade 4.2 – Verificadas as hipóteses REN.1 a REN.5, os estimadores MGM de β são assintoticamente normais, n {βˆ (Wˆ ) − β } → N ( k ) 0, Cov a {βˆ (Wˆ )} , d
(4.58) (4.59)
Cov a {βˆ (Wˆ )} = (QzxT W Q zx ) −1 QzxT W S W Q zx (QzxT W Q zx ) −1 .
Dem.: Com efeito, como
Capítulo 4 – MRL com Regressores Endógenos n {βˆ (Wˆ ) − β } = ( S zxT Wˆ S zx ) −1 S zxT Wˆ n g• n ,
plim( S zx ) = Qzx e plim(Wˆ ) = W ,
63
n g• n → N ( p ) (0, S ) , d
resulta imediatamente (4.58) e (4.59), atendendo às propriedades d) e e) que relacionam a convergência em probabilidade com a convergência em distribuição. ∇∇ O resultado (4.58) permite escrever (4.60)
Ea {βˆ (Wˆ )} = β .
A propriedade 4.2 pode ser formalizada para os seguintes casos particulares: a) Estimador VI: d n {βˆVI − β } → N ( k ) 0, Cov a ( βˆVI ) ;
Cov a ( βˆVI ) = Qzx−1 S (QzxT ) −1 .
b) Estimador MQ2P:
d n {βˆMQ2P − β } → N ( k ) 0, Cov a ( βˆMQ2P ) ;
Cov a ( βˆMQ2P ) = (QzxT Qzz−1 Q zx ) −1 QzxT Qzz−1 S Qzz−1 Q zx (QzxT Qzz−1 Q zx ) −1 . Considerem-se duas quaisquer matrizes de pesos, Wˆ1 e Wˆ2 , a verificar plim (Wˆ1 − Wˆ2 ) = O .
Tem-se, portanto, plim(Wˆ1 ) = plim(Wˆ2 ) = W . Vai provar-se que p n βˆ (Wˆ ) − n βˆ (Wˆ ) → 1 2 0 .
Com efeito,
n βˆ (Wˆ1 ) − n βˆ (Wˆ2 ) = n βˆ (Wˆ1 ) − β − n βˆ (Wˆ2 ) − β
= ( S zxT Wˆ 1S zx ) −1 S zxT Wˆ1 − ( S zxT Wˆ2 S zx ) −1 S zxT Wˆ2 n g• n → 0, p
porque o primeiro factor (entre parêntesis recto) converge em probabilidade para O, e o segundo factor tende em distribuição para um vector aleatório. A hipótese REN.2 implica que E (ut2 ) = σ 2 [ver (4.35)]. Seja βˆ um estimador consistente de β (por exemplo, um estimador MGM), e considerem-se os respectivos resíduos, uˆt = yt − xt • βˆ . A propriedade seguinte estabelece que (4.61)
σˆ 2 =
1 n 2 ∑ uˆt n t =1
Capítulo 4 – MRL com Regressores Endógenos
64
é estimador consistente de σ 2 . Propriedade 4.3 – Considerando as hipóteses REN.1 e REN.2, e supondo que existe E ( xtT• xt • ) , verifica-se que o estimador σˆ 2 de σ 2 , dado por (4.61) é consistente,
(4.62)
plim(σˆ 2 ) = σ 2 .
∇∇
Dem.: Ver secção 4A.1.
4.7 - Inferência estatística
O resultado (4.58) não pode ser utilizado na inferência estatística porque a matriz das covariâncias assintótica, dada por (4.59), depende de parâmetros desconhecidos, Qzx = E ( ztT• xt• ) , W e S = E (ut2 ztT• zt• ) . Como plim S zx = Qzx , obviamente que S zx é um estimador consistente de Qzx ; como plim(Wˆ ) = W , Wˆ é estimador consistente de W; basta, então, conhecer um estimador consistente para S, Sˆ . Se as variáveis residuais fossem observáveis, 1 n 2 T ∑ ut z t • z t • n t =1
seria um estimador consistente para S. Como ut não é observável, pode provar-se que, em certas condições (ver propriedade 4.4), e se se substituir na expressão anterior as variáveis residuais pelos resíduos obtidos à custa de um estimador consistente de β , obtém-se um estimador consistente para S. A seguir apresenta-se a propriedade que garante, em certas condições, a consistência de Sˆ . Propriedade 4.4 – Considerem-se os resíduos uˆt = yt − xt • βˆ , onde βˆ é um estimador consistente de β . Supondo que existe S = E (ut2 ztT• zt• ) , e que existem os momentos E{( ztl xtj ) 2 } ( l = 1, 2, K , p ; j = 1, 2, K , k ; qualquer que seja t) [hipótese adicional], as hipóteses REN.1 e REN.2 implicam que
(4.63)
1 n Sˆ = ∑t =1 uˆt2 ztT• zt • n
é estimador consistente de S. Dem.: A demonstração desta propriedade segue exactamente os mesmos passos utilizados para provar o resultado homólogo do MRL-RPD (ver secção 3B.2, capítulo 3). ∇∇
Assim, um estimador consistente de (4.59) é dado por
Capítulo 4 – MRL com Regressores Endógenos
65
Cov a {βˆ (Wˆ )} = ( S zxT Wˆ S zx) −1 S zxT Wˆ Sˆ Wˆ S zx( S zxT Wˆ S zx) −1 . ^
(4.64)
O cálculo de Sˆ pode ser feito com (4.63). Contudo, fazendo gˆ t • = zt •uˆt e gˆ1• gˆ 2• Gˆ = , M ˆ gn•
obtém-se
1 n 1 n 1 Sˆ = ∑t =1 uˆt2 ztT• zt • = ∑t =1 gˆ tT• gˆ t • = Gˆ T Gˆ . n n n
Notando que S zx = (1 / n) Z T X , pode escrever-se
Cov a {βˆ (Wˆ )} = n ( X T Z Wˆ Z T X ) −1 X T Z Wˆ Gˆ T Gˆ Wˆ Z T X ( X T Z Wˆ Z T X ) −1 . ^
que é uma expressão alternativa a (4.64). ˆ é matriz diagonal de elemento diagonal geˆ Z , onde Φ Fazendo Sˆ = (1 / n) Z T Φ 2 nérico uˆt , também se tem ˆ Z )Wˆ Z T X ( X T Z Wˆ Z T X ) −1 . Cov a {βˆ (Wˆ )} = n ( X T Z Wˆ Z T X ) −1 X T Z Wˆ ( Z T Φ ^
São de assinalar os seguintes casos particulares: a) Estimador VI:
Cov a ( βˆVI ) = S zx−1 Sˆ ( S zxT ) −1 = n ( X T Z ) −1 Gˆ T Gˆ ( X T Z ) −1 ^
ˆ Z )( X T Z ) −1. = n ( X T Z ) −1 ( Z T Φ
b) Estimador MQ2P:
Cov a ( βˆMQ2P ) = ( S zxT S zz−1 S zx) −1 S zxT S zz−1 Sˆ S zz−1 S zx( S zxT S zz−1 S zx) −1 = n { X T Z ( Z T Z ) −1 Z T X }−1 X T Z ( Z T Z ) −1 Gˆ T Gˆ ( Z T Z ) −1 Z T X { X T Z ( Z T Z ) −1 Z T X }−1 ^
ˆ Z ) ( Z T Z ) −1 Z T X { X T Z ( Z T Z ) −1 Z T X }−1 = n { X T Z ( Z T Z ) −1 Z T X }−1 X T Z ( Z T Z ) −1 ( Z T Φ ˆ H Z X ( X T H Z X ) −1. = n ( X T H Z X ) −1 X T H Z Φ
Inferência estatística sobre um coeficiente de regressão isolado Considerem-se os elementos de ordem j da diagonal principal da matriz (4.64), Vara {βˆ j (Wˆ )} . ^
Facilmente se conclui que [ver capítulo 3, (3.44)]:
Capítulo 4 – MRL com Regressores Endógenos
n {βˆ j (Wˆ ) − β j } Vara {βˆ j (Wˆ )}
(4.65)
^
=
βˆ j (Wˆ ) − β j
onde
s∗j
66
→ N (0, 1) , d
1 ^ ˆ ˆ Vara {β j (W )} n
s∗j =
é o respectivo erro padrão heterocedástico-consistente de βˆ j (Wˆ ) . Quando se pretende fazer o teste da hipótese H 0 : β j = β 0j , contra uma alternativa unilateral ou bilateral, a estatística-teste é dada pelo rácio-t robusto, (4.66)
t = ∗ j
βˆ j (Wˆ ) − β 0j s
∗ j
→ N (0, 1) . d
Inferência estatística sobre combinações lineares dos coeficientes de regressão
Quando δ = Rβ , onde R é uma matriz m × k com característica igual a m ≤ k , pode obter-se um resultado semelhante a (3.46) do MRL-RPD [ver capítulo 3]. Assim, ^ d Q = n {Rβˆ (Wˆ ) − δ }T R Cov a {βˆ (Wˆ )} RT {Rβˆ (Wˆ ) − δ } → χ 2 (m) . −1
(4.67)
Suponha-se que se pretende testar
H 0 : Rβ = δ 0 contra H 1 : Rβ ≠ δ 0 ,
onde δ 0 é um valor assumido pelo vector m × 1 , δ . A estatística-teste, obtida com base no princípio de Wald, é dada por
d ^ Q = n {Rβˆ (Wˆ ) − δ 0 }T R Cov a {βˆ (Wˆ )} RT {Rβˆ (Wˆ ) − δ 0 } → χ 2 (m) . −1
(4.68)
Teste de hipóteses não lineares
Seja a função g : ℜ k → ℜ m a verificar as mesmas condições que permitiram obter o resultado (3.48) [ver capítulo 3]: as primeiras derivadas de g são contínuas; a matriz Jacobiana, de tipo m × k , ∇g ( β ) , calculada em β , tem característica igual ao número de linhas [ r{∇g ( β )} = m ]. Suponha-se que se pretende testar a hipótese H 0 : g (β ) = 0 .
Pode, então, obter-se Q → χ 2 ( m) , d
(4.69) onde
Capítulo 4 – MRL com Regressores Endógenos
67
Q = n g{βˆ (Wˆ )}T ∇g{βˆ (Wˆ )} Cov a {βˆ (Wˆ )} ∇g{βˆ (Wˆ )}T g{βˆ (Wˆ )} . ^
−1
Se W é singular, as propriedades dos estimadores MGM, bem como os resultados sobre inferência estatística, continuam válidos, desde que QzxT W Qzx tenha inversa. O estimador MGM eficiente
Um problema que se pode pôr é o da escolha do estimador mais eficiente, na família dos estimadores MGM (indexada pela matriz Wˆ ). O teorema seguinte, embora não dê resposta plena ao problema enunciado, permite escolher uma matriz W = plim(Wˆ ) que “melhora” a eficiência. Teorema 4.3 Um limite inferior para a matriz das covariâncias assintótica dos estimadores MGM, dada por (4.59), é
(4.70)
(QzxT S −1 Q zx ) −1 .
O limite inferior é atingido se Wˆ é tal que W = S −1 . ∇∇
Dem.: Ver secção 4A.2.
A condição W = S −1 é suficiente, mas não necessária, para que se tenha eficiência. Pode provar-se que uma condição necessária e suficiente de eficiência é que exista uma matriz C tal que QzxT W = C QzxT S −1 [Newey e McFadden (1994), p. 2165]. Um estimador MGM que satisfaz a condição plim(Wˆ ) = W = S −1 , chama-se estimador MGM eficiente ou óptimo. Então, este estimador obtém-se substituindo Wˆ por Sˆ −1 em (4.50),
βˆ ( Sˆ −1 ) = ( S zxT Sˆ −1 S zx ) −1 S zxT Sˆ −1 szy
= { X T Z (Gˆ T Gˆ ) −1 Z T X }−1 X T Z (Gˆ T Gˆ ) −1 Z T Y
(4.71)
ˆ Z ) −1 Z T X }−1 X T Z ( Z T Φ ˆ Z ) −1 Z T Y . = { X T Z (Z T Φ
A respectiva matriz das covariâncias assintótica reduz-se a (4.72)
Cov a {βˆ ( Sˆ −1 )} = (QzxT S −1 Q zx ) −1 .
O estimador consistente desta matriz é dado por Cov a {βˆ ( Sˆ −1 )} = ( S zxT Sˆ −1 S zx) −1 = n{ X T Z (Gˆ T Gˆ ) −1 Z T X }−1 ^
(4.73)
ˆ Z ) −1 Z T X }−1. = n{ X T Z ( Z T Φ
Os resultados homólogos a (4.66), (4.68) e (4.69) são, respectivamente:
Capítulo 4 – MRL com Regressores Endógenos
(4.74)
t ∗j =
βˆ j ( Sˆ −1 ) − β 0j s∗j
onde
68
→ N (0, 1) , d
s∗j =
1 ^ ˆ ˆ −1 Vara {β j ( S )} ; n
Q = n {Rβˆ ( Sˆ −1 ) − δ 0 }T {R ( S zxT Sˆ −1 S zx) −1 RT }−1{Rβˆ ( Sˆ −1 ) − δ 0 } → χ 2 (m) ; d
(4.75)
Q → χ 2 ( m) , d
(4.76)
onde
Q = n g{βˆ ( Sˆ −1 )}T ∇g{βˆ ( Sˆ −1 )} ( S zxT Sˆ −1 S zx) −1 ∇g{βˆ ( Sˆ −1 )}T g{βˆ ( Sˆ −1 )} . −1
Em resumo, o estimador MGM eficiente é calculado com os dois passos seguintes: 1) Escolhe-se a matriz Wˆ , convergente em probabilidade para uma matriz simétrica definida positiva, e minimiza-se ~ ~ ~ J ( β , Wˆ ) = n( s zy − S zx β )T Wˆ ( s zy − S zx β ) ~ em relação a β , a fim de obter βˆ (Wˆ ) . A escolha de Wˆ não oferece dificuldade; pode fazer-se Wˆ = I , mas a opção mais usual é Wˆ = S zz−1 . Assim, minimiza-se ~ ~ ~ J ( β , S zz−1 ) = n( szy − S zx β )T S zz−1 ( szy − S zx β ) ,
obtendo-se o estimador MQ2P. Utiliza-se este estimador para calcular os resíduos, uˆt = yt − xt • βˆ MQ2P , que permitem determinar o estimador consistente, Sˆ , da matriz S. 2) Minimiza-se ~ ~ ~ J ( β , Sˆ −1 ) = n( szy − S zx β )T Sˆ −1 ( szy − S zx β ) ~ em relação a β , para obter o estimador MGM eficiente.
Este procedimento pode ser alterado, introduzindo um terceiro passo, e alterando o segundo. Assim: 1) O mesmo que no caso do método anterior (dois passos). 2) O segundo passo é semelhante ao anterior, mas destina-se a recalcular os resíduos ~ que permitem obter uma nova matriz S . Assim, tem-se ~ 1 n u~t = yt − xt • βˆ ( Sˆ −1 ) e S = ∑t =1 u~t2 z tT• z t • . n
3) Minimiza-se
~ ~ ~ ~ ~ J ( β , S −1 ) = n( szy − S zx β )T S −1 ( szy − S zx β )
Capítulo 4 – MRL com Regressores Endógenos
69
~ em relação a β , para obter o respectivo estimador MGM. ~ Como o estimador MGM ao fim de dois passos é consistente, a nova matriz S é ainda estimador consistente de S. Então, devido às propriedades 4.1 e 4.2, o estimador MGM com três passos é consistente e assintoticamente normal. Atendendo ao teorema 4.3, conclui-se, ainda, que este estimador é assintoticamente eficiente. A escolha de Wˆ , tal que W = plim(Wˆ ) , não influencia a distribuição limite do estimador MGM. Suponha-se que o conjunto dos elementos de xt • é um subconjunto próprio do conjunto dos elementos de zt • (todos os regressores são pré-determinados, havendo variáveis pré-determinadas que não são regressores). Neste caso, faz-se
zt• = [ zt1• zt2• ] = [ xt • zt2• ],
onde zt1• = xt • e zt2• têm, respectivamente, k e p − k elementos. Pode verificar-se que o estimador MGM eficiente de β (em dois passos), βˆ ( Sˆ −1 ) , e o respectivo estimador MQ, βˆMQ , não são numericamente iguais. Fazendo A = E (ut2 xtT• xt • ) , pode provar-se que Cov a ( βˆMQ ) = Qxx−1 A Qxx−1 .
Este resultado pode ser obtido a partir de (4.59), fazendo A−1 O S11 W = e S= S 21 O O
onde S11 = A . Com efeito, seja
S12 , S 22
E ( xT x ) Qxx t• t• . = Qzx = E{( zt2• )T xt •} Qz 2 x
Notando que
[
QzxT W Q zx = Qxx
]
A−1 O Qxx −1 QzT2 x Q = Qxx A Qxx , O O z2 x
A−1 O A S12 A−1 O A−1 O W SW = = =W , O O S 21 S22 O O O O vem
(QzxT W Q zx ) −1QzxT W S W Q zx (QzxT W Q zx ) −1 = (Qxx A−1Qxx ) −1 = Qxx−1 A Qxx−1 = Qxx−1 S11 Qxx−1 . O teorema 4.3 garante que
Cov a ( βˆMQ ) − Cov a {βˆ ( Sˆ −1 )} = Qxx−1 S11 Qxx−1 − (QzxT S −1Q zx ) −1
é semidefinida positiva. Volta, agora, a considerar-se o vector de instrumentos zt′• = zt • A , onde A é uma matriz p × q a verificar r ( A) = q ≤ p . Continua a ter-se gt′• = zt′•ut = zt •ut A = gt • A , e ob-
Capítulo 4 – MRL com Regressores Endógenos
70
viamente vem E ( gt′• ) = E ( gt • A) = E ( gt • ) A = 0 . Pode, então, calcular-se o estimador MGM eficiente que corresponde a estas q combinações lineares das condições de ortogonalidade. De facto, recordando que S ′ = AT S A , e notando que Sˆ ′ = AT Sˆ A , S z ′x = AT S zx e sz ′y = AT szy , obtém-se
βˆ{( Sˆ ′) −1} = {S zT′x ( Sˆ ′) −1 S z ′x }−1 S zT′x ( Sˆ ′) −1 sz ′y
= {S zxT A ( A Sˆ AT ) −1 AT S zx }−1 S zxT A ( A Sˆ AT ) −1 AT szy = βˆ (Wˆ ) ,
onde Wˆ = A ( A Sˆ AT ) −1 AT . Quando a matriz A é quadrada ( p = q) , verifica-se facilmente que βˆ{( Sˆ ′) −1} = βˆ ( Sˆ −1 ) . Teste de hipóteses e princípio da razão de verosimilhanças
Quando se pretende testar H 0 : Rβ = δ 0 , ou, mais geralmente, H 0 : g ( β ) = 0 , as estatísticas-teste respectivas podem ser obtidas com base no princípio de Wald, tal como se fez para obter (4.68) ou (4.69), respectivamente; quando se utiliza o estimador MGM eficiente de β , os resultados homólogos são dados por (4.75) e (4.76). Pode fazer-se o mesmo tipo de análise com o princípio da razão de verosimilhanças. ~ Como se sabe, J ( β , Sˆ −1 ) , onde Sˆ é um estimador consistente de S, é a função objectivo a minimizar para obter o estimador MGM eficiente de β ; este estimador, βˆ ( Sˆ −1 ) , é dado por (4.71); o mínimo da função objectivo é, então, J = J {βˆ ( Sˆ −1 ), Sˆ −1} . Seja βˆ r ( Sˆ −1 ) o estimador MGM eficiente de β a verificar as restrições da hipó~ ~ tese nula [ Rβ = δ 0 ou, mais geralmente, g ( β ) = 0 ]. Este estimador obtém-se minimizando aquela função objectivo, e impondo as restrições referidas. Neste caso, o mínimo da função objectivo é dado por J r = J {βˆr ( Sˆ −1 ), Sˆ −1} . A estatística-teste proposta, de acordo com aquele princípio, é Q′ = J r − J . O teorema seguinte garante que esta estatística tem distribuição limite do qui-quadrado.
Capítulo 4 – MRL com Regressores Endógenos
71
Teorema 4.4 [estatística-teste segundo o princípio da razão de verosimilhanças] Suponha-se que se verificam as hipóteses REN.1 a REN.5, e que se conhece um estimador consistente, Sˆ , de S. Considere-se a hipótese H 0 : g ( β ) = 0 , onde g verifica as condições que permitiram obter o resultado (4.76) [em particular, tem-se H 0 : Rβ = δ 0 , onde R é uma matriz m × k , tal que r ( R) = m ]. Sejam as estatísticas Q [dada por (4.76) ou (4.75)] e Q′ = J r − J . Então, verificada a hipótese nula, pode concluir-se: a) As duas estatísticas são assintoticamente equivalentes. Assim, como Q tem por distribuição limite a qui-quadrado com m graus de liberdade, tem-se
Q′ = J r − J → χ 2 (m) . d
(4.77)
b) plim (Q′ − Q) = 0 .
c) Se H 0 : Rβ = δ 0 então Q′ = Q . ∇∇
Dem.: Ver secção 4A.3.
a)
b)
c) d)
e)
f)
Podem fazer-se os seguintes comentários ao teorema anterior: A vantagem de utilizar Q′ em vez de Q é a invariância: o valor numérico de Q′ não depende do modo como as restrições são consideradas na função g. Contudo, para calcular o estimador com restrições é necessário utilizar um algoritmo de optimização não linear. O teorema exige que plim(Wˆ ) = S −1 , caso contrário não se verifica (4.77). No entanto, a estatística Q tem distribuição limite do qui-quadrado, mesmo que não seja satisfeita a condição de eficiência. O mesmo estimador consistente de S deve ser utilizado para calcular Q′ , para que fique garantida a sua não negatividade para pequenas amostras. A conclusão b) do teorema significa que, se a dimensão da amostra é suficientemente grande, e a hipótese nula é verdadeira, o resultado do teste baseado no princípio de Wald (na estatística Q) é o mesmo do que o resultado baseado no princípio da razão de verosimilhanças (na estatística Q′ ). Para se verificar a conclusão c) do teorema (igualdade numérica entre as duas estatísticas, no caso linear), deve utilizar-se o mesmo Sˆ no cálculo de Q′ e Q. Caso contrário, elas são apenas assintoticamente equivalentes. Se zt • = xt • (todos os regressores são pré-determinados), o estimador MGM (eficiente) de β é o estimador MQ, e J = J ( b, Sˆ −1 ) = 0 . Então,
Q′ = J r = J {βˆr ( Sˆ −1 ), Sˆ −1} .
De acordo com o teorema anterior, esta estatística tem distribuição limite do quiquadrado, e é numericamente igual a Q, se a hipótese nula é linear. Neste caso,
Capítulo 4 – MRL com Regressores Endógenos
72
J r = J {βˆr ( Sˆ −1 ), Sˆ −1} = n { szy − S zz βˆr ( Sˆ −1 )}T Sˆ −1{ szy − S zz βˆr ( Sˆ −1 )} = n sTzy Sˆ −1szy − 2n sTzy Sˆ −1S zz βˆr ( Sˆ −1 ) + n βˆr ( Sˆ −1 )T S zz Sˆ −1S zz βˆr ( Sˆ −1 ) = Y T Z (n Sˆ ) −1 Z T Y − 2Y T Z (n Sˆ ) −1 ( Z T Z ) βˆ ( Sˆ −1 ) + βˆr ( Sˆ ) ( Z Z )(n Sˆ ) ( Z Z ) βˆr ( Sˆ ) . −1 T
T
−1
−1
T
r
4.8 - Testes de sobre-identificação e de endogeneidade
Quando a equação de regressão é exactamente identificada, é possível escolher ~ ~ β de tal modo que sejam nulos os momentos amostrais g •n ( β ) = s zy − S zx β , bem como ~ a distância (4.48). Isto consegue-se fazendo β igual ao estimador VI, (4.47). Quando existe sobre-identificação, a distância (4.48) deve ser minimizada, obtendo-se o estimador MGM, βˆ (Wˆ ) ; se, em particular, plim(Wˆ ) = W = S −1 tem-se o estimador MGM eficiente, βˆ ( Sˆ −1 ) , onde Sˆ é estimador consistente de S. ~ ~ Considere-se a distância J ( β , Sˆ −1 ) avaliada em β = β , ~
J ( β , Sˆ −1 ) = n g•Tn Sˆ −1 g• n = n g• n Sˆ −1 n g• n , T
onde
g •n =
1 n T 1 n T 1 n g = ∑t =1 zt•ut = ∑t =1 ztT• ( yt − xt • β ) = s zy − S zx β . ∑ t =1 t • n n n
Para provar
J ( β , Sˆ −1 ) = n ( s zy − S zx β )T Sˆ −1 ( s zy − S zx β ) → χ 2 ( p ) , d
(4.78)
basta notar que
n g• n → N ( p ) (0, S ) , plim( Sˆ ) = S , d
e atender à propriedade f) que relaciona a convergência em probabilidade com a convergência em distribuição (ver capítulo 3). ~ ~ O mínimo da distância J ( β , Sˆ −1 ) corresponde a considerar β = βˆ ( Sˆ −1 ) . Neste caso, ainda se obtém uma distribuição limite do qui-quadrado, mas onde os graus de liberdade diminuem para p − k . Intuitivamente, isto resulta do facto de se terem estimado os k coeficientes de regressão. Pode, então, enunciar-se o seguinte teorema: Teorema 4.5 [Teste de sobre-identificação de Hansen (1982)] Seja Sˆ um estimador consistente de S. As hipóteses REN.1 a REN.5 implicam
J = J {βˆ ( Sˆ −1 ), Sˆ −1} = n {szy − S zx βˆ ( Sˆ −1 )}T Sˆ −1{szy − S zx βˆ ( Sˆ −1 )} → χ 2 ( p − k ) . d
(4.79)
Dem.: Ver secção 4A.4.
∇∇
Capítulo 4 – MRL com Regressores Endógenos
73
Fazem-se a seguir alguns comentários ao teorema anterior: a) A estatística J também pode ser apresentada do seguinte modo:
ˆ Z ) −1 Z T {Y − X βˆ ( Sˆ −1 )} J = {Y − X βˆ ( Sˆ −1 )}T Z ( Z T Φ = {Y − X βˆ ( Sˆ −1 )}T Z (Gˆ T Gˆ ) −1 Z T {Y − X βˆ ( Sˆ −1 )}.
b) Atendendo às hipóteses consideradas na propriedade 4.4 (ver secção 4.7), foi possível obter, em (4.63), um estimador consistente de S. Então, a distância mínima, obtida no segundo passo para a determinação do estimador MGM eficiente, tem distribuição limite do qui-quadrado com p − k graus de liberdade. c) O resultado (4.79) pode interpretado como um teste de especificação. Trata-se de verificar se, conjuntamente, todas as hipóteses do teorema 4.5 (REN.1 a REN.5) são satisfeitas. Assim, se o valor observado da estatística-teste, J = J {βˆ ( Sˆ −1 ), Sˆ −1} ,
designada por estatística J (de Hansen), for inesperadamente grande, é indicação de que alguma das hipóteses do modelo é falsa. d) Se houver razões para apenas pôr em dúvida a hipótese REN.3, é de admitir que um valor elevado da estatística J constitua evidência a favor de que algumas das p variáveis incluídas em zt • não são instrumentais. Para melhor esclarecimento, considerem-se as seguintes partições dos vectores xt• e zt • : xt • = [ xt′• xt′′• ] e zt • = [ zt′• zt′′• ], onde: − xt′• é o vector 1 × k ′ dos regressores supostos pré-determinados: E ( xt′•ut ) = 0 ; − xt′′• é o vector 1 × k ′′ dos regressores endógenos (k ′′ = k − k ′) ; − zt′• é o vector 1 × p′ dos instrumentos, que são regressores; − zt′′• é o vector 1× p′′ de eventuais instrumentos, não regressores ( p′′ = p − p′) ; − Evidentemente: xt′• = zt′• (k ′ = p′) ; p − k = p′′ − k ′′ ; p > k ⇔ p′′ > k ′′ . Então, o resultado (4.79) pode escrever-se,
J → χ 2 ( p′′ − k ′′) , d
e o teste de Hansen pode ser considerado um teste de sobre-identificação, segundo o qual se vai testar
H 0 : E ( zt′′•ut ) = 0 contra H1 : E ( zt′′•ut ) ≠ 0 .
O teste não pode ser efectuado quando p = k ou p′′ = k ′′ , porque haveria zero graus de liberdade (quando muito, a equação de regressão era exactamente identificada). e) O interesse prático do teste de sobre-identificação pode resumir-se da seguinte maneira: se se rejeita H 0 , então a estratégia de escolha das variáveis instrumentais deve ser reexaminada; se não se rejeita H 0 , então pode ter-se alguma confiança nos
Capítulo 4 – MRL com Regressores Endógenos
74
instrumentos escolhidos (note-se, no entanto, que o teste não é adequado para detectar a endogeneidade de alguns instrumentos). Exemplo 4.10 – Considere-se o modelo de regressão do exemplo 4.3, e suponha-se que se pretende fazer o teste de sobre-identificação de Hansen. Seja
xt • = [ 1 educt expert qit ] e zt • = [ 1 educt expert idadet meduct ].
Supondo que xt′• = zt′• = [ 1 educt expert ], xt′′• = qit e zt′′• = [ idadet meduct ], a hipótese nula é que idadet e meduct são instrumentos. A não rejeição desta hipótese permite concluir que há sobre-identificação; um valor elevado da estatística J (de Hansen) rejeita que idadet ou meduct sejam variáveis instrumentais. ∇ É possível apresentar outro resultado que permite testar um subconjunto de condições de ortogonalidade. Para isso, considere-se um vector zt∗• ( 1 × q ), dividido em dois sub-vectores, zt∗• = [ zt1• zt2• ],
onde zt1• e zt2• têm, respectivamente, q1 e q2 = q − q1 elementos. Admite-se que os elementos de zt1• são pré-determinados, isto é, satisfazem as condições de ortogonalidade, E ( zt1•ut ) = 0 (hipótese a manter); põe-se a questão de saber se os elementos de zt2• são pré-determinados, isto é, procura testar-se a condição E ( zt2•ut ) = 0 (hipótese a testar). Assim, tem-se
H 0 : E ( zt2•ut ) = 0 contra H1 : E ( zt2•ut ) ≠ 0 .
Deve introduzir-se a condição q1 ≥ k (o número de variáveis pré-determinadas indiscutíveis não é inferior ao número de regressores), uma vez que aquela condição é indispensável para poder fazer-se o teste (ver adiante). A ideia básica do teste é comparar duas estatísticas J resultantes de dois estimadores MGM de β : um deles usa zt1• como vector de variáveis instrumentais; o outro recorre ao vector zt∗• . Se a inclusão das variáveis sob teste aumenta significativamente o valor da estatística J, então pode haver evidência empírica contra a pré-determinação de zt2• . Seja ~ 1 ~ ~ ~ sz1 y − S z1 x β g• n ( β ) , = g • n ( β ) = s z∗ y − S z∗ x β = sz y − S z x β~ g 2 ( β~ ) 2 2 •n onde: 1 n 1 n sz∗ y = ∑t =1 ( zt∗• )T yt (vector q × 1 ); S z∗ x = ∑t =1 ( zt∗• )T xt • (matriz q × k ); n n 1 n 1 n s z1 y = ∑t =1 ( zt1• )T yt (vector q1 × 1 ); S z1x = ∑t =1 ( zt1• )T xt • (matriz q1 × k ); n n
Capítulo 4 – MRL com Regressores Endógenos s z2 y =
75
1 n 2 T 1 n ( zt • ) yt (vector q2 × 1 ); S z2 x = ∑t =1 ( zt2• )T xt • (matriz q2 × k ). ∑ t =1 n n
Seja, também,
E{u 2 ( z1 )T z1 } E{u 2 ( z1 )T z 2 } S11 S12 t t• t• t t• t• = , S = E{u ( z ) z } = 2 2 1 2 2 T T E{ut ( zt • ) zt • } E{ut ( zt • ) zt2•} S 21 S 22 2 t
∗ T t•
∗ t•
onde os tipos das submatrizes são os seguintes: S11 , q1 × q1 ; S12 , q1 × q2 ; S 21 , q2 × q1 ; S 22 , q2 × q2 . Conhecido um estimador consistente de S, Sˆ , o estimador MGM eficiente de β é dado por βˆ ( Sˆ −1 ) = ( S zT∗ x Sˆ −1 S z∗ x ) −1 S zT∗ x Sˆ −1 sz∗ y [ver (4.71)]. A correspondente estatística J é dado por (4.79), com as necessárias adaptações (nos índices das matrizes das médias amostrais, substitui-se z por z∗ ). Seja n 2 1 T 1 1 n 2 ∗ T ∗ (1 / n)∑t =1 uˆt ( zt • ) zt • ˆ S = ∑t =1 uˆt ( zt • ) zt • = (1 / n) n uˆ 2 ( z 2 )T z1 n ∑t =1 t t • t •
n (1 / n)∑t =1 uˆt2 ( zt1• )T zt2• Sˆ11 = n 2 2 T 2 Sˆ ˆ (1 / n)∑t =1 ut ( zt • ) zt • 21
Fazendo gˆ t1• = zt1•uˆt e gˆ t2• = zt2•uˆt , tem-se gˆ t • = zt∗•uˆt = [ gˆ t1• Então, Gˆ = Gˆ1 Gˆ 2 ,
em que
Sˆ12 . ˆ S22
gˆ t2• ].
gˆ 1 gˆ 2 11• 12• ˆ g gˆ Gˆ1 = 2• e Gˆ 2 = 2• . M M 1 gˆ n • gˆ n2• Assim, pode escrever-se
(1 / n)Gˆ T Gˆ (1 / n)Gˆ T Gˆ 1 1 1 1 2 . Sˆ = Gˆ T Gˆ = n (1 / n)Gˆ T Gˆ (1 / n)Gˆ T Gˆ 2 1 2 2
Considere-se Z∗ = [ Z1 Z 2 ], onde: Z1 é a matriz n × q1 (com linha genérica z ) das observações das variáveis que satisfazem as condições de ortogonalidade; Z 2 é a matriz de tipo n × q2 (com linha genérica zt2• ), das observações das variáveis em relação às quais se pretende testar as condições de ortogonalidade. Então, 1 t•
Sˆ 11 Sˆ = Sˆ 21
ˆ Z1 (1 / n) Z1T Φ ˆ Z2 Sˆ12 (1 / n) Z1T Φ = . T ˆ T ˆ ˆ (1 / n) Z 2 Φ Z1 (1 / n) Z 2 Φ Z 2 S 22
Quando se usam apenas os q1 elementos de zt1• , tem-se, respectivamente,
Capítulo 4 – MRL com Regressores Endógenos
76
βˆ ( Sˆ11−1 ) = ( S zT x Sˆ11−1 S z x ) −1 S zT x Sˆ11−1 sz y
= { X Z1 (Gˆ Gˆ1 ) Z X } X T Z1 (Gˆ1T Gˆ1 ) −1 Z1T Y 1
(4.80)
T
1
T 1
−1
1
1
T 1
−1
ˆ Z1 ) −1 Z1T X }−1 X T Z1 ( Z1T Φ ˆ Z1 ) −1 Z1T Y , = { X T Z1 ( Z1T Φ
onde Sˆ11 é um estimador consistente de S11 , e
J1 = n {sz1 y − S z1 x βˆ ( Sˆ11−1 )}T Sˆ11−1{sz1 y − S z1 x βˆ ( Sˆ11−1 )}
(4.81)
= {Y − X βˆ ( Sˆ11−1 )}T Z1 (Gˆ1T Gˆ1 ) −1 Z1T {Y − X βˆ ( Sˆ11−1 )}
ˆ Z1 ) −1 Z1T {Y − X βˆ ( Sˆ11−1 )}. = {Y − X βˆ ( Sˆ11−1 )}T Z1 ( Z1T Φ
O teste baseia-se no seguinte resultado:
Teorema 4.6 [teste de um subconjunto de condições de ortogonalidade] Considerem-se hipóteses REN.1 a REN.5. Seja zt1• um subvector de zt∗• com q1 ≥ k elementos. Se r (Qz1x ) = k [condição de característica de zt1• ], onde Qz1x = E{( zt1• )T xt • } , então, para quaisquer estimadores consistentes Sˆ , de S, e Sˆ11 , de S11 , obtém-se D = J − J1 → χ 2 (q − q1 ) , d
(4.82)
onde J e J 1 são dados, respectivamente, por (4.79) [substituindo z por z∗ nos índices das matrizes das médias amostrais] e (4.81). ∇∇
Dem.: Ver secção 4A.5.
Este teorema é passível dos seguintes comentários: a) Evidentemente, a escolha de Sˆ e de Sˆ11 não influencia o resultado assintótico obtido. No entanto, em pequenas amostras, a estatística-teste D pode ser negativa. Este problema é evitado se o mesmo Sˆ for usado, isto é, se Sˆ11 for a correspondente submatriz de Sˆ . Neste caso, existe a garantia de que D ≥ 0 (ver secção 4A.5 do anexo 4A). b) A distribuição de D, dada por (4.82), não pode ter um número de graus de liberdade superior a q − k . De facto, q1 ≥ k [que decorre da condição de característica referente a zt1• : r (Qz1x ) = k ] é incompatível com q − q1 > q − k . c) Quando q1 = k , o valor de D não depende da partição de zt∗• em zt1• e em zt2• , porque, neste caso, J1 = 0 [o estimador (4.80) reduz-se ao estimador VI]. Pode utilizar-se o teorema 4.6 para testar a endogeneidade de um subconjunto de regressores. Considere-se o modelo de regressão linear, yt = xt• β + ut , com as partições, já referidas, dos vectores xt • (regressores) e zt • (variáveis instrumentais) [ver comentário d) ao teorema 4.5]. Supondo que se pretende testar a endogeneidade dos regressores inseridos em xt′′• , tem-se H 0 : E ( xt′′•ut ) = 0 contra H1 : E ( xt′′•ut ) ≠ 0 .
Neste caso, vem
Capítulo 4 – MRL com Regressores Endógenos
77
zt∗• = [ zt1• zt2• ] = [ zt • xt′′• ],
onde: zt1• = zt • = [ xt′• zt′′• ]; zt2• = xt′′• ; q1 = p = k ′ + p′′ , q2 = k ′′ e q = p + k ′′ . As estatísticas J1 e J são obtidas usando, respectivamente, os vectores de variáveis instrumentais zt1• = zt • e zt∗• = [ zt • xt′′• ]. Então, D = J − J1 → χ 2 (k ′′) . d
Exemplo 4.11 – Suponha-se que na equação de regressão do exemplo 4.3 se pretendia testar se educt (anos completos de escolaridade do indivíduo t) é um regressor endógeno. Assim, H 0 : E (educt ut ) = 0 contra H1 : E (educt ut ) ≠ 0 . Neste caso, a partição de
zt∗• = [ 1 educt expert idadet meduct ]
é a seguinte:
z t1• = [ 1 expert idadet meduct ] (q1 = 4) ; zt2• = educt ( q2 = 1) .
Continua a ter-se
xt • = [ 1 educt expert qit ] (k = 4) .
Em primeiro lugar, calcula-se o estimador MGM eficiente (com os dois passos já conhecidos) do vector dos coeficientes de regressão, utilizando zt∗• como vector de instrumentos, o que permite obter J, e a matriz 5 × 5 , Sˆ . A seguir, extrai-se desta matriz a submatriz 4 × 4 , Sˆ11 , correspondente a zt1• , e determina-se o estimador MGM eficiente do mesmo vector dos coeficientes de regressão, usando o vector de instrumentos zt1• , obtendo-se J 1 . A diferença D = J − J1 tem distribuição limite do qui-quadrado com um grau de liberdade. Suponha-se, agora, que se procura testar a endogeneidade conjunta de educt e qit : H1 : E (educt ut ) = 0 ∧ E (qit ut ) = 0 contra H1 : E (educt ut ) ≠ 0 ∨ E (qit ut ) ≠ 0 .
Nestas condições, tem-se:
zt∗• = [ 1 educt expert qit idadet meduct ];
z t1• = [ 1 expert idadet meduct ] (q1 = 4) ; zt2• = [ educt qit ] (q2 = 2) .
A respectiva diferença D = J − J 1 tem distribuição limite do qui-quadrado com dois graus de liberdade. ∇ No teste baseado na estatística D = J − J 1 , pretende verificar-se a endogeneidade de um subconjunto de variáveis, zt2• , supondo que as outras variáveis, zt1• , são pré-
Capítulo 4 – MRL com Regressores Endógenos
78
determinados. Um caso especial importante é aquele em que xt• = zt1• . Neste caso, os regressores são, por hipótese, pré-determinados, e procura-se testar se as variáveis incluídas em zt2• são pré-determinadas ou endógenas. Nestas condições, o modelo de regressão linear é dado por
yt = zt1• β + ut .
(4.83)
Um método para fazer o teste é considerar o modelo aumentado, (4.84)
yt = zt1• β + zt2•δ + ut ,
onde se consideram como regressores adicionais os elementos de zt2• , e testar a hipótese nula H 0 : δ = 0 . Este teste, conhecido, por vezes, pela designação de teste de adição de variáveis, pode ser feito de acordo com o princípio da razão de verosimilhanças (utilizando a estatística Q′ ) ou com o princípio de Wald (recorrendo à estatística Q); as respectivas estatísticas são, obviamente, numericamente iguais, porque as restrições introduzidas pela hipótese nula são lineares. Para calcular a estatística Q′ é necessário determinar dois estimadores MGM eficientes de β γ = , δ com os mesmos instrumentos, zt∗• : um, sem restrições; o outro, com a restrição δ = 0 . O estimador MGM eficiente sem restrições é o estimador MQ de γ no modelo (4.84); a correspondente estatística J é igual a 0. Seja 1 n Sˆ = ∑t =1 uˆt2 ( zt∗• )T zt∗• , n
onde uˆt é o resíduo MQ da regressão sem restrições referida em (4.84). Utilizando este estimador consistente de S, o estimador MGM eficiente de γ , com a restrição δ = 0 , é obtido, minimizando J (γ~, Sˆ −1 ) = n ( sz∗ y − S z∗ z∗ γ~ )T Sˆ −1 ( sz∗ y − S z∗ z∗ γ~ ) ,
sujeito a δ = 0 . Assim, vai minimizar-se ~ ~ ~ J ( β , Sˆ −1 ) = n ( sz∗ y − S z∗ z1 β )T Sˆ −1 ( sz∗ y − S z∗ z1 β ) , obtendo-se
βˆ ( Sˆ −1 ) , 0
γˆr ( Sˆ −1 ) = onde
βˆ ( Sˆ −1 ) = ( S zT z Sˆ −1S z z ) −1 S zT z Sˆ −1sz y ∗ 1
∗ 1
∗ 1
∗
é o estimador eficiente MGM de β , considerando o modelo (4.83) e os instrumentos incluídos em zt • . Assim,
Capítulo 4 – MRL com Regressores Endógenos
79
Q′ = J r = n {sz∗ y − S z∗ z∗ γˆr ( Sˆ −1 )}T Sˆ −1{sz∗ y − S z∗ z∗ γˆr ( Sˆ −1 )} = n {sz∗ y − S z∗ z1 βˆ ( Sˆ −1 )}T Sˆ −1{sz∗ y − S z∗ z1 βˆ ( Sˆ −1 )}.
Facilmente se verifica que Q′ não é mais do que a estatística J de Hansen relativa ao modelo (4.83), quando o vector dos instrumentos é zt∗• . Além disso, Q′ é, também, igual a D = J − J 1 , pois neste caso J 1 = 0 (o estimador eficiente MGM de β no modelo (4.83), utilizando o vector dos instrumentos zt1• , é o estimador MQ). Em conclusão, pode afirmar-se que Q = Q′ = J = D , desde que se considere sempre a mesma Sˆ . Assim, o teste de adição de variáveis é numericamente equivalente ao teste de Hansen de sobre-identificação e ao teste de um subconjunto de condições de ortogonalidade. Suponha-se que se constrói Sˆ com os resíduos da regressão (4.83), em vez dos da (4.84). Dispõe-se, portanto, dos resíduos com restrições: uˆrt . Tem-se, então, 1 n Sˆr = ∑t =1 uˆrt2 ( zt∗• )T zt∗• . n
Se se utilizar esta matriz para calcular Q, Q′ e D, não se obtêm os mesmos resultados numéricos. No entanto, têm-se as mesmas distribuições limite porque Sˆr é consistente.
4.9 - Implicações da homocedasticidade condicionada Tal como se fez no capítulo 3 (secção 3.6), vão estudar-se na presente secção as implicações da homocedasticidade condicionada no contexto do MRL-REN. Para isso, começa-se por estabelecer a seguinte hipótese:
Hipótese REN.6 – Homocedasticidade condicionada As variáveis residuais são condicionalmente homocedásticas, (4.85)
E (ut2 | zt• ) = σ 2 > 0 .
Evidentemente que (4.85) implica E (ut2 ) = σ 2 (homocedasticidade marginal). A matriz S simplifica-se para (4.86)
S = σ 2 E ( ztT• zt • ) = σ 2Qzz ,
estando assegurado que existe a inversa de Qzz . Um estimador consistente de S é (4.87)
1 Sˆ = σˆ 2 S zz = σˆ 2 Z T Z , n
onde σˆ 2 é algum estimador consistente de σ 2 e plim( S zz ) = Qzz . Considere-se o estimador MGM eficiente de β , dado por (4.71). Então, atendendo a (4.87), obtém-se
Capítulo 4 – MRL com Regressores Endógenos
80
βˆ ( Sˆ −1 ) = βˆ{ (σˆ 2 S zz ) −1} = {S zxT (σˆ 2 S zz ) −1 S zx }−1 S zxT (σˆ 2 S zz ) −1 szy = ( S zxT S zz−1 S zx ) −1 S zxT S zz−1 szy ,
que não é mais do que o estimador MQ2P, (4.55); este estimador não depende de σˆ 2 . Assim, no caso de homocedasticidade condicionada, o estimador MGM eficiente é o estimador MQ2P, (4.88)
βˆ ( Sˆ −1 ) = βˆ ( S zz−1 ) = βˆ MQ2P .
Utilizando (4.86) em (4.72), obtém-se a matriz das covariâncias assintóticas do estimador MQ2P, (4.89)
Cov a ( βˆ MQ2P ) = σ 2 (QzxT Qzz−1 Q zx ) −1 .
Um estimador consistente desta matriz é dado por Cov a ( βˆ MQ2P ) = σˆ 2 ( S zxT S zz−1 S zx ) −1 . ^
(4.90)
Alternativamente pode escrever-se
Cov a ( βˆ MQ2P ) = nσˆ 2 ( X T Z ( Z T Z ) −1 Z T X ) −1 = nσˆ 2 ( X T H Z X ) −1 , ^
onde H Z = Z ( Z T Z ) −1 Z T . O estimador σˆ 2 pode ser calculado utilizando os resíduos MQ2P. Assim,
1 n Uˆ T Uˆ 2 ˆ , ( ) − = β y x ∑ t t MQ2P • n n t =1 onde Uˆ = Y − Xβˆ MQ2P . Obviamente, plim(σˆ 2 ) = σ 2 , atendendo à propriedade 4.3 dos estimadores MGM. (4.91)
σˆ 2 =
No contexto da homocedasticidade condicionada, pode fazer-se os seguintes comentários sobre os estimadores MQ2P e VI: a) Quando se considera a situação mais geral de heterocedasticidade condicionada, o estimador MGM eficiente ou óptimo não é o estimador MQ2P. Contudo, com a hipótese REN.6, este estimador passa a ser o estimador eficiente. Como se sabe, o estimador MQ2P é o estimador VI em que o vector dos instrumenˆ , é a matriz das estimativas ˆ (a matriz das combinações lineares, Π tos é xˆt • = zt •Π dos coeficientes das respectivas projecções lineares MQ). Seja qualquer outro vector de instrumentos linear em zt • : ~ xt = zt • A , onde A é uma qualquer matriz p × k . Facilmente se conclui que o estimador MQ2P é eficiente na classe dos estimadores VI em que vector de instrumentos é linear em zt • . Fica ao cuidado do leitor comentar o caso em que p = k e o caso em que xt • é pré-determinado. Uma implicação importante do resultado anterior é que, assintoticamente, é mais eficiente usar mais instrumentos do que menos. Esta conclusão decorre do seguinte: usar um subconjunto de zt • como vector de instrumentos corresponde a usar um particular conjunto de combinações lineares dos elementos de zt • . Parece, então, que o estimador é tanto melhor quanto maior for a diferença ente p e k. Infelizmente, como
Capítulo 4 – MRL com Regressores Endógenos
81
vai ver-se, quando p − k é muito grande, o estimador MQ2P pode apresentar sérios problemas em pequenas amostras. b) Para simplificar, considere-se o modelo yt = β1 + β 2 xt + ut , onde xt é endógeno e zt é a respectiva variável instrumental. A partir de (4.89), e notando que p = k = 2 , pode concluir-se que
σ2 Var a ( βˆ2, VI ) = 2 2 , σ x ρ zx
onde σ x2 = Var( xt ) e ρ zx é o coeficiente de correlação entre zt e xt . Obviamente é desejável que σ 2 seja pequeno, e que σ x2 e ρ zx sejam grandes; também se verifica que Var a ( βˆ2, VI ) tende para + ∞ , quando ρ zx → 0 (quanto mais fraco é o instrumento, maior é a variância assintótica do estimador VI de β 2 ). Um estimador consistente desta variância assintótica é dado por ^ nσˆ 2 Var a ( βˆ2, VI ) = , VTx Rzx2
onde: − σˆ
∑ =
n 2 t =1 t
uˆ (os uˆt são os resíduos VI); n−2 n − VTx = ∑t =1 ( xt − x ) 2 ; 2
− Rzx2 é o coeficiente de determinação da regressão de xt sobre zt . Obviamente é desejável que VTx e Rzx2 sejam grandes. É útil comparar a variância assintótica do estimador VI com a variância assintótica do estimador MQ (quando xt e ut não estão correlacionados). Tem-se Var a (b2 ) =
σ2 , σ x2
o que mostra que a variância assintótica do estimador VI é sempre maior do que a variância assintótica do estimador MQ, uma vez que | ρ zx | < 1 . c) Considere-se a equação estrutural yt = β1 + β 2 xt 2 + β3 xt 3 + L + β k −1 xt , k −1 + β k xtk + ut , sendo zt • o vector das variáveis instrumentais (que inclui os possíveis regressores pré-determinados). Seja xˆtj o valor ajustado de xtj da regressão MQ de xtj sobre zt • (1.º passo do método MQ2P). Vai focar-se a atenção na variância assintótica do estimador MQ2P de β k . Pode demonstrar-se que
σ2 , Vara ( βˆk , MQ2P ) ≈ VR *k
onde VR ∗k é a soma dos quadrados dos resíduos da regressão MQ de xˆtk sobre 1, xˆt 2 ,..., xˆt , k −1 (recorde-se que xˆtj = xtj , se xtj é pré-determinado). Seja VTk∗ = Σtn=1 ( xˆtk − xˆk ) a variação total de xˆtk e ( Rk∗ ) 2 o coeficiente de determinação da regressão MQ anterior. Da definição de coeficiente de determinação, resulta VR ∗k = VTk∗{1 − ( Rk∗ ) 2 } . Então,
Capítulo 4 – MRL com Regressores Endógenos Vara ( βˆk , MQ2P ) ≈
82
σ2
VTk∗{1 − ( Rk∗ ) 2 }
.
É desejável que VTk∗ seja grande e que ( Rk∗ ) 2 seja pequeno. O factor 1 − ( Rk∗ ) 2 é, no contexto da estimação MQ, considerado uma medida de multicolinearidade. Vai ver-se que a estimação MQ2P dos coeficientes em presença de multicolinearidade pode ser um problema ainda mais grave do que no caso da estimação MQ habitual. Para isso, vai comparar-se a expressão de Vara ( βˆk , MQ2P ) com a da variância assintótica do estimador MQ de β k , Vara (bk ) =
σ2
VTk (1 − Rk2 )
,
onde é VTk é a variação total de xtk e Rk2 é o coeficiente de determinação da regressão MQ de xtk sobre os outros regressores. Conclui-se que aquela variância é, em geral, superior a esta. De facto, basta notar que, em geral, VTk∗ < VTk e ( Rk∗ ) 2 > Rk2 . Quando é que se pode afirmar que VTk∗ é pequeno? Como xˆtk é o valor ajustado da regressão MQ de xtj sobre zt • , VTk∗ é variação explicada desta regressão. Se as variáveis instrumentais são de fraca qualidade ( xtk está fracamente correlacionado com zt • ), então aquela variação explicada é pequena, e a variância assintótica do estimador βˆk ,MQ2P é grande. Se, pelo contrário, xtj está fortemente correlacionado com zt • , então VTk∗ é grande, reduzindo aquela variância. Quando, em particular, xtk é pré-determinado, tem-se VTk∗ = VTk (porque xˆtk = xtk ): o valor de VTk∗ depende apenas da variação total de xtk . Este facto, ajuda a explicar porque as estimativas MQ2P dos coeficientes dos regressores pré-determinados são, em geral, mais precisas do que as estimativas MQ2P dos coeficientes dos regressores endógenos. Outra consequência da existência de variáveis instrumentais de fraca qualidade é a de que ( Rk∗ ) 2 pode estar perto de 1. Por exemplo, seja um modelo em que, sem perda de generalidade, xtk é o único regressor endógeno com apenas um instrumento, zt . Logo, zt • = [ 1 xt 2 L xt , k −1 zt ]. O valor ajustado, xˆtk , continua a resultar da regressão MQ de xtj sobre zt • . Como todos os regressores são pré-determinados, excepto xtk , ( Rk∗ ) 2 provém da regressão MQ de xˆtk sobre 1, xt 2 ,..., xt , k −1 . É imediato concluir que: se na regressão MQ para obter xˆtk (de xtj sobre zt • ), o coeficiente de zt não é significativo, então na regressão MQ para obter ( Rk∗ ) 2 (de xˆtk sobre 1, xt 2 ,..., xt , k −1 ), este coeficiente de determinação pode ser grande (estar muito perto de 1). Assim, a variância assintótica de βˆk ,MQ2P pode ser grande. Este exemplo mostra bem que não basta considerar a correlação entre o regressor endógeno, xtk , e a variável instrumental, zt : é indispensável recorrer à respectiva correlação parcial (controlando com os regressores pré-determinados). A fraca correlação entre xtk e zt • pode ser compensado pela dimensão da amostra, de tal forma que VTk∗ seja suficientemente grande e, consequentemente, Vara ( βˆk , MQ2P ) seja suficientemente pequena (note-se que, desde que a correlação entre xtk e zt • não seja nula, VTk∗ → +∞ quando n → +∞ ). Contudo, em muitas situações, VTk∗ só é suficientemente grande quando n é muito grande (em muitos casos, 500 000 observações não é suficiente para compensar a existência de instrumentos de fraca qualida-
Capítulo 4 – MRL com Regressores Endógenos
83
de). Além disso, se, na regressão de xtj sobre zt • o coeficiente de zt é diferente de 0, então ( Rk∗ ) 2 converge em probabilidade para uma constante inferior a 1. Deste modo, assintoticamente, não existe o problema da multicolinearidade. Os resultados para a inferência estatística, homólogos ao do caso geral, são os seguintes: 1) Para fazer o teste de H 0 : β j = β 0j , a estatística-teste é (4.92)
t = ∗ j
βˆMQ2P, j − β 0j
Neste caso
s
∗ j
→ N (0,1) . d
s ∗j =
1 ^ ˆ Vara ( β MQ2P, j ) = σˆ m∗jj , n
onde m∗jj é o elemento de ordem j da diagonal principal de ( X T H Z X ) −1 . Fica ao cuidado do leitor verificar com um exemplo que os erros padrão resultantes do 2.º passo do método MQ2P são diferentes dos erros padrão s∗j . 2) Quando a hipótese nula é H 0 : Rβ = δ 0 , tem-se (4.93) ou
n ( RβˆMQ2P − δ 0 )T {R ( S zxT S zz−1 S zx) −1 RT }−1 ( RβˆMQ2P − δ 0 ) d 2 Q= → χ ( m) , σˆ 2 Q=
( RβˆMQ2P − δ 0 )T {R ( X T H Z X ) −1 RT }−1 ( RβˆMQ2P − δ 0 ) d 2 → χ ( m) . σˆ 2
3) Vai estudar-se um caso particular do teste referido em 2). Considere-se o modelo yt = xt(•1) β•1 + xt(•2 ) β• 2 + ut , onde xt • = [ xt(•1) xt(•2 ) ], com xt(•1) de tipo 1× k1 e xt(•2 ) de tipo 1 × k2 , e β •1 e β • 2 são de tipo k1 × 1 e k2 × 1 , respectivamente ( k1 + k2 = k ). As componentes dos vectores xt(•1) e xt(•2 ) podem ser regressores pré-determinados ou regressores endógenos (o vector das variáveis instrumentais é zt • ). O teste a efectuar é o seguinte: H 0 : β• 2 = 0 contra H1 : β• 2 ≠ 0 . Seja uˆt o resíduo MQ2P, quando se estima o modelo sem restrições. A respectiva variação residual é VR1 = Σtn=1uˆt2 . Seja xˆt(•1) e xˆt(•2) os valores ajustados do 1.º passo do método MQ2P (quando se fazem as regressões MQ de xt(•1) e de xt(•2 ) sobre zt • , respectivamente). Represente-se por VR1∗ a soma dos quadrados do resíduos da regressão MQ de yt sobre xˆt(•1) e xˆt(•2 ) (2º passo do método MQ2P sem restrições), e por VR ∗0 a soma dos quadrados dos resíduos da regressão MQ de yt sobre xˆt(•1) (2º passo do método MQ2P com restrições). Pode demonstrar-se que, sob H 0 ,
(VR ∗0 − VR1∗ ) / k2 d → F ( k2 , n − k ) . VR1 /(n − k )
Note-se que no numerador desta estatística-teste utilizam-se as somas dos quadrados dos resíduos do 2.º passo do método MQ, e que no denominador recorre-se à soma dos quadrados dos resíduos da estimação MQ2P directa. 4) Quando H 0 : g ( β ) = 0 , utiliza-se
Capítulo 4 – MRL com Regressores Endógenos
84
Q → χ 2 ( m) , d
(4.94) onde
n g ( βˆMQ2P )T ∇g ( βˆMQ2P )( S zxT S zz−1 S zx) −1 ∇g ( βˆMQ2P )T g ( βˆMQ2P ) , Q= 2 ˆ σ
ou
g ( βˆMQ2P )T ∇ g ( βˆMQ2P )( X T H Z X ) −1 ∇ g ( βˆMQ2P )T g ( βˆMQ2P ) Q= . σˆ 2
−1
−1
5) A distância definida em (4.48) reduz-se a ~ ~ ~ ~ n ( szy − S zx β )T S zz−1 ( szy − S zx β ) (Y − Xβ )T H Z (Y − Xβ ) ~ 2 −1 = J {β , (σˆ S zz ) } = (4.95) . σˆ 2 σˆ 2 Então, a estatística J (de Hansen) é dada por (4.96)
n ( szy − S zx βˆMQ2P )T S zz−1 ( szy − S zx βˆMQ2P ) Uˆ T H ZUˆ d 2 = → χ ( p − k) , QS = σˆ 2 σˆ 2
conhecida pelo nome de estatística de Sargan. Note-se que QS = n R∗2 , onde R∗2 é o coeficiente de determinação não centrado da regressão de Uˆ sobre Z. Com efeito, basta notar que, devido à propriedade 2.6 dos resíduos MQ, R∗2 =
Uˆ T H ZUˆ . Uˆ TUˆ
Os comentários atrás apresentados para a estatística J (de Hansen) continuam válidos para a estatística de Sargan (no caso de homodecasticidade condicionada), nomeadamente a possibilidade de poder ser utilizada para fazer um teste de especificação ou um teste de sobre-identificação. Neste contexto, tem-se QS → χ 2 ( p′′ − k ′′) . d
6) A estatística Q′ assume a seguinte forma: Q′ = QSr − QS → χ 2 (m) , d
(4.97)
onde QS é dado por (4.96), e QSr obtém-se minimizando (4.95) com as restrições impostas pela hipótese nula H 0 : g ( β ) = 0 ou H 0 : Rβ = δ 0 ; o respectivo estimador r de β designa-se por estimador MQ2P com restrições, βˆMQ2P . Tem-se QSr =
r r )T S zz−1 ( szy − S zx βˆMQ2P ) Uˆ rT H ZUˆ r n ( szy − S zx βˆMQ2P = , σˆ 2 σˆ 2
r onde Uˆ r = Y − XβˆMQ2P .
Capítulo 4 – MRL com Regressores Endógenos
85
Desta forma, a estatística Q′ pode escrever-se da seguinte maneira:
r r ( szy − S zx βˆMQ2P )T S zz−1 ( s zy − S zx βˆMQ2P ) − ( s zy − S zx βˆMQ2P )T S zz−1 ( s zy − S zx βˆMQ2P ) σˆ 2 Uˆ T H Uˆ − Uˆ T H ZUˆ = r Z r 2 . σˆ
Q′ = n
No caso de H 0 : Rβ = δ 0 , esta estatística é numericamente igual a Q . 7) A estatística D [ver (4.82)], para testar um subconjunto de condições de ortogonalidade, reduz-se à diferença de duas estatísticas de Sargan: D = QS − QS1 → χ 2 (q − q1 ) , d
(4.98)
onde QS e QS1 correspondem a utilizar, respectivamente, os instrumentos considerados em zt∗• e em zt1• . Considerando a partição de Z∗ já conhecida, Z ∗ = [ Z1 Z 2 ], o estimador MQ2P usando Z1 é 1 = ( X T H1 X ) −1 X T H1Y , βˆMQ2P onde H 1 = Z1 ( Z1T Z1 ) −1 Z1T . Então, QS1 =
1 1 n ( sz1 y − S z1 x βˆMQ2P )T S z−11z1 ( sz1 y − S z1 x βˆMQ2P ) Uˆ1T H1Uˆ1 = , σˆ 2 σˆ 2
1 . onde Uˆ1 = Y − XβˆMQ2P Assim, a estatística D pode apresentar-se da forma seguinte:
D= −
n( sz∗ y − S z∗ x βˆMQ2P )T S z−∗1z∗ ( sz∗ y − S z∗ x βˆMQ2P ) σˆ 2 n( s − S βˆ 1 )T S −1 ( s − S βˆ 1 )
σˆ T T ˆ ˆ ˆ ˆ U H Z ∗U − U1 H1U1 = , σˆ 2 z1 y
z1 x
MQ2P
z1 z1 2
z1 y
z1 x
MQ2P
onde H Z ∗ = Z ∗ ( Z∗T Z ∗ ) −1 Z∗T .
8) Quando todos os regressores são pré-determinados, mas podendo existir em zt • variáveis pré-determinadas que não são regressores, há uma relação entre a distância J para o estimador MGM eficiente e a soma dos quadrados dos resíduos. Com efeito, considerando (4.95), e notando que H Z X = X , tem-se ~ ~ ~ ~ ~ (Y − Xβ )T H Z (Y − Xβ ) Y T H Z Y − 2Y T H Z Xβ + β T X T H Z Xβ ~ J {β , (σˆ 2 S zz−1 )} = = σˆ 2 σˆ 2 ~ ~ ~ Y T H zY − 2Y T Xβ + β T X T Xβ = σˆ 2 ~ ~ (Y − Xβ )T (Y − Xβ ) Y T Y − Y T H Z Y , = − σˆ 2 σˆ 2
ou
Capítulo 4 – MRL com Regressores Endógenos J {β , (σˆ 2 S zz−1 )} = ~
86
~ ~ (Y − Xβ )T (Y − Xβ ) (Y − Yˆ )T (Y − Yˆ ) , − σˆ 2 σˆ 2
onde Yˆ = H Z Y é o vector dos valores ajustados dados pelo estimador MQ. ~ Como a segunda parcela não depende de β , a minimização de J reduz-se à minimi~ ~ zação da soma dos quadrados dos resíduos, (Y − Xβ )T (Y − Xβ ) . Então: o estimador MGM eficiente de β é o estimador MQ; o estimador MGM eficiente sujeito às restrições da hipótese nula é o estimador MQ com as respectivas restrições; obtêm-se todos os resultados estatísticos já conhecidos do capítulo 3. Naturalmente, quando não se verifica a hipótese da homocedasticidade condicionada, o estimador MGM eficiente de β não é o estimador MQ. O teste de sobre-identificação referido em 5) pode ser feito utilizando outra estatística assintoticamente equivalente à estatística de Sargan. Considere-se o modelo de regressão linear, yt = xt • β + ut , com as partições, já referidas, dos vectores xt• e zt• [ver comentário d) ao teorema 4.5]. De acordo com a definição 4.3, zt • é um vector de variáveis instrumentais se preencher as duas condições de (4.38). É evidente que todas as variáveis ztl pertencentes a zt′• são, por hipótese, variáveis instrumentais. No entanto, uma variável ztl de zt′′• pode ser, ou não, instrumental. Para estas variáveis existe uma diferença fundamental entre as duas condições. A segunda, pode ser testada quando se dispõe de uma amostra. A forma mais simples de proceder consiste em fazer a regressão MQ de cada xtj de xt′′• sobre zt • , e testar se o coeficiente de ztl é significativo (utilizando o respectivo rácio-t). Mais geralmente, o teste pode ser feito com as mesmas regressões MQ, e testar se os coeficientes das variáveis incluídas em zt′′• são conjuntamente nulos (neste caso, usa-se o rácio-F respectivo). A primeira condição não pode ser testada, porque ut não é observável. No entanto, se existem mais variáveis instrumentais potenciais do que regressores endógenos ( p′′ > k ′′ ), pode testar-se se algumas delas são ortogonais à variável residual. O teste a efectuar é um teste de sobre-identificação, e tem como pressuposto que existem k ′′ instrumentos em zt′′• ; o teste refere-se às restantes p′′ − k ′′ variáveis de zt′′• , procurando saber se há evidência empírica que apoia a conclusão de que estas variáveis são instrumentais. Naturalmente, a hipótese nula estabelece que as variáveis ztl em questão são conjuntamente ortogonais a ut . Como pode provar-se que a escolha dos k ′′ instrumentos é arbitrária, o teste é formalizado do seguinte modo: H 0 : E ( zt′′•ut ) = 0 contra H1 : E ( zt′′•ut ) ≠ 0 .
A mecânica do teste é a seguinte: 1) Fazer a regressão MQ2P de yt sobre xt• , considerando zt • como vector de instrumentos, com vista a obter os respectivos resíduos MQ2P, uˆt . 2) Fazer a regressão MQ auxiliar de uˆt sobre zt • , de forma a calcular estatística-teste nR 2 , onde R 2 é o coeficiente de determinação resultante desta regressão. 3) Supondo a hipótese nula verdadeira, tem-se
Capítulo 4 – MRL com Regressores Endógenos
87
n R 2 → χ 2 ( p′′ − k ′′) . d
(4.99)
Pode provar-se que a estatística nR 2 e a estatística de Sargan, QS , são assintoticamente equivalentes.
Exemplo 4.12 – Considere-se o modelo de regressão do exemplo 4.3, e suponha-se que se pretende fazer o teste de sobre-identificação acabado de descrever. Considere-se xt • = [ 1 educt expert qit ] e zt • = [ 1 educt expert idadet meduct ].
Suponha-se que
xt′• = zt′• = [ 1 educt expert ], xt′′• = qit e zt′′• = [ idadet meduct ].
A hipótese nula é que idadet e meduct são instrumentos, ou seja,
H 0 : E (idadet ut ) = 0 ∧ E (meduct ut ) = 0 .
A não rejeição desta hipótese permite concluir que há sobre-identificação. Procede-se da seguinte maneira: 1) Fazer a regressão MQ2P de lsalart sobre 1, educt , expert e qit utilizando como instrumentos 1, educt , expert , idadet e meduct , de modo a obter os resíduos MQ2P, uˆt . 2) Fazer a regressão MQ auxiliar de uˆt sobre 1, educt , expert , idadet e meduct , e determinar o valor da estatística-teste nR 2 , onde R 2 é coeficiente de determinação desta regressão. 3) Testar a hipótese nula, verificando se nR 2 ≥ χα2 (1) , onde χα2 (1) é o respectivo valor crítico, para a dimensão α , dado pela respectiva distribuição do qui-quadrado. Se se verifica a desigualdade anterior, rejeita-se a hipótese nula, podendo concluir-se que pelo menos uma das variáveis, idadet e meduct , não é instrumental. Caso contrário, as duas variáveis são instrumentais, e há sobre-identificação. ∇ Para testar a hipótese de um subconjunto de condições de ortogonalidade [referida no resultado 7) da inferência estatística] existe outra via proposta por Hausman e Taylor (1980), a qual se baseia no princípio MGM de Hausman (ver anexo 4B). O teste de Hausman considera ainda os dois estimadores MQ2P referidos em 1 ˆ 7), β MQ2P e βˆMQ2P . 1 O estimador βˆ MQ2P é assintoticamente mais eficiente que βˆMQ2P , porque explora mais condições de ortogonalidade. Assim, 1 Cov a ( βˆMQ2P ) − Cov a ( βˆMQ2P ) = σ 2{(QzT1 xQz−11z1 Q z1 x ) −1 − (QzT∗ xQz−∗1z∗ Q z∗ x )}−1
é semidefinida positiva. Fazendo (ver anexo 4B)
Capítulo 4 – MRL com Regressores Endógenos
88
1 e βˆ•2 ( Sˆ −1 ) = βˆ MQ2P , βˆ•1 (Wˆ1 ) = βˆMQ2P
tem-se, devido a (54.1),
1 1 Cov a ( βˆMQ2P ) − Cov a ( βˆMQ2P ) . − βˆMQ2P ) = Cov a ( βˆMQ2P
Como
1 ) = nσˆ 2 ( X T H1 X ) −1 , Cov a ( βˆMQ2P ) = nσˆ 2 ( X T H Z ∗ X ) −1 e Cov a ( βˆMQ2P ^
^
vem
1 − βˆMQ2P ) = nσˆ 2{( X T H1 X ) −1 − ( X T H Z ∗ X ) −1} . Cov a ( βˆMQ2P ^
(4.100)
Hausman e Taylor (1980) demonstraram que: 1) A matriz (4.100), para pequenas amostras, é semidefinida positiva, mas não necessariamente definida positiva (pode não ter inversa). 2) Começa por recordar-se o conceito de inversa generalizada de uma matriz: uma inversa generalizada da matriz A é qualquer matriz A+ a verificar A A+ A = A ; se A é quadrada e não singular, então A+ é única e igual a A−1 . Para qualquer inversa generalizada de (4.100), considere-se a estatística de Hausman, 1 H = n ( βˆMQ2P − βˆMQ2P )T nσˆ 2{( X T H1 X ) −1 − ( X T H Z ∗ X ) −1}
+
1 n ( βˆMQ2P − βˆMQ2P ) ,
que é invariante em relação à inversa generalizada escolhida. Verifica-se que
1 1 ( βˆMQ2P − βˆMQ2P ) d − βˆMQ2P )T ( X T H1 X ) −1 − ( X T H Z ∗ X ) −1 ( βˆMQ2P → χ 2 (r ) , H= 2 ˆ σ +
onde r = min{q − q1 , k − s} e s é igual ao número de regressores considerados em zt1• (número de elementos comuns a xt • e zt1• ). Newey (1985) estabeleceu a seguinte relação entre as estatísticas H e D: − Se q − q1 ≤ k − s então H e D têm o mesmo número de graus de liberdade, e são numericamente iguais ( H = D ); se q − q1 > k − s , as duas estatísticas são numericamente diferentes. Considere-se o modelo de regressão linear, yt = xt • β + ut , a verificar a hipótese da homocedasticidade condicionada (REN.6), e suponha-se que se pretende testar a endogeneidade de regressores. O teste é o seguinte:
H 0 : E ( xt′′•ut ) = 0 contra H1 : E ( xt′′•ut ) ≠ 0 .
Capítulo 4 – MRL com Regressores Endógenos
89
Para efectuar este teste, supõe-se que está disponível um vector 1 × p de instrumentos, zt• , com p ≥ k . Pode, então, utilizar-se (4.98) com as necessárias adaptações. Neste caso, tem-se D = QS − QS1 → χ 2 (k ′′) , d
onde QS e QS1 correspondem a recorrer, respectivamente, aos instrumentos inseridos em zt∗• = [ zt • xt′′• ] e zt1• = zt • . No caso de a hipótese nula ser verdadeira, todos os regressores são pré-determinados, e pode utilizar-se o estimador MQ. Caso contrário, deve utilizar-se o estimador MQ2P. Como se viu, Hausman sugeriu que se fizesse uma comparação directa entre os dois estimadores para determinar se a diferença é estatisticamente significativa (note-se que ambos os estimadores são consistentes se a hipótese nula for verdadeira). Se os dois estimadores forem significativamente diferentes, então deve haver pelo menos um regressor endógeno (não se deve aceitar a hipótese nula). O teste de Hausman pode não ser de fácil aplicação. De facto, a determinação da estatística H passa pelo cálculo dos dois estimadores referidos (MQ e MQ2P), e respectivas matrizes de covariâncias assintóticas, podendo acontecer que a matriz da forma quadrática não tenha inversa. Isto sucede quando não existem regressores pré-determinados na equação estrutural. Na prática, o teste de endogeneidade pode ser feito sem determinar os dois estimadores referidos, recorrendo apenas a regressões MQ. Prova-se que este teste é assintoticamente equivalente ao teste de Hausman original. Considerem-se as k equações de regressão linear da forma reduzida (projecções lineares MQ de cada regressor sobre as variáveis instrumentais), (4.101)
xtj = π 1 j zt1 + π 2 j zt 2 + L + π pj ztp + vtj = xtj∗ + vtj ( j = 1, 2, K , k ) ,
onde xtj∗ = π 1 j zt1 + π 2 j zt 2 + L + π pj ztp = zt •π • j . Como se sabe, as k equações de (4.101) podem apresentar-se na forma xt • = xt∗• + vt • , onde: xt∗• = [ xt∗1 xt∗2 L xtk∗ ] = zt •Π ; Π é a matriz de tipo p × k , de coluna genérica π • j ; vt • = [ vt1 vt 2 K vtk ]. Sabe-se também que cada ztl é ortogonal a vtj . Como cada ztl é também ortogonal a ut , resulta que cada um dos xtj∗ é ortogonal a ut . Então, cada xtj é ortogonal a ut se e só se o respectivo vtj é ortogonal a ut :
E ( xtj ut ) = 0 ⇔ E (vtj ut ) = 0 ( j = 1, 2, K, k ) .
Assim, a questão reduz-se a testar se a variável residual estrutural está correlacionada com as variáveis residuais da forma reduzida. Para isso, vai considerar-se a projecção linear MQ de ut sobre as vtj ,
ut = δ 1vt1 + δ 2 vt 2 + L + δ k vtk + ε t = vt•δ + ε t ,
onde δ = [δ1 δ 2 L δ k ] . Nestas condições, sabe-se que E (vt •ε t ) = 0 e E ( zt •ε t ) = 0 (porque cada ztl é ortogonal a ut e a vtj ). Pode supor-se que E (ε t ) = 0 . Então, cada vtj é ortogonal a ut se e só se δ j = 0 : T
E (vtj ut ) = 0 ⇔ δ j = 0 ( j = 1, 2, K , k ) .
Capítulo 4 – MRL com Regressores Endógenos
90
Estas considerações sugerem que se deveria considerar a equação de regressão
yt = xt • β + vt •δ + ε t ,
onde ε t é a respectiva variável residual. Nesta equação todos os regressores são pré-determinados, porque E (vt •ε t ) = 0 e E ( xt •ε t ) = E{( xt∗• + vt • )ε t } = 0 . Poderia, então, testar-se a hipótese H 0 : δ = 0 , através do respectivo rácio-F. Note-se que, sob H 0 , ut = ε t . Mas, como os vtj não são observáveis, deve aplicar-se o método dos mínimos quadrados às equações (4.101) de forma a calcular os respectivos resíduos MQ, vˆtj . Então, passa a considerar-se a equação de regressão
yt = xt • β + vˆt •δ + ε t′ ,
onde vˆt• = [ vˆt1 vˆt 2 L vˆtk ] , que deve ser estimada pelo método MQ [quando um dos regressores, xtj , é, por hipótese, pré-determinado, da respectiva regressão MQ vem vˆtj = 0 , e este regressor não aparece em (4.102)]. A introdução dos regressores gerados, vˆtj , não afecta a consistência dos estimadores MQ na regressão (4.102), e não afecta os resultados clássicos da inferência estatística, uma vez que a hipótese nula estabelece que δ = 0 . Assim, O teste de H 0 : δ = 0 é feito usando o respectivo rácio-F [quando há heterocedasticidade condicionada, o teste é feito calculando, de acordo com o princípio de Wald, a respectiva estatística Q que resulta de (3.47)]. Se se rejeitar H 0 , conclui-se que pelo menos um regressor é endógeno. O teste referido é conhecido pela designação de teste de Wu-Hausman. Em resumo, a respectiva mecânica é a seguinte: 1) Fazer a regressão MQ de cada regressor xtj , que se presume ser endógeno, sobre zt • , com vista a obter os respectivos resíduos MQ, vˆtj . 2) Fazer a regressão MQ de yt sobre xt • e os resíduos vˆtj , obtidos em 1), para testar, utilizando o rácio-F, a nulidade conjunta dos coeficientes destes resíduos. Se esta hipótese for rejeitada, há pelo menos um regressor endógeno. (4.102)
Podem fazer-se os seguintes comentários ao teste de Wu-Hausman: a) Pode provar-se que a estatística k ′′F [onde F é a estatística-teste referida no passo 2)] é assintoticamente equivalente à estatística D = QS − QS1 . Assim,
k ′′F → χ 2 (k ′′) . d
b) As duas regressões do teste de Wu-Hausman são as duas regressões do método MQ2P (ver secção 4.5). Esta circunstância permite facilmente comparar as magnitudes das estimativas dos coeficientes de regressão, β j , pelos métodos MQ e MQ2P. c) Quando se rejeita H 0 : δ = 0 , os erros padrão calculados pelo método MQ não são adequados porque δ ≠ 0 . Para obter os erros padrão apropriados, deve utilizar-se o método MQ2P.
Exemplo 4.13 – Considere-se o modelo de regressão do exemplo 4.3, e suponha-se que se pretende testar se qit é endógena. Tem-se
H 0 : E (qit ut ) = Cov(qit , ut ) = 0 contra H1 : Cov(qit , ut ) ≠ 0 .
Capítulo 4 – MRL com Regressores Endógenos Como
91
xt • = [ 1 educt expert qit ] ( k ′ = 3 ; k ′′ = 1 ),
zt • = [ 1 educt expert idadet meduct ] ( p′ = 3 ; p′′ = 2 ), os dois passos do teste de endogeneidade são os seguintes: 1) Fazer a regressão MQ de qit sobre 1, educt , expert , idadet e meduct , de modo a obter os resíduos vˆt 4 . 2) Fazer a regressão de lsalart sobre 1, educt , expert , qit e vˆt 4 para a testar, com o rácio-t, a nulidade do coeficiente de vˆt 4 . Se esta hipótese for rejeitada, conclui-se que o regressor qit é endógeno. Suponha-se, agora, que o objectivo é testar se qit ou educt são endógenos. Assim, tem-se H 0 : Cov(qit , ut ) = 0 ∧ Cov(educt , ut ) = 0
contra H1 : Cov(qit , ut ) ≠ 0 ∨ Cov(educt , ut ) ≠ 0 . Neste caso,
xt • = [ 1 educt expert qit ] ( k ′ = 2 ; k ′′ = 2 ),
zt • = [ 1 expert idadet meduct ] ( p′ = 2 ; p′′ = 2 ).
Os dois passos do teste são os seguintes: 1) Fazer a regressão MQ de educt sobre 1, expert , idadet e meduct , de modo a obter os resíduos vˆt 2 ; fazer a regressão MQ de qit sobre 1, expert , idadet e meduct , de modo a obter os resíduos vˆt 4 . 2) Fazer a regressão de lsalart sobre 1, educt , expert , qit , vˆt 2 e vˆt 4 para a testar, com o rácio-F, a nulidade conjunta dos coeficientes de vˆt 2 e vˆt 4 . Se esta hipótese for rejeitada, conclui-se que há pelo menos um regressor endógeno. ∇ Seja yt = xt • β + ut um modelo de regressão linear com regressores endógenos e com termo independente. Nalguns casos, pode ser importante detectar a presença de heterocedasticidade condicionada, para decidir qual o modo de estimar os parâmetros do modelo: utilizar o estimador MQ2P, quando se está presença de homocedasticidade condicionada, ou recorrer ao estimador MGM eficiente, na situação mais geral de heterocedasticidade condicionada. Seja zt • o vector dos instrumentos. Para simplificar, supõe-se que {( yt , xt • , zt • )} é iid (em vez de REN.2). Admita-se também que E (ut | zt • ) = 0 [em vez de REN.3: E ( zt •ut ) = 0 ]. O teste de heterocedasticidade condicionada é o seguinte:
H 0 : E (ut2 | zt • ) = σ 2 contra H1 : E (ut2 | zt • ) depende de zt • .
Capítulo 4 – MRL com Regressores Endógenos
92
Utilizando os mesmos argumentos da secção 3.9 do capítulo 3, o teste é efectuado com a regressão auxiliar de uˆt2 sobre 1 e ht • , onde uˆt é o resíduo MQ2P do modelo original e ht • = h( zt • ) é uma qualquer função vectorial de zt • , de tipo 1× (q − 1) . Supondo que E (ut4 | zt • ) = κ 2 (homokurtosis condicionada) e que o vector das covariâncias condicionadas, Cov( xt • , ut | zt • ) , é constante, pode demonstrar-se que
n R 2 → χ 2 (q − 1) , d
(4.103)
onde R 2 é o coeficiente de determinação da regressão auxiliar. Para fazer um teste semelhante ao teste de White simplificado, não se pode considerar ht • = [ yˆt yˆt2 ], onde yˆt = xt • βˆMQ2P , uma vez que ht • só pode depender de variáveis pré-determinadas e de estimativas de parâmetros. A função proposta deve ser, enˆ são os valores ajustados de x obtitão, ht • = [ xˆt • βˆMQ2P ( xˆt • βˆMQ2P ) 2 ], onde xˆt • = zt •Π t• dos no 1.º passo do método MQ2P. Deste modo, a estatística-teste é dada por
n R 2 → χ 2 (2) , d
onde R 2 resulta da regressão auxiliar MQ de uˆt2 sobre 1, xˆt • βˆMQ2P e ( xˆt • βˆMQ2P ) 2 .
Capítulo 4 – MRL com Regressores Endógenos
93
PALAVRAS-CHAVE Condição de característica
Método dos mínimos quadrados em dois passos (MQ2P) Condição de ordem Método generalizado dos momentos Consistência Modelo de procura e oferta Diferença-martingala Modelo de regressão linear com regressores endógenos (MRL-REN) Efeito parcial (médio) Modelo macroeconómico simples Enviesamento da endogeneidade MRL sobre-parametrizado Enviesamento da simultaneidade MRL sub-parametrizado Enviesamento das variáveis omitidas Multicolinearidade Enviesamento de erros nos regressores Normalidade assintótica Equação estimável Omissão de variáveis Equação estrutural Ortogonalidade Erro de amostragem Previsor Erro de medida no regressando Princípio da razão de verosimilhanças Erro de medida num regressor Princípio de Wald Erro de previsão Princípio MGM de Hausman Erro padrão heterocedástico-consistente Princípio dos mínimos quadrados (linear) Erro quadrático médio da previsão Programa de avaliação Estacionaridade ergódica Projecção linear MQ Estatística de Hausman Rácio-t robusto Estatística de Sargan Redundância Estimador de grupos Regra da projecção linear MQ iterada Estimador de variáveis instrumentais Regressão de tipo I Estimador MGM (eficiente) Regressão de tipo II Estimador MQ2P Regressor endógeno Experiência natural Regressor gerado Forma reduzida Regressor pré-determinado Função de consumo microeconómica Resíduo da projecção linear MQ Função de produção microeconómica Shifter da oferta (observável) Heterocedasticidade condicionada Shifter da procura (observável) Homocedasticidade condicionada Sobre-identificação Hipótese clássica dos erros nas variáveis Sub-identificação Hipótese do rendimento permanente Teste de adição de variáveis Identificação (exacta) Teste de endogeneidade Indicador Teste de Hausman Inferência estatística Teste de hipóteses não lineares Inferência estatística sobre combinações Teste de sobre-identificação (de Hansen) lineares de coeficientes de regressão Inferência estatística sobre um coeficiente Teste de um subconjunto de condições de de regressão isolado ortogonalidade
Capítulo 4 – MRL com Regressores Endógenos
PALAVRAS-CHAVE Interacção Invariância Linearidade Método das variáveis instrumentais
Teste de Wu-Hausman Variável instrumental Variável proxy (imperfeita)
94
Capítulo 4 – MRL com Regressores Endógenos
95
PERGUNTAS DE REVISÃO 1.
2.
3.
4.
5.
6.
7.
8.
9.
10. 11.
Considere-se uma variável aleatória (escalar), y, e um vector aleatório de tipo 1 × k , x = [ x1 x2 K xk ]. Segundo o princípio dos mínimos quadrados, indique o melhor previsor de y. Considere-se uma variável aleatória (escalar), y, e um vector aleatório de tipo 1 × k , x = [ x1 x2 K xk ]. Segundo o princípio dos mínimos quadrados lineares, indique o melhor previsor de y. Considere a relação y = xβ + zδ , onde y é uma variável aleatória, x e z são dois vectores-linha aleatórios, e β e δ são dois vectores-coluna de parâmetros. Determine a projecção MQ de y sobre x e z. Considere o MRL, yt = β1 xt1 + β 2 xt 2 + ut , e admita que xt1 é regressor pré-determinado e que xt 2 é regressor endógeno. Suponha que as variáveis instrumentais deste regressor são z t1 e z t 2 . Escreva a projecção MQ do regressor endógeno sobre as variáveis pré-determinadas. Considere o MRL, yt = xt • β + ut . Seja yt = xt • β ∗ + ut∗ , onde β ∗ é vector dos coeficientes da projecção MQ de yt sobre xt • , e ut∗ é o respectivo resíduo. Determine a relação entre ut e ut∗ . Considere-se que a especificação correcta do MRL é yt = xt • β + zt •δ + ut , onde: xt • é um vector 1 × k de regressores pré-determinados; zt • é outro vector 1× m de regressores pré-determinados. Suponha-se que a especificação disponível é a seguinte: yt = xt • β + vt . Indique a expressão do enviesamento das variáveis omitidas (enviesamento da endogeneidade). Considere o modelo de regressão linear yt = β 0 + β1 xt1 + β 2 xt 2 + ut . Admita que xt1 é regressor endógeno. Indique a expressão do enviesamento assintótico do estimador MQ de β1 . x + γ z + u , onde as variáveis ~ Considere a equação y = α + β ~ x e z são exógenas. ~ ~ Suponha que x é observável com erro, dispondo-se de x = x + v , onde o erro de medida, v, não está correlacionado com ~ x e z. Mostre que x é endógena. Considere um modelo de oferta e procura de um mercado em equilíbrio. Seja: a) devem ter-se pelo menos dois shifters observáveis da curva da procura para identificar a equação da oferta; b) quando não há shifters observáveis nem para a curva da oferta nem para a curva da procura, deve aplicar-se o método de estimação MQ2P; c) quando a equação da oferta é identificada não existe enviesamento da simultaneidade. Quais destas afirmações são verdadeiras? Dê um exemplo de um modelo com 3 equações em que os estimadores MQ de dois parâmetros da primeira equação sofrem de enviesamento da simultaneidade. Considere a equação y1 = β1 + β 2 y2 + β 3 z1 + u1 , em que y2 é endógena e z1 é exógena. Suponha que utilizava o método dos mínimos quadrados (MQ) para estimar os coeficientes de regressão relativos à equação explicativa do comportamento de y1 . Apresente a equação de comportamento de y2 , de forma a poder concluir que a estimação referida sofre de enviesamento da simultaneidade.
Capítulo 4 – MRL com Regressores Endógenos 12.
96
15.
Considere as seguintes afirmações: a) no caso de um MRL, com erros de observação nalgumas variáveis explicativas, não pode haver regressores pré-determinados; b) num modelo de procura-oferta num mercado em equilíbrio o preço é regressor endógeno; c) no caso de um MRL com regressores pré-determinados, mas em que alguns são observados com erro, existe endogeneidade; d) numa equação da forma reduzida, pode existir um regressor endógeno. Indique quais são verdadeiras, e quais são falsas. Seja: a) no caso de um MRL com omissão de variáveis existe sempre regressores endógenos; b) num modelo de procura-oferta num mercado em equilíbrio o preço é regressor endógeno; c) no caso de um MRL com regressores pré-determinados, mas em que alguns são observados com erro, existe endogeneidade; d) quando se considera uma equação da forma reduzida, existe um regressor endógeno. Quais destas afirmações são verdadeiras? Considere um modelo de procura-oferta num mercado em equilíbrio, sem shifters observáveis. Seja: a) as duas equações são identificáveis; b) apenas a equação da procura é identificável; c) apenas a equação da oferta é identificável; d) nenhuma equação é identificável. Quais destas afirmações são verdadeiras? Considere o seguinte modelo de procura e oferta num mercado em equilíbrio:
16.
Supondo que α1 < 0 , β1 > 0 , E (utd ) = 0 , E (uts ) = 0 e Cov(utd , uts ) = 0 , determine a covariância entre o preço e o shifter da procura, e o respectivo sinal. Considere o seguinte modelo de procura e oferta num mercado em equilíbrio:
17.
Determine o enviesamento da endogeneidade relativamente a α1 . Considere o seguinte modelo de procura e oferta num mercado em equilíbrio:
13.
14.
18.
qt = α 0 + α1 pt + utd (equação da procura) s qt = β 0 + β1 pt + ut (equação da oferta ),
qt = α 0 + α1 pt + utd (equação da procura) s qt = β 0 + β1 pt + ut (equação da oferta ),
qt = α 0 + α1 pt + α 2 rt + utd s qt = β 0 + β 1 pt + β 2 z t + u t
(equação da procura) (equação da oferta ),
onde rt é o rendimento médio dos consumidores do produto e zt é um indicador da dimensão média das empresas do mercado respectivo. Estas variáveis são prédeterminadas nas duas equações. Determine o sistema de equações que permite identificar os parâmetros β1 e β 2 . Considere o seguinte modelo de procura e oferta num mercado em equilíbrio: qt = α 0 + α 1 pt + α 2 rt + utd (equação da procura) s (equação da oferta ), qt = β 0 + β 1 pt + u t
onde rt é o rendimento médio dos consumidores do produto. Esta variável é prédeterminada nas duas equações. Determine a expressão do estimador VI de β1 .
Capítulo 4 – MRL com Regressores Endógenos 19.
20.
21.
22.
23. 24.
25.
26.
27.
97
Considere-se o seguinte modelo macroeconómico simples Ct = α 0 + α1Yt + ut Yt = Ct + I t
(função consumo) (identidade do PNB),
onde Ct é o consumo agregado, Yt é o rendimento nacional, I t é o investimento agregado (variável pré-determinada). Determine a covariância entre o rendimento nacional e a variável residual da função consumo, e o respectivo sinal. Considere-se o seguinte modelo macroeconómico simples Ct = α 0 + α1Yt + ut Yt = Ct + I t
(função consumo) (identidade do PNB),
onde Ct é o consumo agregado, Yt é o rendimento nacional, I t é o investimento agregado (variável pré-determinada). Verifique que o investimento pode ser utilizado como variável instrumental do rendimento nacional. Considere-se o seguinte modelo macroeconómico simples Ct = α 0 + α1Yt + ut Yt = Ct + I t
(função consumo) (identidade do PNB),
onde Ct é o consumo agregado, Yt é o rendimento nacional, I t é o investimento agregado (variável pré-determinada). Determine o enviesamento da endogeneidade da propensão marginal a consumir. Considere a equação y1 = β1 + β 2 y2 + β 3 z1 + u1 . Escreva as condições, utilizando as covariâncias respectivas, que permitem afirmar que y2 é endógena e z1 é exógena. Considere o modelo yt = α + β t + γ yt −1 + ε t , onde | γ | < 1 e {ε t : t = 1,2,K} é um ruído branco. Classifique os regressores quanto à exogeneidade/endogeneidade. Admita que o modelo yt = β 0 + β1 xt1 + β 2 xt 2 + ut está correctamente especificado, mas adoptou-se o modelo yt = β 0 + β1 xt1 + vt ; sabe-se, também, que xt1 e xt 2 estão correlacionados. Seja: a) o estimador MQ dos coeficientes do modelo adoptado é consistente; b) o regressor do modelo adoptado é pré-determinado; c) para estimar os coeficientes do modelo adoptado é indispensável conhecer uma variável instrumental para o regressor. Quais destas afirmações são verdadeiras? Considere que a especificação correcta de um modelo de regressão linear é a seguinte: yt = β 0 + β1 xt1 + β 2 xt 2 + ut , onde os dois regressores são exógenos. Supondo que xt 2 não é observável, optou-se pelo modelo yt = β 0 + β1 xt1 + vt . Em relação ao modelo adoptado, classifique o regressor xt1 em função da correlação entre xt1 e xt 2 . Considere o modelo de regressão linear yt = β 0 + β1 xt1 + β 2 xt 2 + ut . Admita que xt1 é regressor endógeno e que zt é variável instrumental de xt1 . Indique as condições a que deve obedecer zt . Considere a equação yt1 = β1 + β 2 yt 2 + β 3 zt1 + ut1 , com dados temporais. Suponha que y2 é endógena, que z1 é exógena, e que dispõe de duas variáveis instrumentais para y 2 ( z 2 e z3 ). Que condições devem verificar estas variáveis.
Capítulo 4 – MRL com Regressores Endógenos 28.
29. 30. 31.
32.
33.
34.
35.
36.
37.
38.
39.
98
Considere o modelo yt = xt • β + ut onde os dados são seccionais, xt• é o vector 1 × k dos regressores e z t • é o vector 1× p das variáveis instrumentais. Enuncie a hipótese que estabelece a condição de característica para a identificação. Considere o modelo yt = xt • β + ut com regressores endógenos, onde zt • é o vector das variáveis instrumentais. Enuncie a hipótese sobre a amostragem casual. Considere o modelo yt = xt • β + ut onde xt• é o vector 1 × k dos regressores e zt • é o vector 1× p das variáveis instrumentais. Enuncie a condição de característica. Considere o modelo yt = xt • β + ut onde xt• é o vector 1 × k dos regressores e zt • é o vector 1× p das variáveis instrumentais. Enuncie a hipótese da diferença-martingala. Considere o modelo de regressão linear, yt = xt• β + ut , com regressores endógenos; seja X a matriz das observações dos regressores e Z a matriz das observações dos instrumentos. Apresente a fórmula dos estimadores MGM de β , explicitando as matrizes X e Z. Considere o MRL-REN, yt = xt • β + ut , e qualquer estimador MGM do vector dos coeficientes de regressão. Seja X a matriz das observações dos regressores e Z a matriz das observações dos instrumentos. Determine o respectivo erro de amostragem, explicitando as matrizes X e Z. Considere o MRL-REN, yt = xt • β + ut , onde xt• é o vector 1 × k dos regressores e zt • é o vector 1× p das variáveis instrumentais. Supondo que p = k , determine o erro de amostragem do estimador VI do vector dos coeficientes de regressão, explicitando as respectivas médias amostrais. Considere o MRL-REN, yt = xt • β + ut , onde xt• é o vector 1 × k dos regressores e zt • é o vector 1× p das variáveis instrumentais. Seja X a matriz das observações dos regressores e Z a matriz das observações dos instrumentos. Supondo que p = k , determine o erro de amostragem do estimador VI do vector dos coeficientes de regressão, explicitando as matrizes X e Z. Considere o MRL, yt = xt • β + ut , e a família dos estimadores MGM de β indexada pela matriz de pesos, Wˆ . Supondo que o número de regressores é igual ao número de instrumentos, demonstre que o estimador MGM reduz-se ao estimador VI, qualquer que seja a matriz Wˆ . Considere o MRL-REN, yt = xt • β + ut , onde xt• é o vector 1 × k dos regressores e zt • é o vector 1× p das variáveis instrumentais. Seja X a matriz das observações dos regressores e Z a matriz das observações dos instrumentos. Determine o erro de amostragem do estimador MQ2P do vector dos coeficientes de regressão, explicitando as matrizes X e Z. Considere o modelo de regressão linear yt = β 0 + β1 xt1 + β 2 xt 2 + ut . Suponha que: xt1 é regressor endógeno; zt1 e zt 2 são variáveis instrumentais de xt1 . Indique as duas regressões MQ do método MQ2P. Considere o modelo yt = xt • β + ut com regressores endógenos, onde zt • é o vector das variáveis instrumentais. Indique a expressão do estimador MQ2P, utilizando a matriz H Z .
Capítulo 4 – MRL com Regressores Endógenos
99
43.
Considere um modelo de regressão linear com regressores endógenos. Seja k o número de regressores e p o número de instrumentos. Quais as relações que se devem verificar entre k e p para aplicar o método VI e o método MQ2P, respectivamente. Considere a relação amostral, Y = Xβ + U , associado ao modelo de regressão linear, onde X é a matriz dos regressores de tipo n × k . Supondo que pelo menos um dos regressores é endógeno, seja Z a matriz das variáveis instrumentais de tipo n × p . Escreva, com a notação matricial, a relação amostral correspondente ao segundo passo do método MQ2P, e a relação entre os vectores das variáveis residuais desta relação e da relação original. Considere o modelo yt = xt • β + ut onde os dados são seccionais, xt • é o vector 1 × k dos regressores e zt • é o vector 1× p das variáveis instrumentais. A que condições deve obedecer a matriz E ( ztT• zt • ) para garantir que o estimador MQ2P de β seja consistente. Considere o seguinte modelo de equações simultâneas:
44.
Escreva as expressões das variáveis residuais da forma reduzida em função das variáveis residuais da forma estrutural. Considere o seguinte modelo de equações simultâneas:
40.
41.
42.
45. 46. 47.
48.
49.
50.
yt1 = α1 yt 2 + α 2 xt1 + α 3 xt 2 + α 4 xt 4 + ut1 yt 2 = β1 yt1 + β 2 xt 2 + β 3 xt 3 + ut 2 .
yt1 = α1 yt 2 + α 2 xt1 + α 3 xt 2 + ut1 yt 2 = β1 yt1 + β 2 xt 2 + β 3 xt 3 + ut 2 .
Indique as duas regressões que deve efectuar para estimar, pelo método MQ2P, os coeficientes da primeira equação. Indique um estimador consistente da matriz S = E (ut2 ztT• zt • ) . Considere o MRL-REN, yt = xt • β + ut . Prove a consistência dos estimadores MGM do vector dos coeficientes de regressão. Considere o MRL-REN, yt = xt • β + ut . Demonstre o resultado que permite afirmar que os estimadores MGM do vector dos coeficientes de regressão são assintoticamente normais. Considere o MRL-REN, yt = xt• β + ut . Seja zt • o vector das variáveis instrumentais, e considere os produtos ztT• ut . Indique um estimador consistente da matriz das covariâncias assintóticas da média amostral daqueles produtos. Considere o MRL-REN yt = xt • β + ut . A família dos estimadores MGM de β é indexada pela matriz de pesos, Wˆ , simétrica definida positiva. Qual é a matriz Wˆ no caso do estimador MGM eficiente? Considere o MRL-REN, yt = xt • β + ut , onde xt• é o vector 1 × k dos regressores e zt • é o vector 1× p das variáveis instrumentais. Indique um estimador consistente da matriz das covariâncias assintóticas do estimador MGM eficiente do vector dos coeficientes de regressão.
Capítulo 4 – MRL com Regressores Endógenos 51.
52.
53.
54.
55.
100
Considere o modelo de regressão linear, yt = xt• β + ut , com regressores endógenos. Como sabe, os estimadores MGM de β são indexados por uma matriz Wˆ simétrica e definida positiva. Em que condições se tem um estimador MGM eficiente? Considere o MRL, yt = xt • β + ut . A família dos estimadores MGM de β é indexada pela matriz de pesos, Wˆ , simétrica definida positiva. Qual é a matriz Wˆ no caso do estimador MQ2P? Considere a equação yt = β 0 + β1 xt1 + β 2 xt 2 + ut , inserida num modelo com mais equações, onde se verifica que Cov( xt1 , ut ) ≠ 0 e Cov( xt 2 , ut ) = 0 . Sabe-se também que existem mais duas variáveis exógenas no modelo, zt1 e zt 2 . Como procederia para estimar a equação dada pelo método dos mínimos quadrados em dois passos. Considere o MRL-REN, yt = xt • β + ut , onde xt• é o vector 1 × k dos regressores e zt • é o vector 1× p das variáveis instrumentais. Indique a expressão da distância ~ ~ J ( β , Sˆ −1 ) avaliada em β = β , bem como a respectiva distribuição limite. Considere o MRL com regressores endógenos. Seja k o número de regressores e p o número de instrumentos ( p > k ) . Considere a estatística de J de Hansen para o teste de sobre-identificação. Complete a seguinte afirmação:
J → ________. A estatística J de Hansen pode ser interpretada como a estatística-teste para fazer um teste de especificação de um modelo de regressão linear com regressores endógenos. Explique. Considere o modelo yt = xt • β + ut com regressores endógenos, onde zt • é o vector das variáveis instrumentais. Supondo que existem apenas restrições de exclusão, indique as condições para se ter sobre-identificação. Considere a equação y1 = β1 + β 2 y2 + β 3 y3 + β 4 z1 + u1 , supondo que y 2 e y3 são endógenas e z1 é exógena. Suponha, também, que dispõe de duas variáveis instrumentais: z 2 e z3 . Pode efectuar o teste de sobre-identificação? Justifique. Considere o seguinte modelo de equações simultâneas: d
56.
57.
58.
59.
60.
61.
yt1 = α1 yt 2 + α 2 xt1 + α 3 xt 2 + ut1 yt 2 = β1 yt1 + β 2 xt 2 + β 3 xt 3 + ut 2 .
É possível fazer o teste de sobre-identificação relativamente à primeira equação? Justifique. Considere o modelo yt = xt • β + ut onde xt• é o vector 1 × k dos regressores e zt • é o vector 1× p das variáveis instrumentais. Enuncie a hipótese da homocedasticidade condicionada. Considere o modelo de regressão linear yt = β 0 + β1 xt1 + β 2 xt 2 + ut . Suponha que: xt1 é regressor endógeno; zt1 e zt 2 são variáveis instrumentais de xt1 . Indique a condição de homocedasticidade condicionada.
Capítulo 4 – MRL com Regressores Endógenos
101
66.
Seja o MRL, yt = xt • β + ut , com regressores endógenos. Considere o vector das variáveis instrumentais, z t • , e a matriz S = E (ut2 ztT• zt • ) . Deduza a expressão desta matriz quando se introduz a hipótese da homocedasticidade condicionada. Considere o MRL-REN, yt = xt • β + ut , onde xt• é o vector 1 × k dos regressores e zt • é o vector 1× p das variáveis instrumentais. Supondo que existe homocedasticidade condicionada, indique um estimador consistente da matriz das covariâncias assintóticas do estimador MQ2P do vector dos coeficientes de regressão. Considere o MRL-REN, yt = xt • β + ut , onde xt• é o vector 1 × k dos regressores e zt • é o vector 1× p das variáveis instrumentais. Suponha que existe homocedas~ ticidade condicionada. Indique a expressão da distância J ( β , Sˆ −1 ) avaliada em ~ ˆ β = β MQ2P , bem como a respectiva distribuição limite (note que, no caso de homocedasticidade condicionada, a matriz Sˆ pode ser simplificada). Considere o modelo yt = xt • β + ut com regressores endógenos e homocedasticidade condicionada, onde z t • é o vector das variáveis instrumentais. Descreva a mecânica do teste de sobre-identificação, utilizando a estatística n R 2 assintoticamente equivalente à estatística de Sargan. Considere o seguinte modelo de equações simultâneas:
67.
Admitindo que existe homocedasticidade condicionada, descreva o mecanismo do teste de sobre-identificação relativamente à segunda equação, utilizando a estatística n R 2 assintoticamente equivalente à estatística de Sargan. Considere o seguinte modelo de equações simultâneas:
68.
Admitindo que existe homocedasticidade condicionada, descreva o mecanismo do teste de sobre-identificação relativamente à primeira equação, utilizando a estatística n R 2 assintoticamente equivalente à estatística de Sargan. Considere o seguinte modelo de equações simultâneas:
62.
63.
64.
65.
69.
yt1 = α1 yt 2 + α 2 xt1 + α 3 xt 2 + α 4 xt 4 + ut1 yt 2 = β1 yt1 + β 2 xt 2 + β 3 xt 3 + ut 2 .
y t 1 = α 1 y t 2 + α 2 xt 1 + α 3 xt 2 + α 4 xt 4 + u t 1 yt 2 = β1 yt1 + β 2 xt 2 + β 3 xt 3 + β 4 xt 5 + ut 2 .
yt1 = α1 yt 2 + α 2 xt1 + α 3 xt 2 + ut1 yt 2 = β1 yt1 + β 2 xt 2 + β 3 xt 3 + ut 2 .
Admitindo que existe homocedasticidade condicionada, descreva o mecanismo do teste de endogeneidade da variável yt1 na segunda equação, de forma a utilizar o rácio-F assintoticamente equivalente à estatística D (diferenças de duas estatísticas de Sargan). Considere o modelo de regressão linear yt = β 0 + β1 xt1 + β 2 xt 2 + ut . Suponha que: xt1 é regressor endógeno; zt1 e z t 2 são variáveis instrumentais de xt1 . Admitindo que existe homocedasticidade condicionada, descreva os dois passos do teste de endogeneidade, que corresponde a utilizar o rácio-F assintoticamente equivalente à estatística D (diferenças de duas estatísticas de Sargan).
Capítulo 4 – MRL com Regressores Endógenos 70.
102
Considere o seguinte modelo de equações simultâneas:
y t 1 = α 1 y t 2 + α 2 xt 1 + α 3 xt 2 + α 4 xt 4 + u t 1 yt 2 = β1 yt1 + β 2 xt 2 + β 3 xt 3 + β 4 xt 5 + ut 2 .
Admitindo que existe homocedasticidade condicionada, descreva o mecanismo do teste de endogeneidade de Wu-Hausman relativamente à segunda equação.
CAPÍTULO 5 SISTEMAS DE EQUAÇÕES DE REGRESSÃO LINEAR 5.1 - Apresentação do modelo Este capítulo tem por objectivo generalizar o estudo efectuado no capítulo 4 considerando um modelo econométrico constituído por várias equações de regressão linear, e onde o método de estimação dos parâmetros ainda é o método generalizado dos momentos (MGM). Desta forma, considere-se o modelo da população, (5.1)
yti = β1i xti1 + β 2i xti 2 + L + β kii xtiki + uti (i = 1, 2, K , m ; t ∈ T ) ,
onde: − yti é a observação t do regressando yi (há uma equação para cada regressando); − xtij é a observação t do regressor xij ( j = 1, 2, K , ki ) ; a equação i tem ki regressores; − β ji é o coeficiente de regressão de xij (os coeficientes podem variar de equação para equação, mas não de observação para observação, dentro da mesma equação); − uti é a variável residual da observação t da equação i. Nota: o índice t tanto pode designar uma observação temporal como uma observação seccional; o índice i refere-se à equação i, ou ao regressando da equação i. Fazendo xti • = [ xti1 xti 2 L xtiki
β1i β 2i ] e β •i = , M β k i i
o modelo (5.1) pode ser apresentado com a notação seguinte (notação A): (5.2)
yti = xti• β •i + uti (i = 1, 2, K , m ; t ∈ T ) .
Deste modo: − xti• é o vector 1× ki da observação t dos regressores da equação i; o elemento genérico deste vector é xtij ( j = 1, 2, K , ki ) .
Capítulo 5 – Sistemas de Equações de Regressão Linear
2
− β•i é o vector ki × 1 dos coeficientes de regressão da equação i; o elemento genérico deste vector é β ji ( j = 1, 2, K , ki ) .
O modelo (5.1) pode, ainda, ser formalizado de outro modo (notação B): (5.3) onde
ytT• = X t • β + utT• (t ∈ T ) , yt • = [ yt1
yt 2 L ytm ], ut • = [ ut1 ut 2 L utm ],
β •1 xt1• 0 L 0 β 0 x 0 t 2• L e β = •2 . X t• = M M M M 0 L xtm • β• m 0
− − − −
Assim: yt • é o vector de tipo 1 × m da observação t dos regressandos; o elemento genérico deste vector é yti ( i = 1, 2, K , m ); ut • é o vector 1 × m das variáveis residuais relativas observação t; o elemento genérico deste vector é uti ( i = 1, 2, K , m ); X t • é a matriz m × k ( k = k1 + k2 + L + km ), diagonal por blocos, formada pelos m blocos xti • ( i = 1, 2, K , m ); β é o vector k × 1 , formado pelos m subvectores β•i ( i = 1, 2, K , m ).
Facilmente se verifica que as notações (5.2) e (5.3) do modelo da população são equivalentes. Suponha-se que se dispõe de uma amostra de dimensão n (t = 1, 2, K , n) . A relação amostral, (5.4)
Y = Xβ + U ,
pode ser apresentada de duas formas equivalentes, recorrendo a (5.2) ou a (5.3): a) Notação A. Considerem-se as n relações (5.2), quando t = 1, 2, K , n . Pode, então, escrever-se (5.5) onde:
y•i = X •i β •i + u•i (i = 1, 2, K , m) ,
x1i • x1i1 x1i 2 L x1ik i y1i u1i x x x L x y u 2 i1 2i 2 2 ik i e u•i = 2i . y•i = 2 i , X •i = 2 i • = M M M M M M xni • xni1 xni 2 L xnik i y ni uni
Logo: − y•i é o vector n × 1 (de elemento genérico yti ) das observações do regressando yi ( i = 1, 2, K , m ).
Capítulo 5 – Sistemas de Equações de Regressão Linear
3
− X •i é a matriz n × ki (de elemento genérico xtij ) das observações dos regressores da equação i ( i = 1, 2, K , m ); a linha genérica desta matriz é xti• (t = 1, 2, K , n) . − u•i é o vector n × 1 (de elemento genérico uti ) das variáveis residuais da equação i ( i = 1, 2, K , m ).
As m equações, dadas por (5.5), podem ser agrupadas numa única expressão matricial da forma (5.4), onde: X •1 y•1 O y •2 , X = Y= M M O y• m
O X •2
M O
O u•1 u L O e U = •2 . M M L X •m u• m
L
Assim: − Y é o vector mn × 1 , formado pelos m subvectores y•i ( i = 1, 2, K , m ); − X é a matriz diagonal por blocos, de tipo mn × k , formada pelos m blocos X •i ( i = 1, 2, K , m ); − U é o vector mn × 1 , formado pelos m subvectores u•i ( i = 1, 2, K , m ).
b) Notação B. Quando se consideram as n relações (5.3), para t = 1, 2, K , n , ainda se tem uma relação amostral na forma (5.4), onde y1T• u1T• X 1• T T X y2 • u 2• , X= e U = 2• . Y= M M M T T X n• yn • un •
Assim: − Y é o vector mn × 1 , formado pelos n subvectores ytT• ( t = 1, 2, K , n ); − X é a matriz de tipo mn × k , formada pelos m blocos X t • ( t = 1, 2, K , n ); − U é o vector mn × 1 , formado pelos m subvectores utT• ( t = 1, 2, K , n ).
Sem dificuldade se verifica que as duas relações amostrais, Y = Xβ + U , postas em alternativa, são equivalentes porque contêm a mesma informação: apenas difere o modo como as observações estão ordenadas. Assim: − Com a notação A, a ordenação das observações das variáveis nas matrizes Y e X é a seguinte: as n observações das variáveis da primeira equação; as n observações das variáveis da segunda equação; e, assim, sucessivamente até à última equação. − Na notação B, a ordenação respectiva é a seguinte: a primeira observação das variáveis de todas as equações; a segunda observação das variáveis de todas as equações; e, assim, sucessivamente até à última observação. No anexo 5A faz-se uma sistematização dos vários tipos de modelos com várias equações de regressão, apresentando-se a formalização desses modelos e descrevendo-se as estruturas matriciais respectivas, quer para os modelos da população quer para as
Capítulo 5 – Sistemas de Equações de Regressão Linear
4
relações amostrais correspondentes (ver quadros 5A.1 a 5A.4). A consulta destes quadros deve ser uma preocupação constante ao longo da leitura do presente capítulo, sobretudo quando forem introduzidos os casos particulares do modelo (5.2) [ou (5.3)]. Exemplo 5.1 – Retome-se o exemplo 4.3 (ver capítulo 4), onde se considerou a seguinte equação estimável:
lsalart = β11 + β 21 educt + β 31 expert + β 41 qit + ut1 .
Suponha-se que se acrescenta ao modelo uma equação explicativa do comportamento de uma variável que representa a pontuação de um teste sobre o “conhecimento do mundo do trabalho” (cmt) [a expressão inglesa é knowledge of the world of work; kww], cmtt = β12 + β 22 educt + β 32 qit + ut 2 . Tem-se: m = 2 (duas equações); k1 = 4 (quatro regressores na primeira equação); k2 = 3 (três regressores na segunda equação). Para a notação (5.2), tem-se: yt1 = lsalart ; yt 2 = cmtt ; xt1• = [ 1 educt expert qit ]; xt 2• = [ 1 educt qit ] ; β11 β12 β 21 β•1 = ; β• 2 = β 22 . β 31 β32 β 41
yt • = [ lsalart cmtt ] ; ut • = [ ut1 ut 2 ] ;
Quando se apresenta o modelo na forma (5.3), resulta:
0 0 1 educt expert qit 0 ; X t• = 0 0 0 1 educt qit 0
β T = [ β11 β 21 β31 β 41 β12 β 22 β32 ] .
Na notação A da relação amostral, Y = Xβ + U , tem-se:
u12 u11 cmt1 lsalar1 u u cmt lsalar 2 ; y• 2 = 2 ; u•1 = 21 ; u• 2 = 22 ; y•1 = M M M M un 2 un1 cmtn lsalarn 1 educ1 exper1 qi1 1 educ1 qi1 1 educ exper qi 1 educ qi 2 2 2 2 2 ; X •2 = ; X •1 = M M M M M M M 1 educn expern qin 1 educn qin
5
Capítulo 5 – Sistemas de Equações de Regressão Linear lsalar1 u11 1 educ1 exper1 qi1 lsalar u 1 educ exper qi 2 2 2 2 21 M M M M M M 1 educn expern qin u lsalarn ; U = n1 ; X = Y = cmt1 u12 0 0 0 0 0 0 0 cmt2 u22 0 M M M M M M 0 0 0 un 2 cmtn 0
0
0
0
0
M
M
0
0
1 educ1 1 educ2 M M 1 educn
0 0 M 0 . qi1 qi2 M qin
Quanto à notação B da relação amostral, vem:
lsalar1 u11 1 educ1 cmt u 0 0 1 12 lsalar2 u21 1 educ2 Y = cmt2 ; U = u22 ; X = 0 0 M M M M lsalarn un1 1 educn cmt u 0 0 n n2
exper1
qi1
0
0
0
1 educ1
exper2
qi2
0
0
M expern
M qin
0
0
0
0 0
1 educ2 M 0
M 0
1 educn
0 qi1 0 qi2 . M 0 qin
∇
Exemplo 5.2 – Suponha-se que num painel de dados sobre trabalhadores existem observações para dois anos (anos 1 e 2) sobre as variáveis salar, educ, qi e exper. Pode, então, considerar-se o seguinte modelo: lsalar1t = β11 + β 21 educ1t + β 31 exper1t + β 41qit + ut1 lsalar 2t = β12 + β 22 educ 2t + β 32 exper 2t + β 42 qit + ut 2 ,
onde lsalar1t lsalar 2t educ1t educ2t exper1t exper 2t qit
- logaritmo do salário do indivíduo t no ano 1; - logaritmo do salário do indivíduo t no ano 2; - anos completos de escolaridade do indivíduo t no ano 1; - anos completos de escolaridade do indivíduo t no ano 2; - anos de experiência profissional do indivíduo t no ano 1; - anos de experiência profissional do indivíduo t no ano 2; - QI do indivíduo t.
Tem-se: m = 2 ; k1 = k2 = 4 . Para a notação (5.2) do modelo, faz-se:
yt1 = lsalar1t ; yt 2 = lsalar 2t ;
xt1• = [ 1 educ1t exper1t qit ]; xt 2• = [ 1 educ 2t exper 2t qit ] ;
Capítulo 5 – Sistemas de Equações de Regressão Linear
6
β11 β12 β β 21 ; β•1 = β• 2 = 22 . β 31 β32 β 41 β 42
yt • = [ lsalar1t
No caso de (5.3), tem-se:
lsalar 2t ] ; ut • = [ ut1 ut 2 ] ;
0 0 0 1 educ1t exper1t qit 0 X t• = ; 0 0 0 0 1 2 2 edu exper qi t t t
β T = [ β11 β 21 β31 β 41 β12 β 22 β32 β 42 ] .
Fica ao cuidado do leitor reconstituir as notações A e B da relação amostral Y = Xβ + U . Neste sistema, por exemplo, educ1 e educ2 são consideradas variáveis diferentes. Naturalmente uma hipótese a testar é a de que os coeficientes de variáveis homólogas não variam no tempo, ou seja, procura testar-se o seguinte conjunto de restrições inter-equações: β 21 = β 22 , β 31 = β32 e β 41 = β 42 . ∇ Exemplo 5.3 – Os sistemas de equações de regressão linear podem ter lugar em muitos modelos da teoria económica. Na teoria do comportamento do consumidor, o decisor dispõe de um determinado rendimento monetário, rm, e defronta um conjunto de preços de r bens, p1 , p2 , K , pr . A hipótese da maximização da utilidade permite obter um conjunto de funções de procura,
qi = f i ( p1 , p2 , K , pr , rm) ,
onde qi é a quantidade óptima de consumo do bem i ( i = 1, 2, K , r ). A escolha da função utilidade implica uma determinada forma funcional para fi . Por exemplo, postulando que a função utilidade é rm ∑i =1 ai pi , r
obtém-se qi =
ai bi rmbi pi−bi −1 exp{ε i }
∑h =1 ah bh rmbh −1 ph−bh m
bi
( i = 1, 2, K , r ),
onde se juntou a variável residual multiplicativa, exp{ε i } , indispensável para as aplicações empíricas. A despesa com o bem i, di = pi qi , é, então, di =
ai bi (rm / pi )bi exp{ε i }
∑h =1 ah bh rmbh −1 ph−bh m
( i = 1, 2, K , r ),
que é não linear relativamente aos parâmetros ai e bi .
Capítulo 5 – Sistemas de Equações de Regressão Linear
7
Contudo, considerando os rácios
di ai bi (rm / pi )bi = × × exp{ε i − ε j } ( i ≠ j ), d j a j b j (rm / p j )b j e logaritmizando, obtêm-se as equações lineares
rm rm ln di − ln d j = α ij + bi ln − b j ln + uij ( i ≠ j ), pi pj
onde
ai bi e uij = ε i − ε j . a b j j
α ij = ln
Dados r bens, há r (r − 1) / 2 equações desta forma, mas muitas são redundantes. Para ilustrar tais redundâncias, sejam três bens e as respectivas equações:
rm rm ln(d1 ) − ln(d3 ) = α13 + b1 ln − b3 ln + u13 ; p3 p1
rm rm ln(d 2 ) − ln(d3 ) = α 23 + b2 ln − b3 ln + u23 ; p2 p3
rm rm ln(d1 ) − ln(d 2 ) = α12 + b1 ln − b2 ln + u12 . p1 p2
Facilmente se verifica que, por exemplo, a terceira equação é igual à diferença das duas primeiras, bastando notar que α12 = α13 − α 23 e que u12 = u13 − u23 . Considerando r bens, existem apenas r − 1 equações independentes. Como a escolha destas equações é arbitrária, vai considerar-se o seguinte sistema: rm rm ln(d1 ) − ln(d r ) = α1r + b1 ln p − br ln p + u1r 1 r rm rm ln(d 2 ) − ln(d r ) = α 2 r + b2 ln p − br ln p + u2 r 2 r L rm rm ln(d r −1 ) − ln(d r ) = α r −1, r + br −1 ln p − br ln p + ur −1, r . r −1 r
Introduzindo o índice t das observações, este modelo pode apresentar-se na forma (5.2). Fazendo r −1 = m , tem-se, para i = 1, 2, K , m , α ir rmt rmt yti = ln(dti ) − ln(dtr ) , xti • = 1 ln − ln ( ki = 3 ), β •i = bi , uti = utir . p p ti tr br
Note-se que existem restrições inter-equações: o terceiro parâmetro de cada β•i é sempre br . Como se vai ver, estas restrições podem ser testadas.
Capítulo 5 – Sistemas de Equações de Regressão Linear
8
Fica ao cuidado do leitor formalizar o modelo de acordo com (5.3), e apresentar as relações amostrais na forma Y = Xβ + U decorrentes de (5.2) e de (5.3). ∇ 5.2 - Hipóteses do modelo
Nesta secção vão estabelecer-se as hipóteses do modelo em estudo, que não são mais do que a extensão para o caso de m equações, das hipóteses REN.1 a REN.5 apresentadas no capítulo 4; neste caso, as hipóteses têm o prefixo SER (sistema de equações de regressão linear). A primeira hipótese é o resumo das considerações feitas na secção anterior. Hipótese SER.1 – Linearidade yti = xti• β •i + uti (i = 1, 2, K , m ; t ∈ T ) , onde: yti é a observação t do regressando yi ; xti• é o vector 1× ki da observação t dos regressores da equação i; β•i é o vector ki × 1 dos coeficientes de regressão da equação i; uti é a variável residual da observação t da equação i.
Note-se que a hipótese da linearidade foi a apresentada com base em (5.2), mas podia ser enunciada a partir da notação (5.3). A segunda hipótese diz respeito à estacionaridade ergódica. Seja zti• = [ zti1
zti 2 L ztipi ]
o vector 1 × pi da observação t das variáveis instrumentais da equação i; o elemento genérico deste vector é ztih (h = 1, 2, K , pi ) . Embora seja pouco frequente, o conjunto de instrumentos pode ser diferente de equação para equação. Assim, fazendo p = p1 + p2 + L + pm , vem: Hipótese SER.2 – Estacionaridade ergódica O processo estocástico ( m + k + p )-dimensional
(5.6)
{( yt1 , yt 2 , K , ytm , xt1• , xt 2• , K , xtm • , zt1• , zt 2• , K , ztm • ) : t ∈ T }
é estacionário e ergódico. O processo (5.6) pode ser escrito da seguinte maneira: {( yt • , xt • , zt • ) : t ∈ T } , onde:
yt • = [ yt1 yt 2 L ytm ]; xt • = [ xt1• xt 2• L xtm• ]; zt • = [ zt1• zt 2• L ztm• ].
Esta hipótese é mais forte do que simplesmente supor que a estacionaridade ergódica é verificada para cada equação do sistema [cada processo ( 1 + ki + pi )-dimensional, {( yti , xti • , zti • ) : t ∈ T } , é estacionário e ergódico].
Capítulo 5 – Sistemas de Equações de Regressão Linear
9
Como pode haver elementos comuns no vector dado por (5.6), é vantajoso utilizar o vector wt • , que não considera os elementos repetidos daquele vector. Na sequência da notação (5.3) do modelo SER, pode considerar-se a matriz Z t • de tipo m × p , diagonal por blocos, formada pelos m blocos zti • ( i = 1, 2, K , m ), zt1• 0 L 0 0 z 0 t 2• L . Zt • = M M M 0 L ztm • 0
Deste modo, a hipótese da estacionaridade ergódica também pode enunciada com base no processo {( ytT• , X t • , Z t • ) : t ∈ T } . Quando se dispõe de uma amostra de dimensão n (t = 1, 2, K , n) , é vantajoso construir a matriz Z, de tipo mn × p com todas as observações das variáveis instrumentais: a) Tendo em conta a notação A da relação amostral Y = Xβ + U , a matriz homóloga de X é dada por Z •1 O L O O Z L O •2 , Z = M M M O O L Z•m
onde cada matriz Z •i , de tipo n × pi ( i = 1, 2, K , m ), é
z1i • z1i1 z1i 2 L z1ipi z z 2 i1 z 2 i 2 L z2 ip i 2i • . Z •i = = M M M M zni • zni1 zni 2 L znipi
A linha genérica desta matriz é zti • (t = 1, 2, K , n) . b) Se se atender à notação B da relação amostral Y = Xβ + U , tem-se a matriz Z1• Z Z = 2• , M Z n•
formada pelos m blocos Z t • ( t = 1, 2, K , n ).
Sem dificuldade se verifica que as duas matrizes Z contêm a mesma informação: apenas difere o modo como estão ordenadas as observações das variáveis instrumentais. Exemplo 5.4 – Retomando o exemplo 5.1, suponha-se que qit é endógeno, em ambas as equações, e que os restantes regressores são pré-determinados. Admita-se que a va-
Capítulo 5 – Sistemas de Equações de Regressão Linear
10
riável instrumental de qit é meduct (anos completos de escolaridade da mãe do indivíduo t). Então, zt1• = zt 2• = [ 1 educt expert meduct ], e p1 = p2 = 4 . De acordo com a hipótese SER.2, supõe-se que {wt • } , onde
wt • = [ lsalart cmtt 1 educt expert qit meduct ] ,
é estacionário e ergódico. Facilmente se conclui que
0 0 0 1 educt expert meduct 0 . Zt • = 0 0 0 1 educt expert meduct 0
Neste caso, tem-se
1 educ1 exper1 meduc1 1 educ exper meduc 2 2 2 , Z •1 = Z • 2 = M M M M 1 educn expern meducn
e, portanto,
1 educ1 exper1 meduc1 1 educ exper meduc 2 2 2 M M M M 1 educ n expern meduc n Z = 0 0 0 0 0 0 0 0 M M M M 0 0 0 0
0
0
0
0
0
0
M
M
M
0
0
0
1 educ1 exper1 1 educ 2 exper2 M M M 1 educ n expern
Alternativamente, pode fazer-se
1 educ1 exper1 meduc1 0 0 0 0 1 educ2 exper2 meduc2 Z = 0 0 0 0 M M M M 1 educn expern meducn 0 0 0 0
0
0
1 educ1 0
0
1 educ2 M 0
M 0
1 educn
0 M 0 . meduc1 meduc 2 M meduc n
0
exper1 meduc1 0 0 exper2 meduc2 . M M 0 0 expern meducn
0
0
∇
Exemplo 5.5 – Suponha-se que no exemplo 5.2 o vector dos instrumentos de cada equação é formado pelo conjunto de todos os regressores considerados nos vectores xt1• e xt 2• . Assim, zt1• = zt 2• = [ 1 educ1t exper1t educ2t exper 2t qit ].
Capítulo 5 – Sistemas de Equações de Regressão Linear
11
Fica ao cuidado do leitor construir as matrizes Z t • , Z •1 , Z • 2 e Z (para as duas situações estudadas). ∇ Como uti = yti − xti• β •i , conclui-se imediatamente que {ut • } , onde
ut • = [ ut1 ut 2 L utm ],
é estacionário e ergódico. Então, a hipótese SER.2 implica que (5.7)
E (utT•ut • ) = Σ ,
ou seja, a matriz dos segundos momentos (não condicionados) de ut • , se existir, não depende de t. Os elementos da matriz Σ são da forma E (utiutl ) = σ il . Por exemplo, para m = 2 , vem E (ut21 ) E (ut1ut 2 ) σ 11 σ 12 E (utT•ut • ) = Σ = = . 2 E (ut1ut 2 ) E (ut 2 ) σ 12 σ 22
Assim, quando i ≠ l , admite-se que podem existir correlações entre variáveis residuais para a mesma observação t, mas para equações diferentes (no caso de dados temporais, diz-se que estas correlações são contemporâneas).
Exemplo 5.6 – Retome-se o exemplo 5.3. Suponha-se que o vector dos instrumentos de cada equação é formado pelo conjunto de todos os regressores considerados no sistema. Assim, rmt rm rm rm − ln t ( i = 1, 2, K , m = r − 1 ). zti • = 1 ln t ln t L ln pt1 pt 2 ptr pt , r −1
Neste caso, tem-se ut • = [ ut1 ut 2 L utm ], onde uti = ε ti − ε tr . Os elementos da matriz Σ são dados por:
σ ii = E (uti2 ) = E{(ε ti − ε tr ) 2 }
= E (ε ti2 ) + E (ε tr2 ) − 2 E (ε tiε tr )
( i = 1, 2, K , m = r − 1 );
σ il = E (utiutl ) = E{(ε ti − ε tr )(ε tl − ε tr )}
= E (ε tiε tl ) − E (ε tiε tr ) − E (ε tlε tr ) + E (ε tr2 )
( i, l = 1, 2, K , m = r − 1; i ≠ l ).
Quando E (ε ti ) = 0 e E (ε ti2 ) = σ ε2 , para i = 1, 2, K , r , e E (ε tiε tl ) = 0 , para i ≠ l e i, l = 1, 2, K , r , a matriz Σ reduz-se a
2σ 2 ε σ2 Σ= ε M σ ε2
σ ε2 L σ ε2 2σ ε2 L σ ε2 M
σ ε2
2 1 L 1 2 L 1 2 1 = σε . M M M M 1 1 L 2 L 2σ ε2
∇
Capítulo 5 – Sistemas de Equações de Regressão Linear
12
A hipótese sobre as condições de ortogonalidade para o sistema é simplesmente a justaposição das respectivas condições para cada equação considerada individualmente. Hipótese SER.3 – Ortogonalidade Os vectores zit • são ortogonais às respectivas variáveis residuais,
(5.8)
E ( zti •uti ) = E ( gti • ) = 0 (i = 1, 2, K , m) ,
onde g ti• = zti•uti [o elemento genérico deste vector é gtih (h = 1, 2, K , pi ) ]. Facilmente se verifica que o número total de condições de ortogonalidade é p. Fazendo gt • = [ g t1• g t 2• L g tm• ], as m condições (5.8) podem ser escritas da seguinte forma: E ( gt • ) = E (ut • Z t • ) = 0 ,
onde ut • Z t • = gt • . A hipótese SER.3 é a hipótese mais fraca de não correlação entre variáveis instrumentais e variáveis residuais; nem sequer exige ortogonalidades “cruzadas” (não estabelece, por exemplo, que zt1• é ortogonal a ut 2 ). Podem estabelecer-se hipóteses mais fortes do que SER.3: 1) E ( zti •utl ) = 0 (i, l = 1, 2, K , m) . Esta hipótese admite que existam ortogonalidades entre cada variável instrumental e cada variável residual para a mesma equação e para equações diferentes (intra-equações e inter-equações). De forma resumida, aquelas mp condições podem escrever-se da seguinte maneira: E (utT• ⊗ Z t • ) = O ,
onde a matriz utT• ⊗ Z t • é de tipo m 2 × p . 2) E (uti | zti • ) = 0 (i = 1, 2, K , m) , e, portanto, E (uti ) = 0 (i = 1, 2, K , m) . As condições estabelecidas implicam que não há correlação entre uti e qualquer função de zti • . Admite-se, portanto, que as formas funcionais das variáveis instrumentais escolhidas estão bem especificadas. 3) E (ut • | Z t • ) = 0 [logo, E (ut • ) = 0 ]. Estas condições implicam que não existe correlação entre qualquer uti (i = 1, 2, K , m) e qualquer função de todas as variáveis instrumentais do modelo. Assim, supõe-se que as formas funcionais dos instrumentos considerados no modelo estão bem especificadas. É imediato concluir que estas condições são sucessivamente mais fortes. No entanto, a hipótese SER.3 é suficiente para estabelecer as propriedades assintóticas desejáveis dos estimadores MGM dos parâmetros do modelo: consistência e normalidade assintótica.
Capítulo 5 – Sistemas de Equações de Regressão Linear
13
A sistematização das estruturas matriciais que envolvem os produtos de variáveis instrumentais por variáveis residuais é apresentada no quadro 5A.7. Exemplo 5.7 – Retomando o exemplo 5.4, tem-se
gt • = [ ut1 educt ut1 expert ut1 meduct ut1 ut 2 educt ut 2 expert ut 2 meduct ut 2 ].
Note-se que, como zt1• e zt 2• têm os mesmos instrumentos, cada um deles é ortogonal a ut1 e ut 2 (por exemplo, expert é ortogonal a ut1 e ut 2 ). ∇ gt1• = [ ut1 educ1t ut1 exper1t ut1 educ2t ut1 exper 2t ut1 qit ut1 ] ;
Exemplo 5.8 – No caso do exemplo 5.5, vem
gt 2• = [ ut 2 educ1t ut 2 exper1t ut 2 educ2t ut 2 exper 2t ut 2 qit ut 2 ] .
Para estabelecer a condição de característica começa por notar-se que ztT1• 0 L 0 ut1 E ( ztT1•ut1 ) T ut 2 E ( ztT2•ut 2 ) 0 0 L z 2 • t T T T E ( gt • ) = E ( Z t •ut • ) = E = M M M M M T 0 E ( z T u ) 0 L ztm • utm tm • tm
E{ztT1• ( yt1 − xt1• β •1 )} E ( ztT1• yt1 ) E ( ztT1• xt1• ) β •1 E{ztT2• ( yt 2 − xt 2• β • 2 )} E ( ztT2• yt 2 ) E ( ztT2• xt 2• ) β • 2 = = − , M M M T T T E{ztm • ( ytm − xtm • β • m )} E ( ztm • ytm ) E ( ztm • xtm • ) β • m
ou
E ( ztT1• yt1 ) E ( ztT1• xt1• ) β •1 L O O T T O E ( zt 2• xt 2• ) L O E ( zt 2• yt 2 ) β•2 . − E ( gtT• ) = M M M M M T T O O L E ( ztm • xtm • ) β • m E ( ztm • ytm )
Considerem-se as matrizes de tipo p × 1 e p × k , respectivamente, E ( ztT1• yt1 ) E ( ztT2• yt 2 ) qzy = = E ( Z tT• ytT• ) , M T E ( ztm ) y • tm
∇
Capítulo 5 – Sistemas de Equações de Regressão Linear
14
E ( ztT1• xt1• ) O O L O E ( ztT2• xt 2• ) L O = E (Z T X ) , Qzx = t• t• M M M T O O L E ( ztm • xtm • )
onde se pode fazer qzi yi = E ( ztiT• yti ) e Qzi xi = E ( ztiT• xti • ) . As condições de ortogonalidade, equivalentes a (5.8), são (5.9)
Q zx β = q zy ,
que têm a mesma forma que (4.39) [ver capítulo 4]. ~ Seja β um qualquer valor hipotético de β , e o sistema de p equações a k incóg~ nitas (as k componentes do vector β ) ~ Qzx β = qzy .
A identificação do vector β exige que este sistema de equações seja possível e determinado. Para isso, é necessário e suficiente que Qzx exista, e que r (Qzx ) = k . No entanto, como Qzx é diagonal por blocos, esta condição é equivalente às seguintes: Hipótese SER.4 – Condições de característica As matrizes de tipo pi × ki ,
(5.10)
Qzi xi = E ( ztiT• xti • ) (i = 1, 2, K , m) ,
existem e verificam r (Qzi xi ) = ki .
Esta hipótese corresponde a exigir REN.4 (ver capítulo 4) para cada equação de regressão do sistema, e é simples de estabelecer porque não se impõem quaisquer restrições inter-equações a priori sobre os coeficientes de regressão. No quadro 5A.5 sistematizam-se as estruturas matriciais que envolvem segundos momentos com variáveis observáveis, como é o caso das matrizes Qzi xi , Qzx , q zi yi e q zy . Finalmente vai apresentar-se a quinta hipótese (hipótese homóloga a REN.5), que estabelece o comportamento estocástico do processo {gt • } . Hipótese SER.5 – Diferença-martingala O processo {gt •} é uma diferença-martingala,
(5.11)
E ( gt • | gt −1,• , gt − 2,• , K) = 0 .
A matriz quadrada de ordem p, (5.12)
S = E ( gtT• gt • ) = E ( Z tT•utT•ut • Z t • ) ,
existe e tem inversa.
Capítulo 5 – Sistemas de Equações de Regressão Linear
15
Neste caso, a matriz S tem a seguinte forma:
E ( gtT1• gt1• ) E ( gtT1• gt 2• ) L E ( gtT1• gtm • ) T T T E ( gt 2• gt1• ) E ( gt 2• gt 2• ) L E ( gt 2• gtm • ) S= , M M M T T T E ( gtm • gt1• ) E ( gtm• gt 2• ) L E ( gtm • gtm • )
ou
E (ut21 ztT1• zt1• ) E (ut1ut 2 ztT1• zt 2• ) L E (ut1utm ztT1• ztm • ) T E (ut22 ztT2• zt 2• ) L E (ut 2utm ztT2• ztm • ) E (ut 2ut1 zt 2• zt1• ) S= , M M M 2 T T T E (utmut1 ztm • zt1• ) E (utmut 2 ztm • zt 2• ) L E (utm ztm • ztm • )
(5.13)
onde o bloco genérico é Sil = E ( gtiT• gtl • ) = E (utiutl ztiT• ztl • ) (i, l = 1, 2, K , m) . O mesmo comentário que se fez atrás a propósito da estacionaridade ergódica é ainda válido: a hipótese SER.5 é mais forte do que simplesmente impor a hipótese REN.5 para cada equação de regressão do sistema. Fazendo 1 n g• n = ∑t =1 gtT• , n tem-se, tal como no capítulo 4 (secção 4.3), n g• n → N ( p ) (0, S ) , d
(5.14)
onde Ea ( g• n ) = 0 e Cov a ( g• n ) = S . Note-se que g• n =
1 n T 1 n T T g = Z u n ∑t =1 t • n ∑t =1 t • t •
n ztT1• 0 L 0 ut1 (1 / n)∑ ztT1•ut1 (1 / n) Z •T1u•1 t =1 0 z T L 0 ut 2 (1 / n) n z T u (1 / n) Z T u 1 n •2 •2 t 2• ∑t =1 t 2• t 2 = = ∑t =1 . = n M M M M M M n T (1 / n) 0 0 L ztm • utm ∑t =1 ztmT •utm (1 / n)Z•Tmu•m
Deste modo, g• n =
1 T Z U, n
onde Z TU pode ser obtido com as notações A ou B correspondentes a (5.4) e respectivas matrizes Z. A sistematização das estruturas matriciais relativas aos quartos momentos com duas variáveis residuais e dois instrumentos é apresentada no quadro 5A.11, como é o caso das matrizes Sil e S.
Capítulo 5 – Sistemas de Equações de Regressão Linear
16
Quando zti1 = 1 para i = 1, 2, K , m (o que acontece sempre que todas as equações do modelo têm termo independente), o processo {ut • } é também uma diferença-martingala. Neste caso, E (ut • ) = 0 e Cov(ut • , ut − s ,• ) = E (utT•ut − s ,• ) = O , isto é, não existe autocorrelação (intra e inter-equações). Nesta condições, vai considerar-se o vector U de acordo com a notação A da relação amostral Y = Xβ + U , u•1 u U = •2 . M u• m Pode verificar-se que
Cov(U ) = E (UU T ) = Σ ⊗ I n .
Com efeito, basta notar que
u•1u•T1 u•1u•T2 L u•1u•Tm u•1 u u• 2u•T1 u• 2u•T2 L u• 2u•Tm •2 T T T T [ u u L u•m ] = , UU = M •1 • 2 M M M T T T u• m u• mu•1 u• mu• 2 L u• mu• m
e que
E (u1iu1l ) E (u1iu2 l ) L E (u1iunl ) σ il 0 L 0 E (u u ) E (u u ) L E (u u ) 0 σ L 0 il 2 i 1l 2i 2 l 2 i nl =σ I , E (u•iu•Tl ) = = il n M M M M M M E (uniu1l ) E (uniu2 l ) L E (uniunl ) 0 0 L σ il
para i, l = 1, 2, K , m , uma vez que E (utiutl ) = σ il e E (utiusl ) = 0 ( t ≠ s ). Quando se considera o vector U com a notação B de Y = Xβ + U , u1T• T u U = 2• , M T un •
tem-se:
e
u1T• T u2 • T UU = [u1• M T un •
u2 •
u1T•u1• T u2•u1• L un • ] = M T un •u1•
u1T•u2• L u1T•un • u2T•u2• L u2T•un • M M unT•u2• L unT•un •
Capítulo 5 – Sistemas de Equações de Regressão Linear
17
E (u1T•u1• ) E (u1T•u2• ) L E (u1T•un • ) Σ O L O E (u2T•u1• ) E (u2T•u2• ) L E (u2T•un • ) O Σ L O T = In ⊗ Σ . E (UU ) = = M M M M M M E (unT•u1• ) E (unT•u2• ) L E (unT•un • ) O O L Σ
O modelo econométrico que verifica as hipóteses SER.1 a SER.5 designa-se por sistema de equações de regressão linear (SER), admitindo-se a possibilidade de existirem regressores endógenos. Quando se compara o modelo SER com o modelo MRL-REN, o que essencialmente os distingue são as hipóteses SER.2 e SER.5, já que as outras são a mera justaposição, m vezes, das hipóteses REN.1, REN.3 e REN.4. 5.3 - O método generalizado dos momentos
O estimador MGM dos parâmetros do modelo SER é obtido de forma semelhante ao que foi feito para o caso do MRL-REN. ~ ~ Seja gti • ( β ) = zti • ( yti − xti • β•i ) , para i = 1, 2, K , m . Então, (1 / n)∑ n gtT1• ( β~ ) (1 / n)∑ n ztT1• ( yt1 − xt1• β~•1 ) t =1 t =1 ~ ~ n n T T (1 / n) ∑t =1 gt 2• (β ) = (1 / n)∑t =1 zt 2• ( yt 2 − xt 2• β•2 ) , ~ g• n ( β ) = M M (1 / n) n g T ( β~ ) (1 / n) n z T ( y − x β~ ) ∑t =1 tm• ∑t =1 tm• tm tm• •m ~ ~ ou g• n ( β ) = szy − S zx β , onde 1 n T 1 n T L O O n ∑t =1 zt1• yt1 n ∑t =1 zt1• xt1• 1 n T 1 ∑ n ztT2• yt 2 O O ∑t =1 zt 2• xt 2• L t =1 n n . szy = e S zx = M M M M 1 n T 1 n zT y O O L ∑t =1 ztm • xtm • n ∑t =1 tm • tm n
As matrizes szy e S zx são, respectivamente de tipo p × 1 e p × k ; também podem ser escritas da seguinte maneira: 1 T 1 T O O L n Z •1 y•1 n Z •1 X •1 1 T 1 Z •T2 y• 2 O L Z X O n •2 •2 = 1 Z TY e S = = 1 ZT X , szy = n zx n n M M M M 1 T 1 ZT y O L O Z X n • m • m n • m • m
Capítulo 5 – Sistemas de Equações de Regressão Linear
18
onde X, Y e Z correspondem à notação A de (5.4). Pode, ainda, utilizar-se a seguinte notação: S z i xi =
1 n T 1 1 n 1 zti • xti • = Z •Ti X •i e szi yi = ∑t =1 ztiT• yti = Z •Ti y•i . ∑ t = 1 n n n n
Pode obter-se, sem dificuldade, as mesmas matrizes szy e S zx , quando se utiliza a notação B da relação amostral (5.4) e a correspondente matriz Z. Com efeito, como ~ ~ gtT• ( β ) = Z tT• ( ytT• − X t • β ) , vem ~ 1 n ~ 1 n ~ 1 n 1 n ~ g• n ( β ) = ∑t =1 gtT• ( β ) = ∑t =1 Z tT• ( ytT• − X t • β ) = ∑t =1 Z tT• ytT• − ∑t =1 Z tT• X t • β . n n n n Então, szy =
1 n T T 1 T 1 n 1 Z y = Z Y e S zx = ∑t =1 Z tT• X t • = Z T X , n ∑t =1 t • t • n n n
onde X, Y e Z correspondem à notação B de (5.4). Obviamente os produtos matriciais Z T Y e Z T X são os mesmos para as duas notações, respectivamente. As várias estruturas matriciais relativas às médias amostrais que envolvem duas variáveis observáveis, como é o caso das matrizes S zi xi , S zx , s zi yi e s zy , são sistematizadas no quadro 5A.6. De forma análoga a (4.50) do capítulo 4, o estimador MGM de β é dado por (5.15) onde
βˆ (Wˆ ) = ( S zxT Wˆ S zx ) −1 S zxT Wˆ szy = ( X T Z Wˆ Z T X )−1 X T Z Wˆ Z T Y , βˆ (Wˆ ) Wˆ Wˆ L Wˆ 12 1m •1 11 βˆ (Wˆ ) Wˆ Wˆ L Wˆ 22 2m •2 e Wˆ = 21 . βˆ (Wˆ ) = M M M M βˆ• m (Wˆ ) Wˆ m1 Wˆ m 2 L Wˆ mm
A matriz Wˆ , quadrada de ordem p, é simétrica definida positiva [cada bloco, Wˆil , é de tipo pi × pl ; tem-se plim(Wˆil ) = Wil ]. Nos quadros 5A.9 e 5A.10 apresenta-se a lista dos estimadores que vão ser estudados no presente capítulo, que são casos particulares do estimador MGM. Nestes quadros sistematizam-se as hipóteses básicas subjacentes aos vários estimadores e referem-se os modelos da população respectivos. No quadro 5A.13 faz-se a lista das referências das fórmulas dos estimadores contemplados no presente capítulo, apresentando as respectivas matrizes de pesos, Wˆ . Retomando a estrutura do estimador (5.15), facilmente se verifica que o bloco genérico de S zxT Wˆ S zx é a matriz ki × kl , dada por 1 n 1 n 1 1 S zTi xi Wˆil S z l xl = ∑t =1 xtiT• zti • Wˆil ∑t =1 ztTl • xtl • = X •Ti Z •i Wˆil Z •Tl X •l , n n n n
para i, l = 1, 2, K , m . Do mesmo modo, o bloco genérico de S zxT Wˆ szy é
Capítulo 5 – Sistemas de Equações de Regressão Linear
19
S zTi xi Wˆi1 sz1 y1 + S zTi xi Wˆi 2 sz 2 y 2 + L + S zTi xi Wˆim sz m y m =
1 n 1 n 1 n 1 n T ∑t =1 xti • zti • Wˆi1 ∑t =1 ztT1• yt1 + ∑t =1 xtiT• zti • Wˆi 2 ∑t =1 ztT2• yt 2 + L + n n n n 1 n T 1 n T ∑t =1 xti • zti • Wˆim ∑t =1 ztm • ytm = n n
1 1 1 T ˆ 1 T 1 T ˆ 1 T X •i Z •i Wi1 Z •1 y•1 + X •i Z •i Wi 2 Z • 2 y• 2 + L + X •Ti Z •i Wˆim Z •Tm y• m , n n n n n n
para i = 1, 2, K , m . Tal como (4.51) e (4.52), o respectivo erro de amostragem é (5.16)
βˆ (Wˆ ) − β = ( S zxT Wˆ S zx ) −1 S zxT Wˆ g• n = ( X T Z Wˆ Z T X ) −1 X T Z Wˆ Z TU .
5.4 - Propriedades do estimador MGM e inferência estatística As propriedades assintóticas do estimador MGM apresentadas nas secções 4.6, 4.7 e 4.8 do capítulo 4 podem ser generalizadas, sem dificuldade, para o caso do modelo SER. Tal como se estabeleceu na propriedade 4.1 [ver (4.57), capítulo 4], o estimador MGM dado por (5.15) é consistente, ou seja, (5.17)
plim {βˆ (Wˆ )} = β .
O estimador MGM é assintoticamente normal [ver propriedade 4.2 e expressões (4.58) e (4.59) do capítulo 4],
n{βˆ (Wˆ ) − β } → N ( k ) 0, Cov a {βˆ (Wˆ )} . d
(5.18)
Tem-se Ea {βˆ (Wˆ )} = β , e (5.19)
Cov a {βˆ (Wˆ )} = (QzxT W Q zx ) −1 QzxT W S W Q zx (QzxT W Q zx ) −1 ,
onde W = plim(Wˆ ) , Qzx é a matriz diagonal por blocos referida em (5.9), e S é dada por (5.13). A propriedade 4.3 não se pode aplicar directamente ao modelo com várias equações de regressão linear, mas a sua adaptação é óbvia. Assim, dispondo de um estimador consistente de β•i , βˆ•i , e definindo os respectivos resíduos, uˆti = yti − xti• βˆ•i , vem: Propriedade 5.1 – Seja βˆ•i um estimador consistente de β•i . Verificando-se as hipóteses SER.1 e SER.2, e existindo E ( xtiT• xtl• ) , vem (5.20) onde
plim(σˆ il ) = σ il ,
σˆ il =
1 n uˆ uˆ e σ il = E (utiutl ) , n ∑t =1 ti tl
desde que exista este valor esperado.
Capítulo 5 – Sistemas de Equações de Regressão Linear
20
A demonstração desta propriedade é semelhante à da propriedade 4.3 (ver secção 4A.1). Pode estabelecer-se uma propriedade semelhante à propriedade 4.4. Neste caso, a matriz Sˆ é dada por (5.21)
1 n 1 n Sˆ = ∑t =1 gˆ tT• gˆ t • = ∑t =1 Z tT•uˆtT•uˆt • Z t • , n n
onde uˆti é o mesmo da propriedade 5.1. A matriz Sˆ pode apresentar-se com várias notações, tirando partido da estrutura matricial por blocos. Deste modo, tem-se 1 n T ∑t =1 gˆ t1• gˆ t1• n 1 n T ∑t =1 gˆ t 2• gˆ t1• n Sˆ = M 1 n T n ∑t =1 gˆ tm• gˆ t1•
1 n T 1 n T L gˆ gˆ gˆ gˆ ∑ ∑ t =1 t1• t 2• t =1 t1• tm• n n 1 n T 1 n T ˆ ˆ ˆ ˆ L g g g g ∑ ∑ 2 2 2 t t t tm • • • • n t =1 n t =1 . M M 1 n T 1 n T gˆ gˆ gˆ gˆ L ∑ ∑ t =1 tm• tm• t =1 tm• t 2• n n
Como gˆ ti• = zti•uˆti , a matriz Sˆ também se pode apresentar da seguinte maneira: 1 n 2 T ∑t =1 uˆt1 zt1• zt1• n 1 n T ∑t =1 uˆt 2uˆt1 zt 2• zt1• n Sˆ = M 1 n T n ∑t =1 uˆtm uˆt1 ztm• zt1•
Ou, ainda,
onde
1 ˆT ˆ n G1 G1 1 Gˆ 2T Gˆ1 Sˆ = n M 1 Gˆ T Gˆ n m 1
1 n ∑ uˆt1uˆt 2 ztT1• zt 2• n t =1 1 n 2 T ∑ uˆt 2 zt 2• zt 2• n t =1
M
1 n uˆ uˆ z T z ∑ t =1 tm t 2 tm• t 2• n
1 n uˆ uˆ z T z ∑ t =1 t1 tm t 1• tm• n 1 n T ˆ ˆ L u u z z ∑ 2 2 t tm t tm • • n t =1 . M 1 n 2 T L uˆ z z ∑ t =1 tm tm• tm• n
L
1 ˆT ˆ 1 G1 G2 L Gˆ1T Gˆ m n n 1 ˆT ˆ 1 ˆT ˆ G2 G2 L G2 Gm n n = 1 Gˆ T Gˆ , n M M 1 ˆT ˆ 1 ˆT ˆ G G L GmGm n m 2 n gˆ1i• gˆ ˆ Gi = 2i• M gˆ ni•
Capítulo 5 – Sistemas de Equações de Regressão Linear
21
é uma matriz n × pi (i = 1, 2, K , m) , e
Gˆ = Gˆ1 Gˆ 2 L Gˆ m
é uma matriz n × p . Assim, cada bloco da matriz Sˆ é dado por:
1 n 1 n 1 Sˆil = ∑t =1 uˆtiuˆtl ztiT• ztl • = ∑t =1 gˆ tiT• gˆ tl • = Gˆ iT Gˆ l . n n n
Pode, então, enunciar-se o seguinte: Propriedade 5.2 – Considerem-se os resíduos uˆti = yti − xti• βˆ•i (i = 1, 2, K , m) , onde βˆ•i é estimador consistente de β•i , e a seguinte hipótese adicional: existem os momentos E{( ztlh xtij ) 2 } , para i, l = 1, 2, K , m , j = 1, 2, K , ki e h = 1, 2, K , pi [ xtij é o elemento genérico do vector xti• (que tem ki componentes); ztlh é o elemento genérico do vector ztl• (que tem pl componentes)]. Se existir a matriz S, as hipóteses SER.1 e SER.2 implicam que Sˆ , dada por (5.21), é estimador consistente de S. Para demonstrar esta propriedade utiliza-se uma técnica semelhante à da propriedade 3.4 (ver secção 3B.2, capítulo 3). O quadro 5A.8 sistematiza as estruturas matriciais relativas aos produtos de instrumentos por resíduos. No quadro 5A.12 apresenta-se a contrapartida amostral do quadro 5A.11, referindo os quartos momentos amostrais que envolvem dois resíduos e dois instrumentos. A expressão (4.64) continua válida para estimar (5.19) de forma consistente. Assim, Cov a {βˆ (Wˆ )} = ( S zxT Wˆ S zx) −1 S zxT Wˆ Sˆ Wˆ S zx( S zxT Wˆ S zx) −1 = n( X T Z Wˆ Z T X ) −1 X T Z Wˆ Gˆ T Gˆ Wˆ Z T X ( X T Z Wˆ Z T X ) −1. ^
(5.22)
No quadro 5A.14 faz-se um resumo dos resultados assintóticos relativos aos vários estimadores: distribuições limite; matrizes das covariâncias assintóticas e respectivos estimadores. Quando se pretende fazer inferência estatística sobre um coeficiente de regressão isolado, utilizam-se resultados semelhantes a (4.65) e (4.66). Por exemplo, para testar a hipótese H 0 : β ji = β 0ji , a estatística-teste é o rácio-t robusto, (5.23)
t ∗ji =
βˆ ji (Wˆ ) − β 0ji s∗ji
onde
é o respectivo erro padrão.
→ N (0,1) , d
s ∗ji =
1 ^ ˆ ˆ Vara {β ji (W )} n
22
Capítulo 5 – Sistemas de Equações de Regressão Linear
Do mesmo modo se têm resultados similares a (4.67) e (4.68) para efectuar inferência estatística sobre combinações lineares dos coeficientes de regressão. Suponha-se se pretende testar H 0 : Rβ = δ 0 contra H 1 : Rβ ≠ δ 0 , onde R é uma matriz de tipo r × k . A estatística-teste, obtida de acordo com o princípio de Wald, é dada por ^ d Q = n {Rβˆ (Wˆ ) − δ 0 }T R Cov a {βˆ (Wˆ )} RT {Rβˆ (Wˆ ) − δ 0 } → χ 2 (r ) . −1
(5.24)
Deve notar-se que (5.24) permite fazer testes de hipóteses de restrições lineares inter-equações sobre os coeficientes de regressão. Quando a hipótese a testar não é linear, a estatística-teste é dada por um resultado semelhante a (4.69). Quando se utiliza o princípio da razão de verosimilhanças, as estatísticas-teste baseiam-se em resultados análogos ao teorema 4.4. O estimador MGM eficiente é ainda obtido substituindo Wˆ por Sˆ −1 em (5.15), obtendo-se um resultado semelhante a (4.71) [ver teorema 4.3], (5.25)
βˆ ( Sˆ −1 ) = ( S zxT Sˆ −1 S zx )−1 S zxT Sˆ −1 szy = { X T Z (Gˆ T Gˆ ) −1 Z T X }−1 X T Z (Gˆ T Gˆ )−1 Z T Y .
(5.26)
Cov a {βˆ ( Sˆ −1 )} = (QzxT S −1 Q zx ) −1 ,
Representando os blocos da matriz Sˆ −1 por Sˆ il (i, l = 1, 2, K , m) , o estimador MGM eficiente corresponde a fazer Wˆil = Sˆ il . A matriz das covariâncias assintóticas, e respectivo estimador consistente, são
e
Cov a {βˆ ( Sˆ −1 )} = ( S zxT Sˆ −1 S zx) −1 = n{ X T Z (Gˆ T Gˆ ) −1 Z T X }−1 , ^
(5.27)
onde o estimador inicial, βˆ•i , necessário para calcular uˆti e Sˆ , pode ser obtido, por exemplo, a partir do estimador MGM eficiente aplicado a cada equação separadamente. No modelo SER, o teste de sobre-identificação de Hansen baseia-se ainda no teorema 4.5, aplicando-se o resultado (4.79) com as necessárias adaptações. Assim, vem J = J {βˆ ( Sˆ −1 ), Sˆ −1} = n {szy − S zx βˆ ( Sˆ −1 )}T Sˆ −1{szy − S zx βˆ ( Sˆ −1 )} → χ 2 ( p − k ) , d
onde p = p1 + p2 + L + pm e k = k1 + k2 + L + km . Do mesmo modo, para fazer o teste de um subconjunto de condições de ortogonalidade (ou de endogeneidade), recorre-se ao teorema 4.6, utilizando-se a estatística D dada por (4.82); o número de graus de liberdade é igual ao número total de instrumentos submetidos a teste (considerando as várias equações). 5.5 - Estimação conjunta versus estimação separada O estimador MGM de β , dado por (5.15), tira partido de toda a informação disponível, nomeadamente da estrutura da matriz Wˆ , referida na secção 5.3. Pode, no entanto, comparar-se esta estimação conjunta dos β•i (i = 1, 2, K , m) com a estimação
Capítulo 5 – Sistemas de Equações de Regressão Linear
23
separada destes vectores, utilizando a informação inerente a cada equação de regressão (sem ter em conta as relações com as outras equações). Deste modo, apenas se considera, no que se refere à matriz Wˆ , os respectivos blocos-diagonais, Wˆii (i = 1, 2, K , m) . Assim, tem-se
βˆ•i (Wˆii ) = ( S zT x Wˆii S z x ) −1 S zT x Wˆii sz y = ( X •Ti Z •i Wˆii Z •Ti X •i )−1 X •Ti Z •i Wˆii Z •Ti y•i .
(5.28)
i i
Fazendo
i i
i i
i i
Wˆ11 O L O O Wˆ22 L O ˆ WD = , M M M O L Wˆmm O
e tirando partido da estrutura por blocos da matriz S zx , facilmente se conclui que βˆ•1 (Wˆ11 ) ( S zT1 x1 Wˆ11 S z1 x1 ) −1 S zT1 x1 Wˆ11 sz1 y1 ˆ (Wˆ ) ( S zT x Wˆ22 S z x ) −1 S zT x Wˆ22 sz y β 2 22 • 2 2 2 2 2 2 2 2 βˆ (Wˆ D ) = = M M βˆ• m (Wˆmm ) ( S zTm xm Wˆmm S z m xm ) −1 S zTm xm Wˆmm sz m y m
ou
( X •T1Z •1Wˆ11 Z •T1 X •1 ) −1 X •T1Z •1Wˆ11 Z •T1 y•1 −1 T T T T ( X • 2 Z • 2Wˆ22 Z • 2 X • 2 ) X • 2 Z • 2Wˆ22 Z • 2 y• 2 ˆ ˆ β (WD ) = . M ( X •Tm Z • m Wˆmm Z •Tm X • m ) −1 X •Tm Z • mWˆmm Z •Tm y• m
Pode, então, escrever-se
βˆ (Wˆ D ) = ( S zxT WˆD S zx )−1 S zxT Wˆ D szy = ( X T Z Wˆ D Z T X )−1 X T Z Wˆ D Z T Y .
(5.29)
Verifica-se, então, que a diferença entre os estimadores (5.15) e (5.29) reside na escolha da matriz dos pesos ( Wˆ ou Wˆ D ). As expressões (5.19) e (5.22) passam a ser, respectivamente, Cov a {βˆ (Wˆ D )} = (QzxT WD Q zx ) −1 QzxT WD S WD Q zx (QzxT WD Q zx ) −1 ,
e
Cov a {βˆ (Wˆ D )} = ( S zxT Wˆ D S zx) −1 S zxT Wˆ D Sˆ Wˆ D S zx( S zxT Wˆ D S zx) −1 . = n( X T Z Wˆ D Z T X ) −1 X T Z Wˆ D Gˆ T Gˆ Wˆ D Z T X ( X T Z Wˆ D Z T X ) −1. ^
Note-se que as matrizes (QzxT WD Q zx ) −1 QzxT WD , ( S zxT Wˆ D S zx) −1 S zxT Wˆ D e ( X T Z Wˆ D Z T X ) −1 X T Z Wˆ D são diagonais por blocos.
24
Capítulo 5 – Sistemas de Equações de Regressão Linear
Um caso particular importante do estimador MGM separado, (5.29), consiste em fazer Wˆii = Sˆii−1 . Assim,
βˆ•i ( Sˆii−1 ) = ( S zT x Sˆii−1S z x ) −1 S zT x Sˆii−1sz y = { X •Ti Z •i (Gˆ iT Gˆ i )−1 Z •Ti X •i }−1 X •Ti Z •i (Gˆ iT Gˆ i )−1 Z •Ti y•i ,
para i = 1, 2, K , m . O respectivo estimador “empilhado” de β é dado por i i
i i
i i
i i
βˆ•1 ( Sˆ11−1 ) ˆ ˆ −1 β (S ) βˆ ( SˆD−1 ) = • 2 22 = ( S zxT SˆD−1S zx ) −1 S zxT SˆD−1szy = { X T Z (Gˆ DT Gˆ D ) −1 Z T X }−1 X T Z (Gˆ DT Gˆ D ) −1 Z T Y , M ˆ ˆ −1 β• m ( Smm )
onde
Sˆ11 O ˆ SD = M O
Gˆ1 O L O O L O O Gˆ 2 L O Sˆ22 L O ˆ . e GD = M M M M M O L Sˆmm O O L Gˆ m
Resulta imediatamente que:
Cov a {βˆ•i ( Sˆii−1 )} = (QzTi xi S ii−1Qzi xi ) −1 ;
Cov a {βˆ•i ( Sˆii−1 )} = ( S zTi xi Sˆii−1S zi xi ) −1 = { X •Ti Z •i (Gˆ iT Gˆ i ) −1Z •Ti X •i }−1 . ^
Então,
Cov a {βˆ ( SˆD−1 )} = ( S zxT SˆD−1 S zx) −1 S zxT SˆD−1 Sˆ SˆD−1 S zx( S zxT SˆD−1 S zx) −1 = n{ X T Z (Gˆ T Gˆ ) −1 Z T X }−1 X T Z (Gˆ T Gˆ ) −1 Gˆ T Gˆ ^
× (Gˆ DT Gˆ D ) −1 Z T X { X T Z (Gˆ DT Gˆ D ) −1 Z T X }−1. D
D
D
D
Facilmente se confirma que ( S zTi xi Sˆii−1S zi xi ) −1 é o bloco (i, i ) da matriz das covariâncias assintóticas de βˆ ( Sˆ D−1 ) . Com efeito, basta notar que a matriz ( S zxT SˆD−1 S zx) −1 S zxT SˆD−1 [ou { X T Z (Gˆ DT Gˆ D ) −1 Z T X }−1 X T Z (Gˆ DT Gˆ D ) −1 ]
é diagonal por blocos. Prova-se, sem dificuldade, que
Cov a {βˆ ( Sˆ D−1 )} − Cov a {βˆ ( Sˆ −1 )} = ( S zxT Sˆ D−1 S zx ) −1 S zxT Sˆ D−1 Sˆ Sˆ D−1 S zx ( S zxT Sˆ D−1 S zx ) −1 − ( S zxT Sˆ −1 S zx ) −1 ^
^
é semidefinida positiva, admitindo que foram usados os mesmos resíduos para calcular SˆD e Sˆ (no teorema 4.3, capítulo 4, obteve-se um resultado semelhante; a verificação do presente resultado é meramente algébrica, seguindo os mesmos passos da demonstração daquele teorema). A relação anterior entre as duas matrizes estimadoras das covariâncias assintóticas garante que os erros padrão do estimador MGM eficiente conjunto não são maiores que os respectivos erros padrão do estimador MGM eficiente separado (recorde-se que
25
Capítulo 5 – Sistemas de Equações de Regressão Linear
os erros padrão são obtidos dividindo por n os elementos da diagonal principal daquelas matrizes, e calculando a seguir as respectivas raízes quadradas). Existem duas situações em que os estimadores (5.15) e (5.29) são “equivalentes”. A primeira, corresponde ao caso em que cada equação do modelo é exactamente identificada ( ki = pi ). Nestas circunstâncias, a matriz S zx é quadrada, e o estimador MGM reduz-se ao estimador VI, qualquer que seja a matriz dos pesos (ver a subsecção da secção 5.6 sobre o estimador SVI). Então,
βˆ (Wˆ ) = βˆ (Wˆ D ) .
Se pelo menos uma das equações é sobre-identificada, a escolha da matriz dos pesos afecta o valor numérico do estimador MGM. No entanto, é possível descrever uma situação em que a estimação conjunta e a estimação separada dão resultados assintoticamente equivalentes. Com efeito, seja βˆ ( Sˆ −1 ) o estimador MGM eficiente de β , dado por (5.25), que obviamente é um estimador conjunto. Suponha-se, também, que se dispunha de um estimador MGM eficiente, separadamente para cada equação do modelo, βˆ•i (Wˆii ) , onde plim(Wˆii ) = E (uti2 ztiT• zti • ) −1 . Juntando estes m estimadores, obtém-se βˆ (Wˆ D ) , onde
E (u 2 z T z ) −1 O O L t1 t1• t1• 2 T −1 ( ) O E u z z O L t 2 t 2• t 2• plim(Wˆ D ) = . M M M 2 T O O ztm • ztm • ) −1 L E (utm
Como plim(Wˆ D ) ≠ S −1 , o estimador βˆ (Wˆ D ) é, em princípio, menos eficiente do que o estimador βˆ ( Sˆ −1 ) . No entanto, se as equações do modelo não estiverem “relacionadas”, isto é, se (5.30)
E (utiutl ztiT• ztl • ) = O (i, l = 1, 2, K , m ; i ≠ l) ,
então S é diagonal por blocos, plim(Wˆ D ) = S −1 e plim (Wˆ D − Sˆ −1 ) = O . Donde n βˆ (Wˆ D ) − β − n βˆ ( Sˆ −1 ) − β → 0 . p
Pode, assim, concluir-se que: βˆ (Wˆ D ) e βˆ ( Sˆ −1 ) têm a mesma distribuição assintótica; ambos os estimadores são eficientes. Em conclusão: − Se cada equação do modelo SER é exactamente identificada, o estimador MGM conjunto e o estimador MGM separado são numericamente iguais ao estimador VI. − Se p elo menos uma das equações é sobre-identificada, mas não existe “relação” entre elas, com o significado dado por (5.30), pode concluir-se que os estimadores βˆ (Wˆ D ) e βˆ ( Sˆ −1 ) são assintoticamente equivalentes.
26
Capítulo 5 – Sistemas de Equações de Regressão Linear
Em qualquer dos dois casos atrás referidos, não há vantagem em fazer a estimação conjunta, podendo mesmo afirmar-se que a estimação separada pode dar melhores resultados em pequenas amostras. Em geral (excepto nas duas situações referidas), a estimação conjunta é assintoticamente mais eficiente; mesmo no caso em que apenas se está interessado em estimar uma equação isolada, há ganhos de eficiência na estimação conjunta. No entanto, esta estimação apresenta alguns inconvenientes práticos. Por um lado, a qualidade dos estimadores dos coeficientes de uma dada equação, no caso de amostras pequenas, pode melhorar fazendo-se a estimação separada. Por outro lado, os resultados assintóticos pressupõem que o modelo está correctamente especificado, isto é, verificam-se as hipóteses do modelo. Quando há erros de especificação (cuja possibilidade de ocorrência aumenta quando se juntam mais equações ao sistema), nem sequer a consistência dos estimadores está garantida. Para ilustrar este aspecto, suponha-se que a hipótese SER.3 não é satisfeita porque as condições de ortogonalidade não se verificam para a última equação do modelo: E ( ztm •utm ) ≠ 0 ; esta situação pode ocorrer quando é omitido um regressor importante. Nestas circunstâncias, os estimadores de todos os coeficientes do modelo (da equação m e das outras) podem ser inconsistentes. Com efeito, considere-se o erro de amostragem (5.16), onde o último bloco de g •n não é nulo, 1 n T T plim ∑t =1 ztm •utm = E ( ztm •utm ) ≠ 0 . n Como plim(S zx ) = Qzx e plim(Wˆ ) = W , o enviesamento assintótico é dado por 0 0 plim βˆ (Wˆ ) − β = (QzxT W Qzx ) −1 QzxT W . M T E ( ztm •utm )
Como W e (QzxT W Qzx ) −1 QzxT W não são diagonais por blocos, qualquer elemento de plim{βˆ (Wˆ )} − β pode ser diferente de zero. Supondo, para facilitar, que m = 2 , tem-se: plim βˆ•1 (Wˆ ) − β •1 plim{βˆ (Wˆ )} − β = ˆ ˆ plim β• 2 (W ) − β • 2
E ( xtT1• zt1• ) W11 W12 E ( ztT1• xt1• ) O O = T T O E ( xt 2• zt 2• ) W21 W22 O E ( zt 2• xt 2• ) 0 W11 W12 E ( xtT1• zt1• ) O × , T T W W E z u ( ) O E x z ( ) 22 t 2• t 2 t 2 • t 2 • 21
ou
−1
27
Capítulo 5 – Sistemas de Equações de Regressão Linear E ( xtT1• z t1• ) W11 E ( z tT1• xt1• ) E ( xtT1• z t1• ) W12 E ( z tT2• xt 2• ) plim{βˆ (Wˆ )} − β = E ( x T z ) W E ( z T x ) E ( x T z ) W E ( z T x ) 21 22 t 2 • t 2• t1• t1• t 2• t 2 • t 2 • t 2• E ( xtT1• z t1• ) W12 E ( z tT2• u t 2 ) × . T T ( ) ( ) E x z W E z u 22 t 2 • t 2• t 2• t 2
−1
Assim, mesmo para os coeficientes das equações correctamente especificadas, o enviesamento assintótico pode não ser nulo; na estimação conjunta, os enviesamentos devido a erros de especificação numa equação podem contaminar o resto do sistema.
5.6 - Casos particulares do estimador MGM Nesta secção vão estudar-se alguns casos particulares do estimador MGM dado por (5.15).
Estimador SMQ Quando se supõe que todos os regressores de cada equação do modelo (5.2) são pré-determinados, E ( xti •uti ) = 0 [ou E (ut • X t • ) = 0 ], tem-se: zti • = xti • , p = k , Z = X , S zx = S xx (matriz quadrada de ordem k, simétrica) e szy = sxy . Então, (5.15) reduz-se a
βˆ (Wˆ ) = ( S xx Wˆ S xx ) −1 S xx Wˆ sxy = S xx−1Wˆ −1S xx−1S xx Wˆ sxy = S xx−1sxy = ( X T X ) −1 X T Y .
Como a matriz S xx (ou X T X ) é diagonal por blocos, este estimador corresponde a aplicar o método MQ separadamente a cada equação. Deste modo, obtém-se o estimador “empilhado”,
(5.31)
βˆSMQ
βˆ•1, MQ ( S xT1 x1 S x1 x1 ) −1 S xT1 x1 sx1 y1 ( X •T1 X •1 ) −1 X •T1 y•1 T T −1 T −1 T βˆ• 2, MQ ( S x 2 x 2 S x 2 x 2 ) S x2 x2 sx2 y 2 ( X • 2 X • 2 ) X • 2 y• 2 , = = = M M M βˆ• m, MQ ( S xTm xm S xm x m ) −1 S xTm xm sxm y m ( X •Tm X • m ) −1 X •Tm y• m
onde S xi xi =
1 n T 1 1 n 1 x x = X T X e sxi yi = ∑t =1 xtiT• yti = X •Ti y•i , n ∑t =1 ti • ti • n •i •i n n
para i = 1, 2, K , m . O estimador (5.31) designa-se por estimador SMQ (estimador MQ do sistema; utiliza-se a letra S, inicial da palavra sistema, para realçar que o estimador refere-se aos coeficientes de um sistema de equações de regressão). Como este estimador não depende da escolha de Wˆ , obviamente conclui-se que o estimador SMQ é estimador MGM eficiente. Seja
Capítulo 5 – Sistemas de Equações de Regressão Linear
28
E ( xtT1• xt1• ) O O L O E ( xtT2• xt 2• ) L O = E( X T X ) . Qxx = t• t• M M M T O O L E ( xtm • xtm • )
Esta matriz é quadrada de ordem k, simétrica e não singular. Como Q zx = Qxx , a partir de (5.18) e (5.19) resulta imediatamente n ( βˆSMQ − β ) → N ( k ) 0, Cov a ( βˆSMQ ) , d
(5.32) onde (5.33)
Cov a ( βˆSMQ ) = Qxx−1 S Qxx−1 ,
S = E ( gtT• gt • ) = E ( X tT•utT•ut • X t • ) e gt • = ut • X t • . A matriz Sˆ é dada por
1 n 1 1 n Sˆ = ∑t =1 gˆ tT• gˆ t • = Gˆ T Gˆ = ∑t =1 X tT•uˆtT•uˆt • X t • , n n n
onde gˆ t • = uˆt • X t • e uˆt • é o vector dos resíduos MQ. Então,
Cov a ( βˆSMQ ) = S xx−1 Sˆ S xx−1 = n( X T X ) −1 Gˆ T Gˆ ( X T X ) −1 . ^
(5.34)
Estes resultados permitem fazer inferência estatística robusta sobre os parâmetros do modelo, nomeadamente testar hipóteses isoladas ou conjuntas sobre coeficientes de regressão. Para isso, utilizam-se resultados semelhantes a (5.23) e (5.24), com as necessárias adaptações.
Estimador SMQGF Nesta subsecção vai começar-se por estudar um estimador SMQ generalizado que tem em conta a informação dada pela matriz Σ = E (utT•ut • ) (que decorre da hipótese SER.2). Admita-se, sem perda de generalidade, que esta matriz é definida positiva. Para estabelecer a consistência do estimador referido, é necessário estabelecer duas hipóteses adicionais: 1) E ( xti •utl ) = 0 (i, l = 1, 2, K , m) , isto é, cada regressor da equação i é ortogonal à variável residual da equação l , mesmo para i ≠ l . Assim, esta hipótese mais forte substitui a hipótese mais fraca, E ( xti •uti ) = 0 (i = 1, 2, K , m) . De forma resumida, aquelas mk condições podem escrever-se da seguinte maneira: (5.35)
E (utT• ⊗ X t • ) = O ,
onde o produto de Kronecker utT• ⊗ X t • é de tipo m 2 × k . Se existir termo independente, tem-se xti1 = 1 e E (ut • ) = 0 . Então, Σ = Cov(ut • ) .
Capítulo 5 – Sistemas de Equações de Regressão Linear
29
2) A matriz k × k dada por
(5.36)
E ( xT Σ −1 x ) O O L t 1• t 1• −1 T Σ ( ) O E x x O L t 2• t 2• = E ( X tT•Σ −1 X t • ) Qxx∗ = M M M −1 T O O L E ( xtm •Σ xtm • )
existe e tem inversa. Supondo que se dispõe de uma amostra de dimensão n, é possível escrever a relação amostral (5.4), Y = Xβ + U . Com uma técnica semelhante àquela que foi utilizada no anexo 2G, pode transformar-se esta relação noutra em que a matriz das covariâncias de U é a matriz identidade. Quando se usa a notação A de (5.4), tem-se Cov(U ) = E (UU T ) = Σ ⊗ I n . Como esta matriz é simétrica e definida positiva, pode determinar-se uma matriz P, quadrada de ordem m, não singular, tal que Σ −1 = PT P ou Σ = P −1 ( PT ) −1 . Considerando a matriz Σ ⊗ I n , tem-se, de acordo com as propriedades g) e e) do produto de Kronecker (ver anexo 5B), Σ −1 ⊗ I n = ( PT P) ⊗ I n = ( PT ⊗ I n )( P ⊗ I n ) . Multiplicando por P ⊗ I n ambos os membros de (5.4), obtém-se ( P ⊗ I n )Y = ( P ⊗ I n ) Xβ + ( P ⊗ I n ) U ,
ou
Y∗ = X ∗ β + U ∗ ,
onde Y∗ = ( P ⊗ I n )Y , X ∗ = ( P ⊗ I n ) X e U ∗ = ( P ⊗ I n )U . A relação transformada verifica o resultado pretendido:
E (U *U ∗T ) = E{( P ⊗ I n )UU T ( PT ⊗ I n )}= ( P ⊗ I n ) E (UU T )( PT ⊗ I n ) = ( P ⊗ I n )(Σ ⊗ I n )( PT ⊗ I n ) = ( P ⊗ I n ){P −1 ( PT ) −1 ⊗ I n }( PT ⊗ I n ) = I m ⊗ I n = I mn .
Aplicando o método MQ à relação transformada, obtém-se o estimador MQG de β (ver anexo 2G): ∗ βˆSMQ = ( X ∗T X ∗ ) −1 X ∗T Y∗ = { X T ( PT ⊗ I n )( P ⊗ I n ) X }−1 X T ( PT ⊗ I n )( P ⊗ I n )Y
= { X T (Σ −1 ⊗ I n ) X }−1 X T (Σ −1 ⊗ I n )Y .
Este estimador é o estimador SMQG de β (estimador MQ generalizado do sistema). Pode, então, escrever-se (5.37)
βˆSMQG = { X T (Σ −1 ⊗ I n ) X }−1 X T (Σ −1 ⊗ I n )Y .
Outra maneira de apresentar (5.37) é a seguinte:
Capítulo 5 – Sistemas de Equações de Regressão Linear
βˆSMQG
30
σ 11 X •T1 X •1 σ 12 X •T1 X • 2 L σ 1m X •T1 X • m 12 T 22 T 2m T σ X • 2 X •1 σ X • 2 X • 2 L σ X • 2 X • m = M M M 1m T 2m T mm T σ X • m X •1 σ X • m X • 2 L σ X • m X •1m σ 11 X •T1 y•1 + σ 12 X •T1 y• 2 + L + σ 1m X •T1 y• m 12 T 22 2m T T σ X • 2 y•1 + σ X • 2 y• 2 + L + σ X • 2 y• m × . M 1m T 2m T mm T σ X • m y•1 + σ X • m y• 2 + L + σ X • m y•1m
−1
onde σ il é o elemento genérico de Σ −1 . Alternativamente pode recorrer-se à notação B de (5.4). Começa-se por considerar o modelo da população ytT• = X t • β + utT• [ver (5.3)], onde Σ = E (utT•ut • ) . O modelo (5.3) pode transformar-se noutro modelo em que a matriz das covariâncias das respectivas variáveis residuais é a matriz identidade. Começa-se por recordar que Σ −1 = P T P e que Σ = P −1 ( PT ) −1 . Multiplicando ambos os membros de (5.3) por P, vem P ytT• = P X t • β + PutT• ,
( yt∗• )T = X t∗• β + (ut∗• )T ,
ou
onde ( yt∗• )T = P ytT• , X t∗• = P X t • e (ut∗• )T = PutT• . O modelo transformado verifica o resultado pretendido. Com efeito,
E{(ut∗• )T ut∗• } = E ( PutT•ut • PT ) = P E (utT•ut • ) PT = P Σ PT = P P −1 ( PT ) −1 PT = I m .
Sem dificuldade se verifica que o modelo transformado verifica (5.35). De facto, atendendo à propriedade e) do produto de Kronecker (anexo 5B), E{(ut∗• )T ⊗ X t∗• } = E{( PutT• ) ⊗ ( PX t • )} = ( P ⊗ P) E (utT• ⊗ X t • ) = O .
Note-se ainda que
( X t∗• )T X t∗• = X tT• PT P X t • = X tT•Σ −1 X t • ,
( X t∗• )T ( yt∗• )T = X tT• PT P ytT• = X tT•Σ −1 ytT• .
de β ,
Aplicando o método MQ a ( yt∗• )T = X t∗• β + (ut∗• )T , obtém-se o estimador SMQG
βˆSMQG = ∑t =1 ( X t∗• )T X t∗• n
ou (5.38)
−1
n ∑t =1 ( X t∗• )T ( yt∗• )T = ∑t =1 X tT•Σ−1 X t • n
−1
∑
n
t =1
X tT•Σ −1 ytT• ,
βˆSMQG = { X T ( I n ⊗ Σ −1 ) X }−1 X T ( I n ⊗ Σ −1 )Y . Fica ao cuidado do leitor verificar a equivalência numérica entre (5.37) e (5.38).
Capítulo 5 – Sistemas de Equações de Regressão Linear
31
A expressão (5.38) pode também ser obtida a partir da relação amostral (5.4), onde de acordo com a respectiva notação B, Cov(U ) = E (UU T ) = I n ⊗ Σ . O estimador (5.37) pode ser obtido de (5.15), fazendo Z = (Σ −1 ⊗ I n ) X . Com efeito,
βˆ (Wˆ ) = { X T (Σ −1 ⊗ I n ) X Wˆ X T (Σ −1 ⊗ I n ) X }−1 X T (Σ −1 ⊗ I n ) X Wˆ X T (Σ −1 ⊗ I n )Y
= { X T (Σ −1 ⊗ I n ) X }−1Wˆ −1{ X T (Σ −1 ⊗ I n ) X }−1 X T (Σ −1 ⊗ I n ) X Wˆ X T (Σ −1 ⊗ I n )Y = { X T (Σ −1 ⊗ I n ) X }−1 X T (Σ −1 ⊗ I n )Y .
Esta resultado permite afirmar que o estimador SMQG é MGM eficiente, porque não depende da escolha de Wˆ . Fica ao cuidado do leitor obter a mesma conclusão, usando (5.38) e Z = ( I n ⊗ Σ −1 ) X ou Z t • = Σ −1 X t • . Pode, então, concluir-se que o estimador SMQG é consistente e assintoticamente normal. Assim, n ( βˆSMQG − β ) → N ( k ) 0, Cov a ( βˆSMQG ) . d
(5.39)
Para obter a matriz das covariâncias assintóticas de βˆSMQG , basta substituir, em (5.26), Q zx por Qxx∗ e S por S∗ = E{( gt∗• )T gt∗• } = E ( X tT•Σ −1utT•ut •Σ −1 X t • ) ,
onde gt∗• = ut •Σ −1 X t • [fez-se Z t • = Σ −1 X t • em S = E ( Z tT•utT•ut • Z t • ) ]. Então, obtém-se (5.40)
Cov a ( βˆSMQG ) = (Qxx∗ ) −1 S∗ (Qxx∗ ) −1 .
Comentários aos resultados (5.39) e (5.40): a) O erro de amostragem de βˆSMQG pode ser escrito da seguinte maneira: 1 n T −1 1 n T −1 T ∑ X t •Σ X t • n ∑t =1 X t •Σ ut • . SMQG − β = n t =1 −1
βˆ
Facilmente se conclui que
1 n plim ∑t =1 X tT•Σ −1 X t • = E ( X tT•Σ −1 X t • ) = Qxx∗ . n
Para provar a consistência do estimador, é necessário verificar que 1 n plim ∑t =1 X tT•Σ −1utT• = E ( X tT•Σ −1utT• ) = 0 . n
Com efeito, aplicando a propriedade a) da vectorização de matrizes a X tT• Σ −1utT• (ver anexo 5B), tem-se Vec{E ( X tT•Σ −1utT• )} = E{Vec( X tT•Σ −1utT• )} = E{(ut • ⊗ X tT• )Vec(Σ −1 )} = E{(ut • ⊗ X tT• )}Vec(Σ −1 ) = 0.
Capítulo 5 – Sistemas de Equações de Regressão Linear
32
Esta demonstração mostra que é indispensável estabelecer a hipótese (5.35), e não apenas E (ut • X t • ) = 0 , como se fez para o estimador SMQ; sem (5.35), não se obtém E ( X tT•Σ −1utT• ) = 0 . b) Para realçar a dedução do resultado (5.39), sabe-se que 1 n T −1 1 ∑ X t •Σ X t • n SMQG − β ) = n t =1 −1
n ( βˆ
Facilmente se verifica que 1 n
∑
∑
n
t =1
X tT•Σ −1utT• .
X tT•Σ −1utT• → N ( m ) (0, S∗ ) . t =1 n
d
O estimador SMQG só pode ser utilizado para fazer inferência estatística quando se pressupõe que a matriz Σ = E (utT•ut • ) é conhecida. Como, em geral, esta matriz é desˆ =Σ. conhecida, é necessário dispor de Σˆ , estimador consistente de Σ : plim(Σ) Para obter este estimador, basta calcular os resíduos SMQ, uˆtT• = ytT• − X t • βˆSMQ , e notar que βˆSMQ é estimador consistente de β . Então, (5.41)
1 n Σˆ = ∑t =1 uˆtT•uˆt • . n
Para provar a consistência Σˆ , começa-se por referir que 1 n plim ∑t =1 utT•ut • = Σ , n
devido ao teorema da ergodicidade. Como uˆtT• = utT• − X t • ( βˆSMQ − β ) , tem-se
uˆtT•uˆt • = utT•ut • − utT• ( βˆSMQ − β )T X tT• − X t • ( βˆSMQ − β )ut • + X t • ( βˆSMQ − β )( βˆSMQ − β )T X tT• .
Vai provar-se que a média amostral de Vec{ X t • ( βˆSMQ − β )ut • } [Vec da terceira parcela] tende em probabilidade para 0 (a demonstração também é válida para a segunda parcela, que é a transposta da terceira). Com efeito, atendendo à propriedade a) da vectorização de matrizes, tem-se p 1 n 1 n T ˆ ˆ X u u X − → Vec{ ( ) } ( ) Vec ( ) β β β β 0, − = ⊗ t• t• t• SMQ SMQ n ∑t =1 t • n ∑t =1
uma vez que
p 1 n T ⊗ → ( ) u X E (utT• ⊗ X t • ) = O e plim(βˆSMQ ) = β . ∑ t t • • n t =1
A média amostral do Vec da quarta parcela também tende em probabilidade para zero. De facto, recorrendo à propriedade referida, resulta
Capítulo 5 – Sistemas de Equações de Regressão Linear
33
1 n Vec{ X t • ( βˆSMQ − β )( βˆSMQ − β )T X tT• } = n ∑t =1 p 1 n T ˆ ˆ ⊗ X X 0, ( ) Vec{ ( β − β )( β − β ) } → t• SMQ SMQ n ∑t =1 t • p 1 n ( ) ⊗ → X X E( X t• ⊗ X t• ) , t• n ∑t =1 t •
porque
supondo que cada elemento de X t • tem segundo momento, e
Vec{( βˆSMQ − β )( βˆSMQ − β )T } → 0 . p
Então, como
1 n 1 n plim ∑t =1 uˆtT•uˆt • = plim ∑t =1 utT•ut • , n n
fica provada a consistência de (5.41). Nestas condições, propõe-se, baseado em (5.37), o seguinte estimador de β : (5.42)
βˆSMQGF = { X T (Σˆ −1 ⊗ I n ) X }−1 X T (Σˆ −1 ⊗ I n )Y .
Este estimador designa-se por estimador SMQGF (estimador MQG factível). Quando se recorre a (5.38), tem-se (5.43) ou
βˆSMQGF = { X T ( I n ⊗ Σˆ −1 ) X }−1 X T ( I n ⊗ Σˆ −1 )Y , βˆ
SMQGF
n = ∑t =1 X tT•Σˆ −1 X t •
−1
∑
n
t =1
X tT•Σˆ −1 ytT• .
ˆ = Σ , com Σˆ dado por (5.41), é de esperar que βˆSMQGF seja conComo plim(Σ) sistente. Este resultado fica provado, demonstrando a seguinte equivalência assintótica: n ( βˆSMQGF − β ) ~ n ( βˆSMQG − β ) . a
Para simplificar, seja
ˆ = 1 n X T Σˆ −1 X , B ˆ= 1 A ∑ t• t• t = 1 n n −1
1 1 n A = ∑t =1 X tT•Σ −1 X t • , B = n n −1
∑
n
t =1
∑
n
t =1
X tT•Σˆ −1utT• , X tT•Σ −1utT• .
Facilmente se estabelece que
ˆB ˆ − A)B ˆ − AB = A(B ˆ - B) + (A ˆ. n ( βˆSMQGF − β ) − n ( βˆSMQG − β ) = A
Assim, para demonstrar a equivalência assintótica, vai verificar-se que:
ˆ - B) = 0 ; a) plim(B
Capítulo 5 – Sistemas de Equações de Regressão Linear
34
ˆ − A) = O ; b) plim(A c) plim(A) = (Qxx∗ ) −1 ; ˆ são assintoticamente equivalentes. d) B e B
a) Notando que Vec( X tT•Σˆ −1utT• ) = X tT•Σˆ −1utT• , seja ˆ - B = B =
n 1 X tT•Σˆ −1utT• − X tT•Σ −1utT• ∑ t =1 n 1 n T ˆ −1 ) − 1 ∑n (ut • ⊗ X tT• ) Vec(Σ −1 ), u X ⊗ ( ) Vec ( Σ ∑ t t • • t =1 n t =1 n
1 n
ou
∑
n
t =1
ˆ - B = 1 B n
∑
n
t =1
(ut • ⊗ X tT• ) Vec(Σˆ −1 − Σ −1 ).
Como plim(Σˆ ) = Σ , basta verificar que
1 n n ∑t =1 (ut • ⊗ X tT• ) n
tem uma determinada distribuição limite. Como os blocos não nulos de ut • ⊗ X tT• são da forma xti •utl , cada bloco não nulo de
1 n n ∑t =1 (ut • ⊗ X tT• ) n 1 n n ∑t =1 xtiT•utl n
é da forma
e, devido a (5.35), tem distribuição limite normal com valor esperado nulo. b) Com argumentos semelhantes se demonstra que
ˆ − A) = plim 1 n X T Σˆ −1 X − plim 1 n X T Σ −1 X = O . plim(A ∑ t• t• ∑ t• t• n t =1 n t =1 −1
−1
Para provar este resultado, basta invocar o teorema de Slustsky e verificar que
1 n 1 n plim ∑t =1 X tT•Σˆ −1 X t • = plim ∑t =1 X tT•Σ −1 X t • . n n
Com efeito, tem-se
1 n 1 n ∑t =1 Vec{ X tT•Σˆ −1 X t • } − ∑t =1 Vec{ X tT•Σ −1 X t • } n n
1 n 1 n = ∑t =1 ( X tT• ⊗ X tT• )Vec(Σˆ −1 ) − ∑t =1 ( X tT• ⊗ X tT• )Vec(Σ −1 ) n n p 1 n = ∑t =1 ( X tT• ⊗ X tT• ) Vec(Σˆ −1 − Σ −1 ) → 0, n
Capítulo 5 – Sistemas de Equações de Regressão Linear porque plim(Σˆ ) = Σ e
35
p 1 n T T ( ) X ⊗ X → E ( X tT• ⊗ X tT• ) . t• n ∑t =1 t •
1 n plim ∑t =1 X tT•Σ −1 X t • = E ( X tT•Σ −1 X t • ) = Qxx∗ . n
c) De facto,
ˆ - B) = 0 e d) Como plim(B
tem-se
1 n
∑
X tT•Σ −1utT• → N ( m ) (0, S∗ ) , t =1
ˆ= 1 B n
∑
X tT•Σˆ −1utT• → N ( m ) (0, S∗ ) , t =1
B=
d
n
d
n
ˆ são assintoticamente equivalentes. ou seja, B e B A equivalência assintótica entre os estimadores SMQGF e SMQG permite estabelecer o seguinte resultado:
n ( βˆSMQGF − β ) → N ( k ) 0, Cov a ( βˆSMQGF ) , d
(5.44) onde (5.45)
Cov a ( βˆSMQGF ) = (Qxx∗ ) −1 S∗ (Qxx∗ ) −1 . Para obter um estimador consistente de (5.45), faz-se Cov a ( βˆSMQGF ) = ( S xx∗ ) −1 Sˆ∗ ( S xx∗ ) −1 , ^
(5.46) onde
1 n 1 n Sˆ∗ = ∑t =1 ( gˆ t∗• )T gˆ t∗• = ∑t =1 X tT•Σˆ −1uˆtT•uˆt •Σˆ −1 X t • , n n
com gˆ t∗• = uˆt •Σˆ −1 X t • e uˆtT• = ytT• − X t • βˆSMQGF (o vector dos resíduos SMQGF), e S xx∗ =
com a notação A de X, ou S xx∗ =
1 T ˆ −1 X (Σ ⊗ I n ) X , n
1 n T ˆ −1 1 X t •Σ X t • = X T ( I n ⊗ Σˆ −1 ) X , ∑ t = 1 n n
com a notação B de X. Estes resultados permitem fazer inferência estatística robusta sobre os parâmetros do modelo. Fica ao cuidado do leitor demonstrar que o estimador (5.42) pode ser obtido de (5.15), fazendo Z = (Σˆ −1 ⊗ I n ) X . Assim, como (5.42) não depende da escolha de Wˆ ,
Capítulo 5 – Sistemas de Equações de Regressão Linear
36
pode afirmar-se que o estimador SMQGF é estimador MGM eficiente, na classe dos estimadores que verificam (5.35). Pode chegar-se à mesma conclusão, mostrando que o estimador (5.43) resulta de (5.15), quando Z = ( I n ⊗ Σˆ −1 ) X ou Z t • = Σˆ −1 X t • . Todas considerações anteriores pressupõem que não são impostas restrições sobre parâmetros de equações diferentes (restrições inter-equações). Os modelos com este tipo de restrições ainda se podem formalizar da maneira já conhecida, e, portanto, poderem ser utilizados os métodos de estimação SMQ e SMQGF. Por exemplo, considere-se o seguinte modelo SER com duas equações: yt1 = β11 + β 21 xt12 + β31 xt13 + β 41 xt14 + ut1 yt 2 = β12 + β 22 xt 22 + β32 xt 23 + ut 2 ,
impondo-se a restrição β 21 = 2 β 22 . O modelo que verifica esta restrição é dado por yt1 = β11 + 2 β 22 xt12 + β31 xt13 + β 41 xt14 + ut1 yt 2 = β12 + β 22 xt 22 + β32 xt 23 + ut 2 .
Este modelo pode apresentar-se na forma (5.3), fazendo
1 2 xt12 xt13 xt14 0
β T = [ β11 β 22 β31 β 41 β12 β32 ] e X t • =
0
xt 22
0
0
0 . 1 xt 23
Pode aplicar-se os métodos SMQ e SMQGF para estimar β . Contudo, o estimador SMQ deixa de ser um estimador MQ “empilhado”.
Estimador SVI Quando, no modelo SER, o número de variáveis instrumentais é igual ao número de regressores ( p = k ) , é imediato verificar que o estimador MGM de β não depende de Wˆ , e, portanto, é um estimador MGM eficiente. Com efeito, basta notar que a matriz S zx é quadrada, e supor que tem inversa. Então, a partir de (5.15), (5.47)
βˆSVI = S zx−1 s zy = ( Z T X ) −1 Z T Y ,
que não é mais do que o estimador de variáveis instrumentais, já conhecido do capítulo 4 (ver secção 4.4). No contexto do modelo SER, este estimador é designado por estimador SIV (estimador de variáveis instrumentais do sistema). O erro de amostragem do estimador SIV é dado por (5.48)
βˆSVI − β = S zx−1 g •n = ( Z T X ) −1 Z T U .
Obviamente este estimador é assintoticamente normal, n ( βˆSVI − β ) → N ( k ) 0, Cov a ( βˆSVI ) , d
(5.49) onde (5.50)
Cov a ( βˆSVI ) = Qzx−1 S (QzxT ) −1 ,
Capítulo 5 – Sistemas de Equações de Regressão Linear e
37
Cov a ( βˆSVI ) = S zx−1Sˆ ( S zxT ) −1 = n{( Z T X ) −1 Gˆ T Gˆ ( X T Z ) −1} . ^
(5.51)
Os resíduos utilizados em Sˆ são os resíduos SIV: uˆtT• = ytT• − X t • βˆSIV . Com os resultados apresentados, pode fazer-se inferência estatística robusta sobre os parâmetros do modelo.
Estimador SMQ2P Outro caso particular é o do estimador SMQ2P (estimador MQ2P do sistema). De forma semelhante ao estimador MQ2P para uma equação (ver secção 4.5), faz-se Wˆ = S zz−1 , onde 1 n T O O L n ∑t =1 zt1• zt1• 1 n T O z z O L 1 n T 1 T ∑ • • t t 2 2 n t =1 S zz = = n ∑t =1 Z t • Z t • = n Z Z . M M M 1 n T O O z L ∑t =1 ztm • tm • n Cada bloco-diagonal pode escrever-se com a seguinte notação: S zi zi =
1 n T 1 zti • zti • = Z •Ti Z •i . ∑ 1 t = n n
O estimador é dado por (5.52)
βˆSMQ2P = ( S zxT S zz−1 S zx ) −1 S zxT S zz−1szy
= { X T Z ( Z T Z ) −1 Z T X }−1 X T Z ( Z T Z ) −1 Z T Y = ( X T H Z X ) −1 X T H Z Y ,
onde H Z = Z ( Z T Z ) −1 Z T . Verifica-se imediatamente que o estimador SMQ2P é um estimador MQ2P “empilhado”, ou seja, estimam-se separadamente, pelo método MQ2P, os coeficientes de cada equação. Com efeito, basta atender à estrutura bloco-diagonal das matrizes S zx e S zz . Assim, tem-se βˆ•1, MQ2P βˆ• 2, MQ2P , βˆSMQ2P = M βˆ • m, MQ2P onde
βˆ•i , MQ2P = ( S zT x S z−1z S z x ) −1 S zT x S z−1z sz y ( i = 1, 2, K , m ). i i
i i
i i
i i
i i
i i
Facilmente se conclui que o estimador SMQ2P não é MGM eficiente.
Capítulo 5 – Sistemas de Equações de Regressão Linear
38
O erro de amostragem deste estimador é (5.53)
βˆSMQ2P − β = ( S zxT S zz−1 S zx ) −1 S zxT S zz−1 g• n = ( X T H Z X ) −1 X T H ZU .
Este estimador reduz-se ao estimador SIV quando p = k . Com efeito, basta notar que Z T X é matriz quadrada. Tem-se n ( βˆSMQ2P − β ) → N ( k ) 0, Cov a ( βˆSMQ2P ) , d
(5.54) onde (5.55) e
Cov a ( βˆSMQ2P ) = (QzxT Qzz−1Qzx ) −1 QzxT Qzz−1 S Qzz−1Qzx (QzxT Qzz−1Qzx ) −1 ,
Cov a ( βˆSMQ2P ) = ( S zxT S zz−1S zx ) −1 S zxT S zz−1 Sˆ S zz−1S zx ( S zxT S zz−1S zx ) −1 ^
(5.56)
= n{( X T H Z X ) −1 X T Z ( Z T Z ) −1 Gˆ T Gˆ ( Z T Z ) −1 Z T X ( X T H Z X ) −1}.
Os resíduos utilizados em Sˆ são os resíduos SMQ2P: uˆtT• = ytT• − X t • βˆSMQ2P . Com estes resultados, pode-se fazer inferência estatística robusta sobre os parâmetros do modelo.
5.7 - Implicações da homocedasticidade condicionada Tal como se fez nos capítulos 3 (secção 3.6) e 4 (secção 4.9), mas agora no âmbito do modelo SER, vão analisar-se as implicações da homocedasticidade condicionada, nomeadamente vão estudar-se alguns estimadores importantes, que são casos particulares do estimador MGM. A versão multi-equação da hipótese da homocedasticidade condicionada é a seguinte:
Hipótese SER.6 – Homocedasticidade condicionada Tem-se (5.57)
E (uti utl | zti• , ztl• ) = σ il ,
para i, l = 1, 2, K , m .
Evidentemente que (5.57) implica que E (uti utl ) = σ il (homocedasticidade marginal). Note-se também que os σ il são os elementos da matriz Σ , quadrada de ordem m, já referida em (5.7). A hipótese SER.6 pode resumir-se da seguinte maneira: (5.58)
E (utT•ut • | Z t • ) = Σ .
Considerando o bloco genérico da matriz S, dado por (5.13), tem-se E (uti utl ztiT• ztl• ) = E{E (uti utl ztiT• ztl• | zti• , ztl• )}
= E{E (uti utl | zti• , ztl• ) ztiT• ztl• } = σ il E ( ztiT• ztl• ) .
Capítulo 5 – Sistemas de Equações de Regressão Linear
39
Então, a matriz S, no caso de homocedasticidade condicionada, é
(5.59)
σ 11E ( ztT1• zt1• ) σ 12 E ( ztT1• zt 2• ) L σ 1m E ( ztT1• ztm • ) T T T σ 21E ( zt 2• zt1• ) σ 22 E ( zt 2• zt 2• ) L σ 2 m E ( zt 2• ztm • ) S= . M M M T T T σ m1E ( ztm • zt1• ) σ m 2 E ( ztm • zt 2• ) L σ mm E ( ztm • ztm • )
Note-se que onde Qzi z l = E ( ztiT• ztl • ) .
Sil = σ il E ( ztiT• ztl • ) = σ ilQzi z l ,
Como S = E ( gtT• gt • ) = E ( Z tT•utT•ut • Z t • ) [ver (5.12)], a matriz S também pode ser obtida do seguinte modo: (5.60)
S = E ( Z tT•Σ Z t • ) .
Com efeito,
S = E ( Z tT•utT•ut • Z t • ) = E{E ( Z tT•utT•ut • Z t • | Z t • )} = E{Z tT• E (utT•ut • | Z t • ) Z t •} = E ( Z tT•Σ Z t • ) . Verificou-se, assim, que (5.58) implica (5.60). Sem dificuldade se conclui que a inversa não é verdadeira. Nalguns casos, em especial em certos modelos de equações simultâneas (ver capítulo 6) e em alguns modelos com dados de painel (ver capítulo 7), é mais adequado substituir a hipótese SER.6 pela hipótese mais fraca dada por (5.60), ou seja, supor que E ( Z tT•utT•ut • Z t • ) = E ( Z tT•Σ Z t • ) . Naturalmente (5.58) é condição suficiente de (5.60). Um estimador consistente de S é dado por
(5.61)
com
1 n T 1 n T 1 n T σˆ11 n ∑t =1 zt1• zt1• σˆ12 n ∑t =1 zt1• zt 2• L σˆ1m n ∑t =1 zt1• ztm • σˆ 21 1 ∑ n ztT2• zt1• σˆ 22 1 ∑n ztT2• zt 2• L σˆ 2 m 1 ∑ n ztT2• ztm • n t =1 n t =1 n t =1 , Sˆ = M M M 1 n T σˆ 1 n z T z σˆ 1 n z T z ˆ m1 n ∑t =1 tm• t1• m 2 n ∑t =1 tm • t 2• L σ mm n ∑t =1 ztm • ztm •
σˆ il =
1 n ∑ uˆtiuˆtl , n t =1
onde uˆti = yti − xti• βˆ•i , e βˆ•i é um estimador consistente de β•i (habitualmente, o estimador MQ2P). Utilizando a notação A da matriz Z, a matriz Sˆ pode ser apresentada da seguinte maneira:
Capítulo 5 – Sistemas de Equações de Regressão Linear
(5.62)
40
1 T 1 T 1 T σˆ11 n Z •1Z •1 σˆ12 n Z •1Z • 2 L σˆ1m n Z •1Z • m σˆ 21 1 Z •T2 Z •1 σˆ 22 1 Z •T2 Z • 2 L σˆ 2 m 1 Z •T2 Z • m n n n = 1 {Z T (Σˆ ⊗ I ) Z } . Sˆ = n n M M M σˆ 1 Z T Z σˆ 1 Z T Z L σˆ 1 Z T Z mm m1 n • m •1 m 2 n • m • 2 n • m • m
Pode, também, fazer-se
1 n 1 Sˆil = σˆ il ∑t =1 ztiT• ztl • = σˆ il Z •Ti Z • l = σˆ il S zi z l , n n
onde
S zi zl =
1 n T 1 z z = Z •Ti Z •l . ∑ t =1 ti • tl • n n
Recorrendo à notação B da matriz Z, tem-se (5.63)
1 n 1 Sˆ = ∑t =1 Z tT•Σˆ Z t • = {Z T ( I n ⊗ Σˆ ) Z } . n n
Nestas condições, ou seja, supondo homocedasticidade condicionada, tem-se o estimador FIVE (Full-information Instrumental Variables Efficient) de β , (5.64)
βˆFIVE = ( S zxT Sˆ −1 S zx ) −1 S zxT Sˆ −1 szy ,
onde a matriz Sˆ é dada por (5.61) [com as notações alternativas, (5.62) ou (5.63]. Este estimador também é conhecido pela designação de estimador MGM-MQ3P, para o distinguir do estimador MQ3P tradicional (ver adiante a subsecção que trata deste estimador). Quando se utiliza a notação (5.62), tem-se (5.65)
βˆFIVE = ( X T Z {Z T (Σˆ ⊗ I n ) Z }−1 Z T X ) −1 X T Z {Z T (Σˆ ⊗ I n ) Z }−1 Z T Y .
Com (5.63), obtém-se (5.66)
βˆFIVE = ( X T Z {Z T ( I n ⊗ Σˆ ) Z }−1 Z T X ) −1 X T Z {Z T ( I n ⊗ Σˆ ) Z }−1 Z T Y .
O estimador FIVE é consistente e assintoticamente normal (como qualquer estimador MGM), e é MGM eficiente (porque Wˆ = Sˆ −1 ); a matriz das covariâncias assintóticas é da forma (5.26) [com a matriz S dada por (5.59) ou (5.60)]; atendendo a (5.65), o estimador consistente desta matriz é Cov a ( βˆFIVE ) = ( S zxT Sˆ −1 S zx) −1 = n( X T Z {Z T (Σˆ ⊗ I n ) Z }−1 Z T X ) −1 . ^
(5.67)
Se se recorresse à notação (5.66), viria
Cov a ( βˆFIVE ) = ( S zxT Sˆ −1 S zx) −1 = n( X T Z {Z T ( I n ⊗ Σˆ ) Z }−1 Z T X ) −1 . ^
(5.68)
Capítulo 5 – Sistemas de Equações de Regressão Linear
41
A estatística J (Hansen) reduz-se à estatística de Sargan [ver capítulo 4, (4.79) e (4.96)], QS = n ( szy − S zx βˆFIVE )T Sˆ −1 ( szy − S zx βˆFIVE ) → χ 2 ( p − k ) . d
(5.69)
Quando não se verifica SER.6, o estimador FIVE não é eficiente [logo, a matriz (5.67) – ou (5.68) – não serve para fazer inferência estatística, e, em particular, para fornecer os erros padrão adequados]. O estimador eficiente é dado por (5.25). Note-se que: no caso do estimador FIVE, faz-se Wˆ = Sˆ −1 , com Sˆ dada por (5.61); no caso do estimador (5.25), tem-se Wˆ = Sˆ −1 , com Sˆ dada por (5.21). Contudo, mesmo supondo que há homocedasticidade condicionada, o estimador FIVE não é assintoticamente mais eficiente que o estimador (5.25): os dois estimadores são assintoticamente equivalentes. Então, porquê não utilizar sempre o estimador mais geral, (5.25)? A resposta é simples: o estimador FIVE pode ter melhores propriedades em pequenas amostras.
SMQ versus SMQGF Quando existe homocedasticidade condicionada, e de acordo com as hipóteses subjacentes ao estimador SMQ, a matriz S reduz-se a S = E ( X tT•Σ X t • ) . Então, a matriz das covariâncias assintóticas do estimador SMQ de β ainda é dada por (5.33), mas utilizando aquela matriz S. Como 1 1 n 1 Sˆ = { X T (Σˆ ⊗ I n ) X } ou Sˆ = ∑t =1 X tT•Σˆ X t • = { X T ( I n ⊗ Σˆ ) X } , n n n
conforme se utilizam as notações A ou B de X, a matriz (5.34) reduz-se Cov a ( βˆSMQ ) = S xx−1 Sˆ S xx−1 = n( X T X ) −1 X T (Σˆ ⊗ I n ) X ( X T X ) −1 , ^
(5.70)
recorrendo, por exemplo, à notação A. No que diz respeito ao estimador SMQGF, tem-se S∗ = Qxx∗ = E ( X tT•Σ X t • ) . Então, (5.45) e (5.46) reduzem-se, respectivamente, às suas versões não robustas: (5.71) e
Cov a ( βˆSMQGF ) = (Qxx∗ ) −1 ,
Cov a ( βˆSMQGF ) = ( S xx∗ ) −1 . ^
(5.72)
Com as hipóteses fixadas para obter o estimador SMQGF, este estimador é menos robusto que o estimador SMQ, e computacionalmente mais complicado. Então, porquê usar SMQGF? Porque, quando se introduz a hipótese da homocedasticidade condicionada, pode demonstrar-se que o estimador SMQGF é assintoticamente mais eficiente que o estimador SMQ.
42
Capítulo 5 – Sistemas de Equações de Regressão Linear
FIVE versus SMQ2P A comparação entre os estimadores MGM eficientes conjunto e separado pode ser repetida para confrontar o estimador FIVE, (5.64), com o estimador SMQ2P, (5.52). No caso de homocedasticidade condicionada, o estimador MQ2P dos coeficientes de cada equação i (i = 1, 2, K , m) , individualmente considerada, é estimador MGM eficiente, onde Sˆii = σˆ ii S zi zi (ver capítulo 4). Assim, tem-se
βˆ•i ( S z−1z ) = βˆ•i , MQ2P = ( S zT x S z−1z S z x ) −1 S zT x S z−1z sz y (i = 1, 2, K , m) . i i
i i
i i
i i
i i
i i
i i
Juntando estes m estimadores, obtém-se uma expressão com a forma (5.29),
βˆSMQ2P
onde
βˆ•1 ( S z−1z ) βˆ•1, MQ2P 1 1 −1 ˆ β• 2 ( S z 2 z 2 ) βˆ• 2, MQ2P = = = ( S zxT SˆD−1S zx ) −1 S zxT SˆD−1szy , M M − 1 βˆ• m ( S z z ) βˆ• m, MQ2P m m σˆ S O O L 11 z1 z1 O O σˆ 22 S z 2 z 2 L . Sˆ D = M M M O L σˆ mm S z m z m O
Devido à homocedasticidade condicionada, a matriz das covariâncias assintóticas de βˆ•i , MQ2P e a matriz dos respectivos estimadores são dadas por Cov a ( βˆ•i , MQ2P ) = σ ii (QzTi xi Qz−i1zi Qzi xi ) −1 e Cov a ( βˆ•i , MQ2P ) = σˆ ii ( S zTi xi S z−i1zi S zi xi ) −1 . ^
Agrupando estas matrizes numa matriz bloco-diagonal, tem-se
σ 11 (QzT1 x1 Qz−11z1 Qz1 x1 ) −1 O O L T −1 −1 O O σ 22 (Qz 2 x2 Qz 2 z 2 Qz 2 x2 ) L ˆ Cov a ( βSMQ2P ) = , M M M L σ mm (QzTm x m Qz−m1z m Qz m x m ) −1 O O
ou (5.73) onde
Cov a ( βˆSMQ2P ) = (QzxT S D−1Qzx ) −1 , O O L σ 11Qz1 z1 O O σ 22Qz 2 z 2 L . SD = M M M L σ mmQz m z m O O
Capítulo 5 – Sistemas de Equações de Regressão Linear
43
De (5.73) sai imediatamente,
Cov a ( βˆSMQ2P ) = ( S zxT SˆD−1S zx ) −1 . ^
(5.74)
Com Sˆ dada por (5.61), pode provar-se que
Cov a ( βˆSMQ2P ) − Cov a ( βˆFIVE ) = ( S zxT SˆD−1S zx ) −1 − ( S zxT Sˆ −1S zx ) −1 ^
^
é semidefinida positiva. Assim, os erros padrão do estimador FIVE não são maiores que os respectivos erros padrão do estimador SMQ2P. Ainda se podem fazer os seguintes comentários: a) Quando não se verifica a hipótese SER.6 (não há homocedasticidade condicionada), a matriz Sˆ , dada por (5.61), não é estimador consistente de S, dada por (5.12). No entanto, se existir homocedasticidade condicionada, a matriz Sˆ , correspondente a (5.21), é estimador consistente de S, dada por (5.59). b) Supondo que não existe homocedasticidade condicionada, o estimador FIVE ainda é consistente e assintoticamente normal, pois continua a ser um estimador MGM, para alguma matriz Wˆ . No entanto, deixa de ser eficiente porque esta matriz Wˆ já não verifica a condição plim(Wˆ ) = S −1 . c) No caso de homocedasticidade condicionada, se cada equação do modelo SER é exactamente identificada, os estimadores FIVE e SMQ2P são numericamente iguais ao estimador VI [ver a primeira conclusão da secção 5.5, a seguir a (5.30)]. d) No caso de homocedasticidade condicionada, se pelo menos uma das equações é sobre-identificada, mas σ il = 0 para todos os pares (i, l) , com i ≠ l , então os estimadores FIVE e MQ2P separado são assintoticamente equivalentes. Com efeito, basta atender à segunda conclusão da secção 5.5, a seguir a (5.30), e notar que, sob homocedasticidade condicionada, o estimador MGM eficiente se reduz ao estimador FIVE, e o estimador (5.29) se reduz ao estimador MQ2P separado. e) Note-se, também, que no caso de homocedasticidade condicionada, as equações não estão “relacionadas” [de acordo com (5.30)], se σ il = 0 , para i, l = 1, 2, K , m , com i ≠ l . Com efeito, basta verificar que E (uti utl ztiT• ztl• ) = E{E (uti utl ztiT• ztl• | zti• , ztl• )}
= E{E (uti utl | zti• , ztl• ) ztiT• ztl• } = σ il E ( ztiT• ztl• ).
O estimador dos mínimos quadrados em três passos Quando cada equação tem as mesmas variáveis instrumentais, diz-se que o modelo tem instrumentos comuns. Neste caso, o estimador FIVE pode ser simplificado. Considere-se o vector 1 × m , ut • , formado pelas variáveis residuais uti (i = 1, 2, K , m) , e a matriz de Σ = E (utT•ut • ) [ver (5.7)]. Como o elemento genérico desta matriz é σ il , um estimador consistente de Σ pode ser obtido com o mesmo procedimento utilizado para estimar a matriz Sˆ , referido em (5.61), recorrendo, por exemplo, ao estimador MQ2P de cada β•i , e respectivos resíduos. Assim,
44
Capítulo 5 – Sistemas de Equações de Regressão Linear
(5.75)
σˆ11 σˆ12 L σˆ1m ˆ ˆ ˆ ˆΣ = σ 21 σ 22 L σ 2 m = 1 ∑ n uˆ T uˆ . t• t• M M M n t =1 σˆ m1 σˆ m 2 L σˆ mm
Como os instrumentos são comuns a todas as equações, considere-se zt • = zti • , para i = 1, 2, K , m , onde zt • = [ zt1 zt 2 L ztq ] é um vector 1 × q . Então, gt • = [ zt •ut1 zt •ut 2 L zt •utm ] = ut • ⊗ zt • ,
que é um vector de tipo 1× mq ( mq = p ). A matriz S, a verificar zt • = zti • , facilmente se escreve na seguinte forma:
(5.76)
σ 11E ( ztT• zt • ) σ 12 E ( ztT• zt • ) L σ 1m E ( ztT• zt • ) σ 21E ( ztT• zt • ) σ 22 E ( ztT• zt • ) L σ 2 m E ( ztT• zt • ) ~ S= = Σ ⊗ E ( ztT• zt • ) = Σ ⊗ Qzz , M M M σ m1E ( ztT• zt • ) σ m 2 E ( ztT• zt • ) L σ mm E ( ztT• zt • )
~ onde Qzz = E ( ztT• zt • ) . Nestas condições,
~ Qzz = I m ⊗ Qzz .
~ A matriz (5.76) é quadrada de ordem mq ( Σ é quadrada de ordem m; Qzz é quadrada de ordem q). Então, ~ S −1 = Σ −1 ⊗ E ( ztT• zt • ) −1 = Σ −1 ⊗ Qzz−1 . Do mesmo modo,
1 ~ ~ 1 n ~ Sˆ = Σˆ ⊗ ∑t =1 ztT• zt • = Σˆ ⊗ Z T Z = Σˆ ⊗ S zz , n n ~ onde a matriz Z , de tipo n × q , é
(5.77)
z1• z11 z12 L z1q 1 n 1~ ~ ~ z2• z21 z22 L z2 q ~ e S zz = ∑t =1 ztT• zt • = Z T Z . = Z= n n M M M M zn • zn1 zn 2 L znq
Note-se que
~ S zz = I m ⊗ S zz .
Também se tem
1 n Sˆ = Σˆ ⊗ ∑t =1 ztT• zt • n −1
−1
−1
1 ~ ~ = Σˆ ⊗ Z T Z n −1
−1
~ = Σˆ −1 ⊗ S zz−1 .
Capítulo 5 – Sistemas de Equações de Regressão Linear
45
~ Com zt • = zti • , vem Z = I m ⊗ Z (de tipo mn × mq ), de acordo com a notação A da matriz Z das observações das variáveis instrumentais. Como Z t • = I m ⊗ zt • , a matriz Z, de acordo com a notação B, é dada por
I m ⊗ z1• I m ⊗ z2 • Z= . M I m ⊗ zn •
~ Quando se considera o estimador FIVE com esta matriz Sˆ −1 = Σˆ −1 ⊗ S zz−1 , tem-se o estimador dos mínimos quadrados em três passos (MQ3P; em inglês, Three-Stage Least Squares, 3SLS), ~ ~ βˆMQ3P = {S zxT (Σˆ −1 ⊗ S zz−1 ) S zx }−1 S zxT (Σˆ −1 ⊗ S zz−1 ) szy . (5.78) O termo MQ3P resulta do facto do estimador inicial, necessário para calcular os resíduos que permitem estimar Σ , ser o estimador MQ2P de β •i (neste caso, tem-se uˆti = yti − xti • βˆ•i , MQ2P ); o terceiro passo consiste na aplicação da fórmula (5.78). Vai aprofundar-se a estrutura de (5.78), de acordo com a notação A das matrizes X, Y e Z: − A matriz S zx é dada por 1 n T L O O n ∑t =1 zt • xt1• 1 n T O zt • xt 2• L O ∑ t = 1 ~T 1 n S zx = = n (Im ⊗ Z ) X , M M M 1 n T L ∑t =1 zt • xtm • O O n
onde o bloco genérico desta matriz é dado por − O vector s zy é
S zxi =
onde o bloco genérico é
1 n T 1~ zt • xti • = Z T X •i ( i = 1, 2, K , m ). ∑ t = 1 n n
1 n T n ∑t =1 zt • yt1 1 n zT y ~T ∑t =1 t • t 2 1 szy = n = n ( I m ⊗ Z )Y , M 1 n T n ∑t =1 zt • ytm
46
Capítulo 5 – Sistemas de Equações de Regressão Linear 1 n T 1~ zt • yti = Z T y•i ( i = 1, 2, K , m ). ∑ t = 1 n n ~ − O bloco genérico de S zxT (Σˆ −1 ⊗ S zz−1 ) S zx , de tipo ki × kl , é dado por ~ σˆ il S zxT i S zz−1S zxl ( i, l = 1, 2, K , m ), szyi =
onde
1 1 ~ ~ 1 ~ ~ 1 ~ S S zz−1S zxl = X •Ti Z Z T Z Z T X •l = X •Ti H Z~ X •l , n n n n ~ ~ ~ ~ onde H Z~ = Z ( Z T Z ) −1 Z T . ~ − O bloco genérico de S zxT (Σˆ −1 ⊗ S zz−1 ) szy é m ~ ~ ~ ~ ∑l =1σˆ il S zxT i S zz−1szyl = σˆ i1S zxT i S zz−1szy1 + σˆ i 2 S zxT i S zz−1szy2 + L + σˆ im S zxT i S zz−1szym ( i = 1, 2,K, m ), −1
T zxi
onde
1 ~ ~ 1 ~ ~ S S zz−1szyl = X •Ti Z Z T Z n n
−1
T zxi
1 ~T 1 T Z y•l = X •i H ~ y•l . Z n n
Sem dificuldade se verifica que (5.78) pode apresentar-se do seguinte modo: (5.79)
βˆMQ3P = X T {Σˆ −1 ⊗ H Z~ } X X T {Σˆ −1 ⊗ H Z~ } Y .
−1
Atendendo à propriedade e) do produto de Kronecker (ver anexo 5B), vem −1 1 ~ ~ 1 ~ ~ 1 = X T ( I m ⊗ Z ) Σˆ −1 ⊗ Z T Z ( I m ⊗ Z T ) X n n n
βˆMQ3P
× ou
−1
−1 1 T ~ ~ 1 ~ ~ 1 X ( I m ⊗ Z ) Σˆ −1 ⊗ Z T Z ( I m ⊗ Z T ) Y , n n n
βˆMQ3P = X T {Σˆ −1 ⊗ Z ( Z T Z ) −1 Z T } X X T {Σˆ −1 ⊗ Z ( Z T Z ) −1 Z T } Y .
~ ~ ~
~
−1
~ ~ ~
~
O estimador (5.79) pode também ser obtido directamente a partir de (5.65) [ex~ pressão do estimador FIVE na notação A], fazendo Z = I m ⊗ Z . Com efeito,
βˆFIVE = X T ( I m ⊗ Z ){( I m ⊗ Z T )(Σˆ ⊗ I n )( I m ⊗ Z )}−1 ( I m ⊗ Z T ) X
~
~
~
~
~ ~ ~ ~ × X T ( I m ⊗ Z ){( I m ⊗ Z T )(Σˆ ⊗ I n )( I m ⊗ Z )}−1 ( I m ⊗ Z T )Y
−1 ~ ~ ~ ~ = X T ( I m ⊗ Z ){Σˆ −1 ⊗ ( Z T Z ) −1}( I m ⊗ Z T ) X ~ ~ ~ ~ × X T ( I m ⊗ Z ){Σˆ −1 ⊗ ( Z T Z ) −1}( I m ⊗ Z T )Y
ou
−1
47
Capítulo 5 – Sistemas de Equações de Regressão Linear
βˆFIVE = X T {Σˆ −1 ⊗ Z ( Z T Z ) −1 Z T } X X T {Σˆ −1 ⊗ Z ( Z T Z ) −1 Z T }Y .
~ ~ ~
~
−1
~ ~ ~
~
Chama-se a atenção para as diferenças entre o estimador MQ3P, (5.78), e o estimador FIVE [na versão (5.65)]. A diferença resulta do facto de os instrumentos serem comuns a todas as equações. Quando se utiliza a notação B das matrizes X, Y e Z, conclui-se facilmente que S zx =
1 T 1 Z X = [ I m ⊗ z1T• I m ⊗ z2T• n n
Do mesmo modo, szy =
1 T 1 Z Y = [ I m ⊗ z1T• I m ⊗ z2T• n n
X 1• X 1 n T 2• ( I ⊗ ztT• ) X t • . = L I m ⊗ zn • ] M n ∑t =1 m X n • y1T• T y 1 n T 2• L I m ⊗ zn • ] = ∑t =1 ( I m ⊗ ztT• ) ytT• . M n ynT•
Fica ao cuidado do leitor obter o estimador (5.79) a partir de (5.66) [expressão do estimador FIVE na notação B]. Facilmente se verifica que ~ (5.80) Cov a ( βˆMQ3P ) = {QzxT (Σ −1 ⊗ Qzz−1 ) Qzx }−1 , onde
E ( ztT• xt1• ) L O O O E ( ztT• xt 2• ) L O . Qzx = M M M O L E ( ztT• xtm • ) O ~ Cada bloco de QzxT (Σ −1 ⊗ Qzz−1 ) Qzx , de tipo ki × kl , é dado por ~ σ il E ( xtiT• zt • ) E ( ztT• zt • ) −1 E ( ztT• xtl • ) = σ ilQzxT i Qzz−1Qzxl ,
onde Qzxi = E ( ztT• xti • ) (i = 1, 2, K , m) . Tem-se (5.81)
−1 ^ ~ Cov a ( βˆMQ3P ) = {S zxT (Σˆ −1 ⊗ S zz−1 ) S zx }−1 = n X T {Σˆ −1 ⊗ H Z~ } X .
A estatística de Sargan é dada por
QS = J ( βˆMQ3P , Sˆ −1 ) = n ( szy − S zx βˆMQ3P )T Sˆ −1 ( szy − S zx βˆMQ3P )
= (Y − XβˆMQ3P )T (Σˆ −1 ⊗ H Z~ )(Y − XβˆMQ3P ).
Neste caso,
Capítulo 5 – Sistemas de Equações de Regressão Linear
48
QS = J ( βˆMQ3P , Sˆ −1 ) → χ 2 (mq − k ) . d
(5.82)
MQ3P versus SMQ2P A seguir vão analisar-se algumas relações entre o estimador MQ3P e o estimador SMQ2P. Continuando a supor que os instrumentos são os mesmos para cada equação, zt • = zti • (vector 1 × q ), admita-se que os regressores também são comuns a todas ~ as equações, xt • = xti • (vector 1 × k ). Neste caso, fazendo Qzx = E ( ztT• xt • ) , de tipo q × k , vem ~ Q O L O zx ~ O Q ~ zx L O = Im ⊗ Q Qzx = zx . M M M ~ O O L Qzx 1 n ~ S zx = ∑t =1 ztT• xt • , n
Considerando a matriz de tipo q × k , tem-se
S~ zx O S zx = M O
O L O ~ S zx L O = I m ⊗ S~zx . M M ~ O L S zx
Então,
βˆMQ3P = {S zxT (Σˆ −1 ⊗ S zz−1 ) S zx }−1 S zxT (Σˆ −1 ⊗ S zz−1 ) szy ~
~
~ ~ ~ ~ ~ = {( I m ⊗ S zxT )(Σˆ −1 ⊗ S zz−1 )( I m ⊗ S zx )}−1 ( I m ⊗ S zxT )(Σˆ −1 ⊗ S zz−1 ) szy ~ ~ ~ ~ ~ = (Σˆ −1 ⊗ S zxT S zz−1S zx ) −1 (Σˆ −1 ⊗ S zxT S zz−1 ) szy
~ ~ ~ ~ ~ = Σˆ ⊗ ( S zxT S zz−1S zx ) −1 (Σˆ −1 ⊗ S zxT S zz−1 ) szy ~ ~ ~ ~ ~ = I m ⊗ ( S zxT S zz−1S zx ) −1 S zxT S zz−1 szy , ou
βˆMQ3P
( S~T S~ −1S~ ) −1 S~T S~ −1 szy O O L zx zz zx zz zx 1 ~ ~ ~ ~ ~ T T − − − 1 1 1 szy 2 O O ( S zx S zz S zx ) S zx S zz L = , M M M M ~ ~ ~ ~ ~ O O L ( S zxT S zz−1S zx ) −1 S zxT S zz−1 szy m
49
Capítulo 5 – Sistemas de Equações de Regressão Linear ou ainda,
βˆMQ3P
( S~T S~ −1S~ ) −1 S~T S~ −1s ~zx ~zz ~zx ~zx ~zz zy1 ( S zxT S zz−1S zx ) −1 S zxT S zz−1szy 2 , = M ~T ~ −1 ~ −1 ~T ~ −1 ( S zx S zz S zx ) S zx S zz szy m
obtendo-se o estimador SMQ2P (vector de estimadores MQ2P “empilhados”). Verifica-se, assim, que no caso de instrumentos comuns e de regressores comuns, há equivalência numérica entre o estimador MQ3P e o estimador SMQ2P. Se não houver homocedasticidade condicionada, este resultado não é verdadeiro porque não é possível escrever Sˆ −1 como um produto de Kronecker. Considere-se um sistema de duas equações de regressões, em condições de se poder aplicar o estimador MQ3P: yt1 = xt1• β•1 + ut1 yt 2 = xt 2• β• 2 + ut 2 ,
onde, como se sabe, xt1• é de tipo 1 × k1 , e xt 2• é de tipo 1 × k2 . Suponha-se que o vector das variáveis instrumentais, zt • , tem p = k2 componentes (deste modo, a segunda equação é exactamente identificada). Vai mostrar-se que ter em conta esta equação não aumenta a eficiência quando se passa do estimador MQ2P de β •1 para o respectivo estimador MQ3P. Com efeito, sejam os estimadores βˆ•1, MQ2P e βˆ•1, MQ3P . De acordo com (4.89), facilmente se verifica que Cov a ( βˆ•1, MQ2P ) = σ 11 A11−1 , onde A11 = E ( xtT1• zt • ) E ( ztT• zt • ) −1 E ( ztT• xt1• ) . Note-se, também, que σ 11 σ 12 σ 11 σ 12 −1 . e Σ = Σ= σ 21 σ 22 σ 21 σ 22
Recorrendo a (5.80), tem-se
−1 Cov a ( βˆ•1, MQ3P ) Cov a ( βˆ•1, MQ3P , βˆ• 2, MQ3P ) σ 11 A11 σ 12 A12 = Cov a ( βˆMQ3P ) = , Cov a ( βˆ• 2, MQ3P , βˆ•1, MQ3P ) σ 21 A21 σ 22 A22 Cov a ( βˆ• 2, MQ3P )
onde
A11 = E ( xtT1• zt • ) E ( ztT• zt • ) −1 E ( ztT• xt1• ) , A12 = E ( xtT1• zt • ) E ( ztT• zt • ) −1 E ( ztT• xt 2• ) ,
A21 = E ( xtT2• zt • ) E ( ztT• zt • ) −1 E ( ztT• xt1• ) , A22 = E ( xtT2• zt • ) E ( ztT• zt • ) −1 E ( ztT• xt 2• ) .
Utilizando a técnica de inversão de matrizes por blocos, obtém-se σ 12σ 21 Cov a ( βˆ•1, MQ3P ) = σ 11 A11 − A12 A22−1 A21 . 22 σ −1
Capítulo 5 – Sistemas de Equações de Regressão Linear
50
Notando que p = k2 , vem
−1 A22 = {E ( xtT2• zt • ) E ( ztT• zt • ) −1 E ( ztT• xt 2• )}−1 = E ( ztT• xt 2• ) −1 E ( ztT• zt • ) E ( xtT2• zt • ) −1 ,
e A12 A22−1 A21 = A11 . Então,
Cov a ( βˆ•1, MQ3P ) =
σ 22 A−1 = σ 11 A11−1 , 11 22 12 21 11 σ σ −σ σ
uma vez que, calculando a inversa de Σ −1 , se obtém
σ 22 σ 11 = 11 22 . σ σ − σ 12σ 21
Provou-se, assim, que
Cov a ( βˆ•1, MQ3P ) = Cov a ( βˆ•1, MQ2P ) .
O estimador SUR O estimador MQ3P pode ser simplificado quando se supõe que o vector 1 × q dos instrumentos, zt • , é formado pelo conjunto de todos os regressores abrangidos pelos vectores xti • ( i = 1, 2, K , m ). Assim, representando por {xti • } o conjunto dos regressores da equação i, os elementos do vector zt • são os elementos do conjunto
U
m
i =1
{xti • } .
Deste modo, verificam-se as condições, (5.83)
E ( xti •utl ) = 0 ( i, l = 1, 2, K , m ).
Esta hipótese significa que os regressores são pré-determinados relativamente a cada equação separadamente (ortogonalidade intra-equações), mas também são pré-determinados relativamente às outras equações (ortogonalidade inter-equações). As mk condições (5.83) são as condições subjacentes ao estimador SMQGF, e podem resumir-se na forma E (utT• ⊗ X t • ) = O [ver (5.35)]. Facilmente se verifica que xti • = zt • Di ,
onde se supõe, sem perda de generalidade, que os primeiros ki elementos de zt • são os elementos de xti • e que Di é a matriz de tipo q × ki formada pelas primeiras ki colunas da matriz I q . Quando se consideram as condições (5.83), facilmente se verifica que (5.57) [hipótese SER.6] se reduz a E (utiutl | xt1• , xt 2• , K , xtm • ) = σ il ( i, l = 1, 2, K , m ),
uma vez que o vector zt • é a união de todos os xti • .
51
Capítulo 5 – Sistemas de Equações de Regressão Linear
Supondo (5.57) e (5.83), prova-se, sem dificuldade, que as hipóteses SER.5 e ~ SER.6 implicam SER.4. Com efeito, como S = Σ ⊗ E ( ztT• zt • ) = Σ ⊗ Qzz , e S tem inversa, ~ resulta que Qzz também é invertível (as suas q colunas são linearmente independentes). Então, as colunas de Qzxi = E ( ztT• xti • ) – em número ki ≤ q – também são linearmente independentes, porque xti • está contido em zt • . zt • = [ 1 educt expert qit ] .
Exemplo 5.9 – Retome-se o exemplo 5.1, supondo que se verifica (5.83). Então,
As condições de ortogonalidade são as seguintes:
E ( zt •ut1 ) = E ut1 educt ut1 expert ut1 qit ut1 = 0 , E ( zt •ut 2 ) = E ut 2 educt ut 2 expert ut 2 qit ut 2 = 0 .
Estas condições devem ser comparadas com as condições de ortogonalidade que garantem que os regressores são pré-determinados apenas em cada equação: E ( xt1•ut1 ) = E ut1 educt ut1 expert ut1 qit ut1 E ( xt 2•ut 2 ) = E ut 2 educt ut 2 qit ut 2 = 0 .
= 0,
Então, no caso daquelas condições de ortogonalidade, pode concluir-se que a segunda equação do modelo é sobre-identificada, pois considera-se expert como variável instrumental. ∇ zt • = [ 1 educ1t exper1t educ 2t exper 2t qit ] .
Exemplo 5.10 – No caso do exemplo 5.2, vem
Todas as variáveis deste vector são ortogonais a ut1 e a ut 2 .
∇
Quando se considera a hipótese (5.83), obtém-se o estimador SUR (Seemingly Unrelated Regressions), βˆSUR , que pode ser apresentado na forma (5.78). Contudo, a forma (5.79) pode ser simplificada. Começa-se por recordar que o bloco genérico da ~ matriz S zxT (Σˆ −1 ⊗ S zz−1 ) S zx é 1 n
σˆ il ( S zxT S zz−1S zx ) = σˆ il X •Ti H Z~ X •l ( i, l = 1, 2, K , m ). ~
i
Vai provar-se que
l
52
Capítulo 5 – Sistemas de Equações de Regressão Linear
(5.84)
1 T 1 X •i H Z~ X •l = X •Ti X • l = S xi xl . n n
Com efeito, seja
~ X •i = Z Di ,
onde se supõe, sem perda de generalidade, que as colunas de X •i são as primeiras ki ~ colunas de Z . Assim, 1 T 1 1 1 ~ ~ ~ ~ X •i H Z~ X • l = DiT Z T H Z~ Z Dl = DiT Z T Z Dl = X •Ti X • l = S xi xl . n n n n ~ Também se sabe que o bloco genérico de S zxT (Σˆ −1 ⊗ S zz−1 ) szy é ~ ~ ~ σˆ i1S zxT i S zz−1szy1 + σˆ i 2 S zxT i S zz−1szy 2 + L + σˆ im S zxT i S zz−1szy m ( i = 1, 2, K , m ),
onde
1 ~ S zxT i S zz−1szy l = X •Ti H Z~ y•l . n
Do mesmo modo, se verifica que (5.85)
1 T 1 X •i H Z~ y•l = X •Ti y•l = sxi y l . n n
Utilizando os resultados (5.84) e (5.85), tem-se
βˆSUR
σˆ 11 X •T1 X •1 σˆ 12 X •T1 X • 2 L σˆ 1m X •T1 X • m 21 T 22 2m T T σˆ X • 2 X •1 σˆ X • 2 X • 2 L σˆ X • 2 X • m = M M M σˆ m1 X T X σˆ m 2 X T X L σˆ mm X T X • m •1 •m •2 •m •m
−1
σˆ 11 X •T1 y•1 + σˆ 12 X •T1 y• 2 + L + σˆ 1m X •T1 y• m 21 T 22 2m T T σˆ X • 2 y•1 + σˆ X • 2 y• 2 + L + σˆ X • 2 y• m × , M σˆ m1 X T y + σˆ m 2 X T y + L + σˆ mm X T y • m •1 •m •2 •m •m ou (5.86)
βˆSUR = { X T (Σˆ −1 ⊗ I n ) X }−1 X T (Σˆ −1 ⊗ I n )Y .
Comparando este estimador com (5.42), conclui-se imediatamente que o estimador SUR coincide com o estimador SMQGF, de acordo com a notação A das matrizes X e Y. Recorrendo à respectiva notação B, fica ao cuidado do leitor mostrar que o estimador SUR coincide com o estimador SMQGF dado por (5.43). Assim, quando se introduz a hipótese da homocedasticidade condicionada, o estimador SMQGF costuma designar-se por estimador SUR. Pode também concluir-se que o vector das variáveis instrumentais implícito no cálculo do estimador SMQGF é o mesmo que se considera no estimador SUR.
Capítulo 5 – Sistemas de Equações de Regressão Linear
53
~ ~ Sabendo que o bloco genérico de QzxT (Σ −1 ⊗ Qzz−1 ) Qzx é dado por σ ilQzxT i Qzz−1Qzxl , pode provar-se que ~ QzxT i Qzz−1Qzxl = Qxi xl = E ( xtiT• xtl • ) ( i, l = 1, 2, K , m ).
Assim,
(5.87)
σ 11Qx1 x1 σ 12Qx1 x2 L σ 1mQx1 xm 12 σ Qx2 x1 σ 22Qx2 x2 L σ 2 mQx2 xm Cov a ( βˆSUR ) = , M M M mm 2m σ 1mQ Qxm x2 L σ Qx m x m x m x1 σ
onde Qxi xl = E ( xtiT• xtl • ) ( i, l = 1, 2, K , m ). Logo,
(5.88)
σˆ 11S x1 x1 σˆ 12 S x1 x 2 L σˆ 1m S x1 xm 12 ^ σˆ S x2 x1 σˆ 22 S x2 x2 L σˆ 2 m S x2 xm Cov a ( βˆSUR ) = , M M M mm 2m σˆ 1m S ˆ S xm x 2 L σˆ S xm xm x m x1 σ
onde S xi xl = (1 / n)Σtn=1 xtiT• xtl • ( i, l = 1, 2, K , m ). Os estimadores σˆ il são obtidos a partir dos resíduos MQ resultantes do ajustamento de cada equação do modelo. Alternativamente a (5.88), pode fazer-se Cov a ( βˆSUR ) = n X T {Σˆ −1 ⊗ I n } X . ^
(5.89)
−1
Comparando (5.46) com (5.88) [ou (5.89)], verifica-se que os erros padrão correspondentes a (5.46) são mais robustos que os erros padrão resultantes do estimador SUR. Pode dizer-se que o estimador SMQGF deduzido na secção 5.6 é o estimador SUR robusto. A estatística de Sargan reduz-se a QS = J ( βˆSUR , Sˆ −1 ) = n ( szy − S zx βˆSUR )T Sˆ −1 ( szy − S zx βˆSUR ) → χ 2 (mq − k ) , d
(5.90)
~ onde Sˆ = Σˆ ⊗ S zz . Conclui-se, sem dificuldade, que: se juntar a zt • outras variáveis que não sejam regressores, o estimador SUR não se altera numericamente, porque este estimador não considera os instrumentos que não são regressores; no entanto, a estatística de Sargan é numericamente diferente, porque Sˆ depende do novo zt • (o aumento do número de graus de liberdade é igual ao produto de m pelo número de novos instrumentos). Supondo que não há homocedasticidade condicionada, o estimador SUR continua a ser consistente e assintoticamente normal, pois é um estimador MGM, embora não seja eficiente. Segue-se um exemplo que alerta para os perigos da estimação conjunta.
Capítulo 5 – Sistemas de Equações de Regressão Linear
54
Exemplo 5.11 – Considere-se o modelo com duas equações, yt1 = β1 xt1 + ut1 yt 2 = β 2 xt 2 + β 3 xt 3 + ut 2 ,
a verificar as hipóteses do modelo SUR. Para simplificar, vai admitir-se que são conhecidos os seguintes parâmetros: σ 11 = E (ut21 ) , σ 12 = E (ut1ut 2 ) e σ 22 = E (ut22 ) . Supondo que se utiliza o estimador SUR, omitindo erroneamente xt 3 da segunda equação, vai analisar-se a consistência do estimador de β1 . Dispondo de n observações para cada variável, tem-se Y = Xβ + β3 d + U , onde 0 0 u β x y , d = , β = 1 e U = •1 , Y = •1 , X = •1 u• 2 β 2 0 x• 2 y• 2 x•3
O estimador SUR de β (omitindo xt 3 ) é, de acordo com (5.86),
βˆSUR = { X T (Σ −1 ⊗ I n ) X }−1 X T (Σ −1 ⊗ I n )Y , σ σ Σ = 11 12 . σ 12 σ 22
onde
Então,
βˆSUR
βˆ xT 0 σ 11I σ 12 I x 0 = 1,SUR = •1 T 12 n 22 n •1 ˆ 0 x 0 σ σ x I I β •2 n n •2 2,SUR 11 12 T x 0 σ I σ I y × •1 T 12 n 22 n •1 . 0 x• 2 σ I n σ I n y• 2
−1
σ 11 xT x σ 12 xT x σ 11 xT y + σ 12 x•T1 y• 2 = 12 •T1 •1 22 •T1 • 2 12 T•1 •1 . 22 T σ x• 2 x•1 σ x• 2 x• 2 σ x• 2 y•1 + σ x• 2 y• 2 −1
Substituindo y•1 por β1 x•1 + u•1 , e y• 2 por β 2 x• 2 + β 3 x•3 + u• 2 , fica ao cuidado do leitor verificar que
βˆSUR = β + β3 A + B ,
onde
σ 11 x•T1 x•1 σ 12 x•T1 x• 2 σ 12 x•T1 x•3 A= 22 T , 12 T 22 T σ x• 2 x•1 σ x• 2 x• 2 σ x• 2 x•3 −1
σ 11 x•T1 x•1 σ 12 x•T1 x• 2 B= σ 12 x•T2 x•1 σ 22 x•T2 x• 2
−1
σ 11 x•T1u•1 + σ 12 x•T1u• 2 12 T . σ x• 2u•1 + σ 22 x•T2u• 2
Facilmente se verifica que plim(B) = 0 (os regressores são ortogonais às variáveis residuais), mas plim(A) ≠ 0 . Assim, o estimador SUR não é consistente para β1 (e para β 2 ). ∇
Capítulo 5 – Sistemas de Equações de Regressão Linear
55
SUR versus SMQ Como os regressores são pré-determinados, também se pode estimar cada equação do sistema pelo método MQ. Comparando o estimador SUR com o estimador SMQ, facilmente se conclui que aquele entra em linha de conta com mais condições de ortogonalidade. De facto, o estimador SUR é MGM eficiente (sob a hipótese da homocedasticidade condicionada) com as condições de ortogonalidade dadas por (5.83); o estimador SMQ é obviamente MGM eficiente (sob a hipótese da homocedasticidade condicionada) quando as condições de ortogonalidade se reduzem a E ( xti •uti ) = 0 , i = 1, 2, K , m (não se consideram as ortogonalidades cruzadas). Como as condições de ortogonalidade são diferentes, os estimadores MGM também diferem. Qual a razão para utilizar o estimador SUR? Para responder a esta questão deve notar-se que: − Supondo homocedasticidade condicionada (hipótese SER.6), o estimador MGM eficiente é o estimador FIVE, que é numericamente equivalente ao estimador SUR, sob a hipótese (5.83). − No capítulo 4 (modelo com uma equação) verificou-se que, sob a hipótese da homocedasticidade condicionada, o estimador MGM eficiente é o estimador MQ2P, que é numericamente equivalente ao estimador MQ, se os regressores forem pré-determinados. Estas relações estão resumidas no quadro seguinte:
Hipóteses SER.1 a SER.5 SER.1 a SER.6 SER.1 a SER.6 e (5.83)
Estimação separada MGM SMQ2P SMQ
Estimação conjunta MGM FIVE SUR
Assim, a relação que existe entre o estimador SUR (estimação conjunta) e o estimador SMQ (estimação separada) é da mesma natureza daquela que se tem entre os estimadores MGM (para os dois tipos de estimação). De forma semelhante ao que se viu na secção 5.5, há dois casos em que os estimadores SUR e SMQ são “equivalentes”: a) Cada equação é exactamente identificada. Como o vector dos instrumentos é comum a todas as equações, e é formado pela união de todos os regressores, é forçoso que cada equação tenha os mesmos regressores, isto é, xti • = zt • ( i = 1, 2, K , m ). Nestas condições, o modelo SUR designa-se por modelo de regressão multivariada (este modelo é um exemplo de modelo com regressores comuns). Fazendo xti • = xt • (vector 1 × k ), o modelo (5.2) reduz-se a yti = xt • β•i + uti (i = 1, 2, K , m ; t ∈ T ) .
Alternativamente, a partir de (5.3), o modelo pode ser apresentado da seguinte maneira:
Capítulo 5 – Sistemas de Equações de Regressão Linear
56
ytT• = X t • β + utT• ,
onde X t • = I m ⊗ xt • . Dispondo de uma amostra de dimensão n, pode estabelecer-se, de acordo com a notação A, a respectiva relação amostral. Tem-se ~ y•i = X β•i + u•i , ~ onde X , matriz n × k , é x1• ~ x2• . X= M xn • Agrupando as m equações do sistema, vem
~ Y = ( I m ⊗ X )β + U ,
~ com X = I m ⊗ X . Com a notação B, obtém-se Y = Xβ + U , onde a matriz X, de tipo mn × mk , é dada por I m ⊗ x1• I m ⊗ x2• X= . M I m ⊗ xn•
Em qualquer das notações [a) ou b)], tem-se zt • = xt • (vector 1 × k , pois q = k ), e Z=X. Observou-se na secção 5.5 que os estimadores MGM, conjunto e separado, são numericamente iguais ao estimador VI. Como os regressores são pré-determinados, o estimador MGM referente à regressão multivariada é simplesmente o estimador MQ. ~ Isto pode ser verificado directamente, fazendo X = I m ⊗ X na expressão do estimador SUR, (5.86). Assim, o estimador MQ (regressão multivariada) é dado por ~ ~ ~ βˆMQ = {I m ⊗ ( X T X ) −1 X T }Y , (5.91) ~ ~ ~ onde cada subvector é βˆ•i , MQ = ( X T X ) −1 X T y•i . ~ ~ ~ ~ Como xti • = zt • = xt • e Qzz = E ( ztT• zt • ) , pode fazer-se Qzz = Qxx , onde Qxx = E ( xtT• xt • ) . ~ Assim, obtém-se Qzx = QzxT = I m ⊗ E ( xtT• xt • ) = I m ⊗ Qxx . Então, as expressões de Cov a ( βˆSUR ) e de Cov a ( βˆSUR ) , ^
na regressão multivariada, podem ser obtidas sem dificuldade. Com efeito, como
−1 ~ ~ ~ Cov a ( βˆMQ ) = ( I m ⊗ Qxx )(Σ −1 ⊗ Qxx−1 )( I m ⊗ Qxx ) ,
Capítulo 5 – Sistemas de Equações de Regressão Linear
57
conclui-se que
~ Cov a ( βˆMQ ) = Σ ⊗ Qxx−1 .
(5.92)
Da mesma forma, vem
1 n Cov a ( βˆMQ ) = Σˆ ⊗ ∑t =1 xtT• xt • n ^
(5.93) onde
−1
[
]
~ ~ ~ = Σˆ ⊗ S xx−1 = n Σˆ ⊗ ( X T X ) −1 ,
1 n 1 ~ ~ ~ S xx = ∑t =1 xtT• xt • = X T X . n n
O estimador MQ da regressão multivariada, dado por (5.91), é um caso particular do estimador SMQ. De facto, para obter (5.91), os regressores são comuns às várias equações, xti • = xt • . No caso do estimador SMQ esta condição não é exigida (no entanto, para ambos os casos, e em cada equação, os regressores são pré-determinados). b) Quando pelo menos uma equação é sobre-identificada, o estimador SUR é mais eficiente que o estimador SMQ, a menos que as equações não estejam “relacionadas”, no sentido dado por (5.30). No caso de homocedasticidade condicionada, e do vector dos instrumentos ser comum, (5.30) reduz-se a ~ σ il E ( ztT• zt • ) = σ ilQzz = O (i, l = 1, 2, K, m ; i ≠ l) . ~ Como Qzz = E ( ztT• zt • ) ≠ O , porque não é singular, então as equações não estão “relacionadas” se e só se σ il = 0 (a matriz Σ é diagonal). O estimador SUR é mais eficiente que o estimador MQ se σ il ≠ 0 , par algum par (i, l) . Se σ il = 0 para todos os pares (i, l) , com i ≠ l , os dois estimadores são assintoticamente equivalentes. Outra forma de constatar a eficiência do estimador SUR é considerar o modelo SUR como um modelo de regressão multivariada com restrições de exclusão a priori; o estimador SUR é mais eficiente que o estimador MQ do modelo de regressão multivariada porque tem em conta aquelas restrições. Para ilustrar esta argumentação considere-se o exemplo seguinte:
Exemplo 5.12 – Retome-se os exemplos 5.1 e 5.9, mas supondo que lsalart = β11 + β 21 educt + β31 expert + β 41 qit + ut1 cmtt = β12 + β 22 educt + β32 expert + β 42 qit + ut 2 ,
onde zt • = [ 1 educt expert qit ] . Este sistema de duas equações é um modelo de regressão multivariada (com os mesmos regressores nas duas equações). Mas, se se considerar, por exemplo, a restrição de exclusão a priori, β 32 = 0 , o modelo torna-se um modelo SUR. ∇ Mais alguns comentários sobre os estimadores SUR e SMQ:
Capítulo 5 – Sistemas de Equações de Regressão Linear
58
a) No caso de cada equação ser exactamente identificada, mesmo que não exista homocedasticidade condicionada, o estimador SUR ainda se reduz ao estimador MQ (regressão multivariada). b) No caso de regressores comuns, existe uma razão importante para continuar a usar o estimador SUR: quando se está interessado em fazer testes de hipóteses que envolvem coeficientes de regressão de equações diferentes, deve recorrer-se ao estimador da matriz das covariâncias assintóticas de βˆSUR , e não à respectiva matriz de βˆ•i ,SUR . Estimar cada equação com o método MQ não fornece directamente as estimativas das covariâncias assintóticas dos estimadores de dois coeficientes de regressão pertencentes a equações diferentes. O método SUR fornece automaticamente tais estimativas. c) Se, em vez de (5.83), se considerar a hipótese E ( xti •uti ) = 0 ( i = 1, 2, K , m ), o estimador SUR não é consistente, o que mostra a importância das ortogonalidades cruzadas. O estimador MGM eficiente (supondo homocedasticidade condicionada) é o estimador SMQ. d) Uma questão importante relativa aos estimadores SUR e SMQ tem a ver o trade-off entre eficiência e robustez. Salvo nos casos de “equivalência” entre os dois estimadores, sob homocedasticidade condicionada, o estimador SUR é assintoticamente mais eficiente que o estimador SMQ; contudo, este estimador é mais robusto do que aquele. A vantagem do estimador SUR do ponto de vista da eficiência assintótica é obtida supondo que os regressores de cada equação não estão correlacionados com as variáveis residuais de cada equação. Se os regressores não são comuns a todas as equações, é porque intencionalmente alguns deles foram omitidos de algumas equações. Se se pretender, por exemplo, fazer inferência estatística sobre os coeficientes da primeira equação, mas a segunda equação está mal especificada, o método SUR produz, em geral, estimadores inconsistentes dos coeficientes de todas as equações. Contudo, o estimador MQ dos coeficientes da primeira equação é consistente, desde que haja ortogonalidade entre os seus regressores e a sua variável residual. e) Facilmente se verifica que J ( βˆSMQ , Sˆ −1 ) = 0 . f) Na secção 8A.1 do anexo 8A do capítulo 8 estuda-se a estimação do modelo de regressão multivariada pelo método da máxima verosimilhança. No contexto do modelo SUR é importante saber se as equações estão, ou não, “relacionadas”, pois, em caso negativo, pode aplicar-se o método dos mínimos quadrados separadamente a cada equação. O teste a efectuar é o seguinte: H 0 : ∀σ il = 0 contra H1 : ∃σ il ≠ 0 (i ≠ l) .
A estatística-teste apropriada é a seguinte estatística de Breusch-Pagan: n∑i < l ril2 → χ 2 ( p) , m
onde
ril2 =
d
σˆ i2l , σˆ iiσˆ ll
Capítulo 5 – Sistemas de Equações de Regressão Linear
59
p = m(m − 1) / 2 , e o símbolo Σim< l significa que se faz a soma de todos os ril2 , com i < l (i, l = 1, 2, K, m) .
5.8 - Coeficientes comuns Em muitas aplicações, em particular no contexto de dados de painel, trabalha-se com um caso especial de modelo de equações múltiplas, onde o número de regressores é o mesmo para todas as equações, e os coeficientes de regressão são os mesmos. Diz-se, então, que o modelo tem coeficientes comuns.
Exemplo 5.13 – Retomando o exemplo 5.2, o respectivo modelo com coeficientes comuns é o seguinte: lsalar1t = β1 + β 2 educ1t + β3 exper1t + β 4 qit + ut1
lsalar 2t = β1 + β 2 educ 2t + β3 exper 2t + β 4 qit + ut 2 .
∇
O modelo SER com coeficientes comuns O modelo SER com coeficientes comuns pode ser apresentado da seguinte maneira (notação A): (5.94)
yti = xti • β + uti (i = 1, 2, K , m ; t ∈ T ) ,
onde xti• = [ xti1 xti 2
β1 β2 L xtik ] e β = . M β k
Assim: − xti• é o vector 1 × k da observação t dos regressores da equação i; − β é o vector k × 1 dos coeficientes de regressão (comum a todas as equações), de elemento genérico β j ( j = 1, 2, K , k ) . Alternativamente tem-se (notação B): (5.95)
ytT• = X t • β + utT• (t ∈ T ) ,
considerando a matriz m × k ,
xt1• x X t • = t 2• . M xtm •
Capítulo 5 – Sistemas de Equações de Regressão Linear
60
Dispondo de uma amostra de dimensão n (t = 1, 2, K , n) , a relação amostral, Y = Xβ + U , pode ser formalizada de duas maneiras equivalentes, tendo por base (5.94) ou (5.95): a) Agrupando as n relações (5.94), tem-se (5.96)
y•i = X •i β + u•i (i = 1, 2, K , m) ,
onde X •i é a matriz n × k (de elemento genérico xtij ) das observações dos regressores da equação i. Então, em Y = Xβ + U , a matriz X, de tipo mn × k é dada por X •1 X •2 X = M X • m
Devido ao facto de os coeficientes serem comuns, há uma diferença fundamental entre a matriz X anterior e a matriz X em (5.4): esta é diagonal por blocos, onde os blocos são as matrizes X •i ; aquela, “empilha” estas matrizes. Os vectores Y e U não se alteram. b) Quando se consideram as n relações (5.95), a matriz X, de tipo mn × k , é X 1• X X = 2• , M X n•
onde cada bloco X t • ( t = 1, 2, K , n ) é a matriz m × k considerada em (5.95). Os vectores Y e U já são conhecidos. Como é de esperar, as notações A e B são equivalentes: apenas diferem pela ordenação das observações. Nestas condições, a hipótese SER.1 é substituída pela seguinte:
Hipótese SER.1’ – Linearidade com coeficientes comuns yti = xti • β + uti (i = 1, 2, K , m ; t ∈ T ) , onde: yti é a observação t do regressando yi ; xti• é o vector 1 × k da observação t dos regressores da equação i; β é o vector k × 1 dos coeficientes de regressão da equação i; uti é a variável residual da observação t da equação i. As hipóteses SER.2 (estacionaridade ergódica). SER.3 (ortogonalidade), SER.5 (diferença-martingala) e a hipótese adicional da propriedade 5.2 (existência de quartos momentos) mantêm-se inalteradas, apenas a hipótese SER.4 tem que ser adaptada. Assim, para estabelecer a condição de característica é fácil verificar que
Capítulo 5 – Sistemas de Equações de Regressão Linear
61
E ( ztT1•ut1 ) E{ztT1• ( yt1 − xt1• β )} E ( ztT1• yt1 ) E ( ztT1• xt1• ) T T T T E ( zt 2•ut 2 ) E{zt 2• ( yt 2 − xt 2• β )} E ( zt 2• yt 2 ) E ( zt 2• xt 2• ) T E ( gt • ) = = = − β , M M M M E ( z T u ) E{z T ( y − x β )} E ( z T y ) E ( z T x ) tm • tm tm • tm tm • tm • tm tm • tm •
ou E ( gtT• ) = qzy − Qzx β , onde
Qz x E ( z T x ) qz y E ( z T y ) t 1• t 1• t1• t1 11 11 T T Q q ( ) E z x z 2 y 2 E ( zt 2• yt 2 ) z x t t • • 2 2 2 2 T = = = E ( Z tT• ytT• ) e Qzx = qzy = = E (Zt • X t • ) . M M M M T T xtm • ) ytm ) Qz m xm E ( ztm qz m y m E ( ztm • •
Os tipos das matrizes qzy e Qzx são, respectivamente, p × 1 e p × k ; note-se que esta matriz Qzx , em vez de ser diagonal por blocos, é “empilhada”. A matriz Z t • continua a ser diagonal por blocos, tal como quando os coeficientes não são comuns. As condições de ortogonalidade são ainda dadas por (5.97)
Qzx β = qzy .
~ Seja o sistema de p equações a k incógnitas, Qzx β = qzy , onde o vector das incó~ gnitas é β (qualquer valor hipotético de β ). A identificação do vector β exige que este sistema de equações seja possível e determinado. Então, é necessário e suficiente que Qzx exista e que r (Qzx ) = k . Assim:
Hipótese SER.4’ – Condição de característica com coeficientes comuns A matriz de tipo p × k , Qzx , existe e verifica r (Qzx ) = k . Esta hipótese é mais fraca que SER.4 (cada equação do sistema é identificada). Supondo SER.4’, a existência de uma matriz E ( ztiT• xti • ) com característica k é condição suficiente de identificação. Com efeito, como E ( ztiT• xti • ) tem k linhas linearmente independentes, Qzx tem, pelo menos, k linhas linearmente independentes. O facto de SER.4’ ser mais fraca do que SER.4 resulta da existência de restrições a priori que impõem que os coeficientes sejam os mesmos em todas as equações; além disso, é possível que o sistema seja identificado, mesmo que nenhuma equação individual seja identificada.
Exemplo 5.14 – Seja o modelo
lsalar1t = β1 + β 2 educ1t + β3 qit + ut1
lsalar 2t = β1 + β 2 educ 2t + β3 qit + ut 2 , onde as variáveis têm o significado dado no exemplo 5.2, e os regressores são endógenos. Considerem-se as seguintes condições de ortogonalidade: E (ut1 ) = 0 , E (meduct ut1 ) = 0 , E (ut 2 ) = 0 , E (meduct ut 2 ) = 0 ,
onde meduct é o número de anos completos de escolaridade da mãe do indivíduo t.
Capítulo 5 – Sistemas de Equações de Regressão Linear
62
As variáveis instrumentais da 1.ª equação são 1 e meduct . Como o número de regressores é três, esta equação, isoladamente, não é identificada. O mesmo acontece com a 2.ª equação. Para estudar a identificação do modelo, considere-se o sistema de quatro equa~ ções a três incógnitas, Qzx β = qzy , ou 1 E (educ1t ) E (qit ) ~ E (lsalar1t ) E (meduc ) E (meduc educ1 ) E (meduc qi ) β1 E (meduc lsalar1 ) t t t t t t t ~ . β2 = 1 E (educ 2t ) E (qit ) ~ E (lsalar 2t ) β3 ( ) ( 2 ) ( ) E meduc E meduc educ E meduc qi t t t t t E (meduct lsalar 2t )
A identificação do modelo exige que r (Qzx ) = 3 . Se esta condição se verificar, o modelo é identificado, embora cada equação individual o não seja. O modelo é identificado devido às restrições inter-equações (coeficientes comuns). Suponha-se, agora, que as variáveis qi e meduc não estão correlacionadas, E (meduct qit ) = E (meduct ) E (qit ) .
Neste caso, o modelo não é identificado, porque a terceira coluna de Qzx é igual a E ( qit ) a multiplicar pela primeira coluna. A característica de Qzx é inferior a três. ∇
O estimador MGM O estimador MGM dos parâmetros do modelo SER com coeficientes comuns é formalmente semelhante a (5.15). Assim, tem-se ~ ~ g• n ( β ) = szy − S zx β , onde o vector szy é o mesmo de (5.15), e
1 n 1 S z1 x1 ∑ ztT1• xt1• Z •T1 X •1 n n t =1 1 n T 1 T S ∑t =1 zt 2• xt 2• n Z•2 X •2 1 T z 2 x2 n = = Z X, S zx = = n M M M 1 n T 1 T S z m xm n ∑t =1 ztm • xtm • n Z • m X • m
onde se utilizou a notação A das matrizes X e Z. Quando se recorre à notação B de X e Z, tem-se S zx =
1 n T 1 Z X = ZT X . n ∑t =1 t • t • n
Então, o estimador MGM de β é (5.98)
βˆ ∗ (Wˆ ) = ( S zxT Wˆ S zx ) −1 S zxT Wˆ szy = ( X T Z Wˆ Z T X ) −1 X T Z Wˆ Z T Y ,
Capítulo 5 – Sistemas de Equações de Regressão Linear
63
onde a matriz dos pesos, Wˆ , apresenta a mesma estrutura que foi referida a propósito do estimador (5.15): é uma matriz quadrada de ordem p, onde cada bloco, Wˆil , é de tipo pi × pl . Utiliza-se o símbolo βˆ ∗ (Wˆ ) para representar o estimador MGM para salientar o facto de o estimador se referir ao modelo SER com coeficientes comuns. Tal como (5.16), o erro de amostragem é (5.99)
βˆ ∗ (Wˆ ) − β = ( S zxT Wˆ S zx ) −1 S zxT Wˆ g• n = ( X T Z Wˆ Z T X ) −1 X T Z Wˆ Z TU .
As propriedades do estimador MGM apresentadas na secção 5.4 continuam válidas para o estimador (5.98), com as necessárias adaptações; dispondo de um estimador consistente de β , βˆ , os respectivos resíduos são uˆti = yti − xit • βˆ (i = 1, 2, K , m ) . Quando se pretende relacionar o estimador MGM com os seus casos particulares mais conhecidos da literatura, é conveniente reformular (5.98). Assim, utilizando szy e S zx , vem ∗ βˆ (Wˆ ) = S zT1 x1 S zT2 x2 L S zTm xm Wˆ
S z1 x1 S z 2 x2 T T T S z1 x1 S z 2 x 2 L S z m x m Wˆ M S z m xm −1
Wˆ11 Wˆ12 L Wˆ1m ˆ W21 Wˆ22 L Wˆ2 m ˆ W= . M M M Wˆm1 Wˆm 2 L Wˆmm
onde
Fazendo os cálculos, obtém-se (5.100)
s z1 y1 sz 2 y 2 , M s z m y m
m m βˆ ∗ (Wˆ ) = ∑i =1 ∑l=1 ( S zT x Wˆil S z x )
i i
l l
−1
∑ ∑ m
i =1
m
l =1
( S zTi xi Wˆil s zl yl ) .
Recorrendo à notação A das matrizes X, Y e Z, este resultado pode ser apresentado da seguinte maneira: m m m m βˆ ∗ (Wˆ ) = ∑i =1 ∑l =1 ( X •Ti Z •iWˆil Z •Tl X •l ) ∑i =1 ∑l =1 ( X •Ti Z •iWˆil Z •Tl y• l ) . −1
(5.101)
No caso m = 2 , tem-se
βˆ ∗ (Wˆ ) = ( X •T1Z •1Wˆ11Z •T1 X •1 + X •T1Z •1Wˆ12 Z •T2 X • 2 + X •T2 Z • 2Wˆ21Z •T1 X •1 + X •T2 Z • 2Wˆ22 Z •T2 X • 2 ) −1 × ( X •T1Z •1Wˆ11Z •T1 y•1 + X •T1Z •1Wˆ12 Z •T2 y• 2 + X •T2 Z • 2Wˆ21Z •T1 y•1 + X •T2 Z • 2Wˆ22 Z •T2 y• 2 ) .
Fica ao cuidado do leitor escrever (5.100) para m = 2 . Usando a notação B das matrizes X, Y e Z, tem-se
Capítulo 5 – Sistemas de Equações de Regressão Linear
64
n n n n βˆ ∗ (Wˆ ) = ∑t =1 X tT• Z t • Wˆ ∑t =1 Z tT• X t • ∑t =1 X tT• Z t • Wˆ ∑t =1 Z tT• ytT• . −1
(5.102)
O estimador MGM eficiente obtém-se quando Wˆ é substituído por Sˆ −1 , onde Sˆ é dada por (5.21).
Homocedasticidade condicionada No caso de homocedasticidade condicionada (hipótese SER.6), a matriz Sˆ é dada por (5.61), obtendo-se o estimador FIVE [ver (5.64)]. Se também se considerar que o conjunto de instrumentos é o mesmo para todas as equações, zti • = zt • , as matrizes S e Sˆ têm a mesma expressão que em (5.76) e (5.77), respectivamente, ou seja, ~ ~ 1 n 1 ~ ~ S = Σ ⊗ E ( ztT• zt • ) = Σ ⊗ Qzz e Sˆ = Σˆ ⊗ ∑t =1 ztT• zt • = Σˆ ⊗ Z T Z = Σˆ ⊗ S zz . n n Os blocos genéricos das matrizes W = S −1 e Wˆ = Sˆ −1 são, respectivamente, ~ ~ 1 ~ ~ Wil = σ ilQzz−1 e Wˆil = σˆ il S zz−1 = σˆ il Z T Z . n −1
As matrizes Qzx , qzy , S zx e szy podem ser reescritas utilizando produtos de Kronecker. Assim, tem-se E ( ztT• xt1• ) E ( ztT• yt1 ) T T ( ) E z y E ( zt • xt 2• ) 2 t t • T T T Qzx = = E{( I m ⊗ zt • ) X t • } e qzy = = E{( I m ⊗ zt • ) yt • } . M M T T E ( zt • xtm • ) E ( zt • ytm ) Também se pode fazer
Qzx = E ( X t • ⊗ ztT• ) e qzy = E ( ytT• ⊗ ztT• ) ,
bastando notar que ztT• xti • = xti • ⊗ ztT• e ztT• yti = ytT• ⊗ ztT• . Logo,
1 n T 1 ~T n ∑t =1 zt • xt1• n Z X •1 1 ∑ n ztT• xt 2• 1 Z~T X • 2 t =1 = n = 1 ( I ⊗ Z~T ) X ou S = 1 n ( X ⊗ z T ) . S zx = n zx t• n m n ∑t =1 t • M M 1 n z T x 1 Z~T X •m n ∑t =1 t • tm • n
Do mesmo modo, tem-se
Capítulo 5 – Sistemas de Equações de Regressão Linear
65
1 n T 1 ~T n ∑t =1 zt • yt1 n Z y•1 1 ∑ n ztT• yt 2 1 Z~T y• 2 t =1 = n = 1 ( I ⊗ Z~T )Y ou s = 1 n ( yT ⊗ z T ) . szy = n zy t• n m n ∑t =1 t • M M 1 n z T y 1 Z~T y •m n ∑t =1 t • tm n
O estimador MQ3P com coeficientes comuns é ~ ~ ∗ (5.103) βˆMQ3P = {S zxT (Σˆ −1 ⊗ S zz−1 ) S zx }−1 S zxT (Σˆ −1 ⊗ S zz−1 ) szy , ou (5.104)
βˆ ∗
~ m m = ∑i =1 ∑l =1 (σˆ il S zxT i S zz−1 S zxl )
βˆ ∗
m m = ∑i =1 ∑l =1σˆ il X •Ti H Z~ X •l
MQ3P
ou, ainda,
MQ3P
−1
−1
∑ ∑ m
i =1
∑ ∑ m
i =1
m
l =1
m
l =1
~ (σˆ il S zxT i S zz−1szyl ) ,
σˆ il X •Ti H Z~ y•l
= X T (Σˆ −1 ⊗ H Z~ ) X X T (Σˆ −1 ⊗ H Z~ ) Y. ~ ~ ~ ~ onde H Z~ = Z ( Z T Z ) −1 Z T . Para m = 2 , tem-se (5.105)
−1
∗ = (σˆ 11 X •T1H Z~ X •1 + σˆ 12 X •T1H Z~ X • 2 + σˆ 21 X •T2 H Z~ X •1 + σˆ 22 X •T2 H Z~ X • 2 ) −1 βˆMQ3P
× (σˆ 11 X •T1H Z~ y•1 + σˆ 12 X •T1H Z~ y• 2 + σˆ 21 X •T2 H Z~ y•1 + σˆ 22 X •T2 H Z~ y• 2 ) .
Fica ao cuidado do leitor apresentar (5.104) para m = 2 . Se, adicionalmente, se impõe a condição (5.83), o estimador (5.103) reduz-se ao estimador SUR com coeficientes comuns [por razões históricas, este estimador também se designa por estimador EA (de efeitos aleatórios; a expressão inglesa é random effects)]. De acordo com a notação A das matrizes X e Y, tem-se: ∗ βˆSUR = X T (Σˆ −1 ⊗ I n ) X X T (Σˆ −1 ⊗ I n ) Y
(5.106)
−1
m m = ∑i =1 ∑l =1σˆ il X •Ti X •l
−1
∑ ∑ m
i =1
m
l =1
σˆ il X •Ti y•l .
Para provar (5.106), basta notar que X •i = Z Di , como se fez a propósito do estimador SUR (sem coeficientes comuns). Para m = 2 , obtém-se ∗ βˆSUR = (σˆ 11 X •T1 X •1 + σˆ 12 X •T1 X • 2 + σˆ 21 X •T2 X •1 + σˆ 22 X •T2 X • 2 ) −1
× (σˆ 11 X •T1 y•1 + σˆ 12 X •T1 y• 2 + σˆ 21 X •T2 y•1 + σˆ 22 X •T2 y• 2 ) .
O estimador (5.106) também pode ser apresentado do seguinte modo:
Capítulo 5 – Sistemas de Equações de Regressão Linear m m ∗ = ∑i =1 ∑l =1σˆ il S x x βˆSUR
(5.107)
onde, recorde-se, S xi x l =
i l
−1
∑ ∑ m
i =1
m
l =1
66
σˆ il sx y , i l
1 n T 1 1 n 1 x x = X •Ti X •l e sxi y l = ∑t =1 xtiT• ytl = X •Ti y•l . ∑ t =1 ti • tl • n n n n
As ortogonalidades cruzadas são decisivas para este estimador. De facto, suponha-se que E ( xti •utl ) = 0 , para i = l , mas não necessariamente para i ≠ l . Nestas condições, o estimador não é consistente. A respectiva matriz das covariâncias assintóticas é dada por m m m m ∗ Cov a ( βˆSUR ) = ∑i =1 ∑l=1σ il E ( xtiT• xtl• ) = ∑i =1 ∑l=1 σ il Qxi xl , −1
(5.108)
−1
onde Qxi xl = E ( xtiT• xtl • ) . O respectivo estimador consistente é, então,
^ m m m m ∗ Cov a ( βˆSUR ) = ∑i =1 ∑l =1σˆ il S xi xl = n ∑i =1 ∑l =1σˆ il X •Ti X • l −1
−1
= n X T (Σˆ −1 ⊗ I n ) X .
(5.109)
−1
A hipótese SER.4’ não é necessária para demonstrar que o estimador SUR é CAN e eficiente, uma vez que as hipóteses SER.5 e SER.6 implicam SER.4’. Com efeito, já se sabe que SER.5 e SER.6 implicam SER.4. Como SER.4 implica SER.4’, obtém-se o resultado pretendido. O estimador SUR com coeficientes comuns também pode ser obtido tirando partido da notação B das matrizes X e Y. Começa-se por estabelecer os seguintes resultados:
∑
x x = X tT• X t • ;
m T i =1 ti • ti •
∑ ∑ m
i =1
m T l =1 il ti • tl •
c x x
∑
x y = X tT• ytT• ;
m T i =1 ti • ti
= X tT•C X t • ;
∑ ∑ m
i =1
c x y = X tT•C ytT• ,
m T l =1 il ti • tl
onde C é uma matriz quadrada de ordem m, de elemento genérico cil . Note-se, também, que:
∑ ∑ m
i =1
∑ ∑ m
m
i =1
l =1
m
l =1
∑ ∑ i =1
m
∑ n
1
σˆ il l =1 m
1 n m m il T T = ∑ ∑ ∑ σˆ xti• xtl• = 1 ∑n X tT• Σˆ −1 X t • ; x x ti t l • • t =1 n t =1 i =1 l=1 n t =1 n
1 n T 1 n m 1 n m xti • ytl = ∑t =1 ∑i =1 ∑l =1σˆ il xtiT• ytl = ∑t =1 X tT•Σˆ −1 ytT• ; ∑ t = 1 n n n
σˆ il
σ il E ( xtiT• xtl• ) = E ∑i =1 ∑l=1 σ il xtiT• xtl• = E ( X tT• Σ −1 X t • ) .
m
m
Capítulo 5 – Sistemas de Equações de Regressão Linear
67
Deste modo, as expressões relativas ao estimador SUR (coeficientes comuns), (5.106) [ou (5.107)], (5.108) e (5.109), podem, respectivamente, ser escritas do seguinte modo: ∗ = ∑t =1 X tT•Σˆ −1 X t • βˆSUR
(5.110)
n
−1
∑
n
t =1
X tT•Σˆ −1 ytT•
= { X ( I n ⊗ Σˆ ) X }−1 X T ( I n ⊗ Σˆ −1 )Y ; −1
T
∗ Cov a ( βˆSUR ) = E ( X tT•Σ −1 X t • ) −1 ;
(5.111)
Cov a ( βˆ
∗ SUR
^
(5.112)
−1 1 n n ) = ∑t =1 X tT•Σˆ −1 X t • = n ∑t =1 X tT•Σˆ −1 X t • n −1
= n X T ( I n ⊗ Σˆ −1 ) X . −1
Em (5.111), não é difícil provar que E ( X tT•Σ −1 X t • ) é invertível. Com efeito, notando que xti • = zt • Di , obtém-se, sucessivamente, E ( X tT•Σ −1 X t • ) = ∑i =1 ∑l =1σ il E ( xtiT• xtl • ) m
m
m
m
= ∑i =1 ∑l =1σ il E ( xtiT• zt • ) E ( ztT• zt • ) −1 E ( ztT• xtl • ) = (Qzx )T {Σ −1 ⊗ E ( ztT• zt • ) −1} Qzx .
Como Qzx tem as colunas linearmente independentes (devido a SER.4’), resulta que E ( X tT•Σ −1 X t • ) tem inversa. A estatística de Sargan é a seguinte: ∗ ∗ ∗ QS = J ( βˆSUR , Sˆ −1 ) = n ( szy − S zx βˆSUR )T Sˆ −1 ( szy − S zx βˆSUR ) → χ 2 (mq − k ) , d
~ onde Sˆ = Σˆ ⊗ S zz . Pooled MQ
O estimador Pooled MQ de β não é mais do que um simples estimador MQ, utilizando a relação Y = X β + U , de acordo com a notação A [a amostra tem dimensão mn; há n observações para cada variável de cada equação; estas observações são agrupadas (pooled), considerando todas as equações]. Obtém-se (5.113)
βˆ
PMQ
m = ( X X ) X Y = ∑i =1 X •Ti X •i T
−1
−1
T
∑
m
i =1
X •Ti y•i .
Este estimador também pode ser apresentado do seguinte modo: (5.114) onde
βˆ
PMQ
m = S s = ∑i =1 S xi xi −1 xx xy
−1
∑
m
i =1 xi y i
s
,
Capítulo 5 – Sistemas de Equações de Regressão Linear S xx = sxy =
68
1 T 1 m m X X = ∑i =1 X •Ti X •i = ∑i =1 S xi xi , n n
1 T 1 m m X Y = ∑i =1 X •Ti y•i = ∑i =1 sxi yi . n n
O estimador PMQ também pode ser obtido como caso particular do estimador SUR. Com efeito, basta considerar que, em (5.106) ou (5.107), se tem σˆ il = 1 ( i = l ) e σˆ il = 0 ( i ≠ l ). Note-se, também, que no estimador SUR a matriz dos pesos é ~ 1 ~ ~ Wˆ = Sˆ −1 = Σˆ −1 ⊗ S zz−1 = Σˆ −1 ⊗ Z T Z , n −1
e no estimador PMQ é
~ 1 ~ ~ Wˆ = I m ⊗ S zz−1 = I m ⊗ Z T Z . n −1
Para o estimador Pooled MQ, que é um estimador MGM com uma escolha não óptima de Wˆ , a fórmula correcta para a matriz das covariâncias assintóticas é da forma (4.59) [ver capítulo 4], (QzxT W Qzx ) −1 QzxT W S W Qzx (QzxT W Qzx ) −1 , ~ ~ onde W = I m ⊗ Qzz−1 = I m ⊗ E ( ztT• zt • ) −1 , S = Σ ⊗ Qzz−1 = Σ ⊗ E ( ztT• zt • ) −1 . Notando que ~ Qzx1 Qzz D1 ~ Qzx2 Q zz D2 , Qzx = = M M ~ Qzxm Qzz Dm
uma vez que zti • = zt • e que xti • = zt • Di , e fazendo os cálculos, obtém-se
m m m m Cov a ( βˆPMQ ) = ∑i =1 Qxi xi ∑i =1 ∑l=1σ il Qxi xl ∑i =1 Qxi xi , −1
(5.115)
−1
cujo estimador consistente é
^ m m m m Cov a ( βˆPMQ ) = ∑i =1 S xi xi ∑i =1 ∑l=1 σˆ il S xi xl ∑i =1 S xi xi , −1
(5.116) ou
m m m m Cov a ( βˆPMQ ) = n ∑i =1 X •Ti X •i ∑i =1 ∑l =1 σˆ il X •Ti X •l ∑i =1 X •Ti X •i −1 −1 T T ˆ T = n ( X X ) { X (Σ ⊗ I ) X } ( X X ) . ^
(5.117)
−1
Para m = 2 , vem
−1
n
−1
69
Capítulo 5 – Sistemas de Equações de Regressão Linear
Cov a ( βˆPMQ ) = n ( X •T1 X •1 + X •T2 X • 2 ) −1 (σˆ11 X •T1 X •1 + σˆ12 X •T1 X • 2 + σˆ 21 X •T2 X •1 + σˆ 22 X •T2 X • 2 ) ^
× ( X •T1 X •1 + X •T2 X • 2 ) −1.
Fica ao cuidado do leitor escrever (5.115) e (5.116) para m = 2 . Como o estimador βˆPMQ é consistente, os respectivos resíduos podem ser utilizados para calcular σˆ il ; o erro padrão de cada componente do vector βˆPMQ é igual à raiz quadrada do produto de 1 / n pelo respectivo elemento diagonal de (5.117). De forma semelhante, com a notação B das matrizes X e Y, têm-se as fórmulas para o estimador PMQ: (5.118) (5.119)
βˆPMQ = ∑t =1 X tT• X t•
n
−1
∑
n
t =1
X tT• ytT• = ( X T X ) −1 X T Y ;
Cov a ( βˆPMQ ) = E ( X tT• X t • ) −1 E ( X tT•Σ X t • ) E ( X tT• X t • ) −1 ;
1 n Cov a ( βˆPMQ ) = ∑t =1 X tT• X t • n ^
−1
n n n = n ∑t =1 X tT• X t • ∑t =1 X tT•Σˆ X t • ∑t =1 X tT• X t • −1
(5.120)
1 n T ∑ X t •Σˆ X t • 1 ∑n X tT• X t • n t =1 n t =1
−1
−1
= n ( X T X ) −1 X T ( I n ⊗ Σˆ ) X ( X T X ) −1.
Na expressão (5.119), é fácil mostrar que E ( X tT• X t • ) tem inversa. Basta considerar o raciocínio a que se recorreu para demonstrar que E ( X tT•Σ −1 X t • ) é invertível, substituindo Σ −1 por I m . Considere-se a seguinte questão: qual é o estimador MGM eficiente de β (coeficientes comuns) que explora as condições E ( xti •uti ) = 0 (i = 1, 2, K , m ) ? Este estimador é dado por (5.98), com zti • = xti • , onde Wˆil é o bloco (i, l) de Sˆ −1 , com a matriz Sˆ dada por (5.21) [(5.61), no caso de homocedasticidade condicionada]. Mesmo na hipótese de homocedasticidade condicionada, este estimador não coincide com: o estimador MQ3P com coeficientes comuns porque os instrumentos não são os mesmos para todas as equações; o estimador SUR com coeficientes comuns, uma vez que não se utilizam as mesmas condições de ortogonalidade; o estimador PMQ, a não ser que Σˆ = I m . Considere-se o modelo SUR com coeficientes comuns e, em vez de (5.83), a condição de ortogonalidade seguinte: E ( xt1•ut1 + xt 2•ut 2 + L + xtm •utm ) = 0 . Como a contrapartida amostral é 1 ~ n n n T g• n ( β ) = ∑t =1 xtT1• yt1 + ∑t =1 xtT2• yt 2 + L + ∑t =1 xtm • ytm n 1 n ~ n n − ∑t =1 xtT1• xt1• + ∑t =1 xtT2• xt 2• + L + ∑t =1 xtT1m xtm • β n 1 1 ~ = ( X •T1 y•1 + X •T2 y• 2 + L + X •Tm y• m ) − ( X •T1 X •1 + X •T2 X • 2 + L + X •Tm X • m ) β = 0, n n
obtém-se o estimador PMQ, (5.113).
70
Capítulo 5 – Sistemas de Equações de Regressão Linear
Coeficientes comuns: restrição aparente
Embora pareça que o modelo SER com coeficientes comuns, (5.94), é um caso particular de (5.2), este pode ser apresentado na forma (5.94) com uma adequada redefinição dos regressores. Considere-se o exemplo seguinte: Exemplo 5.15 – Retome-se o exemplo 5.1. O formato (5.94) é obtido com xt1• = 1 educt
expert
qit
xt 2• = 0 0 0 0 1 educt
0 0 0 ; qit ;
β11 β 21 β 31 β = β 41 . β12 β 22 β 32
∇
Para apresentar a questão em termos gerais, o modelo (5.94) pode ser escrito na forma seguinte: yti = xti∗ • β∗ + uti , para não se confundir com o modelo (5.2). A hipótese SER.1 pode considerar-se um caso especial de SER.1’, se se fizer
xti∗• = [ 0 L 0 xti •
β •1 M β•,i −1 0 L 0 ] e β∗ = β•i . β •,i +1 M β •m
Com efeito, basta notar que xti∗ • β∗ = xti • β (i = 1, 2, K , m ) . A hipótese SER.4 é um caso especial de SER.4’, pois basta verificar que E( zT x∗ ) E( zT x ) L O O t1• t1• t1• t 1• T E ( z tT2• xt∗2• ) L O E z x O ( ) t 2• t 2• = Qzx . = Qzx∗ = M M M M T T ∗ x O O E z x L ) ( ) E ( z tm tm • tm • • tm •
Como, também, se tem
71
Capítulo 5 – Sistemas de Equações de Regressão Linear 1 n T ∗ 1 n T ∑t =1 zt1• xt1• ∑t =1 zt1• xt1• n n 1 n T ∗ O ∑t =1 zt 2• xt 2• n ∗ S zx = = M M ∗ T 1 ∑n ztm O x n t =1 • tm•
O
1 n T ∑ zt 2• xt 2• n t =1 M O
o estimador (5.98), βˆ ∗ (Wˆ ) , reduz-se a (5.15), βˆ (Wˆ ) .
L O =S , zx M 1 n T L z x ∑ tm• tm• n t =1 L
O
Capítulo 5 – Sistemas de Equações de Regressão Linear
72
PALAVRAS-CHAVE Coeficientes comuns Condição de característica Consistência Correlação contemporânea Dados de painel Diferença-martingala Equações não “relacionadas” Erro de amostragem Estacionaridade ergódica Estatística de Sargan Estimação conjunta Estimação separada Estimador FIVE Estimador MGM (eficiente) Estimador MQ3P Estimador Pooled MQ Estimador SMQ Estimador SMQ2P Estimador SMQG Estimador SMQGF Estimador SUR Estimador SVI Heterocedasticidade condicionada Homocedasticidade condicionada
Identificação (exacta) Inferência estatística Inferência estatística sobre combinações lineares de coeficientes de regressão Inferência estatística sobre um coeficiente de regressão isolado Instrumentos comuns Linearidade Método MQ2P Método generalizado dos momentos Modelo regressão multivariada Modelo SER (com coeficientes comuns) Normalidade assintótica Ortogonalidade Princípio da razão de verosimilhanças Regressor endógeno Regressor pré-determinado Regressores comuns Sistema de equações de regressão linear Sobre-identificação Teste de endogeneidade Teste de hipóteses não lineares Teste de sobre-identificação (de Hansen) Teste de um subconjunto de condições de ortogonalidade Variável instrumental
Capítulo 5 – Sistemas de Equações de Regressão Linear
73
PERGUNTAS DE REVISÃO 1.
Considere o seguinte sistema de equações de regressão linear:
2.
onde as variáveis yti são endógenas ( i = 1, 2, 3 ), e as variáveis zth são pré-determinadas ( h = 1, 2, 3 ). Admita que o vector das variáveis instrumentais de cada equação é formado por todas as variáveis pré-determinadas. Supondo que dispõe de uma amostra de dimensão n, apresente a matriz X referida na relação amostral Y = Xβ + U , e a matriz Z das observações das variáveis instrumentais. Seja o sistema de equações de regressão linear, yti = xti• β •i + uti (i = 1, 2,K, m) , em que: yti é a observação t de yi ; xti• é o vector 1× ki da observação t dos regressores da equação i; β•i é o vector ki × 1 dos respectivos coeficientes de regressão; uti é a variável residual da observação t da equação i. Considere, também, o vector 1 × pi , zti • , da observação t das variáveis instrumentais da equação i. Enuncie a hipótese da estacionaridade ergódica. Considere o seguinte sistema de equações de regressão linear:
3.
4.
5. 6.
7.
yt1 = β11 + β 21 yt 2 + β 31 zt1 + β 41 z t 2 + ut1 yt 2 = β12 + β 22 yt 3 + β 32 z t 2 + β 42 z t 3 + ut 2 ,
y = β + β y + β z + β z + u 11 21 t 2 31 t1 41 t 2 t1 t1 yt 2 = β12 + β 22 yt 3 + β 32 zt 2 + β 42 zt 3 + ut 2 y = β + β y + β z + β z + u , 13 23 t 4 33 t 3 43 t 4 t3 t 3
onde as variáveis yti são endógenas ( i = 1, 2, 3, 4 ), e as variáveis zth são pré-determinadas ( h = 1, 2, 3, 4 ). Suponha que o vector das variáveis instrumentais de cada equação é formado por todas as variáveis pré-determinadas. Enuncie, para este sistema, a hipótese da estacionaridade ergódica. Seja o sistema de equações de regressão linear, yti = xti• β •i + uti (i = 1, 2,K, m) , em que: yti é a observação t de yi ; xti• é o vector 1× ki da observação t dos regressores da equação i; β•i é o vector ki × 1 dos respectivos coeficientes de regressão; uti é a variável residual da observação t da equação i. Considere, também, o vector 1 × pi , zti • , da observação t das variáveis instrumentais da equação i. Enuncie a hipótese da ortogonalidade. Considere o sistema de equações de regressão linear da pergunta 3. Enuncie, para este sistema, a hipótese da ortogonalidade. Seja o sistema de equações de regressão linear, yti = xti• β •i + uti (i = 1, 2,K, m) , em que: yti é a observação t de yi ; xti• é o vector 1× ki da observação t dos regressores da equação i; β•i é o vector ki × 1 dos respectivos coeficientes de regressão; uti é a variável residual da observação t da equação i. Considere, também, o vector 1 × pi , zti • , da observação t das variáveis instrumentais da equação i. Enuncie as condições de característica. Considere o sistema de equações de regressão linear da pergunta 3. Enuncie, para este sistema, a condição de característica da terceira equação.
Capítulo 5 – Sistemas de Equações de Regressão Linear 8.
9.
10.
11.
12.
13. 14.
15. 16.
74
Considere o seguinte sistema de equações de regressão linear: yt1 = β11 + β 21 yt 2 + β 31 zt1 + β 41 z t 2 + ut1 yt 2 = β12 + β 22 yt 3 + β 32 z t 2 + β 42 z t 3 + ut 2 ,
onde as variáveis yti são endógenas ( i = 1, 2, 3 ), e as variáveis zth são pré-determinadas ( h = 1, 2, 3 ). Admita que o vector das variáveis instrumentais de cada equação é formado por todas as variáveis pré-determinadas. Enuncie as condições de característica. Considere um modelo SER com duas equações e coeficientes comuns. Indique a matriz dos valores esperados dos produtos das variáveis instrumentais pelos regressores, Qzx , e estabeleça a respectiva condição de característica para a identificação. Seja o sistema de equações de regressão linear, yti = xti• β •i + uti (i = 1, 2,K, m) , em que: yti é a observação t de yi ; xti• é o vector 1× ki da observação t dos regressores da equação i; β•i é o vector ki × 1 dos respectivos coeficientes de regressão; uti é a variável residual da observação t da equação i. Considere, também, o vector 1 × pi , zti • , da observação t das variáveis instrumentais da equação i. Enuncie a hipótese da diferença-martingala. Seja o sistema de equações de regressão linear, yti = xti• β •i + uti (i = 1, 2,K, m) , e gt • = [ g t1• g t 2• L g tm• ], onde g ti • = z ti • uti . Escreva a condição para que o processo {gt •} seja uma diferença-martingala. Considere o seguinte sistema de equações de regressão linear: y = β + β y + β z + β z + u 11 21 t 2 31 t 1 41 t 2 t1 t1 yt 2 = β12 + β 22 yt1 + β 32 yt 3 + β 42 zt 2 + β 52 z t 3 + ut 2 y = β + β y + β z + β z + u , 13 23 t 4 33 t 3 43 t 4 t3 t 3
onde as variáveis yti são endógenas ( i = 1, 2, 3, 4 ), e as variáveis zth são pré-determinadas ( h = 1, 2, 3, 4 ). Suponha que o vector das variáveis instrumentais de cada equação é dado por z t • = [ 1 z t1 zt 2 z t 3 z t 4 ]. Apresente, para este sistema, a matriz por blocos S = E ( g tT• g t • ) , referindo explicitamente a matriz ztT• zt • e as variáveis residuais. Considere o sistema de equações de regressão linear da pergunta 12. Enuncie, para este sistema, a hipótese da diferença-martingala. Considere o sistema de equações de regressão linear da pergunta 12. Escreva as matrizes Qzx1 e S zx1 (matrizes referentes à primeira equação), explicitando todos os seus elementos. Considere o modelo SER. Indique o resultado assintótico que decorre imediatamente da hipótese SER.5 (diferença-martingala). Considere o sistema de equações de regressão linear da pergunta 12. Suponha que se verifica a hipótese da homocedasticidade condicionada. Escreva a matriz S, utilizando as matrizes Qzz = E ( ztT• zt • ) e Σ [de elemento genérico σ il = E (uti utl ) , para i, l = 1, 2, 3 ].
Capítulo 5 – Sistemas de Equações de Regressão Linear 17.
18. 19.
20.
21.
22.
23.
24.
75
Considere um sistema de equações de regressão linear (SER). Em que condições se pode afirmar que o estimador MGM conjunto e o estimador MGM separado são numericamente iguais ao estimador VI. Indique as condições para que o estimador SUR seja um caso particular do estimador MGM. Seja o sistema de equações de regressão linear, yti = xti• β •i + uti (i = 1, 2,K, m) , e o estimador MGM eficiente dos coeficientes de regressão. Em que condições este estimador se reduz ao estimador dos mínimos quadrados em três passos (MQ3P)? Seja o sistema de equações de regressão linear, yti = xti• β •i + uti (i = 1, 2,K, m) , e o estimador MGM eficiente dos coeficientes de regressão. Enuncie as propriedades que permitem afirmar que este estimador é CAN. Seja o seguinte sistema de equações de regressão linear: y = β + β y + β z + β z + u 11 21 t 2 31 t1 41 t 2 t1 t1 yt 2 = β12 + β 22 yt 3 + β 32 zt 2 + β 42 zt 3 + ut 2 y = β + β y + β z + β z + u , 13 23 t 4 33 t 3 43 t 4 t3 t 3
onde as variáveis yti são endógenas ( i = 1, 2, 3, 4 ), e as variáveis zth são pré-determinadas ( h = 1, 2, 3, 4 ). Suponha que o vector das variáveis instrumentais de cada equação é formado por todas as variáveis pré-determinadas. Considere o estimador MGM eficiente dos coeficientes de regressão. Em que condições este estimador se reduz ao estimador dos mínimos quadrados em três passos (MQ3P)? Seja o sistema de equações de regressão linear, yti = xti• β •i + uti (i = 1, 2,K, m) , em que: yti é a observação t de yi ; xti• é o vector 1× ki da observação t dos regressores da equação i; β•i é o vector ki × 1 dos respectivos coeficientes de regressão; uti é a variável residual da observação t da equação i. Considere, também, o vector 1 × pi , zti • , da observação t das variáveis instrumentais da equação i. Enuncie a hipótese da homocedasticidade condicionada. Seja o sistema de equações de regressão linear, yti = xti• β •i + uti (i = 1, 2, K, m) , e o estimador MGM eficiente dos coeficientes de regressão. Em que condições este estimador se reduz ao estimador FIVE (Full-information Instrumental Variable Efficient)? Considere o seguinte sistema de equações de regressão linear: y = β + β y + β z + β z + u 11 21 t 2 31 t 1 41 t 2 t1 t1 yt 2 = β12 + β 22 yt1 + β 32 yt 3 + β 42 zt 2 + β 52 z t 3 + ut 2 y = β + β y + β z + β z + u , 13 23 t 4 33 t 3 43 t 4 t3 t 3
onde as variáveis yti são endógenas ( i = 1, 2, 3, 4 ), e as variáveis zth são pré-determinadas ( h = 1, 2, 3, 4 ). Suponha que o vector das variáveis instrumentais não é o mesmo para todas as equações. Considere o estimador MGM eficiente dos coeficientes de regressão. Se existir homocedasticidade condicionada, como se chama o respectivo estimador?
Capítulo 5 – Sistemas de Equações de Regressão Linear
76
30.
Seja o sistema de equações de regressão linear, yti = xti• β •i + uti (i = 1, 2,K, m) . Em que condições este modelo se reduz ao modelo SUR? Considere um sistema de equações de regressão linear. Em que condições este sistema é um modelo de regressão multivariada? Considere o modelo SUR. Em que condições este modelo se reduz ao modelo de regressão multivariada. Considere o modelo SER no contexto da homocedasticidade condicionada. Em que condições há equivalência numérica entre o estimador MQ3P e o estimador MQ2P separado. Considere um modelo SER com coeficientes comuns e com duas equações. Apresente a respectiva condição de característica. Considere o seguinte sistema de equações de regressão linear:
31.
Indique os vectores dos regressores das duas equações ( xt1• e xt 2• , respectivamente), de modo a que o sistema seja um modelo SER com coeficientes comuns. Considere o seguinte sistema de equações de regressão linear:
25. 26. 27. 28.
29.
32.
yt1 = β11 + β 21 yt 2 + β 31 zt1 + β 41 z t 2 + ut1 yt 2 = β12 + β 22 yt 3 + β 32 z t 2 + ut 2 .
y t1 = α 1 + α 2 t + β1 y t 2 + β 2 z t 1 + β 3 z t 2 + u t 1 y t 2 = α 1 + α 2 t + γ 1 yt 3 + γ 2 z t 2 + u t 2 .
Indique os vectores dos regressores das duas equações ( xt1• e xt 2• , respectivamente), de modo a que o sistema seja um modelo SER com coeficientes comuns. Considere o modelo SER com coeficientes comuns. Indique a expressão do estimador Pooled MQ.
CAPÍTULO 6 MODELOS DE EQUAÇÕES SIMULTÂNEAS 6.1 - Introdução Neste capítulo vai considerar-se uma situação particular do modelo SER, em que pelo menos uma variável explicativa endógena é também variável explicada ou, de forma equivalente, pelo menos uma variável explicada (obviamente endógena) é variável explicativa de outra variável. Exemplo 6.1 – Conhecem-se vários exemplos deste tipo: a) Quando se considera o modelo de procura e oferta de um certo produto, (4.18) [ver a secção 4.2 do capítulo 4 e o exemplo 1.7], a variável endógena pt (preço) é variável explicativa de qt (quantidade transaccionada). A variável pt também é variável explicada pelo modelo porque a condição de equilíbrio permite determinar simultaneamente o par ( qt , pt ) em função de outros factores: rt (rendimento médio dos consumidores), zt (indicador da dimensão média das empresas do mercado respectivo), e de outros factores não observados. b) Quando se considera o modelo macroeconómico simples (4.20) [ver secção 4.2 do capítulo 4], a variável endógena Yt (PNB) é explicativa de Ct (consumo agregado), mas também é variável explicada, uma vez que, recorrendo à identidade do PNB, o modelo determina simultaneamente o par ( Ct , Yt ) em função da variável I t (investimento agregado), e de outros factores não observados. c) Considere-se o modelo do exemplo 1.9 e suponha-se que as únicas variáveis endógenas são crime e pol. Neste modelo, existe interdependência entre as duas variáveis: pol é variável explicativa de crime, e inversamente. d) No modelo do exemplo 1.10 tem-se uma situação de interdependência semelhante: supondo que as duas únicas variáveis endógenas são inf e ga, elas são simultaneamente variáveis explicativas e variáveis explicadas. e) Retome-se o modelo do exemplo 5.1, lsalart = β11 + β 21 educt + β 31 expert + β 41qit + ut1 (equação do salário) (equação do cmt ) cmtt = β12 + β 22 educt + β32 qit + ut 2
onde: lsalart é o logaritmo do salário do indivíduo t; educt é o número de anos completos de escolaridade do indivíduo t; expert é o número de anos de experiência pro-
Capítulo 6 – Modelos de Equações Simultâneas
2
fissional do indivíduo t; qit é o QI do indivíduo t; cmtt é a pontuação de um teste sobre o “conhecimento do mundo do trabalho” do indivíduo t. A especificação do modelo garante que as variáveis lsalart e cmtt são endógenas. O modelo não é um modelo de equações simultâneas porque nenhuma destas variáveis é explicativa da outra. Acrescentando cmtt aos regressores da equação do salário, passa a ter-se um modelo de equações simultâneas: a variável explicada cmtt é variável explicativa de lsalart . ∇ A definição formal do tipo de modelos exemplificados é apresentada a seguir. Definição 6.1 – Modelo de equações simultâneas Um modelo SER é um modelo de equações simultâneas (MES) se e só se pelo menos uma variável explicada é variável explicativa de outra variável. Quando, para representar o modelo SER, se adopta a notação (5.2), (6.1)
yti = xti• β •i + uti (i = 1, 2, K , m ; t ∈ T ) ,
a condição de simultaneidade obriga a que exista pelo menos um vector de regressores, xti • , onde pelo menos uma componente é regressando, ytl , de outra equação do sistema ( i ≠ l ). Além disso, em geral, vai supor-se que o vector das variáveis instrumentais é comum a todas as equações, e é formado por todos os regressores pré-determinados do modelo. Resumindo, os aspectos essenciais do modelo de equações simultâneas, com a formalização (6.1), são: − Simultaneidade: há pelo menos uma variável explicada, yti , que é variável explicativa de outra variável, ytl ( i ≠ l ). − O vector das variáveis residuais, de tipo 1 × m , é ut • = [ ut1 ut 2 L utm ]. − A matriz dos segundos momentos das variáveis residuais é Σ = E (utT•ut • ) , matriz quadrada de ordem m, definida positiva. − O vector comum das variáveis instrumentais é zt • = [ zt1 zt 2 L ztq ]. − Ortogonalidade: tem-se E (ut • ⊗ zt • ) = E{ut • ( I m ⊗ zt • )} = 0 , onde 0 é o vector nulo de tipo 1× mq . A condição de ortogonalidade também pode ser apresentada da seguinte forma: E ( ztT•ut • ) = O . − O conjunto das variáveis instrumentais coincide com o conjunto dos regressores pré-determinados. − A matriz dos segundos momentos dos instrumentos, Qzz = E ( ztT• zt • ) , é não singular. Assim, na população, não existem relações lineares exactas entre as variáveis pré-determinadas. − As variáveis endógenas do sistema são aquelas que não estão incluídas em zt • . − A condição de característica para a identificação é que a matriz Qzxi = E ( ztT• xti • ) , de tipo q × ki , tem característica igual a ki (i = 1, 2, K , m) . Verificada esta condição, a equação i é sobre-identificada se ki < q .
Capítulo 6 – Modelos de Equações Simultâneas
3
De uma maneira geral, os parâmetros do modelo de equações simultâneas, (6.1), podem ser estimados pelo método MGM estudado no capítulo 5. Em particular, pode recorrer-se a qualquer estimador analisado neste capítulo, desde que se verifiquem as respectivas hipóteses. Por exemplo, no caso de homocedasticidade condicionada, pode utilizar-se o estimador MQ3P. A questão da estimação vai ser retomada mais adiante. 6.2 - Autonomia e causalidade
Quando uma equação de um modelo de equações simultâneas tem, ceteris paribus (isolado das outras equações), um significado próprio, diz-se que a equação é autónoma. Por exemplo: no modelo de procura e oferta [ver exemplo 6.1-a)], as equações da procura e da oferta são autónomas, uma vez que a primeira traduz o comportamento dos agentes económicos que pretendem comprar o produto, e a segunda modela o comportamento dos agentes económicos que desejam vender o produto; no modelo macroeconómico simples [ver exemplo 6.1-b)] as duas equações são autónomas, porque a primeira mostra o comportamento agregado dos consumidores, e a segunda pode ser considerada uma identidade contabilística ou uma relação de equilíbrio. Fica ao cuidado do leitor analisar a autonomia das equações dos modelos referidos nas alíneas c), d) e e) do exemplo 6.1. Como, em muitos casos, as observações correspondem a situações de equilíbrio, um modo de encarar a autonomia consiste em fazer raciocínios contrafactuais para especificar os comportamentos, ou seja, deve ter-se em conta não só as observações disponíveis, mas também as observações potenciais que corresponderiam a situações de não equilíbrio. Por exemplo, num mercado de trabalho da actividade agrícola nos concelhos de uma região, as equações da oferta e da procura estabelecem os comportamentos dos respectivos agentes económicos: os trabalhadores agrícolas e os agricultores. As equações aparecem ligadas no modelo apenas porque, para cada concelho, a quantidade de trabalho e o salário observados são determinados pela interacção entre a oferta e a procura, dada pela equação de equilíbrio. Uma vez que apenas se observam situações de equilíbrio, a especificação das equações exige que se ponham questões contrafactuais, tais como: qual a quantidade de trabalho oferecida pelos trabalhadores agrícolas, ou procurada pelos agricultores, se o salário fosse diferente do seu valor de equilíbrio? Outro aspecto muito importante a reter é que as equações que modelam comportamentos de agentes económicos devem representar relações de causalidade. Deve ser possível fazer variar cada variável explicativa, mesmo que seja endógena, mantendo fixas as outras variáveis explicativas (ceteris paribus). Deste modo, cada equação deve representar, de alguma maneira, um valor esperado condicionado que corresponda a uma estrutura causal. Mas, para que a equação possa ser interpretada como um valor esperado condicionado estrutural é indispensável fazer raciocínios contrafactuais. Por exemplo, se no modelo de procura e oferta do mercado de trabalho atrás referido fosse possível realizar a experiência controlada em que o salário variasse, de forma exógena,
Capítulo 6 – Modelos de Equações Simultâneas
4
de trabalhador para trabalhador, a equação da oferta podia ser estimada mesmo sem considerar a equação da procura. Em geral, é desejável que num MES as equações gozem de autonomia e representem relações de causalidade. Por exemplo, nos modelos de procura e oferta de um mercado em equilíbrio, a autonomia e a causalidade são características inerentes às equações da procura e da oferta. No entanto, existem muitas situações em que tal não se verifica. Por exemplo, considere-se que se pretende modelar a escolha individual entre horas de trabalho em actividades legais (variável trab) e horas gastas em actividades criminosas (variável crime). Suponha-se que os factores exógenos que explicam esta escolha são o salário (o rendimento do trabalho legal), o rendimento das actividades criminosas, outros rendimentos, a probabilidade de ser preso, a probabilidade de ser condenado, o número esperado de anos de prisão, etc. Além destes factores, está subjacente à escolha um conjunto de factores demográficos, como o número de anos de escolaridade, o número de anos de experiência profissional em actividades legais, o género, a raça, etc. Nestas condições, podem especificar-se duas equações estruturais: trab em função dos factores exógenos, dos factores demográficos e dos factores não observados; crime em função dos mesmos factores: trab = f1 (factores exógenos, factores demográficos, factores não observáveis) crime = f 2 (factores exógenos, factores demográficos, factores não observáveis).
É possível que alguns dos factores que explicam trab e crime não possam ser tratados como exógenos pelo econometrista, pois os factores não observados que afectam a escolha entre trab e crime podem estar correlacionados com alguns factores observados. Mesmo assim, cada equação do modelo tem uma interpretação causal. Contudo, o modelo proposto não é um modelo de equações simultâneas. Considere-se, no entanto, o seguinte modelo de equações simultâneas: trab = f1 (crime, factores exógenos, factores demográficos, factores não observáveis) crime = f 2 (trab, factores exógenos, factores demográficos, factores não observáveis).
Facilmente se conclui que nenhuma das equações é autónoma, pois cada uma traduz o comportamento dos mesmos agentes económicos (as pessoas que escolhem entre horas de trabalho legal e horas dedicadas a actividades criminosas), não se podendo fazer uma interpretação causal de qualquer das equações; por exemplo, não tem significado estudar o efeito da variação do salário sobre as horas gastas em actividades criminosas, supondo constante as horas de trabalho legal, porque qualquer pessoa ajusta o tempo gasto nas duas actividades quando varia o salário. A confusão entre equações simultâneas e equações estruturais não é invulgar na literatura da econometria aplicada. De facto, é frequente encontrar aplicações econométricas, como as do exemplo da escolha entre trab e crime, em que as equações do MES não gozam de autonomia, e, no entanto, fazem-se interpretações causais abusivas. O exemplo anterior mostra que pode haver modelos com equações estruturais que não são modelos de equações simultâneas, e modelos de equações simultâneas que não têm equações estruturais.
Capítulo 6 – Modelos de Equações Simultâneas
5
Para melhor esclarecimento das considerações anteriores, vai apresentar-se uma tipologia das equações que fazem parte de um modelo de equações simultâneas: a) Equações de comportamento. Estas equações formalizam o comportamento de agentes económicos e sociais. O estudo destes comportamentos levanta os problemas conceptuais e práticos mais difíceis. Por exemplo, como formalizar os comportamentos dos agentes da administração pública (governo, autarquias locais, autoridades monetárias, etc.), das empresas e dos seus gestores, dos agentes financeiros (bancos, seguradoras, etc.), dos consumidores, etc.? Qual o nível de agregação que deve ser considerado? Em termos gerais, pode afirmar-se que a especificação das equações de comportamento deve apoiar-se na teoria económica e nos conhecimentos fornecidos por outras ciências sociais (História, Sociologia, Psicossociologia, Ciência Política, etc.). Exemplos: equações macroeconómicas como as funções consumo, investimento, importações, procura de moeda; equações microeconómicas como as equações de procura e de oferta num mercado de um produto em equilíbrio, ou como as equações da procura e da oferta de trabalho. b) Equações técnicas ou tecnológicas. São equações que procuram estabelecer relações de tipo tecnológico. Exemplos: funções de produção e de custo. c) Equações institucionais. Estas equações referem-se a relações de carácter institucional. Exemplos: funções sobre os impostos que traduzam a carga fiscal; regras fixadas pelos agentes da administração pública. d) Equações de definição ou identidades. São relações de igualdade ex post entre variáveis do modelo. Exemplos: a equação de definição macroeconómica da despesa nacional; a equação de definição do rendimento pessoal disponível. e) Equações de equilíbrio. São relações de igualdade ex ante entre variáveis do modelo. Exemplos: num modelo macroeconómico, a poupança é igual ao investimento; num modelo relativo ao mercado de um produto, a procura é igual à oferta. As equações de comportamento e as equações técnicas constituem o cerne dos modelos de equações simultâneas. Estas equações contêm parâmetros desconhecidos, que devem ser estimados. 6.3 - Modelos completos
Começa-se por apresentar a definição de MES completo. Definição 6.2 – Modelo completo de equações simultâneas Um modelo de equações simultâneas é completo se e só se o número de variáveis endógenas é igual ao número de equações.
Capítulo 6 – Modelos de Equações Simultâneas
6
A condição de completude implica que se yt • = [ yt1 yt 2 L ytm ] é o vector das variáveis endógenas, então todos os elementos do vector [ yt • xt1• xt 2• L xtm • ] pertencem a [ yt • zt • ]. Deste modo, qualquer variável endógena explicativa numa equação é variável a explicar noutra equação (se uma variável endógena pertence a um vector xti • também pertence a yt • ). O sistema de m equações (6.1) pode, então escrever-se da seguinte maneira: γ 11 yt1 + γ 21 yt 2 + L + γ m1 ytm + δ11 zt1 + δ 21 zt 2 + L + δ q1 ztq = ut1 γ 12 yt1 + γ 22 yt 2 + L + γ m 2 ytm + δ12 zt1 + δ 22 zt 2 + L + δ q 2 ztq = ut 2 L γ 1m yt1 + γ 2 m yt 2 + L + γ mm ytm + δ1m zt1 + δ 2 m zt 2 + L + δ qm ztq = utm ,
onde: − yti é a observação t da variável endógena yi ( i = 1, 2, K , m ); − γ il é o coeficiente da variável endógena yi na equação l ( i, l = 1, 2, K , m ); − zth é a observação t da variável pré-determinada zh ( h = 1, 2, K , q ); − δ hl é o coeficiente da variável pré-determinada zh ( h = 1, 2, K , q ) na equação l ( l = 1, 2, K , m ). Fazendo
δ δ L δ γ γ L γ 1m 1m 11 12 11 12 δ 21 δ 22 L δ 2 m γ 21 γ 22 L γ 2 m Γ= , ∆= , M M M M M M δ q1 δ q 2 L δ qm γ m1 γ m 2 L γ mm
onde Γ é quadrada de ordem m e ∆ é de tipo q × m , pode escrever-se (6.2)
yt •Γ + zt • ∆ = ut • ,
yt •γ •l + zt •δ • l = utl ( l = 1,2, K , m ),
ou
onde: γ • l é a coluna l da matriz Γ ; β •l é a coluna l da matriz ∆ ; utl é a variável residual correspondente à observação t e à equação l . O sistema de equações escrito na forma (6.2) chama-se a forma estrutural do modelo; os elementos das matrizes Γ , ∆ e Σ são os parâmetros estruturais. Estes parâmetros são, então, representados pelo terno de matrizes (Γ, ∆, Σ) . Quando se dispõe de uma amostra de dimensão n, {( yt • , zt • ) : t = 1, 2, K , n} , pode escrever-se a relação amostral, (6.3)
ΥΓ + Z ∆ = U ,
onde: Υ é a matriz n × m (de elemento genérico yti ) das observações das variáveis endógenas; Z é a matriz n × q (de elemento genérico zth ) das observações das variáveis
Capítulo 6 – Modelos de Equações Simultâneas
7
pré-determinadas; U é a matriz n × m (de elemento genérico utl ) das variáveis residuais. Cada equação de (6.3) pode ser apresentada da seguinte maneira:
Υ γ • l + Z δ •l = u• l ,
onde u•l é a coluna l da matriz U. Outra forma de apresentar a relação amostral é a seguinte:
( I m ⊗ Υ )Vec(Γ) + ( I m ⊗ Z ) Vec(∆) = Vec(U ) ,
onde se utiliza o operador Vec(⋅) de vectorização de matrizes [por exemplo, Vec(U ) é o vector mn × 1 formado pelas m colunas da matriz U]. Vai introduzir-se uma hipótese adicional, meramente técnica: a matriz dos coeficientes das variáveis endógenas, Γ , é não singular. Esta condição implica que (6.2) pode ser resolvido em relação a yt • , obtendo-se a respectiva forma reduzida, (6.4) onde
yt • = − zt • ∆ Γ −1 + ut •Γ −1 = zt •Π + vt • ,
π π L π 1m 11 12 L π π π 21 22 2m Π = − ∆ Γ −1 = M M M π q1 π q 2 L π qm
é a matriz q × m dos coeficientes da forma reduzida, e
vt • = ut •Γ −1 = [ vt1 vt1 L vtm ]
é o vector das variáveis residuais da forma reduzida. Como E (utT•ut • ) = Σ , verifica-se que Ω = E (vtT•vt • ) = (Γ −1 )T Σ Γ −1 , ou Σ = ΓT ΩΓ . Assim, os parâmetros da forma reduzida são representados pelo par de matrizes (Π, Ω) . Note-se que π hi ( h = 1,2, K , q ; i = 1,2, K , m ) é o coeficiente da variável exógena h na equação da forma reduzida da variável endógena i. Pode, então, escrever-se yt1 = π 11 zt1 + π 21 zt 2 + L + π q1 ztq + vt1 yt 2 = π 12 zt1 + π 22 zt 2 + L + π q 2 ztq + v´t 2 L ytm = π 1m zt1 + π 2 m zt 2 + L + π qm ztq + vtm ,
ou, ainda,
yti = ∑ h =1 π hi zth + vti = zt •π •i + vti ( i = 1,2, K , m ), q
onde π •i é a coluna i da matriz Π . Assim, na forma reduzida, os regressores, zt • , são comuns a todas as equações; trata-se de um modelo de regressão multivariada porque todos os regressores são pré-determinados, isto é, E ( ztT•vt • ) = O . Quando se dispõe de uma amostra de dimensão n, {( yt • , zt • ) : t = 1, 2, K , n} , a relação amostral correspondente à forma reduzida é dada por
8
Capítulo 6 – Modelos de Equações Simultâneas (6.5)
Υ= Z Π + V ,
onde V = U Γ −1 é a matriz n × m (de elemento genérico vti ) das variáveis residuais da forma reduzida. Cada equação de (6.5) pode ser apresentada da seguinte maneira:
y•i = Zπ •i + v•i ,
onde: y•i é a coluna i da matriz Υ ; v•i é a coluna i da matriz V. Outra forma de apresentar Υ = Z Π + V é a seguinte: Vec(Υ ) = ( I m ⊗ Z ) Vec(Π ) + Vec(V ) .
Exemplo 6.2 – Considere-se o modelo de procura e oferta de um certo produto (ver secção 4.2 do capítulo 4), qtd = α 0 + α1 pt + utd (equação da procura) s s qt = β 0 + β1 pt + ut (equação da oferta ),
onde as variáveis qtd (quantidade procurada), qts (quantidade oferecida) e pt (preço) são endógenas. O modelo apresentado nesta forma não é completo porque existem três variáveis endógenas e duas equações. O modelo passa a ser completo quando se lhe junta a condição de equilíbrio de mercado, qtd = qts [ver (4.7), capítulo 4]. Seja, agora, o modelo na versão (4.8),
qt = α 0 + α1 pt + utd (equação da procura) s qt = β 0 + β1 pt + ut (equação da oferta),
onde qt = qtd = qts (quantidade transaccionada). Este modelo de duas equações simultâneas (há interdependência entre qt e pt ) é completo porque tem duas variáveis endógenas, qt e pt , e duas equações. Considere-se o modelo (4.18), qt = α 0 + α1 pt + α 2 rt + utd s qt = β 0 + β 1 pt + β 2 z t + u t
(equação da procura) (equação da oferta ),
onde rt é o rendimento médio dos consumidores e zt é um indicador da dimensão média das empresas do mercado respectivo. Admitindo que as variáveis rt e zt são exógenas, facilmente se conclui que este modelo de duas equações simultâneas é completo. Com a notação (6.1), tem-se yt1 = yt 2 = qt , xt1• = [ 1 pt rt ] ( k1 = 3 ), xt 2• = [ 1 pt zt ] ( k2 = 3 ),
β α β 0 0 β•1 = α1 , β• 2 = β1 , β = •1 , ut1 = utd , ut 2 = uts e zt • = [ 1 rt zt ] ( q = 3 ). β• 2 β α 2 2 Com a notação (6.2), vem
9
Capítulo 6 – Modelos de Equações Simultâneas qt − α1 pt − α 0 − α 2 rt = utd s qt − β1 pt − β 0 − β 2 zt = ut
(equação da procura) (equação da oferta ),
e, portanto,
− α 0 − β0 1 1 , ∆ = − α 2 0 e ut • = [ utd uts ]. yt • = [ qt pt ], zt • = [ 1 rt zt ], Γ = − α1 − β1 0 −β 2 A forma reduzida é dada por
α β − α 0 β1 α1β 2 αβ α u s − β1utd qt = 1 0 + zt − 2 1 rt + 1 t α1 − β1 α1 − β1 α1 − β1 α1 − β1 s d p = β 0 − α 0 + β 2 z − α 2 r + ut − ut . t α1 − β1 α1 − β1 t α1 − β1 t α1 − β1
Então,
α β − α β β0 − α 0 0 1 1 0 α1 − β1 α1 − β1 αβ α u s − β u d β2 1 2 1 t e vt • = 1 t Π= − − − α β α β α β 1 1 1 1 1 1 α2 − α 2 β1 − α1 − β1 α1 − β1
uts − utd . α1 − β1
∇
Exemplo 6.3 – Considere-se a função consumo macroeconómica, Ct = α 0 + α1Yt + ut , onde Ct é o consumo agregado e Yt é o PNB (ver secção 4.2 do capítulo 4). Como Yt é endógeno, o modelo formado por esta função não é completo, uma vez que existem duas variáveis endógenas, Ct e Yt , e apenas uma equação. O modelo torna-se completo quando se considera a identidade do PNB,
Yt = Ct + I t ,
onde I t (investimento agregado) é variável pré-determinada [ver (4.20), capítulo 4]. Com a notação (6.2), obtém-se Ct − α1Yt − α 0 = ut (função consumo) − Ct + Yt − I t = 0 (identidade do PNB).
Donde
1 − 1 − α 0 0 yt • = [ Ct Yt ], zt • = [ 1 I t ], Γ = , ∆= e ut • = [ ut 0 ]. 1 α − 0 1 − 1
A forma reduzida é
10
Capítulo 6 – Modelos de Equações Simultâneas 1 α0 α1 Ct = 1 − α1 + 1 − α1 I t + 1 − α1 ut Y = α 0 + 1 I + 1 u , t 1 − α1 1 − α1 t 1 − α1 t onde
α0 1 − α 1 Π= α1 1 − α1
α0 1 − α1
1 e vt • = ut 1 1 − α1 1 − α1
1 u 1 − α1 t ∇
Exemplo 6.4 – Retome-se o modelo do exemplo 6.1-e),
lsalart = β11 + β 21 educt + β31 expert + β 41qit + β51cmtt + ut1 cmtt = β12 + β 22 educt + β32 qit + ut 2 .
Supondo que as variáveis expert e qit são exógenas, o modelo não é completo, porque tem duas equações e três variáveis endógenas [ lsalart , cmtt e educt ]. Para ser completo falta-lhe uma equação (a equação da escolaridade, explicativa do comportamento de educt ). Uma prática corrente para completar o modelo consiste em juntar às duas equações da forma estrutural, a equação da forma reduzida de educ. O modelo completo é, então, dado por lsalart = β11 + β 21 educt + β31 expert + β 41qit + β51cmtt + ut1 cmtt = β12 + β 22 educt + β32 qit + ut 2 educ = π + π exper + π qi + v . t 13 23 t 33 t t3
∇
No exemplo seguinte dá-se o devido relevo ao modo como o par de matrizes (Γ, ∆ ) [que agrupa os parâmetros da forma estrutural quando o modelo é apresentado com a notação (6.2)] depende de β [vector k × 1 que agrupa os subvectores β •l , kl × 1 , dos parâmetros da forma estrutural quando se utiliza a notação (6.1)]. São salientados três aspectos: 1) Cada coluna da matriz Γ tem um elemento igual a 1, traduzindo o facto de que em cada equação a variável a explicar tem coeficiente unitário. Deste modo, em cada coluna de Γ existe uma restrição de normalização. 2) Alguns elementos de Γ e de ∆ são nulos, reflectindo a circunstância de que algumas das variáveis endógenas ou algumas das variáveis pré-determinadas não estão incluídas em certas equações do modelo. Este facto traduz a existência de restrições de exclusão. 3) Não há restrições inter-equações, pelo que cada elemento de β só aparece uma vez em (Γ, ∆ ) .
11
Capítulo 6 – Modelos de Equações Simultâneas
Exemplo 6.5 – Considere-se o seguinte modelo com três equações estruturais:
y = α +α y +α y +α z + u 1 2 t2 3 t3 4 t1 t1 t1 yt 2 = β1 + β 2 yt1 + β 3 zt1 + β 4 zt 2 + β5 zt 3 + ut 2 y = γ + γ y + γ z + γ z + γ z + γ z + u . t 3 1 2 t 2 3 t1 4 t 2 5 t 3 6 t 4 t 3
De acordo com a notação (6.1), tem-se
yt • = [ yt1 yt 2 yt 3 ] ( m = 3 ), ut • = [ ut1 ut 2 ut 3 ],
xt1• = [ 1 yt 2 yt 3 zt1 ] ( k1 = 4 ), xt 2• = [ 1 yt1 zt1 zt 2 zt 3 ] ( k1 = 5 ),
xt 3• = [ 1 yt 2 zt1 zt 2 zt 3 zt 4 ] ( k1 = 6 ) e zt • = [ 1 zt1 zt 2 zt 3 zt 4 ] ( q = 5 ),
γ β 1 1 α γ 2 β 1 β2 γ •1 α 2 3 = = = β β , β•1 = , β• 2 β3 , •3 β• 2 ( k = 15 ). α3 γ 4 β β4 •3 γ α 4 5 β 5 γ 6 Fazendo
y −α y −α y −α −α z = u 2 t2 3 t3 1 4 t1 t1 t1 yt 2 − β 2 yt1 − β1 − β3 zt1 − β 4 zt 2 − β5 zt 3 = ut 2 y − γ y − γ − γ z − γ z − γ z − γ z = u , t3 t 3 2 t 2 1 3 t1 4 t 2 5 t 3 6 t 4
vem, de acordo com (6.2),
e
γ γ γ 1 − β 0 2 11 12 13 Γ = γ 21 γ 22 γ 23 = − α 2 1 − γ 2 γ γ γ − α 0 1 31 32 33 3
δ 11 δ 21 ∆ = δ 31 δ 41 δ 51
δ12 δ 22 δ 32 δ 42 δ 52
δ13 − α1 δ 23 − α 4 δ 33 = 0 δ 43 0 δ 53 0
− β1 − β3 − β4 − β5
0
− γ1 −γ3 −γ4 . −γ5 −γ6
Pode concluir-se que existem três restrições de normalidade (uma para cada equação): γ 11 = γ 22 = γ 33 = 1 . Quanto às restrições de nulidade, tem-se: três, para a primeira equação, δ 31 = δ 41 = δ 51 = 0 ; duas, para segunda equação: γ 32 = δ 52 = 0 ; uma, para a terceira equação: γ 13 = 0 . Não há restrições inter-equações (um exemplo deste tipo
Capítulo 6 – Modelos de Equações Simultâneas
12
de restrições seria α 2 + γ 2 = 0 : os coeficientes de yt 2 nas primeira e terceira equações seriam simétricos). ∇ As considerações anteriores contribuem para esclarecer as relações entre a notação (6.1), yti = xti• β •i + uti , e a notação (6.2), yt •γ •i + zt •δ •i = uti , de um modelo completo. Para clarificar estas relações é vantajoso introduzir outra notação. Seja yt • = [ yti yti • yti∗ • ], zt • = [ zti •
1 − δ ( i ) zti∗ • ] , γ •i = − γ ( i ) , δ •i = (i = 1, 2, K , m) , 0 0
onde: − yti é a observação t da variável a explicar, yi , pela equação i; − yti • é o vector 1× mi da observação t das variáveis endógenas explicativas incluídas na equação i; − yti∗ • é o vector 1 × mi∗ da observação t das variáveis endógenas não incluídas na equação i; − zti • é o vector 1 × qi da observação t das variáveis pré-determinadas (explicativas) incluídas na equação i; − zti∗ • é o vector 1 × qi∗ da observação t das variáveis pré-determinadas não incluídas na equação i; − γ (i ) é o vector mi × 1 dos coeficientes das variáveis endógenas explicativas incluídas na equação i; − δ (i ) é o vector qi × 1 dos coeficientes das variáveis pré-determinadas (explicativas) incluídas na equação i; − Tem-se: m = 1 + mi + mi∗ ; q = qi + qi∗ . A partir de yt •γ •i + zt •δ •i = uti , obtém-se (6.6)
yti = yti •γ ( i ) + zti •δ ( i ) + uti (i = 1, 2, K , m ; t ∈ T ) .
Confrontando com (6.1), conclui-se que
γ xti • = [ yti • zti • ] , β•i = ( i ) e ki = mi + qi . δ ( i )
Os vectores yti • e zti • podem ser obtidos por meio de matrizes de selecção. Assim, tem-se yti • = yt • Siy e zti • = zt • Siz , onde: − Siy é a matriz m × mi de selecção das variáveis endógenas explicativas incluídas na equação i [em cada coluna desta matriz existe um e só elemento igual a 1 (os outros elementos são nulos), que corresponde a cada variável endógena explicativa incluída na equação i];
Capítulo 6 – Modelos de Equações Simultâneas
13
− Siz é a matriz q × qi de selecção das variáveis pré-determinadas (explicativas) incluídas na equação i [em cada coluna desta matriz existe um e só elemento igual a 1 (os outros elementos são nulos), que corresponde a cada variável pré-determinada incluída na equação i]. Confrontando (6.2) com (6.6), conclui-se imediatamente que em (6.6) já estão inseridas as restrições de exclusão (a nulidade dos coeficientes que correspondem às variáveis consideradas nos vectores yti∗ • e zti∗ • ). Se não existir um número razoável de restrições de exclusão, a autonomia das equações pode ser prejudicada.
Exemplo 6.6 – Retomando o exemplo anterior, tem-se: Equação 1
yt1• = [ yt 2 yt 3 ] , yt∗1• não existe, zt1• = [ 1 zt1 ] , zt∗1• = [ zt 2 zt 3 zt 4 ] ,
α α γ (1) = 2 , δ (1) = 1 , m1 = 2 , m1∗ = 0 , q1 = 2 , q1∗ = 3 , α 3 α 4
1 0 0 0 S1y = 1 0 e S1z = 0 0 0 1 0
0 1 0 . 0 0
yt 2• = [ yt1 ] , yt∗2• = [ yt 3 ] , zt 2• = [ 1 zt1 zt 2 zt 3 ] , zt∗2• = [zt 4 ] ,
Equação 2
γ ( 2 ) = [β 2 ] , δ ( 2)
β1 β = 3 , m2 = 1 , m2∗ = 1 , q2 = 4 , q2∗ = 1 , β4 β 5
1 0 1 S2y = 0 e S 2z = 0 0 0 0
0 1 0 0 0
0 0 1 0 0
0 0 0 . 1 0
yt 3• = [ yt 2 ] , yt∗3• = [ yt1 ] , zt 3• = [ 1 zt1 zt 2 zt 3 zt 4 ] , zt∗3• não existe,
Equação 3
γ (3) = [γ 2 ], δ (3)
γ 1 γ 3 = γ 4 , m3 = 1 , m3∗ = 1 , q3 = 5 , q3∗ = 0 , γ 5 γ 6
Capítulo 6 – Modelos de Equações Simultâneas 1 0 0 S3y = 1 e S3z = 0 0 0 0
0 1 0 0 0
0 0 1 0 0
0 0 0 1 0
0 0 0 . 0 1
14
∇
Suponha-se que no exemplo 6.5 a variável zt 4 , embora fazendo parte da lista de variáveis instrumentais (representada pelo vector zt • ) não figura na terceira equação do modelo. Em termos gerais, trata-se de uma situação em que pelo menos uma variável pré-determinada não aparece em qualquer equação do modelo. Para fixar ideias, suponha-se que no sistema (6.2), yt •Γ + zt • ∆ = ut • , a variável ztq não figura no sistema, e, no entanto, faz parte de zt • . Neste caso, a última linha da matriz ∆ é nula. Vai provar-se que a projecção linear MQ de yti sobre zt • , E ∗ ( yti | zt • ) , é igual a projecção linear MQ de yti sobre zt∗• , E ∗ ( yti | zt∗• ) , onde zt∗• = [ zt1 zt 2 L zt , q −1 ] (note-se que zt • = [ zt∗• ztq ]). Como | Γ | ≠ 0 , pode obter-se a forma reduzida, yt • = zt •Π + vt • , onde a última linha de Π = ∆ Γ −1 é nula. Então, facilmente se conclui que E ∗ ( yti | zt • ) = zt •π •i = zt∗•π •∗i = E ∗ ( yti | zt∗• ) ,
onde π •i é a coluna i da matriz Π , e π •i∗ é o subvector de π •i , retirando-lhe o último elemento (que é nulo). 6.4 - Identificação
Considere-se a equação i de um modelo completo de equações simultâneas, yti = yti •γ ( i ) + zti •δ ( i ) + uti = xti • β •i + uti .
Sabe-se que a condição de característica para a identificação desta equação (dos seus coeficientes) – que apenas admite restrições de exclusão – é que a matriz de tipo q × ki , Qzxi = E ( ztT• xti • ) , exista e verifique r (Qzxi ) = ki . Sabe-se que a forma reduzida correspondente às variáveis endógenas incluídas em yti • (variáveis endógenas explicativas consideradas na equação i) é yti • = zt •Π i + vti • , onde Π i = Π Siy é a matriz q × mi dos respectivos coeficientes da forma reduzida, vti • é o vector 1× mi das correspondentes variáveis residuais, e E ( ztT•vti • ) = O . Notando que zti • = zt • Siz e que xti • = [ yti • zti • ] , resulta que Qzxi = E ( ztT• xti • ) = E ztT• yti • zti • = E ( ztT• yti • ) E ( ztT• zti • ) = E{ztT• ( zt •Π i + vti • )} E ( ztT• zt • Siz )
= E ( ztT• zt • ) Π i Siz .
Capítulo 6 – Modelos de Equações Simultâneas
15
Pode, então, concluir-se que a condição de característica r (Qzxi ) = ki (condição necessária e suficiente de identificação dos coeficientes da equação i) é equivalente a que a característica de [ Π i Siz ], matriz de tipo q × (mi + qi ) , seja igual a mi + qi ( ki = mi + qi ). Daqui decorre a condição necessária q ≥ mi + qi , que se chama condição de ordem. Como q − qi ≥ mi , a condição de ordem significa que o número de variáveis endógenas explicativas incluídas na equação i não pode ser superior ao número de variáveis pré-determinadas não incluídas na equação i. Suponha-se que num modelo completo de equações simultâneas, uma das variáveis pré-determinadas, ztq , não aparece em qualquer equação do modelo. Seja zt • = [ zt∗• ztq ].
A eliminação de ztq da lista dos instrumentos não altera a condição de característica para a identificação. Com efeito, notando que Qzxi = E ( ztT• xti • ) = E ( ztT• zt • ) Π i Siz ,
e que ztq não aparece no modelo, a última linha de Π i é nula, bem como a de Siz . Logo, a última linha de [ Π i Siz ] é nula. Então, eliminar ztq do vector zt • corresponde a eliminar a última linha de [ Π i Siz ], o que não altera a sua característica. O estudo da identificação pode ser generalizado de forma a incorporar quaisquer restrições sobre os parâmetros da forma estrutural. Para isso, vai considerar-se a forma reduzida, yt • = zt •Π + vt • , onde Ω = E (vtT•vt • ) . Pode concluir-se imediatamente que Π e Ω são identificados, uma vez que E ( ztT•vt • ) = O e Qzz = E ( ztT• zt • ) é não singular [notar, também, que os parâmetros da forma reduzida podem ser estimados, de forma consistente, pelo método MQ]. Põe-se, então, a questão de saber se a partir dos parâmetros da forma reduzida, (Π, Ω) , se podem determinar, de forma unívoca, os parâmetros estruturais, (Γ, ∆, Σ) , usando as relações entre os dois tipos de parâmetros: Π Γ + ∆ = O e Σ = ΓT Ω Γ . Como o número de parâmetros estruturais é m 2 + qm + m(m + 1) / 2 [ m2 parâmetros em Γ ; qm parâmetros em ∆ ; m(m + 1) / 2 parâmetros em Σ ], e o número de igualdades é qm + m(m + 1) / 2 [ qm igualdades em Π Γ + ∆ = O ; m(m + 1) / 2 igualdades em Σ = ΓT ΩΓ ], são necessárias, pelo menos, m 2 restrições adicionais sobre os parâmetros estruturais para que estes sejam identificados, isto é, sejam determinados de forma unívoca. Quando não se dispõe deste número de restrições não se podem identificar os parâmetros estruturais. Os tipos de restrições sobre os parâmetros estruturais são os seguintes: a) Restrições de normalização (cada coluna da matriz Γ tem um elemento igual a 1, ou seja, em cada equação há uma variável endógena que tem coeficiente unitário). b) Restrições de exclusão (alguns elementos das matrizes Γ e ∆ são nulos, ou seja, algumas variáveis endógenas ou pré-determinadas não estão incluídas em certas equações). c) Restrições lineares intra-equações (restrições lineares sobre os coeficientes de uma dada equação estrutural).
16
Capítulo 6 – Modelos de Equações Simultâneas
d) Restrições lineares inter-equações (restrições lineares que envolvem coeficientes de várias equações estruturais). e) Restrições sobre variâncias e covariâncias (restrições sobre os elementos de Σ ). Como, quase sempre, existem m restrições de normalização, o número mínimo de restrições adicionais necessárias passa a ser m 2 − m = m(m − 1) . As restrições de tipo b) são um caso particular das restrições de tipo c). De momento, não vão considerar-se restrições dos tipos d) e e). Deste modo, basta ter m − 1 restrições de tipo c) sobre os coeficientes de uma certa equação para se poder identificar os respectivos coeficientes. Se for possível identificar os parâmetros da matriz Γ , ficam imediatamente identificados os parâmetros da matriz Σ por meio da relação Σ = ΓT ΩΓ . A partir de ΠΓ + ∆ = O , e fazendo
Γ Α = Π I q e Φ = , ∆
obtém-se ΑΦ = O , onde Α e Φ são de tipo q × (m + q) e (m + q) × m , respectivamente. Para identificar a equação estrutural i (ou os seus coeficientes), yt •γ •i + zt •δ •i = uti , vai considerar-se a relação γ •i Αφ•i = 0 ⇔ Π I q = 0 , δ •i
[
onde
]
γ •i φ•i = δ •i
é a i-ésima coluna da matriz Φ . Trata-se de um sistema de q equações lineares independentes [pois r ( Α) = q ] com m + q − 1 incógnitas (considerando a respectiva restrição de normalização). É um sistema com grau de indeterminação m − 1 , sendo necessárias m − 1 restrições adicionais independentes para identificar os coeficientes. Considere-se um conjunto de ri restrições lineares sobre os elementos de φ•i , Ri φ•i = 0 ,
onde Ri é uma matriz ri × (m + q ) , com característica igual a ri < m + q . Juntando as duas relações, Α R φ•i = 0 , i
obtém-se um sistema de q + ri equações com m + q − 1 incógnitas. A identificação de φ•i exige que este sistema seja possível e determinado. Pode, então, enunciar-se a condição de característica para a identificação:
Capítulo 6 – Modelos de Equações Simultâneas
17
A condição necessária e suficiente de identificação da equação estrutural i (dos elementos do vector φ•i ) é que (6.7)
Α r = m + q − 1. R i
A respectiva condição de ordem (condição necessária de identificação de φ•i ) é q + ri ≥ m + q − 1 ou ri ≥ m − 1 , isto é, o número de restrições independentes é maior ou igual ao número de equações menos uma. Infelizmente, o cálculo daquela característica não é, em geral, tarefa fácil, uma vez que os elementos de Π são funções complicadas dos parâmetros estruturais. Contudo, demonstra-se, sem dificuldade, que (6.8)
Α r = m + q − 1 ⇔ r ( Ri Φ) = m − 1 . R i
Com efeito,
Π I q Γ O Α Π I q O Iq = r = r , r = r R R′ R′′ R Φ R′′ ∆ I ′ ′ ′ R R q i i i i i i i
onde
Γ O Ri = Ri′ Ri′′ e é não singular. ∆ I q
Como
− Ri′′ I ri Iq O
é não singular, vem
− Ri′′ I r1 O I q R Φ O Α = r i r = r = r ( Ri Φ ) + q . R O I I O ′ ′ Φ R R q q i i i
Donde, r ( Ri Φ ) + q = m + q − 1 ou r ( Ri Φ ) = m − 1 [esta condição só pode ser satisfeita se r ( Ri ) ≥ m − 1 , que é a condição de ordem já conhecida]. Em resumo: 1) A equação i não é identificável se e só se r ( Ri Φ ) < m − 1 . Pode, então, dizer-se que a equação i é sub-identificada. A sub-identificação surge, evidentemente, quando se tem r ( Ri ) < m − 1 . Nenhum método de estimação fornece estimadores consistentes dos coeficientes da equação i. 2) A equação i é exactamente identificada se e só se r ( Ri Φ ) = m − 1 e r ( Ri ) = m − 1 . Neste caso, os coeficientes estruturais podem ser expressos, de forma única, em função dos coeficientes da forma reduzida.
18
Capítulo 6 – Modelos de Equações Simultâneas
3) A equação i é sobre-identificada se e só se r ( Ri Φ ) = m − 1 e r ( Ri ) > m − 1 . Neste caso, existem vários modos de exprimir os coeficientes estruturais em função dos coeficientes da forma reduzida. No caso particular em que todas as restrições lineares intra-equações são restrições de exclusão, tem-se ri = mi∗ + qi∗ = (m − 1 − mi ) + (q − qi ) . Assim, a condição de ordem é (m − 1 − mi ) + (q − qi ) ≥ m − 1 ou q − qi ≥ mi (o número de variáveis pré-determinadas excluídas da equação i é maior ou igual ao número de variáveis endógenas incluídas menos uma). Como ki = mi + qi a condição de ordem pode ser apresentada da seguinte maneira: q ≥ ki (o número de variáveis pré-determinadas do sistema é maior ou igual ao número de regressores da equação i). Exemplo 6.7 – No exemplo 6.5, a matriz dos parâmetros estruturais é dada por
1 − α 2 − α3 − α1 Φ= − α 4 0 0 0
− β2 1 0
− β1
− β3
− β4 − β5 0
0 −γ2 1 − γ1 . − γ3 −γ4 − γ5 −γ6
O estudo da identificação é o seguinte: Equação 1
0 − β 4 − γ 4 0 0 0 0 0 1 0 0 R1 = 0 0 0 0 0 0 1 0 ; R1Φ = 0 − β5 − γ 5 . 0 0 − γ 6 0 0 0 0 0 0 0 1
Como r ( R1Φ ) = 2 e r1 = r ( R1 ) = 3 , a equação 1 é sobre-identificada. Equação 2 − α 3 0 1 0 0 1 0 0 0 0 0 R2 = . ; R2Φ = 0 0 − γ 0 0 0 0 0 0 0 1 6
Como r ( R2Φ ) = 2 e r2 = r ( R2 ) = 2 , a equação 2 é exactamente identificada. Equação 3 R3 = [ 1 0 0 0 0 0 0 0 ]; R3Φ = [ 1 − β 2 0 ].
Como r ( R3Φ ) = 1 , a equação 3 não é identificada.
∇
Capítulo 6 – Modelos de Equações Simultâneas
19
Exemplo 6.8 – Considere-se o modelo
y t 1 = α1 y t 2 + α 2 ( z t 1 − z t 2 ) + α 3 z t 3 + α 4 z t 4 + ut 1 y t 2 = β1 y t 1 + β 2 z t 2 + β 3 z t 3 + β 4 z t 4 + ut 2 ,
com a restrição 2 β 2 + β 3 = 0.5 (não homogénea). Tem-se: 1 − α1 − α 2 Φ= α2 − α3 − α 4
Equação 1:
− β1 1 0 . − β2 − β3 − β 4
R1= [ 0 0 1 1 0 0] ; R1Φ = [ 0 − β 2 ] .
Como r ( R1Φ ) = 1 e r1 = r ( R1 ) = 1 , a equação 1 é exactamente identificada. Equação 2: − α2 0 0 0 1 0 0 0 . R Φ = ; R2 = 2 − 0.5α1 + 2α 2 − α 3 0 0 0 .5 0 2 1 0
Como r ( R2Φ ) = 1 e r2 = r ( R2 ) = 2 , a equação 2 é sobre-identificada.
∇
O estudo da identificação pode ser aprofundada de modo a poder integrar restrições de tipo d) e e). Para isso, convém apresentar algumas definições no contexto dos modelos de equações simultâneas (MES): − Estrutura. Dado um MES, qualquer terno de matrizes (Γ, ∆, Σ) conhecido é uma estrutura. − Estrutura admissível. Dado um MES, uma estrutura (Γ, ∆, Σ) que satisfaz as restrições é uma estrutura admissível. − Modelo. O conjunto das estruturas chama-se modelo. − Estruturas equivalentes. Duas estruturas são equivalentes se e só se conduzem à mesma forma reduzida. Neste caso, existem dois ou mais conjuntos de valores dos parâmetros compatíveis com os dados. Diz-se, então, que aqueles conjuntos de valores são observacionalmente equivalentes.
Pode apresentar-se a seguinte propriedade: − Duas estruturas, (Γ, ∆, Σ) e (Γ∗ , ∆∗ , Σ∗ ) , são equivalentes se e só se existe uma transformação linear dada por uma matriz F, quadrada de ordem m e não singular, tal que Γ* = ΓF , ∆* = ∆ F e Σ* = F T Σ F .
Capítulo 6 – Modelos de Equações Simultâneas
20
Com efeito, multiplicando à direita ambos os membros de yt •Γ + zt • ∆ = ut • por F, obtém-se yt •ΓF + zt •∆ F = ut • F , ou yt •Γ∗ + zt • ∆∗ = ut∗• , onde ut∗• = ut • F . A forma reduzida correspondente é dada por yt • = − zt • ∆∗Γ∗−1 + ut∗•Γ∗−1 = − zt • ∆ F F −1Γ −1 + ut • F F −1Γ −1 = − zt • ∆ Γ −1 + ut •Γ −1 = zt •Π + vt • ,
que é a mesma forma reduzida de yt •Γ + zt • ∆ = ut • . Um caso especial obtém-se com F = Γ −1 , o que mostra que, evidentemente, a forma estrutural e a forma reduzida correspondem a estruturas equivalentes. A propriedade precedente significa que, sem restrições sobre os parâmetros estruturais, há muitas estruturas equivalentes; existe uma estrutura equivalente associada com cada matriz F não singular. Suponha-se que (Γ, ∆, Σ) é uma estrutura admissível. A matriz F representa uma transformação linear admissível se e só se (Γ∗ , ∆∗ , Σ∗ ) é também uma estrutura admissível. Para identificar o modelo, são necessárias restrições sobre os parâmetros estruturais (Γ, ∆, Σ) [informação a priori] de modo que F = I m represente a única transformação linear admissível. Começa-se por considerar apenas restrições de normalização [de tipo a)] e restrições lineares intra-equações [de tipo c), e, em particular, de tipo b)] para identificar a equação estrutural i, yt •γ •i + zt •δ •i = uti . Como Γ Γ* = ΓF , ∆* = ∆ F , Φ = , ∆
tem-se Φ∗ = ΦF e φ•∗i = Φ f •i , onde
γ ∗ Γ f •i φ•∗i = •∗i = δ •i ∆ f •i
e f •i é a coluna i da matriz F. Suponha-se que Ri φ•i = 0 (restrições lineares sobre os elementos de φ•i ), onde Ri é uma matriz ri × (m + q ) , tal que ri = r ( Ri ) < m + q . A condição que garante a identificação de φ•i deve ser tal que permita distinguir φ•i de qualquer outro vector da forma φ•∗i = Φ f•i . O vector φ•i∗ satisfaz as restrições lineares se e só se Ri φ•∗i = R1 (Φ f•i ) = ( R1Φ ) f •i = 0 .
Obviamente, a igualdade ( R1Φ ) f•i = 0 é verdadeira para 0 M f•i = e•i = 1 , M 0
com 1 na posição i, já que φ•∗i = Φ e•i = φ•i . Como ( R1Φ ) f•i = 0 se verifica para f•i = e•i , também se verifica para qualquer múltiplo de e•i , ci e•i . A chave do problema da identi-
Capítulo 6 – Modelos de Equações Simultâneas
21
ficação está em considerar que vectores f•i da forma ci e•i são os únicos que satisfazem a condição ( R1Φ ) f•i = 0 . Se esta condição é verdadeira para vectores f•i ≠ ci e•i , não há possibilidade de identificar φ•i . Afirmar que ( R1Φ ) f•i = 0 se verifica apenas para f•i = ci e•i , significa que o grau de indeterminação do sistema homogéneo ( R1Φ ) f•i = 0 é igual a 1 (o respectivo espaço das soluções tem dimensão 1), ou seja, a matriz do sistema, R1Φ , tem característica igual a m − 1 . A indeterminação é levantada quando se considera a restrição de normalização (pelo menos um dos coeficientes é igual a 1). Reencontra-se a condição de característica para a identificação, r ( Ri Φ ) = m − 1 . Seguidamente vai utilizar-se a metodologia anterior para estudar a identificação quando existem restrições inter-equações. Considere-se o seguinte modelo: (6.9)
yt1 = α1 yt 2 + α 2 zt1 + ut1 yt 2 = β1 yt1 + β 2 zt1 + β3 zt 2 + ut 2 .
Facilmente se verifica que a equação 1 é identificada, e que a equação 2 é sub-identificada. Contudo, com a informação adicional, α 2 + β 2 = 0 , fica garantido que a equação 2 passa a ser identificada. Fazendo f f F = 11 12 , f 21 f 22 vem
f12 − β1 f 22 1 − β1 f11 f12 f11 − β1 f 21 ΓF = = , − α1 1 f 21 f 22 − α1 f11 + f 21 − α1 f12 + f 22
− α 2 − β 2 f11 f12 − α 2 f11 − β 2 f 21 − α 2 f12 − β 2 f 22 ∆F = . = − β 3 f 21 − β3 f 22 0 − β3 f 21 f 22
Se a estrutura transformada (Γ∗ , ∆∗ , Σ∗ ) é admissível, verifica as mesmas restrições de que a estrutura (Γ, ∆, Σ) . Então, f11 − β1 f 21 = 1 − α1 f12 + f 22 = 1 − β3 f 21 = 0 (α f + β f ) + (α f + β f ) = 0. 2 21 2 12 2 22 2 11
Resolvendo este sistema de quatro equações lineares para determinar os elementos da matriz F, obtém-se F = I 2 (matriz identidade de segunda ordem), ficando garantida a identificação da equação 2. Um procedimento para abordar o problema da identificação, nestes casos, consiste em considerar a forma reduzida, yt1 = π 11 zt1 + π 21 zt 2 + vt1 yt 2 = π 12 zt1 + π 22 zt 2 + vt 2 ,
22
Capítulo 6 – Modelos de Equações Simultâneas e substituir estas expressões de yt1 e de yt 2 nas equações da forma estrutural. Assim, π 11 zt1 + π 21 zt 2 + vt1 = α1 (π 12 zt1 + π 22 zt 2 + vt 2 ) + α 2 zt1 + ut1 π 12 zt1 + π 22 zt 2 + vt 2 = β1 (π 11 zt1 + π 21 zt 2 + vt1 ) + β 2 zt1 + β3 zt 2 + ut 2 ,
ou
(π 11 − π 12α1 − α 2 ) zt1 + (π 21 − π 22α1 ) zt 2 = ut1 − vt1 + α1vt 2 (π 12 − π 11β1 − β 2 ) zt1 + (π 22 − π 21β1 − β 3 ) zt 2 = ut 2 + β1vt1 − vt 2 .
Como ut1 − vt1 + α1vt 2 = 0 e ut 2 + β1vt1 − vt 2 = 0 , vem
(π 11 − π 12α1 − α 2 ) zt1 + (π 21 − π 22α1 ) zt 2 = 0 (π 12 − π 11β1 − β 2 ) zt1 + (π 22 − π 21β1 − β 3 ) zt 2 = 0.
Considerando a equação 1 de (6.9), tem-se π 11 − π 12α1 − α 2 = 0 π 21 − π 22α1 = 0,
(6.10) e , portanto,
(6.11)
π 21 α1 = π 22 α = π − π π 21 , 11 12 2 π 22
concluindo-se que a equação 1 é exactamente identificada. Quanto à equação 2 de (6.9), tem-se (6.12)
π 12 − π 11β1 − β 2 = 0 π 22 − π 21β1 − β3 = 0.
Como
vem
ou
(6.13)
β 2 = −α 2 = −π 11 + π 12
π 21 , π 22
π 21 π 12 − π 11β1 + π 11 − π 12 π = 0 22 π − π β − β = 0 , 21 1 3 22 π 12 π 21 β1 = 1 + π 1 − π 11 22 β = π − π 1 + π 12 1 − π 21 , 22 21 3 π 11 π 22
donde resulta que a equação 2 é exactamente identificada.
Capítulo 6 – Modelos de Equações Simultâneas
23
Fica ao cuidado do leitor verificar que as igualdades que relacionam os parâmetros da forma estrutural com os parâmetros da forma reduzida podem ser deduzidas da relação Π Γ + ∆ = O . Neste caso, tem-se: π 11 π 12 1 − β1 − α 2 − β 2 0 0 = + . 0 − β 1 − π π α 0 0 3 21 22 1
Facilmente se verifica que se pode considerar o modelo de equações simultâneas que verifica a restrição α 2 + β 2 = 0 : basta substituir β 2 por − α 2 , ou seja, (6.14)
yt1 = α1 yt 2 + α 2 zt1 + ut1 yt 2 = β1 yt1 − α 2 zt1 + β3 zt 2 + ut 2 .
Este modelo pode formalizar-se de acordo com a notação (5.3) [ver capítulo 5]: y = X t • β + utT• . Com efeito, vem T t•
(6.15)
yt1 yt 2 zt1 y = 0 − z t1 t2
α1 0 0 α 2 ut1 , + yt1 zt 2 β1 ut 2 β3
onde zt1 y y ytT• = t1 , X t • = t 2 0 − zt 1 yt 2
α1 α 0 0 u , β = 2 e utT• = t1 . β1 yt1 zt 2 ut 2 β3
Como o vector dos instrumentos comuns é zt • = [ zt1 zt 2 ] , tem-se z z 0 0 Z t • = I 2 ⊗ zt • = t1 t 2 0 0 zt1 zt 2
e
E ( zt1 yt 2 ) E ( zt21 ) 0 0 E ( zt 2 yt 2 ) E ( zt1 zt 2 ) 0 0 . Qzx = E ( Z tT• X t • ) = 0 − E ( zt21 ) E ( zt1 yt1 ) E ( zt1 zt 2 ) 0 − E ( zt1 zt 2 ) E ( zt 2 yt1 ) E ( zt22 )
Obviamente as equações do modelo são identificadas porque se verifica a condição de característica: r (Qzx ) = 4 . Então, modelo com restrições pode ser estimado pelo método MGM. Pode, também, estudar-se a identificação introduzindo restrições sobre a matriz Σ (variâncias e covariâncias das variáveis residuais da forma estrutural). Considere-se o modelo que serviu para exemplificar a identificação com restrições lineares inter-equações, mas suponha-se que, em vez de α 2 + β 2 = 0 , a covariância entre ut1 e ut 2 é
Capítulo 6 – Modelos de Equações Simultâneas
24
nula, σ 12 = 0 . Dado que se tem uma restrição sobre Σ , importa, para além de ΓF e de ∆ F , considerar a matriz das covariâncias da estrutura transformada, 0 f11 f12 f112σ 11 + f 212σ 22 f11 f12σ 11 + f 21 f 22σ 22 f f σ F T Σ F = 11 21 11 = . 2 2 σ f f f f 0 f f σ f f σ f σ f σ + + 22 21 22 12 22 12 11 22 22 11 12 11 21 22 22
Então,
f11 − β1 f 21 = 1 − α f + f = 1 1 12 22 − β3 f 21 = 0 f11 f12σ 11 + f 21 f 22σ 22 = 0.
Verifica-se imediatamente que F = I 2 , e, portanto, a equação é identificada. Considerando a relação Σ = ΓT ΩΓ , é possível determinar os parâmetros estruturais em função dos parâmetros da forma reduzida. Tem-se: 1 − α1 ω11 ω12 1 − β1 Σ= − β1 1 ω12 ω22 − α1 1 − β1ω11 + α1β1ω12 + ω12 − α1ω22 ω11 − 2α1ω12 + α12ω22 = . 2 − + + − − + β ω α β ω ω α ω β ω β ω ω 2 1 1 12 12 1 22 1 11 1 12 22 1 11
A condição σ 12 = − β1ω11 + α1β1ω12 + ω12 − α1ω22 = 0 permite obter
β1 =
α1ω22 − ω12 . α1ω12 − ω11
Como já se conhecem as expressões de α1 e α 2 [ver (6.11)], e de β 2 e β 3 em função de β1 [ver (6.12)], é fácil de verificar que há apenas uma forma de escrever os parâmetros estruturais ( α1 , α 2 , β1 , β 2 , β 3 , σ 11 e σ 22 ) em função dos parâmetros da forma reduzida ( π 11 , π 12 , π 21 , π 22 , ω11 , ω12 e ω22 ). Pode, também, concluir-se que a equação 2 é exactamente identificada. A forma mais eficiente de utilizar as restrições sobre os elementos da matriz Σ é escrever o conjunto completo de condições de ortogonalidade, E ( ztT•uti ) ( i = 1,2, K , m ), e das restrições referidas, fazendo uti = yti − ( yti •γ (i ) + zti •δ (i ) ) . No caso do modelo que serve de exemplo, tem-se E ( zt1ut1 ) = E{zt1 ( yt1 − α1 yt 2 − α 2 zt1 )} = 0 ,
E ( zt 2ut1 ) = E{zt 2 ( yt1 − α1 yt 2 − α 2 zt1 )} = 0 ,
E ( zt1ut 2 ) = E{zt1 ( yt 2 − β1 yt1 − β 2 zt1 − β 3 zt 2 )} = 0 ,
E ( zt 2ut 2 ) = E{zt 2 ( yt 2 − β1 yt1 − β 2 zt1 − β3 zt 2 )} = 0 ,
E (ut1ut 2 ) = E{( yt1 − α1 yt 2 − α 2 zt1 )( yt 2 − β1 yt1 − β 2 zt1 − β3 zt 2 )} = 0 .
As condições de ortogonalidade fornecem um sistema de quatro equações lineares envolvendo os cinco coeficientes ( α1 , α 2 , β1 , β 2 , β 3 ):
Capítulo 6 – Modelos de Equações Simultâneas
25
E ( zt1 yt 2 ) α1 + E ( zt21 ) α 2 = E ( zt1 yt1 ) E ( zt 2 yt 2 ) α1 + E ( zt1 zt 2 ) α 2 = E ( zt 2 yt1 ) 2 E ( zt1 yt1 ) β1 + E ( zt1 ) β 2 + E ( zt1 zt 2 ) β3 = E ( zt1 yt 2 ) E ( z y ) β + E ( z z ) β + E ( z 2 ) β = E ( z y ). t 2 t1 1 t1 t 2 2 t2 3 t2 t2
A quinta equação, que resulta de σ 12 = E (ut1ut 2 ) = 0 , é manifestamente não linear nos parâmetros: E ( yt1 yt 2 ) = E ( yt21 ) β1 + E ( yt22 ) α1 − E ( yt1 yt 2 ) α1β1 + E ( zt1 yt1 )( β 2 − α 2 β1 ) + E ( zt1 yt 2 )(α 2 − α1β 2 ) + E ( zt 2 yt1 ) β3 − E ( zt 2 yt 2 ) α1β3 − E ( zt21 ) α 2 β 2 − E ( zt1 zt 2 ) α 2 β3 .
Como o sistema formado pelas cinco equações é não linear nos parâmetros, as condições sobre os momentos são não lineares. Nestas circunstâncias, o estimador adequado é o estimador MGM não linear, que vai ser estudado no capítulo 8.
6.5 - Estimação e inferência estatística Em geral, a estimação dos parâmetros de um modelo de equações simultâneas e respectiva inferência estatística não põem questões adicionais em relação ao que já se conhece dos modelos SER estudados no capítulo 5. Contudo, podem fazer-se os seguintes comentários: a) Quando a identificação dos parâmetros do modelo é feita exclusivamente à custa das restrições de normalização e de restrições de exclusão, a estimação dos parâmetros do modelo (6.6) pode ser feita com o estimador MGM eficiente com instrumentos comuns. Quando se admite a hipótese da homocedasticidade condicionada, pode recorrer-se ao estimador MQ3P. b) Quando a identificação recorre a restrições lineares intra ou inter-equações, não há dificuldades adicionais. c) Os testes de hipóteses sobre os parâmetros (individuais ou conjuntos), bem como os testes de sobre-identificação e de endogeneidade, podem efectuar-se nos moldes já conhecidos do capítulo 5. d) A opção entre a estimação conjunta e a estimação separada obviamente tem a ver com o trade-off entre a eficiência da primeira e a robustez da segunda. Este comentário é obviamente válido quando, no caso de homocedasticidade condicionada, se faz o confronto entre os estimadores MQ3P e SMQ2P. e) Como se sabe, existem dois casos em que o estimador MGM conjunto e o estimador MGM separado são equivalentes: a) cada equação do MES é exactamente identificada; b) pelo menos uma equação é sobre-identificada, mas as equações não estão “relacionadas” [para i ≠ l : E (utiutl ztiT• ztl • ) = O ; σ il = 0 (no caso de homocedasticidade condicionada)].
Capítulo 6 – Modelos de Equações Simultâneas
26
f) No anexo 8A do capítulo 8 estudam-se as respectivas contrapartidas no âmbito da máxima verosimilhança: os estimadores de máxima verosimilhança com informação completa (secção 8A.2) e com informação limitada (secção 8A.3). g) Como a forma reduzida de um MES é um modelo de regressão multivariada, os respectivos parâmetros podem ser estimados, de forma consistente, pelo método MQ (estimação separada). Contudo, admitindo que a forma estrutural está bem especificada, é possível estimar os parâmetros da forma reduzida com base nos estimadores dos parâmetros da forma estrutural (estimação conjunta). Assim, a partir de Γˆ , ∆ˆ e ˆ = (Γˆ −1 )T Σˆ Γˆ −1 . Pode provar-se que os estimaˆ = −∆ˆ Γˆ −1 e Ω Σˆ , podem calcular-se Π ˆ , são consistentes e dores dos coeficientes da forma reduzida, agrupados na matriz Π assintoticamente normais, embora as respectivas variâncias e covariâncias assintóticas sejam complicadas de obter. A questão do trade-off entre a eficiência e a robustez ainda é pertinente, devendo optar-se entre a estimação separada (dada pelo método MQ) e a estimação conjunta (baseada nos estimadores dos parâmetros da forma estrutural). h) Quando a identificação envolve restrições sobre a matriz dos segundos momentos das variáveis residuais, Σ , deve recorrer-se ao estimador MGM não linear (ver capítulo 8). i) Uma das hipóteses cruciais dos MES considerados neste capítulo é dada pelas condições de ortogonalidade, E ( zt •uti ) = 0 ( i = 1,2, K , m ), ou seja, apenas se admite que as variáveis residuais não estão correlacionadas com as variáveis instrumentais. Em alternativa, poder-se-ia introduzir a hipótese mais forte dada por E (uti | zt • ) = 0 , que implica que cada variável residual não está correlacionada com qualquer função dos instrumentos. É relativamente fácil encontrar situações em que a escolha entre as duas hipóteses tem que recair forçosamente na primeira. De facto, na prática, há muitos casos de modelos completos de equações simultâneas que não são plenamente estruturais, porque o número de equações estruturais disponíveis é menor do que o número de variáveis endógenas. A completude é obtida juntando ao modelo equações da forma reduzida de algumas variáveis endógenas (ver exemplo 6.4). Nestas situações, é inevitável escolher a hipótese da ortogonalidade. Quando o modelo completo é plenamente estrutural pode ser recomendável supor que E (uti | zt • ) = 0 . Haveria, então, a vantagem de as variáveis residuais não estarem correlacionadas com quaisquer funções dos instrumentos. Ilustrando com o exemplo 6.4, as variáveis expert 2 , qit2 , expert × qit , ln(expert ) (e muitas outras) não estariam correlacionadas com ut1 e ut 2 . Devem utilizar-se algumas funções não lineares de zt • como instrumentos adicionais para efectuar a estimação dos parâmetros? A resposta a esta pergunta tem consequências em dois aspectos: a identificação dos parâmetros e a eficiência assintótica dos estimadores. No que diz respeito ao primeiro aspecto, os possíveis instrumentos adicionais não tem qualquer interesse porque, como se referiu na secção 6.4, a introdução de variáveis instrumentais que não são regressores não altera a condição de característica para a identificação.
Capítulo 6 – Modelos de Equações Simultâneas
27
Vai analisar-se a seguir a questão da eficiência assintótica dos estimadores. Supondo que E (uti | zt • ) = 0 e que Cov(ut • | zt • ) = Σ (homocedasticidade condicionada), pode provar-se que o estimador MQ3P, com o vector de instrumentos zt • para cada equação, é assintoticamente eficiente. Deste modo, não vale a pena expandir a lista dos instrumentos para além das funções das variáveis pré-determinadas que já figuram no modelo. Mantendo a hipótese E (uti | zt • ) = 0 , mas admitindo que Cov(ut • | zt • ) não é constante (heterocedasticidade condicionada), pode melhorar-se o desiderato da eficiência assintótica dos estimadores. Seja o vector 1× g , h( zt • ) , de funções de zt • que não são regressores pré-determinados. Pode demonstrar-se que o estimador MGM que recorre aos instrumentos zt • e h( zt • ) é assintoticamente mais eficiente que o estimador MGM que apenas utiliza zt • . Esta expansão do vector de variáveis instrumentais não é muito usada na prática, por duas razões: pode não haver um critério claro para seleccionar h( zt • ) ; a qualidade dos estimadores em pequenas amostras pode ser prejudicada se o número de instrumentos adicionais é grande.
6.6 - Modelos de equações simultâneas não lineares nas variáveis endógenas Os modelos de equações simultâneas que vão ser considerados nesta secção são modelos não lineares nas variáveis endógenas, embora sejam lineares nos parâmetros. Estes modelos podem ser formalizados da seguinte maneira: (6.16)
yti = hi ( yt(•i ) , zt • ) β •i + uti ( i = 1,2, K , m ),
onde: − yt(i•) = [ yt1 yt 2 L yt ,1−1 yt ,i +1 L ytm ] é vector 1× (m − 1) das variáveis endógenas originais, excluindo a variável explicada da equação i, yti . − zt • é vector de tipo 1× q de todas as variáveis pré-determinadas originais. − hi ( yt(•i ) , zt • ) é uma função vectorial, de tipo 1× ki , de yt(i•) e de zt • . − E (uti | zt • ) = 0 . As questões da identificação e da estimação destes modelos não vão ser estudadas com generalidade, mas por meio de alguns exemplos elucidativos. Considere-se o seguinte modelo de equações simultâneas: (6.17)
yt1 = α1 yt 2 + α 2 yt22 + α 3 zt1 + ut1 yt 2 = β1 yt1 + β 2 zt 2 + ut 2 ,
onde: − zt • = [ zt1 zt 2 ];
− h1 ( yt 2 , zt • ) =[ yt 2 yt22 zt1 ], h2 ( yt1 , zt • ) =[ yt1 zt 2 ]; − E (ut1 | zt1 , zt 2 ) = 0 e E (ut 2 | zt1 , zt 2 ) = 0 .
Capítulo 6 – Modelos de Equações Simultâneas
28
Este sistema é linear nos parâmetros, o que é importante para permitir aplicar os métodos já conhecidos de estimação com variáveis instrumentais. No entanto, a presença do regressor endógeno yt22 na primeira equação torna o modelo não linear nas variáveis endógenas. Facilmente se conclui que a forma reduzida correspondente ao modelo (6.17) mostra que yt 2 é uma função não linear de zt1 , zt 2 , ut1 e ut 2 . Com efeito, considerando a segunda equação, tem-se yt1 = ( yt 2 − β 2 zt 2 − ut 2 ) / β1 ; substituindo na primeira equação, resulta a seguinte equação do segundo grau em yt 2 :
α 2 yt22 +
1 α1β1 − 1 β yt 2 + α 3 zt1 + 2 zt 2 + ut1 + ut 2 = 0 , β1 β1 β1
cuja fórmula resolvente é bem conhecida. Resolvendo esta equação, é possível obter de forma explícita a forma reduzida, embora não valha a pena fazer os cálculos. Supondo que α 2 ≠ 0 , deduz-se imediatamente que E ( yt1 | zt1 , zt 2 ) , E ( yt22 | zt1 , zt 2 ) e E ( yt 2 | zt1 , zt 2 ) não são lineares em zt1 e zt 2 . Estes factos têm importantes implicações na identificação da primeira equação de (6.17) e na escolha dos instrumentos. Outro exemplo de modelo não linear nas variáveis endógenas, em que nem sequer é possível obter explicitamente a forma reduzida, é dado por (6.18)
yt1 = α1 ln( yt 2 ) + α 2 zt1 + ut1 2 yt 2 = β1 yt1 + β 2 yt1 + β3 zt 2 + ut 2 ,
onde: − zt • = [ zt1 zt 2 ];
− h1 ( yt 2 , zt • ) =[ ln( yt 2 ) z t1 ], h2 ( yt1 , zt • ) =[ yt1 yt21 zt 2 ]; − E (ut1 | zt1 , zt 2 ) = 0 e E (ut 2 | zt1 , zt 2 ) = 0 .
Neste caso, E ( yt1 | zt1 , zt 2 ) , E ( yt21 | zt1 , zt 2 ) , E ( yt 2 | zt1 , zt 2 ) e E{ln( yt 2 ) | zt1 , zt 2 } não são lineares em zt1 e zt 2 . Uma forma possível de tratar o problema da identificação de (6.17) poderia consistir em fazer yt 3 = yt22 , e considerar esta variável como se fosse uma terceira variável endógena. Deste modo, obtinha-se o modelo (6.19)
yt1 = α1 yt 2 + α 2 yt 3 + α 3 zt1 + ut1 yt 2 = β1 yt1 + β 2 zt 2 + ut 2 ,
que é manifestamente não completo. De forma semelhante, fazendo yt 3 = ln( yt 2 ) e yt 4 = yt21 em (6.18), resultava o modelo não completo, (6.20)
yt1 = α1 yt 3 + α 2 zt1 + ut1 yt 2 = β1 yt1 + β 2 yt 4 + β 3 zt 2 + ut 2 .
Capítulo 6 – Modelos de Equações Simultâneas
29
Aparentemente a forma mais simples de completar estes modelos seria acrescentar as equações da forma reduzida das novas variáveis endógenas. Assim, tinha-se a partir de (6.19),
(6.21)
yt1 = α1 yt 2 + α 2 yt 3 + α 3 zt1 + ut1 yt 2 = β1 yt1 + β 2 zt 2 + ut 2 y = π z + π z + v , 13 t1 23 t 2 t3 t3
onde E ( zt1vt 3 ) = 0 e E ( zt 2vt 3 ) = 0 . Do mesmo modo, na sequência de (6.20),
(6.22)
yt1 = α1 yt 3 + α 2 zt1 + ut1 yt 2 = β1 yt1 + β 2 yt 4 + β3 zt 2 + ut 2 yt 3 = π 13 zt1 + π 23 zt 2 + vt 3 y = π z + π z + v , 14 t 1 24 t 2 t4 t4
onde E ( zt1vt 3 ) = 0 , E ( zt 2vt 3 ) = 0 , E ( zt1vt 4 ) = 0 e E ( zt 2vt 4 ) = 0 . Verifica-se imediatamente que a primeira equação de (6.21) e a segunda equação de (6.22) não são identificadas (o número de variáveis instrumentais não é suficiente). Contudo, quando em (6.17) se faz α 2 = 0 , o modelo resultante é linear nas variáveis endógenas e as duas equações são identificadas. O mesmo acontece em (6.18) quando se faz α1 = 0 e β 2 = 0 . No que se segue vai apenas retomar-se o primeiro exemplo [ver (6.17), (6.19) e (6.21)], ficando o segundo exemplo ao cuidado do leitor [ver (6.18), (6.20) e (6.22)]. A conclusão de que a primeira equação de (6.21) não é identificada pode ser torneada procurando-se outros instrumentos para a variável yt 3 = yt22 . Como E ( yt22 | zt1 , zt 2 ) não é linear em zt1 e zt 2 , outras funções destas variáveis podem aparecer na equação da forma reduzida de yt22 . De facto, supondo que α 2 = 0 [o modelo (6.17) é linear nas variáveis endógenas], vai considerar-se a forma reduzida de yt 2 : yt 2 = π 12 zt1 + π 22 zt 2 + vt 2 . Elevando ao quadrado esta equação, e sabendo que E (vt 2 | zt1 , zt 2 ) = 0 , vem (6.23)
2 2 E ( yt22 | zt1 , zt 2 ) = π 122 zt21 + π 22 zt 2 + 2π 12π 22 zt1 zt 2 + E (vt22 | zt1 , zt 2 ) .
Se E (vt22 | zt1 , zt 2 ) é constante (hipótese que se verifica se existe homocedasticidade condicionada em relação às variáveis residuais estruturais), então (6.23) mostra que zt21 , zt22 e zt1 zt 2 estão correlacionados com yt22 (desde que π 12 ≠ 0 ou π 22 ≠ 0 ), e, portanto, podem ser instrumentos de yt22 . Nestas condições, pode substituir-se (6.21) por
(6.24)
yt1 = α1 yt 2 + α 2 yt 3 + α 3 zt1 + ut1 yt 2 = β1 yt1 + β 2 zt 2 + ut 2 2 2 yt 3 = π 13 zt1 + π 23 zt 2 + π 33 zt1 + π 43 zt 2 + π 53 zt1 zt 2 + vt 3 ,
onde a terceira equação é a projecção linear MQ de yt22 sobre zt1 , zt 2 , zt21 , zt22 e zt1 zt 2 (forma reduzida de yt 3 ). A identificação da primeira equação do modelo (6.24) pode ser feita com a condição de característica habitual. Deve notar-se que o estudo da identificação pode ser feito considerando o modelo incompleto formado apenas pelas duas pri-
30
Capítulo 6 – Modelos de Equações Simultâneas
meiras equações ( m = 2 ), desde que considere que as variáveis instrumentais são zt1 , zt 2 , zt21 , zt22 e zt1 zt 2 . Este procedimento é equivalente àquele que se podia fazer com as três equações ( m = 3 ). Assim, tem-se 1 − β1 − α 1 1 − α 2 0 0 0 − α3 0 Φ= , R = 0 − β 2 1 0 0 0 0 0 0 0 0
0 0 0 0
0 0 0 0
0 0 0 0
1 0 0 0
0 1 0 0
0 0 1 0
0 0 − β 2 0 0 0 . e R1Φ = 0 0 0 1 0 0
Como r ( R1Φ ) = m − 1 = 1 , a primeira equação de (6.24) é identificada. Um método geral de identificação de modelos em que as funções não lineares das variáveis endógenas dependem apenas de uma das variáveis originais [como acontece no modelos (6.17) e (6.18)] foi proposto por Fisher (1965). O método de Fisher pode ser resumido da seguinte maneira: a) Considerar as funções não lineares das variáveis endógenas como novas variáveis endógenas. b) Juntar à lista dos instrumentos as variáveis instrumentais que resultam das funções referidas em a). c) Condição suficiente: considere-se o modelo linear que se obtém anulando os coeficientes das funções não lineares das variáveis endógenas originais. Se as equações deste modelo linear são identificadas (com a lista inicial de instrumentos), então as equações do modelo não linear também são identificadas (com a nova lista de instrumentos). Em geral, pode provar-se a condição suficiente do método de Fisher, mesmo que E (v | zt1 , zt 2 ) dependa de zt1 e zt 2 ; apenas não se verifica no caso patológico em que esta função de zt1 e zt 2 , E (vt22 | zt1 , zt 2 ) , anula as outras parcelas de E ( yt22 | zt1 , zt 2 ) [ver (6.23)]. Aplicando o método de Fisher a (6.17), tem-se: a) Faz-se yt 3 = yt22 . b) A lista original de instrumentos é ( zt1 , z t 2 ) [instrumentos do modelo linear correspondente a α 2 = 0 ]. A nova lista de instrumentos é dada por ( zt1 , zt 2 , zt21 , zt22 , zt1 zt 2 ) [instrumentos do modelo (6.24)]. c) O modelo linear referido em b) é identificado, utilizando ( zt1 , z t 2 ). O modelo (6.24) é identificado recorrendo à nova lista de instrumentos, ( zt1 , zt 2 , zt21 , zt22 , zt1 zt 2 ) [podendo fazer-se a identificação usando apenas as duas equações estruturais de (6.24)] Deve notar-se que é inútil utilizar a nova lista de instrumentos para identificar o modelo linear porque a projecção linear de yt 2 sobre zt1 , zt 2 e qualquer função de ( zt1 , zt 2 ) depende apenas de zt1 e zt 2 . 2 t2
Capítulo 6 – Modelos de Equações Simultâneas
31
Sem dificuldade se mostra que a condição de Fisher é suficiente, mas não é necessária. Com efeito, considere-se o seguinte modelo: (6.25)
yt1 = α1 yt 2 + α 2 yt22 + α 3 zt1 + α 4 zt 2 + ut1 yt 2 = β1 yt1 + β 2 zt 2 + ut 2 .
Se α 2 = 0 , a primeira equação deste modelo não é identificada, mesmo que se pretenda acrescentar à lista das variáveis instrumentais iniciais, ( zt1 , zt 2 ), os instrumentos zt21 , zt22 e zt1 zt 2 . A primeira equação só é identificada se α 2 ≠ 0 , uma vez que neste caso é possível considerar zt1 , zt 2 , zt21 , zt22 e zt1 zt 2 como instrumentos de yt 2 e yt22 . Numa situação destas (em que a equação só é identificada com a introdução, talvez artificial, de variáveis endógenas não lineares, que são funções das variáveis endógenas originais), diz-se que se tem uma situação de identificação deficiente. Também se diz que a respectiva equação do modelo é deficientemente identificada. Se no modelo (6.24) não figura originalmente yt22 , a primeira equação não é identificada; a introdução desta variável, que porventura foi introduzida apenas para permitir a identificação, é, muitas vezes, uma solução insatisfatória do problema porque pode não haver fundamento teórico para justificar que yt22 é variável explicativa de yt1 . De salientar também que a identificação feita nos moldes descritos não permite testar H 0 : α 2 = 0 , uma vez que não há identificação quando a hipótese nula é verdadeira. Existem muitos outros modelos em que a identificação pode ser verificada mediante um raciocínio semelhante ao do método de Fisher. É o caso dos modelos com interacções entre uma variável endógena e uma variável pré-determinada ou dos modelos com interacções entre duas variáveis endógenas. Em qualquer dos casos, o modelo com interacções é identificado se o modelo sem interacções o for. Genericamente, uma boa prática consiste em verificar se é identificada a versão mais geral de modelo linear que se pode obter a partir do modelo não linear. Em caso afirmativo, a versão não linear é provavelmente identificada. Se a versão linear não é identificada, há que tomar as precauções devidas porque a identificação depende da presença de não linearidades, que normalmente não pode ser testada. A partir do momento em que o modelo está identificado, o que pressupõe que os instrumentos estão razoavelmente escolhidos, pode-se estimar os parâmetros pelo método MGM ou por um dos seus casos particulares mais adequados. Mais uma vez se deve pesar a conveniência de utilizar um estimador conjunto ou um estimador separado, atendendo ao trade-off entre eficiência assintótica e robustez. No caso de homocedasticidade condicionada, o método de estimação conjunta preconizado é o método MQ3P; optando, por um método separado, deve utilizar-se o estimador MQ2P. É importante notar que estes métodos de estimação devem aplicar-se directamente às equações estruturais do modelo. Para ilustrar esta preocupação, suponha-se que, por exemplo, se pretende estimar, pelo método MQ2P, a primeira equação do modelo (6.24). Para estimar de forma correcta esta equação deve utilizar-se a fórmula do estimador MQ2P [ver, por exemplo, (5.52)]. Poderia supor-se que também seria admissível estimar a equação fazendo os dois passos seguintes:
Capítulo 6 – Modelos de Equações Simultâneas
32
1º) Fazer a regressão MQ de yt 2 sobre zt1 , zt 2 , zt21 , zt22 e zt1 zt 2 , de forma a obter os respectivos valores ajustados, yˆt 2 . 2º) Fazer a regressão MQ de yt1 sobre yˆt 2 , yˆt22 e zt1 . Facilmente se conclui que as estimativas fornecidas por este método em dois passos e pelo método MQ2P não coincidem, com a agravante de que o estimador obtido por aquele método não é consistente. Muitas vezes, usa-se a expressão regressão proibida para designar uma regressão como a que fez no segundo passo daquele método. Assim, tem-se uma regressão proibida quando se substitui uma função não linear das variáveis endógenas pela mesma função não linear dos valores ajustados obtidos no primeiro passo de um método de estimação em dois passos. No exemplo referido, ao substituir yt22 por yˆt22 , o erro que se comete consiste em confundir a projecção linear MQ do quadrado (projecção linear MQ de yt22 sobre zt1 , zt 2 , zt21 , zt22 e zt1 zt 2 ) com o quadrado da projecção linear MQ (quadrado da projecção linear de yt 2 sobre zt1 , zt 2 , zt21 , zt22 e zt1 zt 2 ). Note-se que no primeiro passo do método MQ2P deve também fazer-se a projecção linear MQ de yt 3 = yt22 sobre zt1 , zt 2 , zt21 , zt22 e zt1 zt 2 , de forma a obter yˆt 3 . O respectivo segundo passo consiste em fazer a regressão MQ de yt1 sobre yˆt 2 , yˆt 3 e zt1 .
6.7 - Instrumentos não comuns Existem muitos modelos de equações simultâneas em que os instrumentos não são comuns a todas as equações. Considere-se, por exemplo, o seguinte modelo: (6.26)
htrabt = α1 + α 2lsalart + α 3educt + α 4idadet + α 5rendt + ut1 lsalart = β1 + β 2 htrabt + β3educt + β 4expert + β5empct + ut 2 ,
onde: htrab é o número de horas de trabalho; lsalar é o logaritmo do salário; educ é o número de anos de escolaridade; idade é a idade do trabalhador; rend é o rendimento além do salário; exper é o número de anos de experiência profissional; empc é o número de anos de trabalho na empresa corrente. A primeira equação é a da oferta de trabalho; a segunda, é a equação de oferta de salário. Supõe-se que na primeira equação os regressores educ, idade e rend são pré-determinados: E (educt ut1 ) = 0 , E (idadet ut1 ) = 0 e E (rendt ut1 ) = 0 . Admite-se, ainda, que as variáveis exper e empc são pré-determinadas: E (expert ut1 ) = 0 e E (empct ut1 ) = 0 . Como aptid (aptidão do trabalhador) faz parte da variável residual da segunda equação, supõe-se que educ é um regressor endógeno: E (educt ut 2 ) ≠ 0 . Os regressores exper e empc são pré-determinados: E (expert ut 2 ) = 0 e E (empct ut 2 ) = 0 . As outras variáveis pré-determinadas são idade e rend: E (idadet ut 2 ) = 0 e E (rendt ut 2 ) = 0 . O modelo (6.26) é incompleto. Para o tornar completo, vai acrescentar-se uma terceira equação: a equação da forma reduzida de educ. O modelo completo é dado por
(6.27)
htrabt = α1 + α 2lsalart + α 3educt + α 4idadet + α 5rendt + ut1 lsalart = β1 + β 2 htrabt + β3educt + β 4expert + β 5empct + ut 2 educ = π + π idade + π rend + π exper + π empc + v , t 13 23 t 33 t 43 t 53 t t3
Capítulo 6 – Modelos de Equações Simultâneas
33
onde E (idadet vt 3 ) = 0 , E (rendt vt 3 ) = 0 , E (expert vt 3 ) = 0 e E (empct vt 3 ) = 0 . Os vectores das variáveis instrumentais são: − Primeira equação: zt1• = [ 1 educt idadet rendt expert empct ]; − Segunda equação: zt 2• = [ 1 idadet rendt expert empct ].
Como
xt1• = [ 1 lsalart educt idadet rendt ] e xt 2• = [ 1 htrabt educt expert empct ],
as duas equações são identificadas. De facto, tem-se: a matriz Qz1 x1 = E ( ztT1• xt1• ) é de tipo 6 × 5 , e r (Qz1 x1 ) = 5 ; a matriz Qz 2 x2 = E ( ztT2• xt 2• ) é de tipo 5 × 5 , e r (Qz 2 x 2 ) = 5 . Os métodos de estimação separada podem ser aplicados sem dificuldade, nomeadamente o método MQ2P (no caso de homocedasticidade condicionada). Contudo, no que diz respeito aos métodos de estimação conjunta, não é possível utilizar os métodos de estimação que pressupõem instrumentos comuns, como é o caso do método MQ3P. Neste método, exige-se que todos os instrumentos do modelo sejam ortogonais a todas as variáveis residuais. No exemplo em estudo, educ não é ortogonal à variável residual da segunda equação: E (educt ut 2 ) ≠ 0 . O método recomendado é obviamente o método MGM eficiente (com Wˆ = Sˆ −1 ), onde a matriz Z t • é dada por 0 1 educt idadet rendt expert empct 0 0 0 0 0 z . Z t • = t1• = 0 0 0 0 1 idadet rendt expert empct 0 zt 2 • 0 0
Continuando com o exemplo, vai analisar-se a estrutura da matriz S: E (ut21 ztT1• zt1• ) E (ut1ut 2 ztT1• zt 2• ) S= , T 2 T E (ut 2ut1 zt 2• zt1• ) E (ut1 zt 2• zt 2• )
ficando ao cuidado do leitor verificar que se trata de uma matriz quadrada de ordem 11, e escrever explicitamente cada um dos seus elementos. Vai seguidamente explorar-se a hipótese SER.6 (homocedasticidade condicionada), que, no caso de ser verdadeira, permitiria simplificar a matriz S da seguinte forma: σ E ( z T z ) σ 12 E ( ztT1• zt 2• ) S = 11 tT1• t1• . T σ 12 E ( zt 2• zt1• ) σ 22 E ( zt 2• zt 2• )
As igualdades E (ut21 ztT1• zt1• ) = σ 11E ( ztT1• zt1• ) e E (ut22 ztT2• zt 2• ) = σ 22 E ( ztT2• zt 2• ) pressupõem que E (ut21 | zt1• ) = σ 11 e que E (ut22 | zt 2• ) = σ 22 , respectivamente. Estas condições são razoáveis, uma vez que dizem respeito a cada uma das equações individualmente consideradas. Também se sabe que a igualdade E (ut1ut 2 ztT1• zt 2• ) = σ 12 E ( ztT1• zt 2• ) é implicada por E (ut1ut 2 | zt1• , zt 2• ) = σ 12 . Contudo, esta hipótese é pouco credível porque a variável residual ut 2 está correlacionada com educt , um dos elementos de zt1• . Nestas condições, há razões fortes para supor que E (ut1ut 2 | zt1• , zt 2• ) não é constante. Um caso em que se verifica E (ut1ut 2 ztT1• zt 2• ) = σ 12 E ( ztT1• zt 2• ) é quando E (ut1 | ut 2 , zt1• , zt 2• ) = 0 .
Com efeito, basta notar que
Capítulo 6 – Modelos de Equações Simultâneas
34
E (ut1ut 2 ztT1• zt 2• ) = E{E (ut1ut 2 ztT1• zt 2• | ut 2 , zt1• , zt 2• )} = E{E (ut1 | ut 2 , zt1• , zt 2• ) ut 2 ztT1• zt 2• } = 0 ,
e que E (ut1 | ut 2 , zt1• , zt 2• ) = 0 implica σ 12 = E (ut1ut 2 ) = 0 . Neste caso particular, σ 12 = 0 , o estimador MQ3P reduz-se, como se sabe do capítulo 5, ao estimador SMQ2P.
Capítulo 6 – Modelos de Equações Simultâneas
PALAVRAS-CHAVE Autonomia Causalidade Completude Condição de característica Condição de ordem Equação de comportamento Equação de definição Equação de equilíbrio Equação estrutural Equação institucional Equação técnica Equivalência observacional Estimação conjunta Estimação separada Estimador MGM (eficiente) Estimador MQ3P Estimador SMQ2P Estrutura (admissível) Estruturas equivalentes Forma estrutural Forma reduzida Heterocedasticidade condicionada Homocedasticidade condicionada Identificação deficiente Identificação (exacta) Inferência estatística Instrumentos não comuns Interacções Matriz de selecção Máxima verosimilhança Método de Fisher
Método generalizado dos momentos Modelo completo Modelo de equações simultâneas Modelo não linear nas variáveis endógenas Modelo de regressão multivariada Modelo SER Ortogonalidade Parâmetro da forma reduzida Parâmetro estrutural Raciocínio contrafactual Regressão proibida Regressor endógeno Regressor pré-determinado Relação de causalidade Restrição de exclusão Restrição (linear) inter-equações Restrição (linear) intra-equações Restrição de normalização Restrição de nulidade Restrição sobre variâncias e covariâncias Simultaneidade Sobre-identificação Sub-identificação Teste de endogeneidade Teste de hipóteses Teste de sobre-identificação Valor esperado condicionado estrutural Variável instrumental Variável residual Transformação linear admissível
35
Capítulo 6 – Modelos de Equações Simultâneas
36
PERGUNTAS DE REVISÃO 1. 2.
3.
4.
5. 6.
7.
8.
A que condição deve obedecer um modelo de equações simultâneas para ser completo? Considere um sistema de equações de regressão com instrumentos comuns e homocedasticidade condicionada. Em que condições este sistema é um modelo de equações simultâneas completo? Considere o modelo de equações simultâneas, yt • Γ + z t • ∆ = ui • (com dados seccionais), onde: yt • é o vector 1× m das variáveis endógenas; Γ é a matriz dos respectivos coeficientes; zt • é o vector 1× q das variáveis exógenas; ∆ é a matriz dos respectivos coeficientes. Enuncie a hipótese que permite obter a respectiva forma reduzida. Considere o seguinte modelo de equações simultâneas (forma estrutural): yt1 = β11 + β 21 yt 2 + β 31 zt1 + β 41 zt 2 + ut1 yt 2 = β12 + β 22 yt1 + β 32 zt 2 + β 42 zt 3 + ut 2 .
Determine as expressões das variáveis residuais da forma reduzida. Considere o modelo de equações simultâneas da pergunta anterior. Determine a matriz Π dos coeficientes da forma reduzida. Considere o modelo de equações simultâneas, yt • Γ + zt • ∆ = ut • (com dados seccionais), onde: yt • é o vector 1× m das variáveis endógenas; Γ é a matriz dos respectivos coeficientes; zt • é o vector 1× q das variáveis exógenas; ∆ é a matriz dos respectivos coeficientes; ut • é o vector 1× m das variáveis residuais. Utilizando a notação matricial, enuncie a hipótese da homocedasticidade condicionada. Considere o modelo de equações simultâneas, yt • Γ + zt • ∆ = ut • (com dados temporais), onde: yt • é o vector 1× m das variáveis endógenas; Γ é a matriz dos respectivos coeficientes; zt • é o vector 1× q das variáveis exógenas; ∆ é a matriz dos respectivos coeficientes; ut • é o vector 1× m das variáveis residuais. Enuncie a hipótese da ausência de autocorrelação. Considere o seguinte modelo de equações simultâneas, y t 1 = α 1 yt 2 + α 2 z t 1 + α 3 z t 2 + u t 1 yt 2 = β1 yt 1 + β 2 z t 2 + β 3 z t 3 + u t 2 ,
onde a matriz das covariâncias das variáveis residuais é a seguinte: Cov(ut1 , ut 2 ) σ 11 σ 12 Var (ut1 ) . = Σ= Var (ut 2 ) σ 12 σ 22 Cov(ut1 , ut 2 )
9.
Determine a variância de vt1 (variável residual da primeira equação da forma reduzida). Considere o seguinte modelo de equações simultâneas, y t 1 = α 1 yt 2 + α 2 z t 1 + α 3 z t 2 + u t 1 yt 2 = β1 yt 1 + β 2 z t 2 + β 3 z t 3 + u t 2 ,
Capítulo 6 – Modelos de Equações Simultâneas
37
onde a matriz das covariâncias das variáveis residuais é a seguinte: Cov(ut1 , ut 2 ) σ 11 σ 12 Var (ut1 ) Σ= = σ . Cov ( , ) Var ( ) u u u σ t1 t2 t2 22 12
10.
Determine a covariância entre vt1 e vt 2 (variáveis residuais das equações da forma reduzida). Diz-se que um sistema de equações de regressão linear é completo se e só se o número de equações é igual ao número de variáveis endógenas. Suponha que yt1 = β11 + β 21 xt1 + β 31 xt 2 + β 41 xt 3 + ut1 yt 2 = β12 + β 22 xt1 + β 32 xt 3 + ut 2 ,
11.
e que zt1• = zt 2• = [ 1 xt1 xt 2 xt 3 ]. Este modelo é completo? Justifique. Considere o seguinte sistema de equações de regressão linear: y = β + β y + β z + β z + u 11 21 t 2 31 t 1 41 t 2 t1 t1 yt 2 = β12 + β 22 yt1 + β 32 yt 3 + β 42 zt 2 + β 52 z t 3 + ut 2 y = β + β y + β z + β z + u , 13 23 t 4 33 t 3 43 t 4 t3 t 3
onde as variáveis yti são endógenas ( i = 1, 2, 3, 4 ), e as variáveis zth são pré-determinadas ( h = 1, 2, 3, 4 ). Suponha que o vector das variáveis instrumentais de cada equação é dado por z t • = [ 1 z t1 zt 2 z t 3 z t 4 ]. Acrescente-lhe a equação yt 4 = β14 + β 24 yt1 + β 34 z t 2 + β 44 z t 4 + ut 4 ,
12.
de modo a torná-lo completo. Suponha que existe homocedasticidade condicionada, e que pretende estimar os coeficientes desta equação pelo método MQ2P (mínimos quadrados em dois passos). Neste caso, descreva os dois passos deste método. Seja o seguinte sistema de equações de regressão linear: y = β + β y + β z + β z + u 11 21 t 2 31 t1 41 t 2 t1 t1 yt 2 = β12 + β 22 yt 3 + β 32 zt 2 + β 42 zt 3 + ut 2 y = β + β y + β z + β z + u , 13 23 t 4 33 t 3 43 t 4 t3 t 3
onde as variáveis yti são endógenas ( i = 1, 2, 3, 4 ), e as variáveis zth são pré-determinadas ( h = 1, 2, 3, 4 ). Suponha que o vector das variáveis instrumentais de cada equação é formado por todas as variáveis pré-determinadas. Acrescente-lhe a equação yt 4 = β14 + β 24 yt1 + β 34 z t 2 + β 44 z t 4 + ut 4 ,
de modo a torná-lo completo. Suponha que existe homocedasticidade condicionada, e que pretende fazer a estimação conjunta das equações do modelo. Diga qual é o método de estimação que deve utilizar (nota: este método é um caso particular do método MGM).
Capítulo 6 – Modelos de Equações Simultâneas 13.
38
15.
Considere o modelo completo referente à pergunta anterior. Construa a respectiva matriz dos coeficientes das variáveis endógenas. Indique a hipótese que deve verificar esta matriz para ser possível obter a forma reduzida. Considere um modelo de equações simultâneas na forma estrutural e a respectiva forma reduzida. Pode afirmar-se que a forma reduzida é um modelo de regressão multivariada? Porquê? Considere o seguinte modelo de equações simultâneas:
16.
Nestas condições, as equações do modelo não são identificadas. Sem recorrer à construção de Φ (matriz dos coeficientes do modelo) e de Ri ( i = 1, 2 ; matrizes das restrições), estude a identificação das equações do modelo, separadamente, para os seguintes casos: a) β 32 = 0 e β 42 = 0 ; b) β 21 = 0 ; c) β 42 + β 52 = 1 . Considere o seguinte modelo de equações simultâneas:
17.
onde β 21 + β 41 = 1 . Para o estudo da identificação, determine a matriz R1 das restrições relativas aos parâmetros da primeira equação. Considere o seguinte modelo de equações simultâneas completo:
18.
onde β 22 + β 52 = −1 . Para o estudo da identificação, determine a matriz R2 das restrições relativas aos parâmetros da segunda equação. Seja o seguinte sistema de equações de regressão linear:
14.
yt1 = β11 + β 21 yt 2 + β 31 zt1 + β 41 z t 2 + β 51 z t 3 + ut1 yt 2 = β12 + β 22 yt1 + β 32 zt1 + β 42 zt 2 + β 52 z t 3 + ut 2 .
yt1 = β11 + β 21 yt 2 + β 31 ( z t1 − zt 2 ) + β 41 z t 5 + ut1 yt 2 = β12 + β 22 yt1 + β 32 zt 2 + β 42 zt 3 + β 52 zt 4 + u t 2 ,
yt1 = β11 + β 21 yt 2 + β 31 ( z t1 − zt 2 ) + β 41 z t 5 + ut1 yt 2 = β12 + β 22 yt1 + β 32 ( z t 2 + z t 3 ) + β 42 ( z t 4 − z t 3 ) + β 52 zt 5 + ut 2 ,
y = β + β y + β z + β z + u 11 21 t 2 31 t1 41 t 2 t1 t1 yt 2 = β12 + β 22 yt 3 + β 32 zt 2 + β 42 zt 3 + ut 2 y = β + β y + β z + β z + u , 13 23 t 4 33 t 3 43 t 4 t3 t 3
onde as variáveis yti são endógenas ( i = 1, 2, 3, 4 ), e as variáveis zth são pré-determinadas ( h = 1, 2, 3, 4 ). Suponha que o vector das variáveis instrumentais de cada equação é formado por todas as variáveis pré-determinadas. Este modelo é completo? Se a resposta é não, reformule o modelo de maneira a torná-lo completo.
CAPÍTULO 7 DADOS DE PAINEL 7.1 - Apresentação do modelo No capítulo 1 (secção 1.8) já se referiu que um conjunto de dados de painel ou longitudinais é um conjunto de observações para um certo número de entidades designadas por unidades seccionais (por vezes, quando for conveniente, as unidades seccionais também se chamam grupos). Deste modo, um painel de dados tem duas dimensões: as unidades seccionais (por exemplo, pessoas, famílias, empresas, cidades, países, regiões, etc.), e as respectivas observações (ver quadro 1.4 do capítulo 1). Esta segunda dimensão é, em geral, o tempo, mas existem excepções. Por exemplo, pode existir painéis em que as unidades seccionais são pares de gémeos idênticos, e as observações dizem respeito a cada um dos irmãos. A distinção entre as duas dimensões não é indiferente porque tem a ver com o modo como se encara o processo de geração de dados (PGD). O ponto de vista que se vai adoptar neste capítulo é o dos micro-painéis: considera-se uma população formada por todas as unidades seccionais que podem ser observadas em determinadas datas (períodos ou momentos); o processo de amostragem refere-se a esta população. Esta concepção do PGD corresponde a muito painéis de dados disponíveis, em que se observam muitas unidades seccionais em algumas datas. Outro ponto de vista possível seria o seguinte: fixa-se um determinado conjunto de unidades seccionais (por exemplo, os países da União Europeia), e o processo de geração de dados é o processo estocástico que origina as observações temporais (a dimensão deste processo estocástico é igual ao produto do número de unidades seccionais consideradas pelo número das variáveis observadas). Neste caso, o número destas unidades pode ser relativamente pequeno, com séries temporais para cada uma delas. Adoptando o primeiro ponto de vista, suponha-se que o modelo econométrico pretende explicar o comportamento de uma variável y em função de k variáveis explicativas, x j ( j = 1, 2, K , k ) : o painel de dados é composto por p observações temporais (em datas pré-fixadas) de uma amostra de unidades seccionais, de tal modo que cada unidade é observada para as mesmas datas. Considere-se o modelo da população, (7.1)
yti = β1 xti1 + β 2 xti 2 + L + β k xtik + uti (t = 1, 2, K , p ; i = 1, 2, K) ,
2
Capítulo 7 – Dados de painel
onde: − yti é a observação t da variável explicada y para a unidade seccional i; − xtij é a observação t da variável explicativa x j ( j = 1, 2, K , k ) para a unidade seccional i; − β j ( j = 1, 2, K , k ) é o coeficiente de regressão de x j (estes coeficientes são os mesmos para todas as unidades seccionais); − uti é a variável residual correspondente à observação t da unidade seccional i. Fazendo
xti • = [ xti1
xti 2
β1 β L xtik ] e β = 2 , M βk
o modelo (7.1) pode ser apresentado da seguinte maneira: (7.2)
yti = xti • β + uti (t = 1, 2, K , p ; i = 1, 2, K) .
Deste modo, − xti• é o vector 1 × k da observação t das variáveis explicativas da unidade seccional i; − β é o vector k × 1 dos coeficientes de regressão das variáveis explicativas. Quando o modelo tem termo independente, como acontece muitas vezes, o primeiro elemento de cada vector xti• é igual a 1: xti1 = 1 . Outra forma de apresentar o modelo é a seguinte: (7.3)
y•i = X •i β + u•i (i = 1, 2, K) ,
onde:
u1i x1i • y1i u x y 2i y•i = , X •i = 2i • = [ x•i1 x•i 2 L x•ik ] e u•i = 2i , M M M u x y pi pi • pi
com
x1ij x 2 ij x•ij = ( j = 1, 2, K , k ) . M x pij
Assim: − y•i é o vector p × 1 (elemento genérico, yti ) das observações da variável explicada y da unidade seccional i; − X •i é a matriz p × k (elemento genérico, xtij ; linha genérica, xti • ; coluna genérica, x•ij ) das observações das variáveis explicativas da unidade seccional i;
Capítulo 7 – Dados de painel
3
− u•i é o vector p × 1 (elemento genérico, uti ) das variáveis residuais relativas à unidade seccional i. Dispondo de uma amostra de dimensão m, podem agrupar-se as m relações (7.3) numa única expressão matricial, (7.4) onde:
Y = Xβ + U ,
u•1 X •1 y•1 u X y •2 •2 , U = •2 . , X= Y= M M M u• m X •m y• m
Assim: − Y é o vector mp × 1 , formado pelos m subvectores y•i ; − X é a matriz de tipo mp × k , formada pelos m blocos X •i . − U é o vector mp × 1 , formado pelos m subvectores u•i . Exemplo 7.1 – Considere-se a função de produção [do tipo (4.33); ver capítulo 4, secção 4.2], ln(Qti ) = θ 0 + θ1 ln( Lti ) + uti (t = 1, 2, K , p ; i = 1, 2, K) ,
onde: Qti é a quantidade produzida pela empresa i no ano t; Lti é a quantidade de trabalho utilizado pela empresa i no ano t. Tem-se: ln(Q1i ) 1 ln( L1i ) θ 0 ln(Q2i ) 1 ln( L2i ) yti = ln(Qti ) ; xti • = [ 1 ln( Lti )] ; β = ; y•i = ; X •i = . M M M θ1 ln(Q pi ) 1 ln( Lpi ) ∇ Comparando as notações apresentadas com as do capítulo 5, podem fazer-se alguns comentários: 1) O modelo com as notações (7.2) ou (7.3) é formalmente semelhante a um sistema de equações de regressão com as notações (5.94) [notação A] ou (5.95) [notação B], respectivamente. Portanto, o ponto de partida para estudar os modelos com dados de painel é o modelo SER com coeficientes comuns. 2) Todos os resultados apresentados na secção 5.8 são válidos para os modelos com dados de painel. No presente capítulo, vão estudar-se algumas particularidades relativas a estes modelos. 3) Os papéis dos índices t e i estão trocados. Assim, em (5.94) ou (5.95) o índice i designa as equações, e o número destas é fixo (i = 1, 2, K , m) ; em (7.2) ou (7.3), o índice i refere-se às unidades seccionais, cujo número depende da dimensão da amostra
Capítulo 7 – Dados de painel
4
que se vai colher; em (5.94) ou (5.95), o índice t designa as observações (que podem ser seccionais ou temporais), em que o número respectivo depende da dimensão da amostra a seleccionar; em (7.2) ou (7.3), o índice t diz respeito ao número de observações temporais, que é fixo (t = 1, 2, K , p ) . 4) Pode, então, concluir-se que o modelo com dados de painel [(7.2) ou (7.3)] é formalmente um sistema de p equações de regressão lineares. 5) A notação privilegiada para estudar os modelos com dados de painel é a notação B dos modelos SER. Exemplo 7.2 – Considere-se o exemplo 5.14, mas supondo, agora, que se dispõe de um painel de dados de trabalhadores com observações em três anos (anos 1, 2 e 3) das variáveis salar, educ e qi. Os anos podem não ser consecutivos e terem uma frequência variável [por exemplo, 1995, 1999 e 2001. Assim: 1995 é o ano 1; o ano 2 de observação tem lugar 4 anos depois, em 1999; o ano 3 corresponde a 2001, dois anos depois do ano 2]. Supõe-se que: os coeficientes de educ e qi não variam com o tempo; o termo independente depende de t (devido, por exemplo, ao efeito do ciclo económico sobre os salários). O modelo pode ser formalizado do seguinte modo:
lsalar1i = θ1 + β1 educ1i + β 2 qii + u1i
lsalar2i = θ 2 + β1 educ2i + β 2 qii + u2i
lsalar3i = θ3 + β1 educ3i + β 2 qii + u3i ,
onde: lsalarti é o logaritmo do salário do indivíduo i no ano t; educti é o número de anos completos de escolaridade do indivíduo i no ano t; qii é o QI do indivíduo i. Este modelo pode ser formalizado como um modelo com coeficientes comuns, introduzindo três variáveis artificiais, uma para cada ano. Estas variáveis são definidas do seguinte modo: 1 (t = 1) 1 (t = 2) 1 (t = 3) d t1 = ; dt 2 = ; dt 3 = . 0 (t ≠ 2) 0 (t ≠ 3) 0 (t ≠ 1)
O modelo é, então,
lsalar1i = δ1 + δ 2 dt 2 + δ 3dt 3 + β1 educ1i + β 2 qii + u1i lsalar2i = δ1 + δ 2 dt 2 + δ 3dt 3 + β1 educ2i + β 2 qii + u2i lsalar3i = δ1 + δ 2 dt 2 + δ 3dt 3 + β1 educ3i + β 2 qii + u3i ,
onde θ1 = δ1 , θ 2 = δ1 + δ 2 e θ3 = δ1 + δ 3 . Fazendo
x1i • 1 0 0 educ1i lsalar1i y•i = lsalar2i ; X •i = x2i • = 1 1 0 educ2i x3i • 1 0 1 educ3i lsalar3i
δ1 δ qii 2 qii ; β = δ 3 , qii β1 β 2
Capítulo 7 – Dados de painel
5
o modelo pode escrever-se na forma (7.3). Tem-se p = 3 e k = 5 .
∇
7.2 - Hipóteses básicas
Nesta secção vão estabelecer-se as hipóteses básicas dos modelos com dados de painel, que vão ser designadas com o prefixo MCDP (modelo clássico de dados de painel). A primeira hipótese é o resumo das considerações feitas na secção anterior. Hipótese MCDP.1 – Linearidade y•i = X •i β + u•i (i = 1, 2, K) , onde: y•i é o vector p × 1 das observações da variável explicada y da unidade seccional i; X •i é a matriz p × k das observações das variáveis explicativas da unidade seccional i; β é o vector k × 1 dos coeficientes de regressão; u•i é o vector p × 1 das variáveis residuais relativas à unidade seccional i.
A segunda hipótese diz respeito às relações entre as variáveis explicativas (regressores) e as variáveis residuais. Hipótese MCDP.2 – Ortogonalidade Para a mesma unidade seccional i, cada vector xti • (t = 1, 2, K , p) é ortogonal a qualquer variável residual usi ( s = 1, 2, K , p) ,
(7.5)
E ( xti •usi ) = 0 (t , s = 1, 2, K , p) .
Podem fazer-se os seguintes comentários: a) A condição (7.5) pode ser apresentada de forma semelhante à hipótese (5.35) referida a propósito do estimador SMQGF. Com efeito, recordando que os índices têm os “papéis trocados”, (7.5) é equivalente a (7.6)
E (u•i ⊗ X •i ) = O ,
onde o produto de Kronecker é do tipo p 2 × k . b) A condição (7.5) é também formalmente semelhante à hipótese (5.83) referida a propósito do estimador SUR (com coeficientes comuns). Com efeito, seja z•i o vector q × 1 formado pela união dos elementos dos vectores xti• (t = 1, 2, K , p ) . Explorando a analogia entre (5.83) e (7.5), considere-se vector pq × 1 , z•iu1i z u •i 2i = u ⊗ z•i . g•i = M •i z•iu pi
Verifica-se, sem dificuldade, que (7.5) é equivalente a (7.7)
E ( g•i ) = E (u•i ⊗ z•i ) = 0 .
Capítulo 7 – Dados de painel
6
Note-se que a equivalência entre (7.6) e (7.7) está intimamente ligada ao facto de o vector z•i e a matriz X •i conterem a mesma informação. c) A hipótese da ortogonalidade, (7.5), pode ser substituída pela hipótese mais forte da exogeneidade estrita: (7.8)
E (uti | x1i • , x2i • , K , x pi • ) = E (uti | X •i ) = 0 (t = 1, 2, K , p) .
É fácil verificar que (7.8) implica (7.5). Deste modo, a exogeneidade estrita dos regressores implica que a variável residual correspondente à data t não está correlacionada com os regressores referentes a qualquer data s (t , s = 1, 2, K , p) . A condição (7.8) é equivalente a fazer (7.9)
E ( yti | X •i ) = E ( yti | xti • ) = xti • β .
d) Uma hipótese mais fraca que a da exogeneidade estrita é a exogeneidade contemporânea de xti • : (7.10)
E (uti | xti • ) = 0 (t = 1, 2, K , p) .
Neste caso, resulta que não há correlação entre uti e xti • (para a mesma data). Portanto, existe apenas ortogonalidade contemporânea entre as variáveis residuais e os regressores: (7.11)
E ( xti •uti ) = 0 (t = 1, 2, K , p) .
É imediato verificar que a condição (7.10) é equivalente a E ( yti | xti • ) = xti • β . e) Para ilustrar a diferença entre (7.8) e (7.10), considere-se que yti = β1 + β 2 yt −1,i + uti , onde xti • = [ 1 yt −1,i ]. Suponha-se que E ( yti | yt −1,i , yt − 2,i , K , y0i ) = E ( yti | yt −1,i ) = β1 + β 2 yt −1,i ,
o que significa que basta considerar o primeiro desfasamento da variável explicada, yt −1,i , como regressor para que a estrutura dinâmica do modelo esteja bem especificada. Conclui-se imediatamente que se verifica (7.10): E (uti | yt −1,i ) = 0 . Contudo, não se verifica (7.8). Com efeito, como xt +1,i • = [ 1 yti ], vem, para t = 1, 2, K , p − 1 , E (uti | x1i • , x2i • , K , x pi • ) = E (uti | y0i , y1i , K , y p −1,i )
= E ( yti − β1 − β 2 yt −1,i | y0i , y1i , K , y p −1,i ) = yti − β1 − β 2 yt −1,i = uti .
f) A condição (7.10) pode falhar mesmo que xti • não inclua a variável explicada desfasada. Seja, por exemplo, o modelo que relaciona a produção agrícola (pa) com a quantidade de trabalho utilizada (trab), para um conjunto de explorações agrícolas. Assim, tem-se pati = β1 + β 2trabti + uti , para alguns anos. Como os valores de trab podem ser escolhidos pelos agricultores, é razoável admitir que estes podem ajustar a quantidade de trabalho no futuro, em função da produção agrícola no presente e no passado. De forma simplificada, pode fazer-se trabti = α1 + α 2 pat −1,i + vti . Se α 2 ≠ 0 , não se verifica a hipótese (7.10) porque trabt +1.i depende de uti , e xt +1,i • inclui trabt +1.i .
Capítulo 7 – Dados de painel
7
Exemplo 7.3 – Retomando o exemplo 7.1, e supondo p = 2 , tem-se E (u•i ⊗ X •i ) = O , onde u 1 ln( L1i ) u•i ⊗ X •i = 1i ⊗ u2i 1 ln( L2i )
é uma matriz 4 × 2 . Alternativamente, fazendo
1 1 u1i z•i = ln( L1i ) e g•i = u•i ⊗ z•i = ⊗ ln( L1i ) , u2i ln( L ) ln( L2i ) 2i
resulta E ( g•i ) = 0 , onde g•Ti = [ u1i u1i ln( L1i ) u1i ln( L2i ) u2i u2i ln( L1i ) u2i ln( L2i )] .
∇
Exemplo 7.4 – No caso do exemplo 7.2, vem
u1i 1 0 0 educ1i qii u•i ⊗ X •i = u2i ⊗ 1 1 0 educ2i qii , u3i 1 0 1 educ3i qii
verificando-se E (u•i ⊗ X •i ) = O . De forma alternativa, obtém-se E ( g•i ) = 0 , onde o vector g •i é de tipo 15 × 1 . Tem-se 1 1 u1i educ1i educ1i z•i = educ2i e g•i = u•i ⊗ z•i = u2i ⊗ educ2i . u3i educ3i educ3i qi qii i ∇ A terceira hipótese refere-se ao processo de amostragem. Hipótese MCDP.3 – Amostragem casual O processo estocástico p(1 + k ) -dimensional, {( y•i , X •i ) : i = 1, 2, K} , é iid.
Como u•i = y•i − X •i β , o processo p-dimensional {u•i } também é iid. Então, se existir E (u•iu•Ti ) , está garantida a existência de homocedasticidade marginal, ou seja, (7.12)
E (u•iu•Ti ) = Σ ,
onde Σ é uma matriz quadrada de ordem p, com elemento genérico é σ ts = E (utiusi ) . No entanto, não está excluída a possibilidade de haver heterocedasticidade condicionada. Com efeito, nada garante que E (u•iu•Ti | X •i ) possa depender de X •i .
Capítulo 7 – Dados de painel
8
A quarta hipótese estabelece a condição característica para a identificação de β . Esta condição vai ser apresentada recorrendo ao vector z•i . Assim, começa-se por notar que a matriz Qzx , de tipo pq × k , é dada por E ( z•i x1i • ) E( z x ) •i 2i • Qzx = = E ( X • i ⊗ z• i ) . M E ( z•i x pi • )
Fica ao cuidado do leitor construir as matrizes Qzx referentes aos exemplos 7.1 e 7.2. Hipótese MCDP.4 – Condição de característica A matriz de tipo pq × k ,
(7.13)
Qzx = E ( X •i ⊗ z•i ) ,
existe e verifica r (Qzx ) = k .
Facilmente se mostra que as hipóteses MCDP.2 e MCDP.4 permitem identificar o vector β . Com efeito, substituindo u•i por y•i − X •i β em E (u•i ⊗ z•i ) = 0 , obtém-se E{( y•i − X •i β ) ⊗ z•i } = E ( y•i ⊗ z•i ) − E ( X •i ⊗ z•i ) β = qzy − Qzx β = 0 ,
~ em que qzy = E ( y•i ⊗ z•i ) . Então, atendendo àquelas hipóteses, o sistema Qzx β = qzy , de ~ pq equações a k incógnitas, é possível e determinado; a solução única é β = β . Para estabelecer a quinta hipótese vai construir-se a matriz S, ainda com base no vector z•i . Assim,
(7.14)
E (u12i z•i z•Ti ) E (u1iu2i z•i z•Ti ) L E (u1iu pi z•i z•Ti ) T T T 2 E (u2iu1i z•i z•i ) E (u2i z•i z•i ) L E (u2iu pi z•i z•i ) . T S = E ( g •i g •i ) = M M M E (u piu1i z•i z•Ti ) E (u piu2i z•i z•Ti ) L E (u 2pi z•i z•Ti )
Trata-se, portanto, de uma matriz quadrada de ordem pq , que pode ser escrita com a forma seguinte: S = E ( g•i g•Ti ) = E{(u•i ⊗ z•i )(u•Ti ⊗ z•Ti )} = E{(u•iu•Ti ) ⊗ ( z•i z•Ti )} . Fica ao cuidado do leitor construir as matrizes S para os exemplos 7.1 e 7.2.
Hipótese MCDP.5 – Existência e não singularidade da matriz S A matriz quadrada de ordem pq , (7.15)
S = E ( g•i g•Ti ) = E{(u•iu•Ti ) ⊗ ( z•i z•Ti )} ,
existe e tem inversa. A sexta hipótese postula a existência de homocedasticidade condicionada.
Capítulo 7 – Dados de painel
9
Hipótese MCDP.6 – Homocedasticidade condicionada Tem-se (7.16)
E (u•iu•Ti | X •i ) = Σ .
É importante fazer os seguintes comentários: a) Pelas razões já conhecidas, a condição (7.16) é equivalente a (7.17)
E (u•iu•Ti | z•i ) = Σ .
b) Obviamente (7.16) [ou (7.17)] implica E (u•iu•Ti ) = Σ . Assim, como se admite a possibilidade de σ ts ≠ 0 , pode existir autocorrelação (temporal) para a mesma unidade seccional. c) Quando há homocedasticidade condicionada, a matriz S pode simplificar-se. Com efeito, S = E ( g •i g•Ti ) = E{E ( g•i g•Ti | z•i )} = E ( E{(u•iu•Ti ) ⊗ ( z•i z•Ti ) | z•i }) = E{E (u•iu•Ti | z•i ) ⊗ ( z•i z•Ti )} = E{Σ ⊗ ( z•i z•Ti )} = Σ ⊗ E ( z•i z•Ti ) = Σ ⊗ Qzz ,
onde Qzz = E ( z•i z•Ti ) . Assim [ver (5.76)],
(7.18)
σ 11Qzz σ 12Qzz L σ 1 pQzz σ Q σ 22Qzz L σ 2 pQzz 21 zz . S = Σ ⊗ Qzz = M M M σ p1Qzz σ p 2Qzz L σ ppQzz
Então, a hipótese MCDP.5 é equivalente a exigir que as matrizes Σ e Qzz existem e têm inversa. d) Confrontando (7.14) com (7.18), resulta imediatamente que
E (uti2 z•i z•Ti ) = σ tt E ( z•i z•Ti ) e E (utiusi z•i z•Ti ) = σ ts E ( z•i z•Ti ) ( t ≠ s ),
onde σ ts = E (utiuts | z•i ) (t , s = 1, 2, K , p) . Vai provar-se que (7.19)
E (uti2 xtiT• xti • ) = σ tt E ( xtiT• xti • ) (t = 1, 2, K , p ) .
Com efeito, começa-se por notar que xtiT• = Dt z•i , onde a matriz Dt , de tipo k × q , é formada pelas primeiras k colunas da matriz identidade de ordem q. Tem-se: E (uti2 xtiT• xti • ) = E (uti2 Dt z•i z•Ti DtT ) = E{E (uti2 Dt z•i z•Ti DtT | z•i )} = E{E (uti2 | z•i ) Dt z•i z•Ti DtT }
= E{σ tt Dt z•i z•Ti DtT } = σ tt E ( Dt z•i z•Ti DtT ) = σ tt E ( xtiT• xti • ).
Da mesma forma, se demonstra que (7.20)
E (utiusi xtiT• xts • ) = σ ts E ( xtiT• xts • ) ( t ≠ s ).
Como E (uti2 | xti • ) = E (uti2 | z•Ti DtT ) = E (uti2 | z•i ) = σ tt , pode concluir-se que
Capítulo 7 – Dados de painel (7.21)
10
σ tt = E (uti2 | xti • ) (t = 1, 2, K , p ) .
e) Suponha-se que (7.22)
E (u•iu•Ti | X •i ) = Σ = σ u2 I p ,
condição conhecida pela designação de esfericidade das variáveis residuais. A hipótese (7.22) significa que: − Existe homocedasticidade condicionada temporal, σ tt = σ u2 ; − Não há autocorrelação, σ ts = 0 ( t ≠ s ). Então, (7.23)
E (uti2 xtiT• xti • ) = σ u2 E ( xtiT• xti • ) e E (utiusi xtiT• xts • ) = O ( t ≠ s ).
f) Admita-se que o vector das variáveis explicativas, xti • , é tal que (7.24)
E ( yti | xti • , yt −1,i , xt −1,i • , K , y1i , x1i • ) = E ( yti | xti • ) .
Esta condição significa que xti • inclui os desfasamentos suficientes de todas as variáveis de tal modo que o efeito parcial de eventuais desfasamentos adicionais é nulo. Quando se verifica (7.24), diz-se que o modelo é dinamicamente completo. É imediato constatar que a completude dinâmica é equivalente a (7.25)
E (uti | xti • , ut −1,i , xt −1,i • , K , u1i , x1i • ) = 0 .
Fica ao cuidado do leitor concluir que (7.25) [que é equivalente a (7.24)] implica E (utiusi | xti • , xts • ) = 0 . Portanto, a completude dinâmica implica E (utiusi xtiT• xts • ) = O [ver (7.23)] e E ( xti •uti ) = 0 . Quando o modelo verifica MCDP.6 (homocedasticidade condicionada), o estimador MGM eficiente é o estimador SUR com coeficientes comuns [que coincide com o estimador SMQGF (ver capítulo 5)]. No contexto dos modelos com dados de painel, é habitual designá-lo por estimador EA (de efeitos aleatórios; em inglês, random effects). A justificação desta designação vai ser feita mais adiante. As expressões relativas a este estimador são dadas por (5.110), (5.111) e (5.112), com as necessárias adaptações: (7.26)
βˆEA = ∑i =1 X •Ti Σˆ −1 X •i
(7.27)
Cov a ( βˆEA ) = E ( X •Ti Σ −1 X •i ) −1 ;
m
−1
m
i =1
X •Ti Σˆ −1 y•i
= { X T ( I m ⊗ Σˆ −1 ) X }−1 X T ( I m ⊗ Σˆ −1 )Y ;
−1 1 m m Cov a ( βˆEA ) = ∑i =1 X •Ti Σˆ −1 X •i = m ∑i =1 X •Ti Σˆ −1 X •i m = m{ X T ( I ⊗ Σˆ −1 ) X }−1. ^
(7.28)
∑
m
Para obter a matriz Σˆ , faz-se
−1
Capítulo 7 – Dados de painel
11
1 m ∑ uˆtiuˆsi (t , s = 1, 2,K, p) , m i =1 onde uˆti = yti − xti • βˆ (i = 1, 2, K , m) , e βˆ é um estimador consistente de β (por exemplo, o estimador PMQ). Assim, tem-se:
σˆ ts =
1 m Σˆ = ∑i =1 uˆ•iuˆ•Ti . m
O estimador (7.26) também pode ser apresentado com o formato de (5.25). Com efeito, tem-se βˆEA = ( S zxT Sˆ −1 S zx ) −1 S zxT Sˆ −1 s zy , onde:
1 m 1 m ( X •i ⊗ z•i ) = ∑i =1 ( I p ⊗ z•i ) X •i ∑ i = 1 m m [matriz pq × k , contrapartida amostral de Qzx ];
− S zx =
1 m 1 m ( y•i ⊗ z•i ) = ∑i =1 ( I p ⊗ z•i ) y•i ∑ i = 1 m m [vector pq × 1 , contrapartida amostral de qzy ];
− szy =
− Sˆ = Σˆ ⊗ S zz [matriz pq × pq , contrapartida amostral de S]; − S zz =
1 m z•i z•Ti [matriz q × q , contrapartida amostral de Qzz ]. ∑ = 1 i m
Muitas vezes, usa-se o estimador PMQ para estimar β , desprezando as correlações temporais entre as variáveis residuais (para a mesma unidade seccional i). Trata-se de um simples estimador MQ de β na relação (7.4), Y = Xβ + U (a amostra tem dimensão mp ; para cada variável, e para cada unidade seccional, há p observações temporais). Com as necessárias adaptações, tem-se [ver (5.118), (5.119) e (5.120)]: m = ∑i =1 X •Ti X •i
−1
∑
(7.29)
βˆ
(7.30)
Cov a ( βˆPMQ ) = E ( X •Ti X •i ) −1 E ( X •Ti Σ X •i ) E ( X •Ti X •i ) −1 ;
PMQ
X •Ti y•i = ( X T X ) −1 X T Y ;
1 m 1 m 1 m Cov a ( βˆPMQ ) = ∑i =1 X •Ti X •i ∑i =1 X •Ti Σˆ X •i ∑i =1 X •Ti X •i m m m −1 − T T T 1 = m ( X X ) { X ( I m ⊗ Σˆ ) X }( X X ) . ^
(7.31)
m
i =1
−1
−1
O estimador PMQ ainda é consistente e assintoticamente normal, bastando exigir a ortogonalidade contemporânea, E ( xti •uti ) = 0 (t = 1, 2, K , p ) [hipótese mais fraca do que (7.5)], e a condição r{E ( X •Ti X •i )} = k [hipótese mais fraca do que a condição de característica MCDP.4]. Esta condição garante que não há dependências lineares entre os regressores. Supondo a esfericidade das variáveis residuais, E (u•iu•Ti | X •i ) = Σ = σ u2 I p , vem
12
Capítulo 7 – Dados de painel
βˆEA = βˆPMQ = ∑i =1 X •Ti X •i
m
−1
Cov a ( βˆEA ) = σ u2 E ( X •Ti X •i ) −1 ,
∑
m
i =1
X •Ti y•i = ( X T X ) −1 X T Y ,
1 m Cov a ( βˆEA ) = σˆ u2 ∑i =1 X •Ti X •i = mσˆ u2 ( X T X ) −1 . m ^
−1
Quando o modelo não verifica a hipótese MCDP.6 (admite-se que pode existir heterocedasticidade condicionada), o vector dos coeficientes, β , pode ser estimado com o estimador MGM eficiente em que os coeficientes são comuns e o vector dos instrumentos (comuns) é a união de todos os regressores (como acontece nos exemplos 7.3 e 7.4). Continua a utilizar-se o estimador EA, mas a inferência estatística baseia-se no estimador da matriz robusta das covariâncias assintóticas de βˆEA dado por ^ m m m Cov a ( βˆEA ) = m ∑i =1 X •Ti Σˆ −1 X •i ∑i =1 X •Ti Σˆ −1uˆ•iuˆ•Ti Σˆ −1 X •i ∑i =1 X •Ti Σˆ −1 X •i . −1
−1
Os resultados obtidos são semelhantes ao do estimador SMQGF estudado no capítulo 5 [ver (5.43), (5.45) e (5.46)]. Suponha-se que o vector β foi estimado pelo método PMQ. Muitas vezes, é útil testar a existência de autocorrelação por duas razões: a autocorrelação não tem lugar num modelo dinamicamente completo; a presença de autocorrelação obriga a utilizar uma matriz robusta das covariâncias de βˆPMQ . Admita-se que a hipótese alternativa do teste de autocorrelação pressupõe que o processo das variáveis residuais é AR(1): (7.32)
uti = ϕ ut −1,i + ε ti (t = 2, 3, K , p ; i = 1, 2, K) ,
onde E (ε ti | xti • , ut −1,i , xt −1,i • , K , u1i , x1i • ) = 0 . A hipótese nula é H 0 : ϕ = 0 . A mecânica do teste é semelhante à do teste de Durbin alternativo (ver secção 3.10): 1) Fazer a regressão PMQ de yti sobre xti • , para obter os respectivos resíduos uˆti . 2) Fazer a regressão PMQ de uˆti sobre xti • e uˆt −1,i (t = 2, 3, K , p ; i = 1, 2, K , m) , de modo a obter o estimador ϕˆ do coeficiente de uˆt −1,i [numa situação de exogeneidade estrita, basta fazer a regressão PMQ de uˆti sobre uˆt −1,i ]. 3) No caso de homocedasticidade condicionada, a estatística-teste é o respectivo rácio-t clássico; caso contrário, usa-se o rácio-t robusto. Uma forma alternativa de proceder baseia-se no modelo (7.33)
yti = xti • β + ϕ ut −1,i + ε ti (t = 2, 3, K , p ; i = 1, 2, K) .
Como a variável residual não é observável, calculam-se os resíduos PMQ, uˆti , e faz-se a regressão PMQ de yti sobre xti • e uˆt −1,i (t = 2, 3, K , p ; i = 1, 2, K , m) . A estatística-teste é o rácio-t clássico ou robusto relativo ao coeficiente de uˆt −1,i , conforme existe ou não homocedasticidade condicionada. A presença do regressor gerado, uˆt −1,i , não
Capítulo 7 – Dados de painel
13
afecta a distribuição limite de ϕˆ porque ϕ = 0 , sob a hipótese nula. No caso de exogeneidade estrita, basta fazer a regressão PMQ de uˆti sobre uˆt −1,i . Para efectuar qualquer teste de heterocedasticidade condicionada, vai supor-se que E (uti | xti • ) = 0 (t = 1, 2, K, p) . A formalização do teste é a seguinte: H 0 : E (uti2 | xti • ) = σ u2 contra H1 : E (uti2 | xti • ) a depender de xti • .
Note-se que a hipótese nula é uma das hipóteses básicas para se poder utilizar o estimador PMQ sem recorrer à respectiva matriz robusta das covariâncias. Tal como na secção 3.9 (capítulo 3), vai considerar-se uma função vectorial de xt • , com r − 1 componentes: h( xti • ) = [ h2 ( xti • ) h3 ( xti • ) L hr ( xti • ) ]. Sob H 0 , esta função não está correlacionada com uti2 : Cov{h( xti • ), uti2 } = 0 . O teste baseia-se no modelo uti2 = α1 + hti •α + vti (t = 1, 2, K, p) , onde hti • = h( xti • ) e α = [ α 2 α 3 L α r ] T . Sob H 0 , tem-se E (vti | hti • ) = E (vti | xti • ) = 0 , α = 0 e α1 = σ 2 . Assim, o teste de heterocedasticidade condicionada consiste em testar H 0 : α = 0 contra H1 : α ≠ 0 . A mecânica deste teste é a seguinte: 1) Calcular os resíduos PMQ do modelo proposto, yti = xti • β + uti : uˆti . 2) Fazer a regressão auxiliar PMQ de uˆti2 sobre 1 e hti • . 3) A estatística-teste é mpR 2 → χ 2 (r − 1) , d
(7.34)
onde R 2 é o coeficiente de determinação da regressão auxiliar. A justificação da validade deste teste baseia-se nos mesmos argumentos apresentados na secção 3.9. Tal como nos testes de Breusch-Pagan e de White, a função hti • pode incluir, as k − 1 variáveis explicativas, assumindo a forma [ xti 2 xti 3 L xtik ], ou, adicionalmente, abranger os quadrados e os produtos de pares destas variáveis. Também se pode fazer hti • = [ yˆti yˆti2 ], onde yˆti = xti • βˆPMQ (valor ajustado de yti obtido com o método PMQ). Como a hipótese nula implica que E (uti2 ) = σ u2 (t = 1, 2, K , p) , esta condição pode ser testada directamente incluindo em hti • as p − 1 variáveis artificiais temporais, que são definidas da seguinte maneira: dt = 1 quando a observação do painel se refere à data t (t = 2, 3, K , p) [a data de referência é a primeira]. Se a heterocedasticidade condicionada for detectada, mas não a autocorrelação, os métodos de inferência estatística devem utilizar um estimador da matriz robusta das covariâncias de βˆPMQ . 7.3 - Motivação: o problema da omissão de variáveis revisitado
No modelo clássico com dados de painel estudado na secção anterior, a hipótese mais fraca que relaciona as variáveis explicativas com as variáveis residuais é a da ortogonalidade para a mesma data: E ( xti •uti ) = 0 (t = 1, 2, K, p) [ver (7.11)]. Contudo, este modelo não contempla uma situação presente em muitas aplicações com dados de pai-
Capítulo 7 – Dados de painel
14
nel: a equação estrutural subjacente ao modelo pode incluir factores explicativos não observáveis constantes no tempo que estão correlacionados com algumas variáveis explicativas. Nestas circunstâncias, a hipótese (7.11) pode ser demasiado forte. Nas secções seguintes vão estudar-se modelos com dados de painel que explicitamente incluem um efeito não observado constante no tempo, encarado como uma variável aleatória. Nesta secção vai mostrar-se que uma motivação importante para estudar este tipo de modelos é resolver o problema da omissão de variáveis (ver a subsecção sobre omissão de variáveis da secção 4.1 do capítulo 4). De forma mais precisa, vai ver-se que, em certas condições, os modelos com dados de painel podem ser usados para obter estimadores consistentes de parâmetros na presença de variáveis omitidas. Em termos gerais, considere-se uma variável aleatória (escalar), y, e um vector aleatório de tipo 1 × k , x = [ x1 x2 L xk ]. Supõe-se que estas k + 1 variáveis aleatórias são observáveis. A população de interesse é representada pelo vector formado por k + 2 variáveis aleatórias, [ y x1 x2 L xk α ], onde α é não observável (de acordo com a tradição dos modelos com dados de painel, a notação da variável aleatória não observável é uma letra grega; recorde-se que as letras gregas são geralmente usadas para representar os parâmetros). Admita-se que o modelo da população é E ( y | x, α ) (valor esperado condicionado estrutural), e que se pretende analisar os efeitos parciais de cada x j ( j = 1, 2, K , k ) sobre este valor esperado condicionado (naturalmente nesta análise ceteris paribus, α é encarado como uma constante). Suponha-se que E ( y | x, α ) = xβ + α (modelo linear em x e α ), onde β é o vector k × 1 dos parâmetros, e α entra no modelo de forma aditiva. É razoável supor que o coeficiente de α é igual a 1, uma vez que não faz sentido estimar o respectivo efeito parcial (como α não é observável, não tem uma unidade de medida natural). Introduzindo uma variável residual, v, o modelo pode formalizar-se do seguinte modo: y = xβ + α + v , onde E (v | x, α ) = 0 . Obviamente, há duas possibilidades sobre o comportamento de α : se α não está correlacionado com cada x j , Cov( x, α ) = 0 , então α é apenas mais um factor não observado que influencia y; se Cov( x, α ) ≠ 0 , isto é, se algum x j está correlacionado com α , incluir α na variável residual pode causar problemas sérios (sem mais informação não é possível estimar β de forma consistente). Recorde-se que se conhecem três maneiras de contribuir para a resolução deste problema: a) Recorrer a variáveis proxy para α (ver secção 4.1). Neste caso, pode utilizar-se o método MQ. b) Encontrar instrumentos para os x j que estão correlacionados com α . Nestas condições deve recorrer-se a um método de estimação MGM (MGM eficiente, VI, MQ2P). c) Utilizar indicadores de α (ver secção 4.3). Numa situação de indicadores múltiplos, usam-se os métodos de estimação MGM. Dispondo apenas de um conjunto de dados seccionais (referente a uma só data), as três soluções preconizadas esgotam praticamente os procedimentos para resolver o problema da omissão de variáveis. Contudo, se for possível recorrer a um painel de da-
Capítulo 7 – Dados de painel
15
dos (observações das mesmas unidades seccionais em várias datas), existem outras possibilidades. A hipótese crucial para a análise subsequente é que α seja constante no tempo (o efeito sobre a resposta média é o mesmo nas várias datas). Na terminologia dos modelos com dados de painel, uma variável não observável e constante no tempo é designada por efeito não observado. Este efeito é passível de várias interpretações: se as unidades seccionais são indivíduos, α i captura as respectivas características individuais como sejam a aptidão cognitiva, a motivação, os antecedentes familiares, etc.; no caso de empresas, o efeito não observado captura aspectos não observáveis como a qualidade da gestão, a estrutura da empresa, etc. Para simplificar, supõe-se que y e x são observados em duas datas ( t = 1, 2 ). Introduzindo o índice i para designar as unidades seccionais, o modelo da população pode escrever-se da seguinte maneira:
E ( yti | xti • , α i ) = xti • β + α i ( t = 1, 2 ; i = 1, 2, K ),
ou
yti = xti • β + α i + vti ( t = 1, 2 ; i = 1, 2, K ),
onde E (vti | xti • , α i ) = 0 . Esta condição implica E ( xti •vti ) = 0 e E (vtiα i ) = 0 . Supondo que E ( xti •α i ) = 0 , o vector β pode ser estimado pelo método PMQ. Se E ( xti •α i ) ≠ 0 , o estimador PMQ é inconsistente. Um procedimento para eliminar o efeito não observado consiste em considerar o modelo com os acréscimos temporais das variáveis observáveis, ∆yi = ∆xi • β + ∆vi , onde ∆yi = y2i − y1i , ∆xi • = x2i • − x1i • e ∆vi = v2i − v1i . Trata-se de um modelo de regressão linear em que o regressando e os regressores são as diferenças das variáveis originais. Para os elementos de xti • constantes no tempo (nomeadamente o termo independente), a respectiva diferença é nula. Deste modo, apenas é possível estimar os coeficientes β j que não correspondem a regressores originais constantes no tempo. Naturalmente as hipóteses para que o estimador MQ seja consistente são as seguintes: 1) Ortogonalidade: E (∆xi •∆vi ) = 0 ; 2) Condição de característica: r{E (∆xiT•∆xi • )} = k1 , onde k1 é o número de regressores do modelo com diferenças (número de elementos de xti • que variam no tempo). Podem-se fazer os seguintes comentários a estas hipóteses: 1) A hipótese da ortogonalidade é equivalente a E{( x2i • − x1i • )(v2i − v1i )} = 0 , ou
E ( x2i •v2i ) + E ( x1i •v1i ) − E ( x1i •v2i ) − E ( x2i •v1i ) = 0 .
As primeiras duas parcelas da igualdade anterior são nulas (os regressores são ortogonais às variáveis residuais en cada data). Contudo, a hipótese fundamental do modelo, E (vti | xti • , α i ) = 0 , não garante a nulidade das outras duas parcelas. Como a hipótese da ortogonalidade do modelo com diferenças não decorre da hipótese fundamental do modelo, é necessário exigir que E ( xti •vsi ) = 0 ( t , s = 1, 2 ). Note-se que não se impõe qualquer restrição relativamente à correlação entre xti • e α i .
Capítulo 7 – Dados de painel
16
2) Se a condição característica fosse substituída pela hipóptese r{E (∆xiT• ∆xi • )} = k , bastava que existisse um elemento de xti • constante no tempo para falhar esta hipótese. Esta conclusão pode ser apreciada da seguinte maneira: como α i pode estar correlacionado com elementos de xti • , o efeito de qualquer variável explicativa que é constante no tempo não se distingue do efeito de α i . Então, apenas pode estimar-se β j de forma consistente quando a componente j de xti • varia no tempo. Nas secções seguintes abordam-se várias formas de lidar com a presença de efeitos não observados, no contexto de vários conjuntos de hipóteses. 7.4 - O modelo com efeitos não observados
Retome-se o modelo (7.2) e suponha-se que a variável residual ou erro, uti , tem duas componentes, (7.35)
uti = α i + vti ,
(7.36)
yti = xti • β + α i + vti ( t = 1, 2, K , p ; i = 1, 2, K ),
onde a primeira componente, α i , não varia com t. Esta componente – que pode variar com i (unidade seccional), mas não com t (tempo) –, chama-se efeito não observado, heterogeneidade não observada ou variável latente. Se as unidades seccionais são indivíduos (pessoas), o efeito não observado pode também chamar-se o efeito individual ou heterogeneidade individual. O mesmo tipo de terminologia pode estender-se a famílias, empresas, cidades, etc. Por exemplo, no caso de empresas, tem-se o efeito empresarial ou a heterogeneidade empresarial. A outra componente, vti , representa o choque a que está submetida a unidade seccional i na data t (esta componente também se chama erro idiossincrático). Assim, o modelo (7.2) apresenta-se do seguinte modo: onde uti = α i + vti . O vector xti • pode incluir regressores que: variam com t e i; só variam com t; só variam com i. Fazendo v1i 1 v 1 2i , e , = v•i = M p M 1 v pi o sistema (7.3) pode apresentar-se do seguinte modo: (7.37)
y•i = X •i β + e pα i + v•i (i = 1, 2, K) ,
onde u•i = e pα i + v•i . É habitual designar o modelo com dados de painel, dado pelas notações (7.36) ou (7.37), por modelo com efeitos não observados (MENO), que decorre da decomposição do erro nas duas componentes referidas.
17
Capítulo 7 – Dados de painel
Quando se dispõe de uma amostra de dimensão m, na relação amostral (7.4), Y = Xβ + U , tem-se U = α ⊗ e p + V , onde: v•1 α1 v α α = 2 e V = •2 . M M v• m α m
Assim: − α é o vector m × 1 , de elemento genérico α i (i = 1, 2, K , m) . − V é o vector mp × 1 , formado pelos m subvectores v•i . A primeira hipótese deste modelo é o resumo das considerações anteriores: Hipótese MENO.1 – Linearidade com efeitos não observados y•i = X •i β + e pα i + v•i (i = 1, 2, K) , onde: y•i é o vector p × 1 das observações da variável explicada y da unidade seccional i; X •i é a matriz p × k das observações das variáveis explicativas da unidade seccional i; β é o vector k × 1 dos coeficientes de regressão; α i é o efeito não observado da unidade seccional i; v•i é o vector p × 1 dos choques ou erros idiossincráticos relativos à unidade seccional i.
Na abordagem tradicional dos modelos com dados painel era habitual encarar os efeitos não observados, α i , de duas formas distintas: considerá-los como variáveis aleatórias, e dizia-se, então que os α i eram os efeitos aleatórios; supor que os α i eram parâmetros a estimar, um por cada unidade seccional da amostra, dizendo-se, então, que os α i eram efeitos fixos. Esta distinção foi abandonada na abordagem moderna: os efeitos não observados são sempre considerados variáveis aleatórias, e a questão está em saber se estão correlacionados, ou não, com os regressores. Embora seja aconselhável adoptar o nome geral (ou seja, efeitos não observados), na gíria dos modelos com dados de painel é corrente usar o termo efeito aleatório quando α i não está correlacionado com xti • , E ( xti •α i ) = 0 , e o termo efeito fixo quando α i está correlacionado com algum elemento de xti • , E ( xti •α i ) ≠ 0 . Facilmente se conclui que E ( xti •usi ) = 0 (t , s = 1, 2, K , p) [hipótese MCDP.2] não implica a ortogonalidade entre os regressores e cada uma das componentes do erro. Pode, então, estabelecer-se a seguinte hipótese mais forte: Hipótese MENO.2 – Ortogonalidade entre os regressores e as componentes do erro Para a mesma unidade seccional i, cada vector xit • (t = 1, 2, K , p ) é ortogonal a α i (os efeitos são aleatórios),
(7.38)
E ( xti •α i ) = 0 (t = 1, 2, K , p ) ,
e a qualquer choque vsi , (7.39)
E ( xti •vsi ) = 0 (t , s = 1, 2, K , p) .
Capítulo 7 – Dados de painel
18
Obviamente a hipótese MENO.2 implica MCDP.2. Contudo, em muitas aplicações que utilizam dados de painel, a condição (7.38) é contestada, uma vez que o efeito não observado pode abranger algumas características permanentes da unidade seccional que estão correlacionadas com alguma variável explicativa. Note-se que não se estabelece qualquer hipótese de ortogonalidade entre α i e vsi (como se vai ver, uma hipótese deste tipo não é necessária para estabelecer as propriedades assintóticas dos estimadores a estudar adiante). Exemplo 7.5 – A função de produção referida no exemplo 7.1, na sequência das considerações que permitiram escrever (4.33) [ver capítulo 4, secção 4.2], pode ser escrita na forma
ln(Qti ) = θ 0 + θ1 ln( Lti ) + α i + vti , (t = 1, 2, K , p ; i = 1, 2, K)
onde α i é um indicador do nível de eficiência relativo da empresa i. No caso de concorrência perfeita, o efeito individual α i pode ter correlação positiva com a quantidade de trabalho utilizado, porque as empresas mais eficientes tendem a expandir-se, e, portanto, a contratar mais trabalhadores [ver (4.34)]. Se vti representa os choques ou erros idiossincráticos não previstos pela empresa quando são tomadas as decisões de contratação de trabalhadores, é razoável admitir que vti não está correlacionado com ln( Lti ) . ∇ Exemplo 7.6 – Retomando o exemplo 7.2, suponha-se que a variável residual uti (erro) se decompõe em duas parcelas: α i , que representa as características permanentes do trabalhador i, que podem afectar as suas escolhas individuais de escolaridade; os outros factores, vti , não correlacionados com os regressores, como sejam o erro de medida do logarítmo da taxa de salário. ∇
Podem fazer-se os seguintes comentários à hipótese MENO.2: a) A condição (7.38) pode ser substituída pela seguinte hipótese mais forte: (7.40)
E (α i | X •i ) = E (α i ) = 0 .
(7.41)
E (vti | X •i , α i ) = 0 (t = 1, 2, K , p ) .
(7.42)
E ( yti | X •i , α i ) = E ( yti | xti • , α i ) = xti • β + α i (t = 1, 2, K , p ) .
Sem perda de generalidade, pode fazer-se E (α i ) = 0 . É imediato concluir que (7.40) implica (7.38). b) A hipótese da exogeneidade estrita dos regressores e do efeito não observado é formalizada da seguinte maneira: Obviamente esta condição implica (7.39) e E (vtiα i ) = 0 , e é equivalente a
Deste modo, controlando xti • e α i , não existe efeito parcial de xsi • ( s ≠ t ) sobre yti .
19
Capítulo 7 – Dados de painel
c) A condição (7.42) é essencialmente diferente da exogeneidade estrita dada por (7.9), E ( yti | X •i ) = E ( yti | xti • ) = xti • β : no valor esperado condicionado de yti daquela condição, o efeito não observado é variável condicionante. Deve também notar-se que a condição (7.9) é menos plausível do que (7.42). Por exemplo, seja yti a quantidade produzida de um certo produto agrícola na herdade i no ano t, e xti • o vector das quantidades utilizadas dos respectivos factores de produção (capital, trabalho, fertilizantes, etc.).O efeito não observado, α i , captura a qualidade dos solos, a capacidade de gestão e outros factores constantes no tempo. A hipótese (7.42) significa que as quantidades de factores de produção utilizadas nos outros anos não influenciam a produção no ano corrente. Contudo, como a escolha óptima das quantidades de factores geralmente depende, em cada ano, de α i , é admissível que exista alguma correlação parcial entre a quantidade produzida no ano t e as quantidades utilizadas dos factores noutros anos, se α i não for controlado. Assim, a condição (7.42) é mais plausível do (7.9). Em termos gerais, facilmente se mostra que condição (7.9) falha quando se verifica (7.42) e se E (α i | X •i ) depende de X •i (em particular, se α i está correlacionado com algum elemento de xti • ). Com efeito,
E ( yti | X •i ) = E{E ( yti | X •i , α i ) | X •i } = E ( xti • β + α i | X •i ) = xti • β + E (α i | X •i ) ≠ xti • β .
d) Uma hipótese mais fraca que a da exogeneidade estrita é a exogeneidade contemporânea de xti • e de α i : (7.43)
E (vti | xti • , α i ) = 0 (t = 1, 2, K , p) .
Neste caso, resulta que não há correlação entre uti e xti • (para a mesma data). Portanto, existe apenas ortogonalidade contemporânea entre os erros idiossincráticos e os regressores: (7.44)
E ( xti •vti ) = 0 (t = 1, 2, K , p ) .
Quando as hipóteses MCDP.1 e MCDP.2 são substituídas, respectivamente, pelas hipóteses MENO.1 e MENO.2 é possível continuar a estimar o vector β pelo método PMQ [ver (7.29)]. Sabe-se que, entre as condições de ortogonalidade propostas, basta exigir a condição de ortogonalidade contemporânea entre os regressores e as variáveis residuais para garantir a consistência e a normalidade assintótica do estimador PMQ. Deste modo, a condição (7.39) pode ser substituída por (7.44). A hipótese de ortogonalidade crucial é a condição (7.38), E ( xti •α i ) = 0 , porque, supondo que se verifica (7.43) [o modelo está bem especificado], (7.44) decorre imediatamente de (7.43). Admitindo que E ( xti •α i ) = 0 , os erros compostos, uti = α i + vti , podem estar autocorrelacionados devido à presença de α i em cada data. De facto, como uti depende de α i para todas as datas, em geral, a correlação entre uti e usi ( t ≠ s ) não diminui quando a distância | t − s | aumenta [na próxima secção vai fazer-se a demonstração deste resultado quando os erros idiossincráticos, vti (t = 1, 2, K , p ) , são homocedásticos e não autocorrelacionados]. A presença de autocorrelação exige que a inferência estatística re-
Capítulo 7 – Dados de painel
20
corra ao estimador da matriz robusta das covariâncias assintóticas do estimador PMQ [ver (7.31)]. 7.5 - O estimador de efeitos aleatórios
Na análise com efeitos aleatórios supõe-se que o efeito não observado, α i , faz parte da variável residual ou erro composto, e que se verifica a hipótese MENO.2. Desta forma, as condições de ortogonalidade são mais fortes do que aquelas que são exigidas para o método PMQ. As condições (7.38) e (7.39) podem ser substituídas, respectivamente, pelas hipóteses mais fortes, (7.40) e (7.41). O modelo que verifica as hipóteses MENO.1, MENO.2, MCDP.3, MCDP.4 e MCDP.5 (e, eventualmente, MCDP.6) é o modelo de dados painel com efeitos aleatórios (MDP-EA). Assim, substituindo as hipóteses MCDP.1 e MCDP.2 por MENO.1 e MENO.2, respectivamente, pode estimar-se β pelo método SUR com coeficientes comuns [que coincide com o estimador SMQGF]: trata-se do estimador EA já conhecido [ver (7.26), (7.27) e (7.28)]. Note-se ainda que, tal como se faz no contexto do estimador SMQGF, a hipótese da condição de característica MCDP.4 pode ser substituída pela seguinte: (7.45)
r ( X •Ti Σ −1 X •i ) = k ,
(7.46)
E (v•i v•Ti ) = σ v2 I p ,
onde Σ = E (u•iu•Ti ) . A estrutura geral da matriz Σ admite a existência de autocorrelação das variáveis residuais, uti . A seguir vai explicitar-se a estrutura dessa matriz, supondo a esfericidade dos erros idiossincráticos: onde σ v2 = E (vti2 ) (t = 1, 2, K , p) . A condição (7.46) garante que os erros idiossincráticos verificam as seguintes hipóteses: a variância é constante no tempo; não há autocorrelação [ E (vti vsi ) = 0 , para t ≠ s ]. Deste modo, tem-se
E (uti2 ) = E{(α i + vti ) 2 } = E (α i2 ) + E (vti2 ) + 2 E (α i vti ) = σ α2 + σ v2 ,
onde σ α2 = E (α i2 ) , σ v2 = E (vti2 ) e E (α i vti ) = 0 . Fazendo σ u2 = E (uti2 ) , resulta (7.47)
σ u2 = σ α2 + σ v2 .
Facilmente se prova que (7.48)
E (utiusi ) = E{(α i + vti )(α i + vsi )} = σ α2 ( t ≠ s ).
Então,
σ α2 + σ v2 σ α2 L σ α2 σ α2 σ α2 + σ v2 L σ α2 T , Σ = E (u•iu•i ) = M M M 2 σ α2 L σ α2 + σ v2 σα
21
Capítulo 7 – Dados de painel ou (7.49)
Σ = σ α2 e p eTp + σ v2 I p .
Nestas circunstâncias, é habitual dizer que a matriz Σ tem a estrutura de efeitos aleatórios. Com esta estrutura, Σ não depende de p( p + 1) / 2 variâncias e covariâncias, mas apenas de dois parâmetros: σ α2 e σ v2 . O coeficiente de correlação entre entre uti e usi é dado por
Corr (uti , usi ) =
σ α2 ≥ 0 ( t ≠ s ), σ α2 + σ v2
ou seja, é o quociente entre a variância de α i e a variância do erro composto. Trata-se de uma medida da importância relativa do efeito não observado. Para obter o estimador EA de β é necessário dispor de estimadores consistentes 2 de σ α e σ v2 . Representando estes estimadores por σˆα2 e σˆ v2 , vem Σˆ = σˆα2 e p eTp + σˆ v2 I p . Para isso, começa-se por determinar σˆ u2 . Como σ u2 = E (uti2 ) , tem-se
σ u2 =
1 p E (uti2 ) , p ∑t =1
e, portanto, sem dificuldade se conclui que
σˆ u2 =
1 m p ~2 u , ∑ ∑ = =1 ti 1 i t mp − k
onde u~ti = yti − xti • βˆPMQ (resíduos PMQ). A determinação de um estimador consistente de σ α2 baseia-se em σ α2 = E (utiusi ) ( t ≠ s ). Como para cada i há p( p − 1) / 2 produtos utiusi diferentes, tem-se E ∑t =1
p −1
∑
p
p −1 p p −1 u u = ∑t =1 ∑ s =t +1 E (utiusi ) = σ α2 ∑t =1 ( p − t ) , ( 1 ) − p p . = σ α2 {( p − 1) + ( p − 2) + L + 2 + 1} = σ α2 2
s = t +1 ti si
Então, um estimador consistente de σ α2 é dado por
σˆα2 =
1 m p −1 p u~ u~ . ∑ ∑ ∑ = = = t +1 ti si i t s 1 1 mp( p − 1) / 2 − k
Logo, σˆ v2 = σˆ u2 − σˆα2 . Na secção seguinte apresentam-se outros métodos de estimar os parâmetros σ u2 e σ α2 (e, portanto, σ v2 ). Quando não se verifica a hipótese MCDP.6 (homocedasticidade condicionada), continua a usar-se o estimador EA de β , mas para fazer inferência estatística deve recorrer-se ao estimador da matriz robusta das covariâncias assintóticas de βˆEA [ver secção 7.2 e (5.46)].
Capítulo 7 – Dados de painel
22
7.6 - O estimador de efeitos fixos
Seja o modelo (7.36). O método EA para estimar β considera que α i é ortogonal a xti • e tem em conta a autocorrelação do erro composto ( uti = α i + vti ). Contudo, em muitas aplicações, a questão fulcral para usar dados de painel é permitir que α i esteja correlacionado com algum elemento de xti • . Felizmente, existe um estimador – o estimador de efeitos fixos (EF) –, que é consistente mesmo quando os regressores não são ortogonais ao efeito não observado, α i . Começa-se por fazer a seguinte partição do vector xti• : xti • = [ fti • hi • ],
onde: − f ti• é o vector 1 × k1 da observação t dos regressores que variam com o tempo (regressores não constantes) para a unidade seccional i (na secção 7A.1 do anexo 7A apresenta-se a construção deste vector a partir do vector z•i ); − hi• é o vector 1 × k 2 da observação t dos regressores que não variam com o tempo (regressores constantes) para a unidade seccional i. Esta partição induz a respectiva partição no vector dos coeficientes, φ β = , η
onde: − φ é o vector k1 × 1 dos coeficientes dos regressores não constantes; − η é o vector k 2 × 1 dos coeficientes dos regressores constantes. Nestas condições, tem-se
X •i = [ F•i H •i ] = [ F•i e p hi • ],
onde: − F•i é a matriz p × k1 (de elemento genérico f tij ) das observações dos regressores não contantes da unidade seccional i. A linha e a coluna genérica de F•i são, respectivamente, f ti• e f•ij . − H •i = e p hi• é a matriz p × k 2 das observações dos regressores contantes da unidade seccional i. Considerando a distinção entre regressores constantes e não constantes, e a decomposição do erro, o modelo (7.36) pode escrever-se da seguinte maneira: (7.50)
yti = xti• β + uti = f ti•φ + hi•η + α i + vti (t = 1, 2, K , p ; i = 1, 2, K) .
Da mesma forma, a partir de (7.37), tem-se (7.51)
y•i = X •i β + u•i = F•iφ + e p hi•η + e pα i + v•i (i = 1, 2, K) .
Capítulo 7 – Dados de painel
23
Pode, então, enunciar-se a seguinte hipótese: Hipótese MENO.1′ – Linearidade com regressores constantes e não constantes, e efeitos não observados y•i = F•iφ + e p hi•η + e pα i + v•i (i = 1, 2, K) , onde: y•i é o vector p × 1 (de elemento genérico yti ) das observações da variável explicada y da unidade seccional i; F•i é a matriz p × k1 (de elemento genérico f tij ) das observações dos regressores não constantes da unidade seccional i; φ é o vector k1 × 1 dos coeficientes dos regressores não constantes; hi• é o vector 1 × k 2 da observação t dos regressores contantes da unidade seccional i; η é o vector k 2 × 1 dos coeficientes dos regressores constantes; α i é o efeito não observado da unidade seccional i; v•i é o vector p × 1 (de elemento genérico vti ) dos choques relativos à unidade seccional i.
Como vai ver-se, o estimador EF obriga a fazer uma transformação do sistema (7.51). Esta transformação é a passagem a variáveis (temporalmente) centradas, utilizando, para cada variável do sistema, a média das observações relativas a cada unidade seccional i (demeaned data). Por exemplo, a média de y para as observações da unidade seccional i e a média dos erros idiossincráticos são, respectivamente, dadas por yi =
1 p 1 1 p 1 y = eTp y•i e vi = ∑t =1 vti = eTp v•i ∑ t =1 ti p p p p
Da mesma forma, se têm as médias para os regressores, xij = Em particular, fij =
1 p 1 T x e p x•ij (i = 1, 2, K; j = 1, 2, K , k ) . = ∑ tij p t =1 p
1 p 1 ftij = eTp f •ij (i = 1, 2, K; j = 1, 2, K , k1 ) . ∑ t 1 = p p
Como se sabe, a matriz utilizada para a transformação é a matriz de centragem [ver anexo 2B, (2B.4)], 1 1 1 1 − p − p L − p 1 1 1 − p 1− p L − p 1 T −1 T T . Pe = I p − e p (e p e p ) e p = I p − e p e p = p M M M 1 1 1 − L 1− − p p p
Então,
Capítulo 7 – Dados de painel
24
y1i − yi y − y i 2i c y•i = Pe y•i = = y•i − e p yi , X •ci = Pe X •i , F•ci = Pe F•i e v•ci = Pe v•i . M y pi − yi
O elemento genérico do vector y•ci é ytic = yti − yi ; o elemento genérico e a linha genérica da matriz X •ci são xtijc = xtij − xij e xtic • , respectivamente; o elemento genérico e a linha genérica da matriz F•ci são ftijc = ftij − fij e ftic• , respectivamente; o elemento genérico do vector v•ci é vtic = vti − vi . O modelo transformado, que se obtém multiplicando por Pe ambos os membros do y•i = X •i β + u•i , é dado por Pe y•i = Pe X •i β + Peu•i ⇔ y•ci = X •ci β + u•ci ,
(7.52) ou, ainda,
ytic = xtic • β + utic (t = 1, 2, K , p ) .
Quando se faz esta transformação pode haver um inconveniente importante: alguns parâmetros do modelo podem não ser identificados. No exemplo seguinte ilustram-se duas situações deste tipo.
Exemplo 7.7 – Considerando de novo o exemplo 7.2, a matriz X •ci é dada por 2 / 3 − 1 / 3 − 1 / 3 1 0 0 educ1i qii X •ci = Pe X •i = − 1 / 3 2 / 3 − 1 / 3 1 1 0 educ2i qii − 1 / 3 − 1 / 3 2 / 3 1 0 1 educ3i qii 0 − 1 / 3 − 1 / 3 educ1i − educi 0 = 0 2 / 3 − 1 / 3 educ2i − educi 0 . 0 − 1 / 3 2 / 3 educ − educ 0 3i i
Facilmente se conclui que δ1 e β 2 não são identificados. Fica ao cuidado do leitor verificar que, mesmo eliminando de X •ci a 5.ª coluna, a matriz 15 × 4 , X •ci ⊗ z•i , tem característica igual a 3, e, portanto, não se verifica a hipótese MCDP.4 para o modelo transformado (note-se que X •ci seria uma matriz 3× 4 , e que z•i , de acordo com o exemplo 7.4, é 5× 1 ). ∇ A transformação de y•i = F•iφ + e p hi •η + e pα i + v•i é a seguinte [ver (7.51)]: (7.53)
Pe y•i = Pe F•iφ + Pe (e p hi•η + e pα i ) + Pe v•i ⇔ y•ci = F•ciφ + v•ci (i = 1, 2, K) ,
uma vez que Pe (e p hi •η + e pα i ) = 0 . Pode também escrever-se ytic = f tic• φ + vtic (t = 1, 2, K , p) .
Verifica-se, sem dificuldade, que no sistema (7.53) as p equações são linearmente dependentes (há uma equação que é combinação linear das outras).
Capítulo 7 – Dados de painel
25
Tendo em conta a distinção entre regressores não constantes e regressores constantes (no tempo), as condições (7.38) e (7.39) da hipótese MENO.2 (ortogonalidade entre as componentes de erro e os regressores) podem ser desdobradas em quatro condições de ortogonalidade: a) E ( f ti •α i ) = 0 ou E ( F•iα i ) = O (ortogonalidade entre os regressores não constantes e o efeito não observado). b) E (hi •α i ) = 0 (ortogonalidade entre os regressores constantes e o efeito não observado). c) E ( f ti •vsi ) = 0 (ortogonalidade entre os regressores não constantes e os erros idiossincráticos). d) E (hi •vti ) = 0 (ortogonalidade entre os regressores constantes e os erros idiossincráticos). Se z•i é o vector q × 1 formado pela união dos elementos dos vectores fti • e hi • , as condições c) e d) podem resumir-se com E (v•i ⊗ z•i ) = 0 . Destas quatro condições, a hipótese de ortogonalidade a reter para o método EF é a seguinte:
Hipótese MENO.2′ – Ortogonalidade entre os regressores não constantes e os choques ou erros idiossincráticos Para a mesma unidade seccional i, cada vector fti • (t = 1, 2, K , p) é ortogonal a qualquer erro idiossincrático ou choque, vsi , (7.54)
E ( f ti •vsi ) = 0 (t , s = 1, 2, K , p) .
Tirando partido do sistema (7.51), a hipótese MCDP.3 (amostragem casual) pode ser enunciada da seguinte maneira:
Hipótese MENO.3 – Amostragem casual O processo estocástico p (1 + k1 + k2 ) -dimensional, {( y•i , F•i , hiT• ) : i = 1, 2, K} , é iid. A condição de característica MCDP.4 vai ser substituída por outra de forma a ter em conta os efeitos fixos. Assim, fazendo
E(z f c ) •i 1i • c E z f ( ) • • i i 2 c Qzfc = = E ( F•i ⊗ z•i ) , M E ( z•i f pic • )
pode escrever-se a hipótese seguinte:
Capítulo 7 – Dados de painel
26
Hipótese MENO.4 – Condição de característica com efeitos fixos A matriz de tipo pq × k1 , (7.55)
Qzfc = E ( F•ci ⊗ z•i ) ,
existe e verifica r (Qzfc ) = k1 .
A partir da hipótese MCDP.4, também se tem: a matriz Qzf = E ( F•i ⊗ z•i ) , de tipo pq × k1 , , existe e verifica r (Qzf ) = k1 .
Exemplo 7.8 – Na sequência do exemplo 7.7, tem-se
− 1 / 3 − 1 / 3 educ1ci 0 0 educ1i δ 2 δ F•i = 1 0 educ2i ; hi • = [ 1 qii ] ; φ = δ 3 ; η = 1 ; F•ci = 2 / 3 − 1 / 3 educ2ci , β2 − 1 / 3 2 / 3 educ3ci 0 1 educ3i β1
concluindo-se que k1 = 3 e k2 = 2 . Para verificar a hipótese MENO.4, vai construir-se a matriz
(−1 / 3) z•i (−1 / 3) z•i educ1ci z•i F•ci ⊗ z•i = (2 / 3) z•i (−1 / 3) z•i educ2ci z•i (−1 / 3) z•i (2 / 3) z•i educ3ci z•i −1/ 3 −1/ 3 educ1ci c (−1 / 3)educ1i (−1 / 3)educ1i educ1i educ1i (−1 / 3)educ2i (−1 / 3)educ2i educ1ci educ2i c (−1 / 3)educ3i (−1 / 3)educ3i educ1i educ3i (−1 / 3)qi (−1 / 3)qii educ1ci qii i −1/ 3 2/3 educ2ci (2 / 3)educ (−1 / 3)educ educc educ 1i 1i 2i 1i c = (2 / 3)educ2i (−1 / 3)educ2i educ2i educ2i . c (2 / 3)educ3i (−1 / 3)educ3i educ2i educ3i (2 / 3)qii (−1 / 3)qii educ2ci qii −1/ 3 2/3 educ3ci (−1 / 3)educ1i (2 / 3)educ1i educ3ci educ1i c (−1 / 3)educ2i (2 / 3)educ2i educ3i educ2i (−1 / 3)educ (2 / 3)educ educc educ 3i 3i 3i 3i c − ( 1 / 3 ) ( 2 / 3 ) qi qi educ qi 3i i i i
Facilmente se verifica que a característica desta matriz é igual a 3: r (Q cfz ) = 3 .
∇
27
Capítulo 7 – Dados de painel
O modelo que verifica as hipóteses MENO.1′ , MENO.2′ , MENO.3, MENO.4 e MCDP.5 (e, eventualmente, MCDP.6) é o modelo de dados painel com efeitos fixos (MDP-EF). Em muitas situações é vantajoso definir um modelo mais amplo, adoptando as hipóteses MENO.1′ , MENO.2, MENO.3, MCDP.4, MENO.4 e MCDP.5 (e, eventualmente, MCDP.6). Este modelo, que se designa por modelo de dados de painel com componentes do erro (modelo MDP-CE), considera as duas condições de característica e permite, ou não, a existência de ortogonalidade entre o efeito não observado e os regressores. Como vai ver-se, este modelo tem a vantagem de permitir aplicar, para o mesmo modelo, os métodos EA e EF. O estimador EF é definido para o sistema (7.53), y•ci = F•ciφ + v•ci , donde foi eliminado o efeito fixo, α i , e os regressores constantes, hi• . Dispondo de uma amostra de dimensão m, e fazendo v•c1 F•c1 y•c1 c c c v F• 2 y• 2 , Vc = • 2 , , Fc = Yc = M M M c c c v• m F• m y• m
tem-se (7.56)
Yc = Fc φ + Vc .
Notanto que (7.54), E ( f ti •vsi ) = 0 , implica que E ( ftic•vsic ) = 0 , o estimador EF de φ é o respectivo estimador PMQ. Assim,
(7.57)
φˆEF = ( FcT Fc ) −1 FcT Yc = ∑i =1 F•Ti Pe F•i
m
−1
∑
m
i =1
O erro de amostragem é dado por (7.58)
φˆEF − φ = ( FcT Fc ) −1 FcTVc = ∑i =1 F•Ti Pe F•i
m
−1
F•Ti Pe y•i .
∑
m
i =1
F•Ti Pev•i .
Como este estimador é baseado nos desvios em relação às médias intra-grupos, também é conhecido pelos nomes de estimador within ou de estimador em covariância (covariance estimator; designação inspirada na literatura da análise da covariância). Não se deve confundir o estimador within com outro estimador muito referido na literatura de modelos de dados de painel, o estimador between. Para obter este estimador, considera-se o modelo com as médias temporais dado por yi = fi •φ + α i + vi ,
onde, para facilitar a exposição, α i engloba a parcela hi •η , e fi • = [ ft1 ft 2 L f tk1 ]
é o vector das médias temporais dos regressores não constantes no tempo. A condição (7.54), por si só, não garante a consistência do estimador between porque pode aconte-
Capítulo 7 – Dados de painel
28
cer que E ( fi •α i ) ≠ 0 . Contudo, se E ( f ti •α i ) = 0 , o estimador é consistente, mas não é tida em conta a informação temporal que está patente no conjunto de dados. Nestas circunstâncias, é mais eficiente usar o estimador EA. Sabe-se que nos métodos EA pode aplicar-se o método dos mínimos quadrados (sob a forma do estimador PMQ) ao modelo com todos os regressores previstos (não constantes e constantes no tempo), desde que se suponha a ortogonalidade entre todos os regressores e o efeito não observado. O método EF continua a recorrer ao estimador PMQ, mas agora aplicado ao modelo (7.53), pagando-se o preço de excluir do modelo os regressores constantes (no tempo) porque há regressores correlacionados com o efeito não observado. De facto, na presença destas correlações não há possibilidade de distinguir entre dois tipos de efeitos parciais sobre a variável explicada: os efeitos relativos aos regressores constantes (variáveis observáveis); o efeito referente a α i (variável não observável). Contudo, é possível contemplar a influência que podem ter as variáveis explicativas constantes no tempo (aquelas que estão incluídas no vector hi • ), considerando variáveis artificiais referentes às datas (chamadas variáveis artificiais temporais) e introduzindo interacções entre estas variáveis e os regressores constantes. Começa-se por definir as p − 1 variáveis artificiais temporais, dt 2 , dt 3 , K , dtp , do seguinte modo: 1 (se t = s ) dts = ( s = 2, 3, K, p ). 0 (se t ≠ s ) A inclusão das interacções entre as variáveis dts ( s = 2, 3, K , p ) e as variáveis incluídas em hi • dá origem ao seguinte modelo: (7.59)
yti = fti •φ + hi •η•1 + dt 2 hi •η• 2 + L + dtp hi •η• p + α i + vti .
Neste caso, a partição do vector xti• é a seguinte:
xti • = [ fti • hi • dt 2 hi • L dtp hi • ].
Os efeitos parciais de hi • sobre yti , nas sucessivas datas, são medidos por: − η•1 (na data 1); − η•1 + η• 2 (na data 2); − ...; − η•1 + η• p (na data p). Facilmente se conclui que não é possível identificar o vector η•1 porque a parcela hi•η•1 é constante no tempo e, portanto, não se distingue de α i . Contudo, podem-se identificar os vectores η• 2 ,η•3 , K ,η• p , uma vez que as respectivas parcelas variam com o tempo. Deste modo, apenas se podem estimar as diferenças dos efeitos parciais dos regressores constantes (no tempo) em relação à data de referência (data 1). O modelo (7.59) pode apresentar-se com a seguinte notação alternativa: (7.60)
y•i = F•iφ + e p hi •η•1 + d• 2 hi •η• 2 + L + d• p hi •η• p + e pα i + v•i ,
onde d•Ts = [ 0 L 1 L 0 ] ( s = 2, 3, K, p ), onde 1 se encontra na posição s (para t = s ).
Capítulo 7 – Dados de painel
29
Existe outra maneira, muito conhecida, de obter o estimador EF, considerando o modelo em variáveis originais – (7.50) ou (7.51) –, e introduzindo m variáveis artificiais, uma para cada unidade seccional da amostra. Para facilitar a exposição, pode continuar a definir-se o parâmetro α i como sendo igual à soma do antigo α i com hi •η . Assim, (7.50) reduz-se a (7.61)
yti = α i + fti •φ + vti (t = 1, 2, K , p ; i = 1, 2, K) ,
e (7.51) passa a ser (7.62)
y•i = e pα i + F•iφ + v•i (i = 1, 2, K) .
Dispondo de uma amostra de dimensão m, e definindo as variáveis artificiais 1 (i = l) d tl = (para l = 1, 2, K , m ), 0 ( l ) ≠ i
obtém-se, a partir de (7.61),
yti = α1dt1 + α 2 dt 2 + L + α m dtm + fti •φ + vti (t = 1, 2, K , p ; i = 1, 2, K, m) ,
ou onde
y•i = α1d•1 + α 2 d• 2 + L + α m d• m + F•iφ + v•i (i = 1, 2, K , m) ,
e p (i = l) d• l = (para l = 1, 2, K , m ). 0 (i ≠ l) Podem agrupar-se as m relações precedentes numa única expressão matricial,
(7.63) onde:
Y = Dα + Fφ + V ,
e p 0 L 0 y•1 y 0 ep L 0 2 • = I m ⊗ ep , Y = , D = [D•1 D• 2 L D• m ] = M M M M 0 0 L ep y• m
F•1 v•1 α1 α F• 2 v• 2 2 α = , F = , V = . M M M F• m v• m α m
Assim: − Y é o vector mp × 1 , formado pelos m subvectores y•i ; − D é a matriz mp × m das variáveis artificiais (a coluna i desta matriz, D•i , é formada por m blocos, cada um com p elementos; o bloco i de D•i é e p , os outros blocos são nulos);
30
Capítulo 7 – Dados de painel
− α é o vector m × 1 dos efeitos não observados (mais, eventualmente, a componente referente aos regressores constantes); − F é a matriz de tipo mp × k1 , formada pelos m blocos F•i . − V é o vector mp × 1 , formado pelos m subvectores v•i . Aplicando o método MQ a (7.63), obtém-se o estimador PMQ de α e de φ , αˆ PMQ DT D DT F DT Y T . φˆ = T T PMQ F D F F F Y −1
(7.64)
Não é difícil demonstrar, com base no teorema de FWL (ver parte final da secção 2.5) – ou recorrendo à técnica de inversão de matrizes por blocos (ver anexo 2A) –, que φˆPMQ , obtido em (7.64), coincide com φˆEF , dado por (7.57). Por este motivo, o estimador EF também é conhecido pelo nome de estimador MQ com variáveis artificiais ou estimador LSDV (least squares dummy variables). Para provar a igualdade φˆPMQ = φˆEF , a partir do teorema de FWL, consideram-se as seguintes regressões: a regressão MQ de Y sobre D de forma a obter os respectivos resíduos, PDY ; as k1 regressões de cada coluna de F sobre D, obtendo-se os resíduos PD F . A matriz PD , simétrica e idempotente, é dada por PD = I pm − D( DT D) −1 DT . Aquele teorema permite concluir que se obtém o estimador φˆPMQ quando se faz a regressão MQ de PDY sobre PD F . Assim,
φˆPMQ = ( F T PD F ) −1 F T PDY .
Como D = I m ⊗ e p , vem
PD = I pm − ( I m ⊗ e p ){( I m ⊗ e p )T ( I m ⊗ e p )}−1 ( I m ⊗ e p )T = I pm − ( I m ⊗ e p )( I m ⊗ eTp e p ) −1 ( I m ⊗ eTp )
= I pm − ( I m ⊗ e p ){I m ⊗ (1 / p)}( I m ⊗ eTp ) = ( I m ⊗ I p ) − {I m ⊗ (1 / p)e p eTp } = I m ⊗ {I p − (1 / p)e p eTp } = I m ⊗ Pe .
Então,
Pe O PDY = ( I m ⊗ Pe )Y = M O
O L O y•1 y•c1 Pe L O y•2 y•c2 = = Yc . M M M M O L Pe y•m y•cm
Do mesmo modo, tem-se PD F = Fc . Daqui resulta que
φˆPMQ = ( F T PD F ) −1 F T PDY = ( FcT Fc ) −1 FcT Yc = φˆEF .
31
Capítulo 7 – Dados de painel
Alternativamente, pode provar-se esta igualdade com a técnica de inversão de matrizes por blocos (ver anexo 2A), considerando o sistema de equações normais:
DT Dαˆ PMQ + DT FφˆPMQ = DT Y DT D DT F αˆ PMQ DT Y T φˆ = T ou T T T T F D F F PMQ F Y F Dαˆ PMQ + F FφˆPMQ = F Y .
Resolvendo a primeira equação em relação a αˆ PMQ ,
αˆ PMQ = ( DT D)−1 ( DT Y − DT FφˆPMQ ) ,
e substituindo na segunda, tem-se
F T D( DT D) −1 ( DT Y − DT FφˆPMQ ) + F T FφˆPMQ = F T Y ,
{F T F − F T D( DT D) −1 DT F }φˆPMQ = F T Y − F T D( DT D) −1 DT Y ,
ou
ou ainda, ( F T PD F )φˆPMQ = F T PDY , o que permite demonstrar a igualdade entre os dois estimadores. Retomando, agora, a expressão de αˆ PMQ em função de φˆPMQ , e notando que D T D = ( I m ⊗ e p )T ( I m ⊗ e p ) = I m ⊗ eTp e p = I m ⊗ p = p I m ,
p O L O y•1 eTp y•1 ∑t =1 yt1 p eTp L O y•2 eTp y•2 ∑t =1 yt 2 , = = M M M M M p O L eTp y•m eTp y•m ∑t =1 ytm
e T p O D T Y = ( I m ⊗ e p )T Y = M O
p O L O F•1 eTp F•1 ∑t =1 f t1• p T T e p L O F•2 e p F•2 f = ∑t =1 t 2• , = M M M M M p O L eTp F•m eTp F•m ∑t =1 f tm•
eT p O D T F = ( I m ⊗ e p )T F = M O obtém-se
αˆ PMQ
∑ p yt1 − ∑ p f t1•φˆPMQ y1 − (1 / p )∑ p ft1• φˆPMQ αˆ1,PMQ t =1 t =1 pt =1 αˆ p p ˆ ˆ 1 − − ( 1 / ) y p f φ φ y f 2 PMQ , ∑t =1 t 2 ∑t =1 t 2• PMQ = 2 ∑t =1 t 2• PMQ . = = M p M M p p p ∑ ytm − ∑ f tm •φˆPMQ ym − (1 / p )∑ f tm • φˆPMQ αˆ m,PMQ t =1 t =1 t =1
Deste modo, vem
1 p f φˆEF (i = 1, 2, K , m) . ∑ t =1 ti • p
αˆ i,EF = yi −
Capítulo 7 – Dados de painel
32
Quando se admite a hipótese MCDP.6 (homocedasticidade condicionada), o estimador EF verifica as seguintes propriedades:
Propriedades assintóticas do estimador EF com homocedasticidade condicionada a) O estimador φˆEF é consistente (quando m → +∞ ), (7.65)
plim(φˆEF ) = φ ;
b) O estimador φˆEF é assintoticamente normal,
onde (7.67)
[
]
m (φˆEF − φ ) → N ( k1 ) 0, Cov a (φˆEF ) , d
(7.66)
Cov a (φˆEF ) = E{( F•ci )T F•ci }−1 E ( F•ci )T E{v•ci (v•ci )T }F•ci E{( F•ci )T F•ci }−1 ;
c) Um estimador consistente de (7.35) é dado por
1 m 1 m 1 m Cov a (φˆEF ) = ∑i =1 ( F•ci )T F•ci ∑i =1 ( F•ci )T Vˆ F•ci ∑i =1 ( F•ci )T F•ci , m m m ^
(7.68)
−1
−1
em que Vˆ se obtém a partir dos resíduos associados com o estimador EF, ou seja, 1 m 1 m Vˆ = ∑i =1 ( y•ci − F•ci φˆEF )( y•ci − F•ci φˆEF )T = ∑i =1 vˆ•ci (vˆ•ci )T , m m onde vˆ•ci = y•ci − F•ci φˆEF . (7.69)
Estas propriedades estão demonstradas na secção 7A.3 do anexo 7A. Quando não se verifica MCDP.6, o estimador EF verifica as seguintes propriedades (a demonstração também se encontra na secção referida): Propriedades assintóticas do estimador EF com heterocedasticidade condicionada a) O estimador φˆEF é consistente (quando m → +∞ ); b) O estimador φˆEF é assintoticamente normal, com (7.70)
Cov a (φˆEF ) = E{( F•ci )T F•ci }−1 E{( F•ci )T v•ci (v•ci )T F•ci } E{( F•ci )T F•ci }−1
c) Um estimador consistente de (7.47) é dado por
1 m 1 m Cov a (φˆEF ) = ∑i =1 ( F•ci )T F•ci ∑i =1 ( F•ci )T vˆ•ci (vˆ•ci )T F•ci m m ^
(7.71)
−1
1 m × ∑i =1 ( F•ci )T F•ci , m −1
onde vˆ•ci = y•ci − F•ci φˆEF .
No anexo 7A são ainda abordados os seguintes tópicos:
,
Capítulo 7 – Dados de painel
33
− Na secção 7A.2 apresentam-se as hipóteses para que o estimador EF seja BLUE. − Na secção 7A.4 analisa-se uma situação em que o estimador EF não é consistente. Trata-se do caso em que o modelo de dados de painel é dinâmico. − O estudo da esfericidade dos choques no contexto do estimador EF é feito na secção 7A.5.
7.7 - Métodos com primeiras diferenças Na secção 7.3 fez-se referência, no caso de duas datas ( p = 2 ), a um procedimento alternativo para eliminar o efeito não observado, considerando o modelo com as primeiras diferenças temporais das variáveis. Na presente secção vai estudar-se esta questão relativamente ao modelo (7.36), com qualquer p. Vai admitir-se a hipótese exogeneidade estrita, (7.41), cujas consequências são não existir correlação entre os regressores e os erros idiossincráticos, E ( xti •vsi ) = 0 [ver (7.39)], e não existir correlação entre o efeito não observado e os erros idiossincráticos, E (vtiα i ) = 0 . Passando de (7.36) para as respectivas primeiras diferenças temporais, o efeito não observado é eliminado, obtendo-se o seguinte modelo: (7.72)
∆yti = ∆xti • β + ∆vti ( t = 2, 3, K , p ; i = 1, 2, K ),
(7.73)
∆y•i = ∆X •i β + ∆v•i ( i = 1, 2, K ),
onde ∆yti = yti − yt −1,i , ∆xti • = xti • − xt −1,i • e ∆vti = vti − vt −1,i . Quando p = 2 , (7.72) reduz-se a ∆y2i = ∆x2i • β + ∆v2i ( i = 1, 2, K ). O modelo (7.72) pode apresentar-se da seguinte maneira:
onde: − ∆y•i é o vector ( p − 1) × 1 (elemento genérico, ∆yti ) das primeiras diferenças das observações da variável explicada y da unidade seccional i; − ∆X •i é a matriz ( p − 1) × k (elemento genérico, ∆xtij ; linha genérica, ∆xti • ; coluna genérica, ∆x•ij ) das primeiras diferenças das observações das variáveis explicativas da unidade seccional i; − ∆v•i é o vector ( p − 1) × 1 (elemento genérico, ∆vti ) dos erros idiossincráticos relativos à unidade seccional i. No modelo (7.72) admite-se que os regressores incluídos em xti • variam com o tempo (para pelo menos uma unidade seccional); caso contrário, alguns elementos de ∆ xti• seriam identicamente nulos, quaisquer que sejam t e i. Se o modelo original, (7.36), tem termo independente, esta parcela não aparece em (7.72). Contudo, se xti • inclui variáveis artificiais temporais, o modelo (7.72) inclui as variações destas variáveis. Suponha-se que o vector xti • se decompõe, tal como no modelo (7.50), em regressores não constantes e regressores constantes (no tempo). Além disso, admite-se que o modelo inclui p − 1 variáveis artificiais temporais e respectivas interacções com
Capítulo 7 – Dados de painel
34
os regressores constantes (incluindo eventualmente o termo independente) [ver (7.59)]. O respectivo modelo com primeiras diferenças é dado por (7.74)
∆yti = ∆f ti •φ + (∆dt 2 )hi •η• 2 + L + (∆dtp )hi •η• p + ∆vti ( t = 2, 3, K , p ; i = 1, 2, K ),
(7.75)
∆y•i = ∆F•iφ + (∆d• 2 )hi •η• 2 + L + (∆d• p )hi •η• p + ∆v•i ,
onde ∆dts = dts − dt −1, s , para s = 2, 3, K , p . Verifica-se, assim, que em (7.74) não se pode identificar o vector η•1 (dos coeficientes dos regressores constantes). Note-se que as variáveis ∆dts apenas podem assumir os valores 1 (quando s = t ), –1 (quando s = t − 1 ) e 0 (nos outros casos). Naturalmente que o modelo (7.74) se pode apresentar do seguinte modo:
onde: − ∆F•i é a matriz ( p − 1) × k1 (elemento genérico, ∆f tij ; linha genérica, ∆fti • ; coluna genérica, ∆f•ij ) das primeiras diferenças das observações das variáveis explicativas não constantes (no tempo) da unidade seccional i; − ∆d• s é o vector ( p − 1) × 1 ( s = 2, 3, K , p ) de elemento genérico ∆dts . Para melhor esclarecimento, vai comparar-se os modelos (7.59) e (7.74) para p = 3 e p = 2 , quando há termo independente em (7.59) e não há outros regressores constantes. Quando p = 3 , (7.59) é dado por y1i = η1 + η 2 d12 + η3d13 + f1i •φ + α i + v1i y2i = η1 + η2 d 22 + η3d 23 + f 2i •φ + α i + v2i y =η +η d +η d + f φ + α + v , 1 2 32 3 33 3i • 3i i 3i
ou
y1i = η1 + f1i •φ + α i + v1i y2i = (η1 + η 2 ) + f 2i •φ + α i + v2i y = (η + η ) + f φ + α + v . 1 3 3i • 3i i 3i O respectivo modelo (7.74) é o seguinte:
∆y2i = η 2 ∆d 22 + η3∆d 23 + ∆f 2i •φ + ∆v2i ∆y3i = η 2 ∆d32 + η3∆d33 + ∆f3i •φ + ∆v3i ,
onde ∆d 22 = d 22 − d12 = 1 − 0 = 1 , ∆d 23 = d 23 − d13 = 0 − 0 = 0 ∆d32 = d32 − d 22 = 0 − 1 = −1 e ∆d33 = d33 − d 23 = 1 − 0 = 1 . Então, ∆y2i = η 2 + ∆f 2i •φ + ∆v2i ∆y3i = (−η 2 + η3 ) + ∆f3i •φ + ∆v3i .
Verifica-se, assim, que o termo independente varia com a data: η2 , para t = 2 ; − η 2 + η3 , para t = 3 . No caso p = 2 , o modelo (7.59) é
35
Capítulo 7 – Dados de painel y1i = η1 + η 2 d12 + f1i •φ + α i + v1i y2i = η1 + η2 d 22 + f 2i •φ + α i + v2i , ou
y1i = η1 + f1i •φ + α i + v1i y2i = (η1 + η 2 ) + f 2i •φ + α i + v2i . O correspondente modelo (7.74) é dado por
∆y2i = η2 ∆d 22 + ∆f 2i •φ + ∆v2i ,
ou ∆y2i = η2 + ∆f 2i •φ + ∆v2i . Deste modo, o modelo tem termo independente (constante), que é coeficiente da variável artificial, dt 2 , do modelo original. Retome-se o modelo (7.72). Como E ( xti •vsi ) = 0 implica E (∆xti • ∆vti ) = 0 , o estimador consistente de β é o respectivo estimador pooled MQ, que neste contexto se representa com βˆPD , e se designa por estimador de primeiras diferenças (PD). Note-se também que, se se admitir a hipótese mais forte da exogeneidade estrita, (7.41), o modelo (7.72) também verifica a exogeneidade estrita, E (∆vti | ∆x2i • , ∆x3i • , K , ∆x pi • ) = 0 (t = 2, 3, K , p) ,
o que significa que o estimador PD, condicionado por X, é não enviesado. Note-se ainda que, neste caso, a condição de característica é dada por p r ∑t = 2 ∆xtiT• ∆xti • = r (∆X •Ti ∆X •i ) = k .
Esta condição garante que não há regressores constantes (no tempo) e que não há multicolinearidade perfeita entre os regressores não constantes. Sem perda de generalidade, considere-se o seguinte caso particular de (7.59): (7.76)
yti = δ1 + δ 2 dt 2 + δ 3dt 3 + δ 4 dt 4 + δ 5dt 5 + η1hi + η2 dt 2 hi + η3dt 3hi + η4 dt 4 hi + η5dt 5hi + fti •φ + α i + vti .
Comparando (7.76) com (7.59), verifica-se que p = 5 , hi • = [ 1 hi ] e δ η•t = t ( p = 1, 2, K ,5 ). ηt
O respectivo modelo com primeiras diferenças é dado por (7.77)
∆yti = δ 2 ∆dt 2 + δ 3∆dt 3 + δ 4 ∆dt 4 + δ 5∆dt 5 + η2 (∆dt 2 )hi + η3 (∆dt 3 )hi + η 4 (∆dt 4 )hi + η5 (∆dt 5 )hi + ∆f ti •φ + ∆vti ,
onde ∆dt 2 = dt 2 − dt −1, 2 = ∆dt 3 = dt 3 − dt −1,3 = ∆dt 4 = dt 4 − dt −1, 4 = ∆dt 5 = dt 5 − dt −1,5 =
t=2 1− 0 =1 0−0=0 0−0=0 0−0=0
t =3 0 − 1 = −1 1− 0 =1 0−0=0 0−0=0
t=4 0−0=0 0 − 1 = −1 1− 0 =1 0−0=0
t =5 0−0=0 0−0=0 0 − 1 = −1 1− 0 =1
Capítulo 7 – Dados de painel Então,
36
∆y2i = δ 2 + η2 hi + ∆f 2i •φ + ∆v2i ∆y3i = (−δ 2 + δ 3 ) + (−η2 + η3 )hi + ∆f3i •φ + ∆v3i ∆y4i = (−δ 3 + δ 4 ) + (−η3 + η4 )hi + ∆f 4i •φ + ∆v4i ∆y5i = (−δ 4 + δ 5 ) + (−η4 + η5 )hi + ∆f 5i •φ + ∆v5i .
A especificação (7.77) é equivalente à seguinte: (7.78)
∆yti = θ1 + θ3dt 3 + θ 4 dt 4 + θ5dt 5 + γ 1hi + γ 3dt 3hi + γ 4 dt 4 hi + γ 5dt 5hi + ∆fti •φ + ∆vti .
Com efeito, tem-se
∆y2i = θ1 + γ 1hi + ∆f 2i •φ + ∆v2i ∆y3i = (θ1 + θ3 ) + (γ 1 + γ 3 )hi + ∆f3i •φ + ∆v3i ∆y4i = (θ1 + θ 4 ) + (γ 1 + γ 4 )hi + ∆f 4i •φ + ∆v4i ∆y5i = (θ1 + θ5 ) + (γ 1 + γ 5 )hi + ∆f 5i •φ + ∆v5i .
Logo,
η2 = γ 1 δ 2 = θ1 − δ 2 + δ 3 = θ1 + θ3 − η2 + η3 = γ 1 + γ 3 e − δ 3 + δ 4 = θ1 + θ 4 − η3 + η4 = γ 1 + γ 4 − δ 4 + δ 5 = θ1 + θ5 − η4 + η5 = γ 1 + γ 5 .
Então,
θ1 = δ 2 γ 1 = η2 θ3 = −2δ 2 + δ 3 γ = −2η 2 + η3 e 3 θ 4 = −δ 2 − δ 3 + δ 4 γ 4 = −η 2 − η3 + η 4 θ5 = −δ 2 − δ 4 + δ 5 γ 5 = −η 2 − η4 + η5 .
Vai provar-se que o estimador de efeitos fixos e o estimador de primeiras diferenças são numericamente iguais quando p = 2 . Com efeito, considere-se (7.53) para dois períodos: y − y = ( f − f )φ + (v − v ) ( p = 1) 1i i 1i • i• 1i i − = − + − φ y y ( f f ) ( v v i 2i • i• 2i i ) ( p = 2), 2i
onde
Então,
yi =
1 y1i + y2i v +v , fi • = ( f1i • + f 2i • ) e vi = 1i 2i . 2 2 2
y − y = ( f − f )φ + (v − v ) ( p = 1) 1i 2i 1i • 2i • 1i 2i y2i − y1i = ( f 2i • − f1i • )φ + (v2i − v1i ) ( p = 2),
37
Capítulo 7 – Dados de painel
o que mostra que uma das equações é redundante (cada equação obtém-se da outra multiplicando-a por –1). Retendo apenas a segunda equação, tem-se o modelo com primeiras diferenças: y2i − y1i = ( f 2i• − f1i• )φ + (v2i − v1i ) .
7.8 - Efeitos aleatórios versus efeitos fixos Vai admitir-se que o vector v•i pode ter autocorrelação, ou seja, passa a ter-se E (v v ) = Σ v , e não E (v•i v•Ti ) = σ v2 I p . Comparando (7.54), E ( f ti •vsi ) = 0 , com a hipótese MENO.2, verifica-se que as condições de ortogonalidade não consideradas no estimador EF são T •i •i
(7.79)
E ( f ti •α i ) = 0 , E (hi •α i ) = 0 e E (hi •vti ) = 0 (t = 1, 2, K , p ) .
Sabe-se que o estimador EF é consistente mesmo quando não se verifica (7.79). O estimador βˆEA , dado por (7.26), pode dividir-se em dois subvectores,
φˆ βˆEA = EA , ηˆEA
onde φˆEA é o subvector de βˆEA que corresponde a φ (vector dos coeficientes dos regressores não constantes), e ηˆEA é o subvector de βˆEA relativo a η (vector dos coeficientes dos regressores constantes). Em conformidade, a matriz das covariâncias assintóticas, dada por (7.27), pode partir-se em quatro blocos, Cov a (φˆEA ) Cov a (φˆEA ,ηˆEA ) Cov a ( βˆEA ) = . ˆ ˆ ˆ Cov ( , ) Cov ( ) η φ η EA EA EA a a
Quando se verifica (7.79), o estimador EA é eficiente e consistente; em contrapartida, o estimador EF é consistente, mas não é eficiente. Se a hipótese (7.79) é violada, não se pode garantir a consistência de φˆEA ; no entanto, φˆEF mantém-se consistente. Para efectuar o teste relativamente à hipótese nula (7.79) é natural considerar a diferença dos dois estimadores, δˆ = φˆEF − φˆEA . Atendendo ao princípio MGM de Hausman (ver anexo 4B do capítulo 4), facilmente se verifica que δˆ é assintoticamente normal,
m δˆ → N ( k1 ) 0, Cov a (δˆ ) , d
onde (7.80)
Cov a (δˆ ) = Cov a (φˆEF ) − Cov a (φˆEA ) ,
(7.81)
Cov a (δˆ ) = Cov a (φˆEF ) − Cov a (φˆEA ) ,
uma vez que não é necessário incluir a matriz das covariâncias assintóticas entre φˆEF e φˆEA . Um estimador consistente de (7.80) é ^
^
^
38
Capítulo 7 – Dados de painel onde Cov a (φˆEF ) é dada por (7.68), e Cov a (φˆEA ) resulta da partição de (7.28), ^
^
^ ^ ˆ ) ˆ ˆ φ Cov ( Cov a (φEA ,η EA ) . Cov a ( βˆEA ) = ^ a EA ^ ˆ Cov a (ηˆEA ) Cov a (ηˆEA , φEA ) ^
Pode, então, enunciar-se o seguinte teorema: Teorema 7.1 – Teste de especificação de Hausman Suponha-se que se verificam as hipóteses MENO.1′ , MENO.2, MENO.3, MCDP.4, MENO.4, MCDP.5 e MCDP.6 (modelo com componentes do erro). Então, d ^ H = m δˆT Cov a (δˆ ) δˆ → χ 2 (k1 ) ,
−1
(7.82)
onde H é a estatística-teste de Hausman. Além disso: Cov a (δˆ) é não singular (e, portanto, definida positiva); H ≥ 0 , qualquer que seja a amostra ( y•i , X •i ) . Dem.: ver secção 7A.6 do anexo 7A.
∇∇
7.9 - Painéis não balanceados Nos modelos com dados de painel estudados nas secções precedentes está implícita a importante hipótese de que as variáveis são observáveis para todas as unidades seccionais e para todas as datas (o número de observações para cada i é p). Neste caso, o painel de dados é balanceado. Em geral, os painéis disponíveis não são balanceados devido às saídas e às entradas de unidades seccionais na amostra. Por exemplo, num painel sobre empresas, algumas delas desaparecem da amostra devido a falências ou fusões antes do final do ano p; ou são incluídas na amostra a partir de certa altura, porque são empresas novas. Diz-se que se tem um painel não balanceado quando o número de observações não é o mesmo para todas as unidades seccionais, isto é, quando para pelo menos uma unidade seccional há observações omissas (missing observations). Em determinadas condições, do ponto de vista formal, os estimadores atrás referidos podem ser calculados de forma semelhante, com as necessárias adaptações. Por exemplo, as unidades seccionais com apenas uma observação não podem ser consideradas no estimador de efeitos fixos. A questão crucial da análise com painéis não balanceados é a de saber se o facto de algumas observações da unidade seccional i figurarem ou não na amostra depende dos choques. Quando existe esta dependência, há um problema de selecção da amostra (sample selection), e, como vai ver-se, o estimador EF não é consistente. Neste caso, diz-se que se tem uma situação de enviesamento da selectividade (selectivity bias).
Capítulo 7 – Dados de painel
39
Considere-se, por exemplo, um painel sobre países ou cidades em que alguns dados estão omissos para certos anos. Em muitas situações, pode admitir-se que a razão pela qual esses dados não constam da amostra não está correlacionada com os choques, pelo que não existe um problema de selecção da amostra. Quando se dispõe de um painel sobre pessoas, famílias ou empresas, as coisas podem ser mais complicadas. Por exemplo, suponha-se que se tem uma amostra casual de empresas industriais no ano 2000, e que se procura analisar o efeito da sindicalização sobre os lucros das empresas. Idealmente, pode fazer-se um estudo com dados de painel para controlar as características não observáveis dos trabalhadores e dos gestores que afectam os lucros, mas que podem estar correlacionadas com a percentagem de trabalhadores sindicalizados. Quando se procura obter dados para os anos seguintes, pode acontecer que algumas empresas deixem de figurar na amostra. Nesta situação, provavelmente tem-se uma amostra não aleatória nesses anos. Se a razão pela qual as empresas saem da amostra não é puramente casual, mas está correlacionada com os choques (factores não observáveis que afectam os lucros, e variam no tempo), então o problema de selecção da amostra resultante pode conduzir a estimadores EF inconsistentes. Para lidar com observações omissas, é conveniente definir p variáveis artificiais para cada unidade seccional i, 1 (se a observação t da unidade seccional i está na amostra ) dti = 0 (no caso contrário),
onde t = 1, 2, K, p . Seja
d 1i d 2i p d•i = e pi = ∑t =1 dti (número de observações da unidade seccional i). M d pi
Se a observação t é omissa para i, os t-ésimos elementos de y•i e de v•i , e a linha t de F•i , supõem-se nulos. Então, passa a considerar-se d y d f d v 1i 1i 1i 1i • 1i 1i d 2 i y2 i d 2i f 2i • d 2i v2i , F•i = e v•i = y•i = . M M M d pi y pi d pi f pi • d pi v pi
Deste modo, para cada i e para cada t, todos os elementos de ( yti , f ti • ) são observáveis, ou nenhum elemento é observável [não se admite a possibilidade de alguns elementos de ( yti , f ti • ) serem observáveis, e os outros não]. O modelo homólogo a (7.51) é, então, o seguinte: (7.83)
y•i = F•iφ + d•i hi •η + d•i α i + v•i (i = 1, 2, K) .
40
Capítulo 7 – Dados de painel
Hipótese MENO.1′′ – Linearidade com painéis não balanceados y•i = F•iφ + d•i hi •η + d•i α i + v•i (i = 1, 2, K) , onde: y•i é o vector p × 1 (de elemento genérico yti ) das observações da variável explicada y da unidade seccional i (no caso de observação omitida, o respectivo elemento de y•i é nulo); F•i é a matriz p × k1 (de elemento genérico f tij ) das observações dos regressores não constantes da unidade seccional i (no caso de observação omitida, a respectiva linha de F•i é nula); φ é o vector k1 × 1 dos coeficientes dos regressores não constantes; d•i é o vector p × 1 (de elemento genérico dti ) das variáveis artificiais associadas com as observações da unidade seccional i; hi• é o vector 1 × k 2 da observação t dos regressores contantes da unidade seccional i; η é o vector k 2 × 1 dos coeficientes dos regressores constantes; α i é o efeito não observado da unidade seccional i; v•i é o vector p × 1 (de elemento genérico vti ) dos choques relativos à unidade seccional i (no caso de observação omitida, o respectivo elemento de v•i é nulo). Nos casos dos painéis balanceados tem-se d•i = e p e Pe = I p − (1 / p ) e p eTp . Quando o painel é não balanceado, a matriz de transformação é Pd i = I p − d•i (d•Ti d •i ) −1 d•Ti = I p −
1 d•i d•Ti , pi
em que pi = d•Ti d•i (obviamente, a matriz Pd i depende de i). O modelo transformado pode, ainda, apresentar-se com a notação (7.84)
y•ci = F•ciφ + v•ci ,
em que y•ci = Pd i y•i , F•ci = Pd i F•i e v•ci = Pd i v•i [note-se que Pd i (d•i hi •η + d•iα i ) = 0 , uma vez que Pd i d•i = 0 ]. Por exemplo, se 1 0 d•i = ( p = 4 ; pi = 2 ), 1 0 tem-se
v f y 1i 1i • 1i 0 0 0 y•i = , F•i = e v•i = . v f y 3i 3i • 3i 0 0 0
Como
41
Capítulo 7 – Dados de painel 1 − (1 / 2) 0 Pd i = −1/ 2 0
tem-se, por exemplo,
y c 1 − (1 / 2) 1ci y2 i 0 yc = − 1 / 2 3i y4ci 0
0 1 0 0 , 0 1 − (1 / 2) 0 0 0 1 −1/ 2
0
0 −1/ 2 1 0 0 1 − (1 / 2) 0 0
onde yi = ( y1i + y3i ) / 2 . O estimador EF é dado por (7.85)
m φˆEF = ∑i =1 ( F•ci )T F•ci
−1
0 y1i y1i − yi 0 0 0 , = 0 y3i y3i − yi 1 0 0
m ∑i =1 ( F ) y = ∑i =1 F•Ti Pd i F•i m
c T •i
c •i
−1
∑
m
i =1
F•Ti Pd i y•i .
O respectivo erro de amostragem é (7.86)
m φˆEF − φ = ∑i =1 F•Ti Pd i F•i
−1
∑
m
i =1
F•Ti Pd i v•i .
O estimador EF é consistente e assintoticamente normal, desde que a hipótese MENO.2′ seja substituída pela seguinte:
Hipótese MENO.2′′ – Ausência de enviesamento da selectividade Para a mesma unidade seccional i, cada vector fit • (t = 1, 2, K , p ) , condicionado por d•i , é ortogonal a qualquer choque vsi , (7.87)
E ( fti •vsi | d•i ) = 0 (t , s = 1, 2, K , p) .
Quando não se verifica (7.87), o padrão de selecção da amostra, d•i , depende dos choques, v•i . Note-se, também, que a hipótese MENO.2′′ não envolve o efeito não observado, α i . Deste modo, se a dependência da selecção da amostra em relação às variáveis residuais se verifica através apenas de α i , o problema do enviesamento da selectividade não ocorre. No contexto dos painéis não balanceados, considere-se o modelo com componentes do erro a verificar as hipóteses MENO.1′′ , MENO.2′′ , MENO.3, MCDP.4, MENO.4 e MCDP.5 (pode existir heterocedasticidade condicionada). Conclui-se, sem dificuldade, que o estimador φˆEF é consistente e assintoticamente normal, continuando válidos os resultados (7.68) e (7.69), com as adaptações óbvias (ver secção 7A.7 do anexo 7A).
Capítulo 7 – Dados de painel
42
PALAVRAS CHAVE Amostragem casual Choque Componentes do erro Condição de característica Consistência Dados de painel Efeito aleatório Efeito fixo Enviesamento da selectividade Erro idiossincrático Erro de amostragem Esfericidade dos choques Estimador de efeitos aleatórios (EA) Estimador de efeitos fixos (EF) Estimador de primeiras diferenças Estimador LSDV Estimador MGM Estimador within
Heterocedasticidade condicionada Homocedasticidade condicionada Heterogeneidade individual Linearidade Modelo com componentes do erro Modelo SER (com coeficientes comuns) Normalidade assintótica Observações omissas Ortogonalidade Painel não balanceado Processo de amostragem Processo de geração de dados Regressor (não) constante Selecção da amostra Teste de especificação de Hausman Unidade seccional Variáveis centradas
Capítulo 7 – Dados de painel
43
PERGUNTAS DE REVISÃO 1. 2.
3. 4.
5.
6.
7.
Considere o modelo com dados de painel, y•i = X •i β + u•i ( i = 1, 2,K ). Enuncie a hipótese da amostragem casual. Considere um modelo de dados de painel com p = 2 (número de datas), com termo independente e mais dois regressores. Supondo que dispõe de uma amostra de dimensão m, apresente a matriz X referida em Y = Xβ + U (relação amostral). Considere um modelo de dados de painel com p = 3 (número de datas). Enuncie a hipótese da ortogonalidade do modelo com efeitos aleatórios. Considere o modelo com dados de painel, y•i = F•iφ + e p hi•η + e pα i + v•i , em que: y•i é o vector p × 1 das observações da variável explicada y da unidade seccional i; F•i é a matriz p × k1 das observações dos regressores não constantes da unidade seccional i; φ é o vector k1 × 1 dos coeficientes dos regressores não constantes; e p é o vector p × 1 formado por uns; hi• é o vector 1 × k 2 dos regressores contantes da unidade seccional i; η é o vector k 2 × 1 dos coeficientes dos regressores constantes; α i é o efeito não observado da unidade seccional i; v•i é o vector p × 1 dos choques relativos à unidade seccional i. Supondo que pretende obter o estimador de efeitos fixos (EF) de φ , apresente o modelo transformado que lhe permitiria determinar aquele estimador. Considere o modelo com dados de painel y = β + β x + β z + β w + u 1 2 1i 3 1i 4 i 1i 1i y 2i = β1 + β 2 x2i + β 3 z 2i + β 4 wi + u 2i y = β + β x + β z + β w + u , 1 2 3i 3 3i 4 i 3i 3i
para três datas (1, 2 e 3), onde i é o índice que designa a unidade seccional. Supondo que pretende obter o estimador de efeitos fixos (EF), apresente o modelo transformado que lhe permitiria determinar aquele estimador. Considere o modelo com dados de painel, y•i = F•iφ + e p hi•η + e pα i + v•i , em que: y•i é o vector p × 1 das observações da variável explicada y da unidade seccional i; F•i é a matriz p × k1 das observações dos regressores não constantes da unidade seccional i; φ é o vector k1 × 1 dos coeficientes dos regressores não constantes; e p é o vector p × 1 formado por uns; hi• é o vector 1 × k 2 dos regressores contantes da unidade seccional i; η é o vector k 2 × 1 dos coeficientes dos regressores constantes; α i é o efeito não observado da unidade seccional i; v•i é o vector p × 1 dos choques relativos à unidade seccional i. Considere, também, as condições de ortogonalidade: E ( fti •vsi ) = 0 , E ( f ti •α i ) = 0 , E (hi •α i ) = 0 e E (hi •vti ) = 0 [note que: f ti • é a linha genérica da matriz F•i ; vti é o elemento genérico do vector v•i ]. Das quatro condições de ortogonalidade referidas, indique aquela que é considerada na estimação EF. Considere o modelo com dados de painel, y•i = X •i β + e pα i + v•i , em que: y•i é o vector p × 1 das observações da variável explicada y da unidade seccional i; X •i (com linha genérica xti • ) é a matriz p × k das observações dos regressores da uni-
Capítulo 7 – Dados de painel
44
10.
dade seccional i; β é o vector k × 1 dos coeficientes dos regressores; e p é o vector p × 1 formado por uns; α i é o efeito não observado da unidade seccional i; v•i (com elemento genérico vti ) é o vector p × 1 dos choques relativos à unidade seccional i. Supondo que pretende obter o estimador de efeitos aleatórios (EA) de β , enuncie as respectivas hipóteses de ortogonalidade. Considere o modelo com dados de painel, y•i = X •i β + u•i ( i = 1, 2,K ), onde o número de datas é 4. Determine a matriz de centragem para obter o modelo transformado em variáveis centradas. Seja o modelo com dados de painel, yti = xti• β + uti = f ti•φ + hi•η + α i + vti em que uti = α i + vti . Defina a ortogonalidade entre os regressores constantes (no tempo) e os efeitos não observados. Considere o modelo com dados de painel
11.
para três datas (1, 2 e 3), onde i é o índice que designa a unidade seccional. Apresente as condições de ortogonalidade entre os efeitos não observados e os regressores constantes. Considere o modelo com dados de painel
8.
9.
12. 13. 14.
15.
y = β + β x + β z + β w +α + v 1 2 1i 3 1i 4 i i 1i 1i y 2i = β1 + β 2 x2i + β 3 z 2i + β 4 wi + α i + v2i y = β + β x + β z + β w +α + v , 1 2 3i 3 3i 4 i i 3i 3i
y = β + β x + β z + β w +α + v 1 2 1i 3 i 4 i 1i i 1i y 2i = β1 + β 2 x2i + β 3 z i + β 4 wi + α i + v2i y3i = β1 + β 2 x3i + β 3 zi + β 4 wi + α i + v3i ,
para três datas (1, 2 e 3), onde i é o índice que designa a unidade seccional. Apresente as condições de ortogonalidade entre os regressores não constantes e as componentes do erro. Seja o modelo com dados de painel, yti = xti • β + uti . Defina as duas componentes em que habitualmente se decompõe o erro uti . Seja o modelo com dados de painel, yti = xti• β + uti = f ti•φ + hi•η + α i + vti . Defina a ortogonalidade entre os regressores não constantes (no tempo) e os choques. Considere o modelo com dados de painel y = β + β x + β z + β w +α + v 1 2 1i 3 1i 4 i 1i i 1i y 2i = β1 + β 2 x2i + β 3 z 2i + β 4 wi + α i + v2i y = β + β x + β z + β w +α + v , 1 2 3i 3 3i 4 i 3i i 3i
para três datas (1, 2 e 3), onde i é o índice que designa a unidade seccional. Apresente as condições de ortogonalidade entre os regressores não constantes e os choques. Considere o modelo com dados de painel, y•i = X •i β + e pα i + v•i , em que: y•i é o vector p × 1 das observações da variável explicada y da unidade seccional i; X •i
Capítulo 7 – Dados de painel
16.
45
(com linha genérica xti • ) é a matriz p × k das observações dos regressores da unidade seccional i; β é o vector k × 1 dos coeficientes dos regressores; e p é o vector p × 1 formado por uns; α i é o efeito não observado da unidade seccional i; v•i (com elemento genérico vti ) é o vector p × 1 dos choques relativos à unidade seccional i. Apresente a condição que permite afirmar que os choques são esféricos. Considere um modelo com dados de painel. Descreva a mecânica do teste de Hausman para optar entre efeitos fixos e efeitos aleatórios.
CAPÍTULO 9 MODELOS DINÂMICOS E AUTOCORRELAÇÃO Neste capítulo, continua-se o estudo do modelo de regressão linear com regressores endógenos, mas permitindo a existência de autocorrelação no processo estocástico {g t • } = {zt•ut } , onde, como se sabe, zt• é o vector 1 × p dos instrumentos e ut é a variável residual. Para atingir este objectivo fundamental é indispensável generalizar os teoremas do limite central (já conhecidos do capítulo 3) de modo a abranger processos autocorrelacionados a verificar determinadas condições. O estudo destas condições torna necessário analisar algumas questões prévias. O roteiro deste capítulo é o seguinte: − Na secção 9.1 faz-se o estudo dos operadores sobre séries temporais, dando particular atenção ao operador diferença e ao operador de desfasamento. Ainda nesta secção, recorre-se à análise das equações lineares com diferenças e coeficientes constantes para estudar os respectivos multiplicadores dinâmicos. − Nas secções 9.2, 9.3 e 9.4 analisa-se uma classe muito importante de processos estocásticos – os processos lineares –, com particular destaque para os processos ARMA. − Na secção 9.5 estuda-se a estimação dos processos auto-regressivos. − A secção 9.6 incide sobre o estudo dos modelos ARMAX, e respectiva estimação. − Na secção 9.7 generalizam-se os teoremas do limite central de Lindeberg-Lévy e de Billingsley para o caso de processos autocorrelacionados. − As secções 9.8 e 9.9 são dedicadas a estudar o modelo de regressão linear com regressores endógenos no caso de autocorrelação. Evidentemente, este modelo é particularmente adequado para o estudo de relações entre variáveis cujas observações são temporais. 9.1 - Operadores sobre séries temporais. Multiplicadores dinâmicos No capítulo 1 (secções 1.6 e 1.7) foi amplamente justificado o carácter aleatório das observações de uma variável económica, yt , e, em particular, quando são temporais. Neste caso, as observações podem considerar-se como uma sucessão de variáveis aleatórias, ou seja, como um processo estocástico. Há vantagem em supor que t (variável tempo) pode assumir qualquer número inteiro, − ∞ < t < +∞ , para permitir que
Capítulo 9 – Modelos Dinâmicos e Autocorrelação
2
qualquer observação da variável considerada possa depender de outras observações da mesma variável ou de outras variáveis (eventualmente, estas observações podem mesmo constituir uma infinidade numerável). Assim, do ponto de vista teórico, admite-se que o processo pode ter início numa data (período ou instante) suficientemente longínqua. Nestas condições, o processo estocástico passa a representar-se com o símbolo { yt : t = 0, ± 1, ± 2, } , embora se utilize muitas vezes a notação mais simples, { yt } , sobretudo quando, pelo contexto, se depreende sem dificuldade quais são os valores que t pode assumir.
Generalidades sobre operadores Diz-se que T é um operador sobre séries temporais, se transforma um input, formado por uma ou mais séries temporais, numa série temporal output. Para fixar ideias, suponha-se que o input é constituído por duas séries temporais, {xt } e {wt } , e o output pela série temporal { yt } . Então, escreve-se (9.1)
yt = T ( xt , wt ) .
Dois exemplos muito importantes são o operador constante, T = α , e o operador adição (de séries de temporais). Tem-se, respectivamente, yt = T ( xt ) = α e yt = T ( xt , wt ) = xt + wt .
Em particular, quando α = 1 , obtém-se o operador identidade. Quando wt = δ (constante) e T é o operador adição, tem-se yt = T ( xt , δ ) = xt + δ . O operador T é linear se e só se T (α xt + β wt ) = α T ( xt ) + β T ( wt ) . Dados dois operadores, T1 e T2 , o operador soma dos dois operadores, T1 + T2 , é definido como (T1 + T2 ) xt = T1 ( xt ) + T2 ( xt ) . Em particular, (T + δ ) xt = T ( xt ) + δ xt . O operador produto de dois operadores (ou operador composto), T1T2 , é dado por (T1T2 ) xt = T1{ T2 ( xt )} . Facilmente se conclui que o produto de operadores não é comutativo (em geral, T1T2 ≠ T2T1 ). Quando T1 = T2 = T , tem-se o quadrado de T, T 2 :
T 2 xt = T { T ( xt )} . Mais geralmente, pode definir-se qualquer potência inteira não negativa de T. Por convenção, T 0 = 1 (operador identidade). O inverso de T é o operador T −1 que verifica a condição T T −1 = T −1T = 1 .
Capítulo 9 – Modelos Dinâmicos e Autocorrelação
3
Apresentam-se a seguir dois operadores muito importantes: o operador diferença e o operador de desfasamento.
O operador diferença Recorde-se que o operador diferença, ∆ , é dado por ∆ ( xt ) = xt − xt −1 .
Se se aplicar o mesmo operador a ∆ ( xt ) , obtém-se a segunda diferença, ∆2 ( xt ) = ∆{∆ ( xt )} = ∆ ( xt − xt −1 ) = xt − 2 xt −1 + xt − 2 .
Note-se que: não se deve confundir ∆2 ( xt ) com ∆ 2 ( xt ) = xt − xt − 2 ; a ∆ ( xt ) pode chamar-se primeira diferença [ ∆1 ( xt ) = ∆ ( xt ) ]. Em geral, tem-se ∆s ( xt ) = ∆{∆s −1 ( xt )} .
Por exemplo, com s = 3 , obtém-se a terceira diferença, ∆3 ( xt ) = ∆{∆2 ( xt )} = ∆ ( yt − 2 yt −1 + yt − 2 ) = yt − 3 yt −1 + 3 yt − 2 − yt − 3 .
Facilmente se estabelecem as seguintes propriedades: a) O operador ∆ é linear: ∆ (α xt + β wt ) = α ∆ ( xt ) + β ∆ ( wt ) ; b) ∆ ( α ) = 0 ( α constante). Quando não houver ambiguidade sobre qual a variável a que se está a aplicar o operador ∆ , pode utilizar-se o símbolo ∆ xt em vez de ∆ ( xt ) .
O operador de desfasamento Outro operador muito importante é o operador de desfasamento, L, que é definido da seguinte maneira: (9.2) a) b) c) d) e)
L( xt ) = xt −1 .
Facilmente se estabelecem as seguintes propriedades: O operador L é linear: L (α xt + β wt ) = α L( xt ) + β L( wt ) = α xt −1 + β wt −1 ; L (α ) = α ( α constante); Ls ( xt ) = xt − s ( s = 1,2,3, ). ∆ = 1 − L ; ∆2 = (1 − L) 2 = 1 − 2 L + L2 . Em geral, ∆s = (1 − L) s ( s = 1,2,3, ). Quando se considera o polinómio em L,
(9.3)
α ( L) = α 0 + α1 L + α 2 L2 +
+ α p Lp ,
tem-se
α ( L) xt = α 0 xt + α1 xt −1 + α 2 xt − 2 +
+ α p xt − p .
f) Os polinómios em L são operadores permutáveis: α ( L) β ( L) = β ( L)α ( L) .
Capítulo 9 – Modelos Dinâmicos e Autocorrelação
4
Estas propriedades permitem efectuar as operações algébricas habituais sobre polinómios em L. Por exemplo, (1 + 2 L)( L + 3L2 ) = L + 5 L2 + 6 L3 . Quando, pelo contexto, é óbvio qual é a variável a que se está a aplicar o operador L, pode utilizar-se o símbolo L xt em vez de L( xt ) .
Equações lineares com diferenças A análise das equações com diferenças constitui o fundamento para estudar o comportamento das variáveis em modelos econométricos dinâmicos. O tipo de equações que se vai considerar é o das equações lineares de ordem p, com coeficientes constantes (este estudo é aprofundado no anexo 9A).
Definição 9.1 – Equação linear com diferenças de ordem p, com coeficientes constantes Considere-se uma variável yt que depende de t, desconhecida, bem como os sucessivos desfasamentos até à ordem p, yt −1 , yt − 2 ,…, yt − p , e uma variável, wt , conhecida. Uma equação da forma (9.4)
yt = ϕ 1 yt −1 + ϕ 2 yt −2 +
+ ϕ p yt − p + wt ,
onde os ϕ s são constantes ( s = 1, 2, , p ) e ϕ p ≠ 0 , é uma equação linear com diferenças de ordem p, com coeficientes constantes. Podem fazer-se os seguintes comentários a esta definição: a) A variável wt (conhecida) pode assumir várias formas: ser uma função de t (por exemplo, wt = α + β t ); ser um choque aleatório (por exemplo, um ruído branco); ser uma função de valores correntes e desfasados de certas variáveis; etc. b) Uma solução da equação é uma qualquer relação funcional, yt = f (t , wt , wt −1 , wt −2 , ) , que transforma a equação numa identidade; resolver a equação é determinar todas as suas soluções; a solução geral da equação é o conjunto de todas as suas soluções (ditas particulares); geralmente, a solução geral depende de constantes arbitrárias. c) Por vezes, em vez de se obterem as soluções particulares atribuindo quaisquer valores às constantes arbitrárias, podem-se determinar os valores das constantes introduzindo condições subsidiárias; estas, muitas vezes, são condições iniciais que consistem em fixar valores para a variável output em determinada data e respectivos desfasamentos até uma certa ordem; uma solução com condições subsidiárias, chama-se solução definida. d) Quando em (9.4) se faz wt = 0 , obtém-se a respectiva equação homogénea. Dispondo de p soluções particulares independentes, y1t0 , y2t0 ,…, y 0pt , a solução geral
Capítulo 9 – Modelos Dinâmicos e Autocorrelação
5
desta equação é o conjunto de todas as combinações lineares daquelas soluções particulares, yth = c1 y10t + c2 y20t + + c p y 0pt , onde c1 , c2 ,…, c p são constantes arbitrárias. Qualquer solução definida é obtida atribuindo valores às constantes arbitrárias, nomeadamente impondo p condições subsidiárias. Vai supor-se que estas condições são condições iniciais, onde se supõe que y0 , y1 ,…, y p −1 são conhecidos. e) A solução geral da equação (não homogénea), yt , é igual à soma da solução geral da correspondente equação homogénea, yth , com uma solução particular da equação (não homogénea), ytp : yt = yth + ytp . As soluções definidas obtêm-se tal como em d). f) Como uma solução da equação depende de wt , wt −1 , wt −2 ,… (sendo wt conhecida), pode afirmar-se que wt é a variável input da equação; obviamente, a variável output é yt . g) Esta definição mostra claramente que, embora haja uma variável input, wt , e uma variável output, yt , uma equação com diferenças estabelece uma relação dinâmica entre o valor da variável de output em t, e os seus sucessivos desfasamentos até à ordem p.
Equações de 1.ª ordem Vai começar-se por analisar o caso das equações lineares de 1.ª ordem ( p = 1 ), (9.5)
yt = ϕ yt −1 + wt ,
onde ϕ é uma constante.
Exemplo 9.1 – Considere-se a equação lcgat = 11.5 + 0.29 lcgat −1 + 0.68 lpart − 0.43 lpgat + 0.23 lpgot , com observações trimestrais das seguintes variáveis: lcga lpar lpga lpgo
- logaritmo natural do consumo de gasolina; - logaritmo natural do parque automóvel; - logaritmo natural do preço médio real da gasolina; - logaritmo natural do preço médio real do gasóleo.
Neste caso, tem-se yt = lcgat ; ϕ = 0.29 ; wt = 11.5 + 0.68 lpart − 0.43 lpgat + 0.23 lpgot . ∇ A resolução da equação (9.5) pode ser feita pelo método da substituição recursiva, que se passa a descrever.
Capítulo 9 – Modelos Dinâmicos e Autocorrelação
6
Suponha-se que se estabelece a seguinte condição inicial: o valor da variável output para t = 0 , y0 , é conhecido (a data desta condição é arbitrária; podia ser qualquer t entre − ∞ e + ∞ ). Suponha-se também que se conhecem os valores da variável input, w1 , w2 , w3 ,…. Nestas condições, tem-se:
Data
Equação
1
y1 = ϕ y0 + w1
2
y2 = ϕ y1 + w2
t
yt = ϕ yt −1 + wt
Então, por substituição sucessiva, obtém-se y2 = ϕ y1 + w2 = ϕ (ϕ y0 + w1 ) + w2 = ϕ 2 y0 + ϕ w1 + w2 y3 = ϕ y2 + w3 = ϕ (ϕ 2 y0 + ϕ w1 + w2 ) + w3 = ϕ 3 y0 + ϕ 2 w1 + ϕ w2 + w3 … Facilmente se conclui que a respectiva solução definida da equação é dada por (9.6)
yt = ϕ t y0 + ϕ t −1w1 + ϕ t −2 w2 +
+ ϕ wt −1 + wt .
Verifica-se, assim, que esta solução é uma função linear do valor inicial, y0 , e dos valores históricos da variável input, w1 , w2 ,…, wt . Note-se que a solução definida (9.6) poderia ser obtida tendo em conta os comentários d) e e) da definição 9.1. Com efeito, facilmente se conclui que: − yt0 = ϕ t é uma solução particular da equação homogénea, yt = ϕ yt −1 ; − yth = cϕ t é a solução geral da equação homogénea; − ytp = ϕ t −1w1 + ϕ t −2 w2 + + ϕ wt −1 + wt é uma solução particular da equação (não homogénea); − yt = cϕ t + ϕ t −1w1 + ϕ t − 2 w2 + + ϕ wt −1 + wt é a solução geral da equação (não homogénea); − Fazendo c = y0 , obtém-se a a solução definida (9.6). Como, independentemente da forma de wt , a solução geral da equação homogénea, yt = ϕ yt −1 , é sempre yth = cϕ t , o comportamento da solução da equação (não homogénea) depende crucialmente do valor do parâmetro ϕ : se | ϕ | < 1 , a solução é estável; se | ϕ | ≥ 1 , a solução é instável (ver o quadro 9.1 a propósito do multiplicador dinâmico e respectivas conclusões). A solução definida (9.6) também pode ser deduzida tirando partido do operador L e escrevendo a equação (9.5) da seguinte maneira: (9.7)
(1 − ϕ L) yt = wt . Com efeito, multiplicando ambos os membros pelo polinómio,
Capítulo 9 – Modelos Dinâmicos e Autocorrelação 1 + ϕ L + ϕ 2 L2 +
7
+ ϕ t −1 Lt −1 ,
obtém-se (1 + ϕ L + ϕ 2 L2 +
+ ϕ t −1Lt −1 )(1 − ϕ L) yt = (1 + ϕ L + ϕ 2 L2 +
+ ϕ t −1Lt −1 ) wt ,
ou, (1 − ϕ t Lt ) yt = (1 + ϕ L + ϕ 2 L2 +
+ ϕ t −1Lt −1 ) wt ,
o que permite obter a solução definida (9.6). Pode, portanto, concluir-se que, aplicando o operador 1 + ϕ L + ϕ 2 L2 + + ϕ t −1Lt −1 a (9.7), se dispõe do mesmo resultado que foi obtido pelo método da substituição recursiva. É interessante analisar a natureza deste operador. Notando que yt − (1 + ϕ L + ϕ 2 L2 +
+ ϕ t −1Lt −1 )(1 − ϕ L) yt = ϕ t y0 ,
é fácil concluir que, se | ϕ | < 1 e a sucessão { yt } é limitada, esta diferença tende para 0, quando t → +∞ . Pode, então, escrever-se
lim (1 + ϕ L + ϕ 2 L2 +
s → +∞
(1 + ϕ L + ϕ 2 L2 + ϕ 3 L3 +
+ ϕ s Ls ) = 1 + ϕ L + ϕ 2 L2 + ϕ 3 L3 +
,
)(1 − ϕ L) = 1 ,
e, portanto, (9.8)
(1 − ϕ L) −1 = 1 + ϕ L + ϕ 2 L2 + ϕ 3 L3 +
,
onde (1 − ϕ L) −1 é o operador inverso de 1 − ϕ L . Nestas condições, vem (9.9)
yt = (1 − ϕ L) −1 wt = wt + ϕ wt −1 + ϕ 2 wt −2 + ϕ 3 wt −3 +
.
Retome-se a solução definida (9.6). Conclui-se sem dificuldade que (9.10)
yt + s = ϕ s +1 yt −1 + ϕ s wt + ϕ s −1wt +1 + ϕ s −2 wt +2 +
+ ϕ wt + s −1 + wt +s .
Com efeito, basta considerar yt −1 como valor inicial, e obter yt + s com a técnica de substituição recursiva. Outro modo de obter (9.10) consiste em considerar a relação (9.7) em t + s , (1 − ϕ L) yt + s = wt + s , e multiplicar ambos os membros desta igualdade por 1 + ϕ L + ϕ 2 L2 + + ϕ s Ls . Considerando (9.10), o efeito, ceteris paribus, de wt sobre yt + s , é medido pelo multiplicador dinâmico, (9.11)
∂ yt + s =ϕs . ∂ wt
Esta resposta dinâmica apenas depende de s (o desfasamento entre o input em t e o output em t + s ); não depende das datas das observações; como se vai ver, esta conclusão é verdadeira para qualquer equação linear com diferenças. As respostas dinâmicas do input sobre o output dependem do valor do parâmetro ϕ . No quadro 9.1 apresentam-se os vários casos de comportamento do multiplicador dinâmico.
Capítulo 9 – Modelos Dinâmicos e Autocorrelação
8
Quadro 9.1 Comportamento do multiplicador dinâmico Casos 1 2 3 4 5 6
a)
b) c) d)
Valores de ϕ 0 1 , a equação tem um comportamento explosivo; o efeito de uma variação do input afasta-se, cada vez mais, da situação que existia antes do impulso. Se | ϕ | = 1 , o efeito é limitado, mas não converge para a situação pré-existente ao impulso. Os casos b) e c) correspondem à situação de solução instável.
O quadro 9.2 ilustra estes comportamentos para vários valores de ϕ . Pode, também, estar-se interessado no efeito da variável input sobre o valor actual do fluxo de valores futuros do output, yt , yt +1 , yt + 2 ,…, dada uma taxa de juro, r, constante. O valor actual em t do fluxo é dado por VA t = yt +
yt +1 yt + 2 yt + 3 + + + 2 1 + r (1 + r ) (1 + r ) 3
.
Designando o factor de actualização por
γ =
1 , 1+ r
tem-se a série (9.12)
VA t =
+∞ s =0
γ s yt + s .
A variação do valor actual quando wt varia de uma unidade é dada por (9.13)
∂ VA t = ∂ wt
+∞ s =0
γs
∂ yt + s = ∂ wt
+∞ s =0
(γ ϕ ) s =
1 , 1−γϕ
desde que | γ ϕ | < 1 . No cálculo dos multiplicadores (9.11) e (9.13), procura saber-se o que acontece se wt varia de uma unidade, mantendo constante os valores seguintes da variável input ( wt +1 , wt + 2 ,…, wt + s ); trata-se, portanto, de um efeito puramente transitório. Os multiplicadores obtidos podem, então, designar-se como funções impulso-resposta.
Capítulo 9 – Modelos Dinâmicos e Autocorrelação
9
Quadro 9.2 Comportamento de ϕ s para vários valores de ϕ s 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
0.8 1.000 0.800 0.640 0.512 0.410 0.328 0.262 0.210 0.168 0.134 0.107 0.086 0.069 0.055 0.044 0.035 0.028 0.023 0.018 0.014 0.012
–0.8 1.000 –0.800 0.640 –0.512 0.410 –0.328 0.262 –0.210 0.168 –0.134 0.107 –0.086 0.069 –0.055 0.044 –0.035 0.028 –0.023 0.018 –0.014 0.012
Valores de ϕ 1.1 –1.1 1.000 1.000 1.100 –1.100 1.210 1.210 1.331 –1.331 1.464 1.464 1.611 –1.611 1.772 1.772 1.949 –1.949 2.144 2.144 2.358 –2.358 2.594 2.594 2.853 –2.853 3.138 3.138 3.452 –3.452 3.797 3.797 4.177 –4.177 4.595 4.595 5.054 –5.054 5.560 5.560 6.116 –6.116 6.727 6.727
1 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000
–1 1.000 –1.000 1.000 –1.000 1.000 –1.000 1.000 –1.000 1.000 –1.000 1.000 –1.000 1.000 –1.000 1.000 –1.000 1.000 –1.000 1.000 –1.000 1.000
Quando se está interessado no impacto das variações permanentes da variável input, tem que se considerar que wt , wt +1 , wt + 2 ,…, wt + s variam de uma unidade. Neste caso, vem ∂ y t + s ∂ yt + s ∂ yt + s + + + ∂ wt +1 ∂ wt + 2 ∂ wt
+
∂ yt + s = ϕ s + ϕ s −1 + ϕ s −2 + ∂ wt + s
+ϕ +1 =
1 − ϕ s +1 . 1−ϕ
Quando | ϕ | < 1 e s → +∞ , tem-se o efeito de longo prazo, 1 . 1−ϕ Outra questão é a de saber qual é o efeito acumulado para o output, quando wt varia de uma unidade. Trata-se de determinar a soma dos impactos para todos os valores futuros da variável output. Este valor pode calcular-se facilmente, utilizando (9.13) com γ = 1,
Capítulo 9 – Modelos Dinâmicos e Autocorrelação (9.14)
+∞ s =0
10
∂ yt + s 1 , = ∂ wt 1 −ϕ
supondo que | ϕ | < 1 .
Exemplo 9.2 – Retomando a equação do exemplo 9.1, suponha-se que quer conhecer-se o efeito sobre lcga, daqui a dois trimestres, quando lpga varia de uma unidade no trimestre corrente (mantendo lpga constante nos próximos dois trimestres). Tem-se ∂ lcgat + 2 ∂ lcgat + 2 ∂ wt ∂ wt = × = ϕ2 × = 0.292 × (−0.43) ≈ −0.036 . ∂ lpgat ∂ wt ∂ lpgat ∂ lpgat
Assim, a elasticidade do consumo de gasolina daqui a dois trimestres em relação ao preço médio real da gasolina no trimestre corrente é de − 0.036 (quando este preço varia de 1% em t, o consumo de gasolina baixa de 0.036% em t + 2 ). A elasticidade de longo prazo do consumo de gasolina em relação ao preço médio real da gasolina é − 0.43 ≈ −0.61 1 − 0.29 ∇ Como yt = ϕ yt −1 + wt , também se tem ∆yt = ϕ ∆yt −1 + ∆wt . Para exemplificar a evolução ao longo do tempo dos efeitos transitórios (acumulados) e dos efeitos permanentes das variações de y, em função das variações de w, suponha-se que ϕ = 0.8 . Admite-se que ∆y0 = 0 . Considerem-se dois casos de variação unitária de w. No primeiro, supõe-se que no período 2 ( t = 2 ) há uma variação transitória,
∆w1 = 0 , ∆w2 = 1 , ∆w3 = 0 , ∆w4 = 0 ,... No segundo caso, a variação a partir do período 2 é permanente, isto é,
∆w1 = 0 , ∆w2 = 1 , ∆w3 = 1 , ∆w4 = 1 ,... Apresentam-se os resultados no quadro 9.3, ao longo de 30 períodos. Quando a variação é transitória, vem
∆y2 = 1 , ∆y3 = 0.8 , ∆y4 = 0.82 = 0.64 , ∆y5 = 0.83 = 0.512 ,…, verificando-se que lim ∆ys = 0 .
s → +∞
Quando a variação é permanente, tem-se
∆y2 = 1 , ∆y3 = 1 + 0.8 = 1.8 , ∆y4 = 1.8 + 0.82 = 2.44 , ∆y5 = 2.44 + 0.83 = 2.952 ,…, e lim ∆ys =
s → +∞
1 1 = = 5. 1 − ϕ 1 − 0 .8
Capítulo 9 – Modelos Dinâmicos e Autocorrelação
11
Quadro 9.3 Efeitos transitórios e permanentes Efeitos Transitórios s
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28
t ∆wt 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
∆yt 0.0000 0.0000 1.0000 0.8000 0.6400 0.5120 0.4096 0.3277 0.2621 0.2097 0.1678 0.1342 0.1074 0.0859 0.0687 0.0550 0.0440 0.0352 0.0281 0.0225 0.0180 0.0144 0.0115 0.0092 0.0074 0.0059 0.0047 0.0038 0.0030 0.0024 0.0004
Efeitos permanentes
∆yt ∆wt 0.0000 0.0000 1.0000 1.8000 2.4400 2.9520 3.3616 3.6893 3.9514 4.1611 4.3289 4.4631 4.5705 4.6564 4.7251 4.7801 4.8241 4.8593 4.8874 4.9099 4.9279 4.9424 4.9539 4.9631 4.9705 4.9764 4.9811 4.9849 4.9879 4.9903 4.9984
0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
∆yt 0.0000 0.0000 1.0000 1.8000 2.4400 2.9520 3.3616 3.6893 3.9514 4.1611 4.3289 4.4631 4.5705 4.6564 4.7251 4.7801 4.8241 4.8593 4.8874 4.9099 4.9279 4.9424 4.9539 4.9631 4.9705 4.9764 4.9811 4.9849 4.9879 4.9903 4.9984
Equações de 2.ª ordem Seguidamente, vai estudar-se a resolução das equações lineares de 2.ª ordem ( p = 2 ), (9.15)
yt = ϕ 1 yt −1 + ϕ 2 yt −2 + wt .
Capítulo 9 – Modelos Dinâmicos e Autocorrelação
12
Considere-se a respectiva equação homogénea, e propõe-se λt como solução particular da equação. Tem-se
λt = ϕ1λt −1 + ϕ 2 λt −2 ⇔ λt −2 (λ2 − ϕ1λ − ϕ 2 ) = 0 . Quando λ ≠ 0 , obtém-se a equação característica,
λ2 − ϕ1λ − ϕ 2 = 0 , cujas raízes são
λ1 =
ϕ1 + ϕ12 + 4ϕ 2 2
, λ2 =
ϕ1 − ϕ12 + 4ϕ 2 2
,
a verificar λ1 + λ2 = ϕ1 e λ1λ2 = −ϕ 2 . Podem-se verificar três casos: a) As raízes são reais e distintas: ϕ12 + 4ϕ 2 > 0 . Como as duas soluções particulares independentes são y10t = λ1t e y20t = λt2 , a solução geral é dada por yt = c1λ1t + c2 λt2 . Se y0 e y1 forem conhecidos, pode determinar-se a respectiva solução definida, conhecendo os valores das constantes. Tem-se
y0 = c1 + c2 y1 = c1λ1 + c2 λ2 ou, c1 =
y1 − λ2 y0 λ y − y1 e c2 = 1 0 . λ1 − λ2 λ1 − λ2
b) As raízes são reais e iguais: ϕ12 + 4ϕ 2 = 0 . Neste caso, tem-se 2λ = ϕ1 e λ2 = −ϕ 2 . Uma das soluções particulares é, obviamente, y10t = λt . A outra solução particular é dada por y20t = tλt . Com efeito, vem tλt − ϕ1 (t − 1)λt −1 − ϕ 2 (t − 2)λt −2 = (λ2 − ϕ1λ − ϕ 2 )tλt −2 + (ϕ1λ + 2ϕ 2 )λt −2 = 0 , atendendo a que λ2 − ϕ1λ − ϕ 2 = 0 e ϕ1λ + 2ϕ 2 = 0 . Como estas duas soluções particulares são independentes, a solução geral é a seguinte: yt = c1λt + c2tλt . Quando se conhecem y0 e y1 , podem determinar-se os valores das constantes correspondentes à solução definida. Vem
y0 = c1 y1 = c1λ + c2 λ ou, c1 = y0 e c2 =
y1 − λ y0
λ
.
Capítulo 9 – Modelos Dinâmicos e Autocorrelação
13
c) As raízes são complexas (conjugadas): ϕ12 + 4ϕ 2 < 0 . As raízes são,
λ1 =
ϕ1 + i − (ϕ12 + 4ϕ 2 ) 2
= a + i b e λ2 =
ϕ1 − i − (ϕ12 + 4ϕ 2 ) 2
= a − ib ,
onde a=
ϕ1 2
e b=
− (ϕ12 + 4ϕ 2 ) . 2
A solução geral da equação é dada por yt = c1λ1t + c2 λt2 = c1 (a + i b) t + c2 (a − ib) t . As raízes também se podem apresentar na forma trigonométrica ou utilizando as relações de Euler. Assim,
λ1 = r {cos(θ ) + i sen(θ )} = r exp{iθ } e λ2 = r{cos(θ ) − i sen(θ )} = r exp{−iθ } , onde r 2 = a 2 +b 2 = −ϕ 2 > 0 e θ é tal que cos(θ ) =
b ϕ1 a = e sen(θ ) = . r r 2 − ϕ2
Utilizando o teorema de De Moivre, tem-se (a ± ib)t = r t {cos(θ t ) ± i sen (θ t )} , Então,
yt = c1r t exp{iθ t} + c2r t exp{−iθ t} = c1r t {cos(θ t ) + i sen (θ t )} + c2r t {cos(θ t ) − i sen (θ t )} = r t {(c1 + c2 ) cos(θ t ) + i (c1 − c2 ) sen (θ t )} , ou yt = r t {d1 cos(θ t ) + d 2 sen (θ t )} , onde d1 = c1 + c2 e d 2 = i (c1 − c2 ) . Dados y0 e y1 , é fácil fazer os cálculos para determinar as constantes que dão a solução definida. Assim,
y0 = d1 y1 = r{d1 cos(θ ) + d 2 sen(θ )}
d1 = y0 ou
d2 =
y1 − y0r cos(θ ) . r sen(θ )
A discussão do comportamento da solução geral da equação homogénea vai depender dos valores das raízes da equação característica. Assim: − A classificação das raízes (segundo os três casos referidos) depende crucialmente do sinal de ϕ12 + 4ϕ 2 ou da posição, no respectivo plano, do ponto (ϕ1 , ϕ 2 ) em relação à parábola ϕ 2 = −ϕ12 / 4 . Assim: (a) se o ponto se encontra acima da parábola, as raízes são reais e distintas; (b) sobre a parábola, as raízes são reais e iguais; (c) abai-
Capítulo 9 – Modelos Dinâmicos e Autocorrelação
14
xo da parábola, complexas conjugadas. Note-se também que o comportamento da solução depende sempre da raiz dominante, isto é, da raiz cujo módulo é maior [nas equações de 2.ª ordem, esta questão só tem interesse prático para o caso (a)]. − No caso (a), a estabilidade da solução depende dos valores assumidos pela duas raízes da equação característica, uma vez que as soluções particulares são da forma λtj ( j = 1, 2 ). Se as duas raízes são, em valor absoluto ou em módulo, menores que 1, a solução é estável; caso contrário, a solução é instável. − Para aprofundar esta conclusão, vai supor-se que λ1 > λ2 . Tem-se
λ1 > 1 ⇔
ϕ1 + ϕ12 + 4ϕ 2 2
> 1 ⇔ ϕ12 + 4ϕ 2 > 2 − ϕ1 .
Como ϕ12 + 4ϕ 2 > 0 , a desigualdade verifica-se para ϕ1 ≥ 2 . Se ϕ1 < 2 , elevando ao quadrado ambos os membros da desigualdade, obtém-se
ϕ12 + 4ϕ 2 > 4 − 4ϕ1 + ϕ12 ⇔ ϕ 2 > 1 − ϕ1 . Em conclusão, λ1 > 1 se ϕ1 ≥ 2 ou se o ponto (ϕ1 , ϕ 2 ) se encontra à direita da recta ϕ 2 = 1 − ϕ1 . A intersecção da parábola com esta recta dá-se no ponto (2,−1) , pelo que λ1 = 1 em todos os pontos da recta à esquerda de (2,−1) . Com um raciocínio semelhante, verifica-se que λ2 < −1 se ϕ1 ≤ −2 ou se o ponto (ϕ1 , ϕ 2 ) se encontra à esquerda da recta ϕ 2 = 1 + ϕ1 . Como em (−2,−1) se verifica a intersecção desta recta com a parábola, λ2 = −1 em todos os pontos da recta à esquerda de (−2,−1) . Finalmente, a solução é estável [ | λ j | < 1 ( j = 1,2 )], nas condições seguintes: − se 0 ≤ ϕ1 < 2 então −
ϕ1 4
− se − 2 < ϕ1 ≤ 0 então −
< ϕ 2 < 1 − ϕ1 ;
ϕ1 4
< ϕ 2 < 1 + ϕ1 .
− No caso (b), todos os pontos (ϕ1 , ϕ 2 ) pertencem à parábola. A solução é estável se e só se | λ | < 1 . Facilmente se conclui que: λ = 1 , no ponto (2,−1) ; λ = −1 , no ponto (−2,−1) ; λ > 1 , nos pontos da parábola a verificar ϕ1 > 2 ; λ < −1 , nos pontos da parábola, tais que ϕ1 < −2 ; | λ | < 1 , em todos os pontos da parábola que correspondem a − 2 < ϕ1 < 2 . − No caso (c), a solução é estável se r < 1 . Como
r = − ϕ2 > 0 , tem-se ϕ 2 < 0 . Pode concluir-se que:
r > 1 ⇔ ϕ 2 < −1 ; r = 1 ⇔ ϕ 2 = −1 ; r < 1 ⇔ −1 < ϕ 2 < 0 . − Em resumo: a solução é estável no interior do triângulo de vértices (2,−1) , (0,1) e (−2,−1) ; a solução é explosiva no exterior deste triângulo; na fronteira, verifica-se que o módulo da raiz dominante é igual a 1. Fica ao cuidado do leitor cotejar a discussão anterior sobre o comportamento da solução geral com a figura 9.1.
Capítulo 9 – Modelos Dinâmicos e Autocorrelação
6
15
ϕ2
5 4 3 2 1
ϕ1
0 -6
-4
-2
ϕ 2 = 1 + ϕ1
-1
0
2
4
6
ϕ 2 = 1 − ϕ1
-2 -3 -4 -5
ϕ 2 = −ϕ12 / 4
Fig. 9.1 – Comportamento da solução geral da equação yt = ϕ 1 yt −1 + ϕ 2 yt −2 Utilizando o operador L, a equação (9.15) pode escrever-se da seguinte maneira: (9.16)
(1 − ϕ1L − ϕ 2 L2 ) yt = wt .
A partir de (9.16), podem-se obter resultados equivalentes para a discussão da estabilidade das suas soluções. Com efeito, suponha-se que é possível determinar dois números, λ1 e λ 2 , de tal maneira que o polinómio do 2.º grau em L, 1 − ϕ 1 L − ϕ 2 L2 , pode ser factorizado da seguinte maneira: 1 − ϕ 1 L − ϕ 2 L2 = (1 − λ1 L)(1 − λ2 L) = 1 − (λ1 + λ2 ) L + λ1λ2 L2 , onde λ1 + λ2 = ϕ1 e λ1λ2 = −ϕ 2 . Em geral, λ1 e λ 2 são determinados de modo a garantir que os operadores 1 − ϕ 1 L − ϕ 2 L2 e (1 − λ1 L)(1 − λ2 L) sejam idênticos. Para isso, considera-se a equação 1 − ϕ 1 z − ϕ 2 z 2 = (1 − λ1 z )(1 − λ2 z ) , onde se substitui o operador L pelo escalar z, a incógnita da equação. Tem agora sentido fazer a seguinte pergunta: em que condições se anula o segundo membro da equação? A resposta, imediata, é a seguinte: quando z = λ1−1 ou z = λ−21 . Como os valores que anulam o segundo membro também devem anular o primeiro, tem-se a equação 1 − ϕ 1z − ϕ 2 z 2 = 0 , cujas raízes são z1 =
ϕ1 − ϕ12 + 4ϕ 2 ϕ + ϕ12 + 4ϕ 2 e z2 = 1 , − 2ϕ 2 − 2ϕ 2
Capítulo 9 – Modelos Dinâmicos e Autocorrelação
16
onde z1 + z2 = −ϕ1 / ϕ2 e z1 z2 = −1 / ϕ 2 . Multiplicando por
ϕ1 + ϕ12 + 4ϕ 2 ambos os termos do quociente referente à raiz z1 , e por
ϕ1 − ϕ12 + 4ϕ 2 ambos os termos do quociente respeitante à raiz z 2 , obtém-se, respectivamente, z1 =
2
ϕ1 + ϕ12 + 4ϕ 2
e z2 =
2
ϕ1 − ϕ12 + 4ϕ 2
.
Assim, 2 2 1 ϕ1 + ϕ1 + 4ϕ 2 1 ϕ1 − ϕ1 + 4ϕ 2 λ1 = = e λ2 = = , 2 2 z1 z2
ou seja, obtêm-se as raízes da equação característica de (9.15). Quando as raízes z1 e z 2 são complexas conjugadas, tem-se ( i = 1,2 ):
λi = r exp{±iθ } = r{cos(θ ) ± i sen(θ )} ; zi = r −1 exp{ iθ } = r −1{cos(θ ) i sen(θ )} . É possível determinar λ1 e λ 2 por um método mais directo. Com efeito, dividindo ambos os membros de 1 − ϕ 1 z − ϕ 2 z 2 = (1 − λ1 z )(1 − λ2 z ) por z 2 , vem z −2 − ϕ 1 z −1 − ϕ 2 = ( z −1 − λ1 )( z −1 − λ2 ) . Fazendo λ = z −1 , obtém-se
λ2 − ϕ 1λ − ϕ 2 = (λ − λ1 )(λ − λ2 ) . Como λ = λ1 ou λ = λ2 anulam o segundo membro desta igualdade, os mesmos valores devem anular o primeiro membro, obtendo-se, de novo, as raízes da equação característica de (9.15). A coincidência destes resultados é instrutiva. No entanto, deve chamar-se a atenção para a possível confusão entre as respectivas condições de estabilidade das soluções de (9.15). Assim, quando se utiliza a equação característica, a estabilidade é garantida quando as raízes são, em módulo, menores do que 1 (as raízes estão no interior do círculo unitário); quando se resolve a equação 1 − ϕ 1 z − ϕ 2 z 2 = 0 , a estabilidade verifica-se quando as suas raízes são, em módulo, maiores do que 1 (as raízes estão no exterior do círculo unitário). Evidentemente, | λi | < 1 ⇔| zi | > 1 para i = 1, 2 . Supondo estabilidade, pode fazer-se
λ1 ( L) = (1 − λ1 L) −1 = 1 + λ1 L + λ12 L2 + λ13 L3 + λ2 ( L) = (1 − λ2 L) −1 = 1 + λ2 L + λ22 L2 + λ32 L3 +
,
desde que as sucessões, a que estes operadores vão ser aplicados, sejam limitadas. Como (1 − ϕ1L − ϕ 2 L2 ) yt = wt ⇔ (1 − λ1 L)(1 − λ2 L) yt = wt ,
Capítulo 9 – Modelos Dinâmicos e Autocorrelação
17
tem-se yt = (1 − λ1 L) −1 (1 − λ2 L) −1 wt . Suponha-se que as raízes são distintas. Notando que
1 {λ (1 − λ1L) −1 − λ2 (1 − λ2 L) −1} λ1 − λ2 1 1 = (1 − λ1L)−1 (1 − λ2 L) −1{λ1 (1 − λ2 L) − λ2 (1 − λ1L)} = (1 − λ1L) −1 (1 − λ2 L) −1 , λ1 − λ2 vem
yt = =
1 {λ1 (1 − λ1L) −1 − λ2 (1 − λ2 L) −1} wt λ1 − λ2
λ1 λ1 − λ2
(1 + λ1L + λ12 L2 +
)−
λ2 λ1 − λ2
(1 + λ2 L + λ22 L2 +
) wt ,
ou (9.17)
yt = (h1 + h2 ) wt + (h1λ1 + h2λ2 ) wt −1 + (h1λ12 + h2λ22 ) wt − 2 +
,
onde h1 =
λ1 λ1 − λ2
, h2 =
λ2 λ2 − λ1
e h1 + h2 = 1 .
Como yt + s = (h1 + h2 ) wt + s + (h1λ1 + h2λ2 ) wt + s −1 + (h1λ12 + h2λ22 ) wt + s − 2 +
+ (h1λ1s + h2λ2s ) wt +
,
o multiplicador dinâmico é dado por (9.18)
∂ yt + s = h1λ1s + h2 λs2 . ∂ wt Fica ao cuidado do leitor verificar que ∂ yt + 2 ∂ yt +1 = ϕ1 e = ϕ12 + ϕ2 . ∂ w ∂ wt t
Quando as raízes são complexas conjugadas, ( λ1 = a + ib ; λ2 = a − ib ), verifica-se facilmente que (ver a respectiva solução geral da equação homogénea): ∂ yt + s = h1λ1s + h2λs2 = r s {( h1 + h2 ) cos(θ s ) + i (h1 − h2 ) sen (θ s )} . ∂ wt Notando que h1 =
λ1 λ1 − λ2
=
1 ia λ2 1 ia − e h2 = = + , 2 2b λ2 − λ1 2 2b
vem h1 + h2 = 1 (resultado já conhecido) e i (h1 − h2 ) = a / b = cos(θ ) / sen(θ ) . Então, o multiplicador dinâmico é dado por
Capítulo 9 – Modelos Dinâmicos e Autocorrelação
18
∂ yt + s a = h1λ1s + h2 λs2 = r s cos(θ s ) + sen (θ s ) . ∂ wt b A discussão do comportamento do multiplicador dinâmico (9.18) é semelhante à que foi feita a propósito da solução geral da respectiva equação homogénea: o multiplicador dinâmico é estável se os módulos das raízes são menores do que 1. Em particular, se as raízes são complexas conjugadas, a condição de estabilidade é dada por r 1 ( i = 1, 2, , p ), verifica-se que há estabilidade se e só se, as raízes λi estão no interior do círculo unitário ou as raízes zi estão no exterior do círculo unitário. Supondo que existe estabilidade e que as sucessões envolvidas na equação de diferenças são limitadas, existem os operadores
λ1 ( L) = (1 − λ1 L) −1 = 1 + λ1 L + λ12 L2 + λ13 L3 + λ2 ( L) = (1 − λ2 L) −1 = 1 + λ2 L + λ22 L2 + λ32 L3 + ...
λ p ( L) = (1 − λ p L) −1 = 1 + λ p L + λ2p L2 + λ3p L3 +
.
Então,
yt = (1 − λ1 L) −1 (1 − λ2 L) −1
(1 − λ p L) −1 wt .
Quando as raízes da equação característica são distintas, é possível determinar constantes hi ( i = 1, 2, , p ) de forma que
(1 − λ1 L) −1 (1 − λ2 L) −1
(1 − λ p L) −1 = h1 (1 − λ1 L) −1 + h2 (1 − λ2 L) −1 +
+ h p (1 − λ p L) −1 .
Para isso, considera-se a respectiva equação em z, 1 (1 − λ1 z )(1 − λ2 z )
(1 − λ p z )
=
h1 h2 + + 1 − λ1 z 1 − λ2 z
Multiplicando ambos os membros por (1 − λ1 z )(1 − λ2 z ) 1 = h1 (1 − λ2 z )(1 − λ3 z )
(1 − λ p z )
+ h2 (1 − λ1 z )(1 − λ3 z )
(1 − λ p z ) +
+ h p (1 − λ1 z )(1 − λ2 z )
(1 − λ p−1 z ) .
+
hp 1− λpz
.
(1 − λ p z ) , obtém-se
Como o segundo membro desta equação é um polinómio em z de grau p − 1 e a equação tem que se verificar para todos os valores de z, a escolha dos hi vai ser feita para p valores particulares de z. Fazendo z = λ1−1 , obtém-se
1 = h1 (1 − λ2 λ1−1 )(1 − λ3λ1−1 )
(1 − λ p λ1−1 ) ,
ou
h1 =
λ1p −1 (λ1 − λ2 )(λ1 − λ3 )
Do mesmo modo se prova que:
(λ1 − λ p )
.
Capítulo 9 – Modelos Dinâmicos e Autocorrelação
λ2p −1 h2 = (λ2 − λ1 )(λ2 − λ3 )
22
(λ2 − λ p )
;
...
hp =
λ pp −1 (λ p − λ1 )(λ p − λ2 )
(λ p − λ p −1 )
.
Note-se que as expressões dos hi já tinham sido apresentadas para o caso p = 2 , continuando a ter-se h1 + h2 + + h p = 1 . Então, yt = {h1 (1 − λ1L) −1 + h2 (1 − λ2 L) −1 + + hp (1 − λ p L) −1} wt = {h1λ1 ( L) + h2λ2 ( L) +
+ hp λ p ( L)} wt ,
ou
yt = (h1 + h2 + (9.23)
+ hp ) wt
+ (h1λ1 + h2λ2 +
+ hp λ p ) wt −1
+ (h1λ12 + h2λ22 +
+ hp λ2p ) wt − 2 +
.
Continua a ter-se ∂ yt + s = h1λ1s + h2 λs2 + ∂ wt
(9.24)
+ h p λsp .
Tirando partido de (9.23), torna-se fácil calcular a variação do valor actual de um fluxo de valores futuros do output ( yt , yt +1 , yt +2 ,…), quando wt varia de uma unidade. Com efeito, se em (9.23) se fizer
ψ s = h1λ1s + h2 λs2 +
+ h p λsp
ψ ( L) = ψ 0 + ψ 1 L + ψ 2 L2 + tem-se yt = ψ ( L) wt , sendo fácil verificar que ∂ VA t = ∂ wt
+∞ s =0
γs
∂ yt + s = ∂ wt
+∞ s =0
γ sψ s = ψ (γ ) .
Como
yt = (1 − λ1 L) −1 (1 − λ2 L) −1
(1 − λ p L) −1 wt ,
yt = ψ ( L) wt ,
1 − ϕ 1 L − ϕ 2 L2 −
− ϕ p Lp = (1 − λ1 L)(1 − λ2 L)
conclui-se que
ψ ( L) = (1 − ϕ 1 L − ϕ 2 L2 −
− ϕ p Lp ) −1 ,
ψ (γ ) = (1 − ϕ 1γ − ϕ 2γ 2 −
− ϕ pγ p ) −1 .
e, portanto, Logo,
(1 − λ p L) ,
Capítulo 9 – Modelos Dinâmicos e Autocorrelação (9.25)
∂ VA t = ∂ wt
+∞ s =0
γs
∂ yt + s 1 = ∂ wt 1 − ϕ1γ − ϕ 2γ 2 −
23
− ϕ pγ
p
.
O efeito acumulado para o output, quando wt varia de uma unidade, é obtido, fazendo γ = 1 em (9.25). Assim, +∞
(9.26)
s =0
∂ yt + s 1 = ∂ wt 1 − ϕ1 − ϕ 2 −
−ϕ p
.
Este valor é também é igual ao efeito de longo prazo sobre o output, quando o input varia de uma unidade, de forma permanente. Tem-se: (9.27)
lim
s → +∞
∂ yt + s ∂ yt + s ∂ yt + s + + + ∂ wt ∂ wt +1 ∂ wt + 2
+
∂ yt + s 1 = ∂ wt + s 1 − ϕ1 − ϕ2 −
−ϕp
.
No exemplo seguinte apresentam-se duas situações que envolvem equações de 3.ª ordem. Neste caso: h1 =
λ23 λ12 λ22 . ; h2 = ; h3 = (λ1 − λ2 )(λ1 − λ3 ) (λ2 − λ1 )(λ2 − λ3 ) (λ3 − λ1 )(λ3 − λ2 )
Exemplo 9.5 – Seja yt = 0.5 yt −1 + 0.3 yt −2 − 0.1yt −3 + wt . Fazendo os cálculos, vem:
λ1 ≈ 0.724 ; λ2 = −0.5 ; λ3 ≈ 0.274 ; h1 ≈ 0.951 ; h2 ≈ 0.264 ; h3 ≈ −0.215 . Donde ∂ yt + s = h1λ1s + h2 λs2 + h3λ3s ≈ 0.951 × 0.724 s + 0.264 × (−0.5) s − 0.215 × 0.274 s , ∂ wt concluindo-se que o multiplicador é estável (tende para 0 quando s → +∞ ). Considerando a equação yt = −0.5 yt −1 + 0.5 yt −2 − 0.1 yt −3 + wt , obtém-se:
λ1 ≈ −1.06 ; λ2 ≈ 0.28 + i × 0.125 ; λ3 ≈ 0.28 − i × 0.125 ; h1 ≈ 0.62 ; h2 ≈ 0.19 − i × 0.204 ; h3 ≈ 0.19 + i × 0.204 . Relativamente ao par de raízes complexas conjugadas, tem-se r ≈ 0.279 e θ ≈ 0.821 . Assim,
∂ yt + s = h1λ1s + h2λs2 + h3λ3s = h1λ1s + r2s {(h2 + h3 ) cos(θ s ) + i (h2 − h3 ) sen (θ s )} ∂ wt ≈ 0.62 × (−1.06) s + 0.279 s {0.38 cos(0.821 s ) + 0.408 sen (0.821 s )}. Pode, então, concluir-se que o multiplicador é instável porque λ1 < −1 . ∇
9.2 - Filtros e processos lineares
Capítulo 9 – Modelos Dinâmicos e Autocorrelação
24
Vai aprofundar-se um pouco mais o estudo do operador de desfasamento, L, introduzindo o conceito de filtro de uma série temporal.
Definição 9.2 - Filtro Dada uma sucessão de números reais, α 0 , α1 , α 2 , dado por
α ( L) = α 0 + α1 L + α 2 L2 +
(9.28)
, um filtro de uma série temporal é
.
A operação de filtragem de uma série temporal, {xt } , permite obter outra série temporal, { yt } , aplicando o filtro α (L) à primeira. Assim,
yt = α ( L) xt = α 0 xt + α1 xt −1 + α 2 xt − 2 +
(9.29)
+∞
=
s =0
α s xt − s .
Se α p ≠ 0 e α s = 0 , ( s > p ), o filtro reduz-se a um polinómio de grau p em L. Como se sabe, é possível multiplicar polinómios em L. Esta operação pode ser generalizada para os filtros. Assim, o produto dos filtros
α ( L) = α 0 + α1 L + α 2 L2 +
e β ( L) = β 0 + β1L + β 2 L2 +
é o filtro
δ ( L) = α ( L) β ( L) = δ 0 + δ 1 L + δ 2 L2 + onde a sucessão δ 0 , δ 1 , δ 2 ,
,
é dada pelas relações de convolução
δ 0 = α0β0 , δ 1 = α 0 β1 + α 1 β 0 , δ 2 = α 0 β 2 + α 1 β1 + α 2 β 0 , …
δ s = α 0 β s + α1 β s −1 + α 2 β s −2 +
+ α s −1 β1 + α s β 0 ,
…. Facilmente se verifica que o produto de filtros é comutativo,
δ ( L) = α ( L) β ( L) = β ( L)α ( L) . Quando δ ( L) = 1 (operador identidade), tem-se uma situação de particular interesse. Neste caso, tem-se α ( L) β ( L) = β ( L)α ( L) = 1 , e diz-se que β (L) é o filtro inverso de α (L) , e escreve-se β ( L) = α ( L) −1 . Evidentemente, α ( L) = β ( L) −1 . Por meio das relações de convolução, facilmente se obtêm a sucessão {β s } a partir da sucessão {α s } , desde que α 0 ≠ 0 . Com efeito, notando que δ 0 = 1 e δ s = 0 , para s = 1, 2, , vem αβ 1 α β0 = , β1 = − 1 0 = − 12 , … .
α0
α0
α0
Por exemplo, no estudo das equações de diferenças, já se consideraram filtros da forma 1 − α L . Neste caso, tem-se (1 − α L) −1 = 1 + α L + α 2 L2 + . Quando α = 1 , vem (1 − L) −1 = 1 + L + L2 + .
Capítulo 9 – Modelos Dinâmicos e Autocorrelação
25
Facilmente se verifica que (desde que α 0 ≠ 0 e β 0 ≠ 0 )
α ( L) β ( L) = δ ( L) ⇔ β ( L) = α ( L) −1δ ( L) ⇔ α ( L) = δ ( L) β ( L) −1 . Em muitas situações [ver (9.20)], é necessário calcular o inverso do polinómio
ϕ ( L) = 1 − ϕ1 L − ϕ 2 L2 −
− ϕ p Lp .
Como ϕ 0 = 1 ≠ 0 , o filtro inverso existe, e pode ser calculado com as relações de convolução. Assim, seja
ψ ( L) = ϕ ( L) −1 = ψ 0 + ψ 1 L + ψ 2 L2 +
,
e ϕ ( L)ψ ( L) = 1 . Então,
ψ0 =1 ψ 1 − ϕ1ψ 0 = 0 ψ 2 − ϕ1ψ 1 − ϕ 2ψ 0 = 0 …
ψ p−1 − ϕ1ψ p−2 − ϕ 2ψ p−3 − − ϕ p −1ψ 0 = 0 ψ p − ϕ1ψ p−1 − ϕ 2ψ p−2 − − ϕ p−1ψ 1 − ϕ pψ 0 = 0 ψ p+1 − ϕ1ψ p − ϕ 2ψ p−1 − ψ p+2 − ϕ1ψ p+1 − ϕ 2ψ p −
− ϕ p−1ψ 2 − ϕ pψ 1 = 0 − ϕ p−1ψ 3 − ϕ pψ 2 = 0
…. Estas equações são facilmente resolúveis, obtendo-se
ψ 0 = 1 , ψ 1 = ϕ1 , ψ 2 = ϕ 2 + ϕ12 , … . Note-se que, para s ≥ p , tem-se a equação homogénea de diferenças de ordem p, com coeficientes ϕ1 , ϕ 2 , , ϕ p , (9.30)
ψ s − ϕ1ψ s −1 − ϕ 2ψ s −2 −
− ϕ p −1ψ s − p +1 − ϕ pψ s − p = 0 .
Assim, uma vez calculados os coeficientes ψ 0 ,ψ 1 ,ψ 2 , ,ψ p−1 , pode resolver-se esta equação para determinar os restantes ψ s , usando aqueles p coeficientes como condições iniciais. No capítulo 3 (secção 3.2), foram introduzidos os processos estacionários [definição 3.7 (estacionaridade em sentido restrito); definição 3.8 (estacionaridade em sentido amplo ou em covariância)], dando-se particular relevo às respectivas autocovariâncias e coeficientes de autocorrelação. Um exemplo fundamental de processo estacionário em covariância é o ruído branco. Recorde-se que, no caso univariado, {ε t } é um ruído branco se e só se E (ε t ) = 0 , Var (ε t ) = σ ε2 e Cov(ε t , ε t −s ) = 0 ( s ≠ 0 ). O objectivo desta secção é apresentar uma família particular de processos estocásticos, chamados processos lineares. Mas, para isso, é indispensável introduzir previamente a definição de processo de médias móveis de ordem q (recorde-se que, no capítulo 3, já foi referido o processo de médias móveis de 1.ª ordem, (3.6), como um exemplo
Capítulo 9 – Modelos Dinâmicos e Autocorrelação
26
de processo estacionário em covariância; no mesmo capítulo, na secção 3.10, a propósito do comportamento das variáveis residuais no modelo de regressão linear, também se fez uma referência a estes processos).
Definição 9.3 – Processo de médias móveis de ordem q O processo estocástico { yt } é um processo de médias móveis de ordem q se e só se (9.31)
yt = µ + θ 0ε t + θ1ε t −1 + θ 2ε t −2 +
+ θ q ε t −q ,
onde {ε t } é um ruído branco, θ 0 = 1 e θ q ≠ 0 . Escreve-se, yt ~ MA(q ) . A expressão (9.31) pode apresentar-se utilizando o polinómio em L,
θ ( L) = 1 + θ1 L + θ 2 L2 +
+ θ q Lq ,
obtendo-se (9.32)
yt = µ + θ ( L)ε t . Este processo é estacionário em covariância. Com efeito, tem-se: E ( yt ) = µ ;
γ s = (θ sθ 0 + θ s +1θ1 +
+ θ qθ q− s )σ ε2 = σ ε2
γ s = 0 ( s = q + 1, q + 2,
q −s i =0
θ s +iθ i ( s = 0,1,
, q );
),
onde γ s = Cov( yt , yt − s ) é a autocovariância de ordem s (note-se que γ s = γ − s ). Facilmente se obtêm os coeficientes de autocorrelação:
ρs =
θ s + θ s+1θ1 + 1 + θ12 +
+ θ qθ q− s + θ q2
( s = 0,1,
, q ); ρ s = 0 ( s = q + 1, q + 2,
).
Para q = 1, vem:
γ 0 = (1 + θ12 )σ ε2 ; γ 1 = θ1σ ε2 ; γ s = 0 ( s = 2, 3, 4, ρ 0 = 1 ; ρ1 =
θ1 ; ρ s = 0 ( s = 2, 3, 4, 1 + θ12
);
).
Para q = 2 , resulta:
γ 0 = (1 + θ12 + θ 22 )σ ε2 ; γ 1 = (θ1 + θ 2θ1 )σ ε2 ; γ 2 = θ 2σ ε2 ; γ s = 0 ( s = 3, 4, ρ 0 = 1 ; ρ1 =
θ1 + θ 2θ1 θ2 ; ρ2 = ; ρ s = 0 ( s = 3, 4, 2 2 1 + θ1 + θ 2 1 + θ12 + θ 22
);
).
Assim, todo o perfil de autocovariâncias, {γ s } , é descrito por apenas q + 1 parâmetros, (θ1 ,θ 2 , ,θ q , σ ε2 ) , e o correlograma, {ρ s } , por (θ1 ,θ 2 , ,θ q ) . A análise anterior mostra que, nos processos MA(q ) , as autocorrelações desaparecem ao fim de q desfasamentos. Embora algumas séries temporais se possam comportar desta maneira, é desejável poder modelar séries temporais que não tenham esta propriedade. A ideia natural que surge é, então, a de substituir a soma de q + 1 parcelas
Capítulo 9 – Modelos Dinâmicos e Autocorrelação
θ 0ε t + θ1ε t −1 + θ 2ε t −2 +
27
+ θ qε t −q , pela série estocástica (série cujos termos são variáveis
aleatórias) (9.33)
ψ 0ε t + ψ 1ε t −1 + ψ 2ε t −2 +
=
+∞ s =0
ψ sε t −s ,
onde {ψ s } é uma sucessão de números reais. Pode, então, escrever-se (9.34)
yt = µ + ψ 0ε t + ψ 1ε t −1 + ψ 2ε t −2 +
=µ+
+∞ s =0
ψ sε t −s = µ + ψ ( L)ε t ,
onde
ψ ( L) = ψ 0 + ψ 1 L + ψ 2 L2 +
,
é um filtro. Este filtro é absolutamente somável se e só se (9.35)
+∞ s =0
| ψ s | < +∞ .
Nestas condições, diz-se também que a sucessão de números reais {ψ s } é absolutamente somável. Deste modo, a série de números reais +∞ s =0
ψs
é absolutamente convergente (e, portanto, convergente). Note-se também que uma condição necessária de convergência de uma série é que o seu termo geral, ψ s , tenda para 0, quando s → +∞ . Assim, a somabilidade absoluta implica que os choques passados, representados pelos ψ s , vão-se atenuando. Como se vai ver no teorema seguinte, a sucessão das somas parciais (9.36)
n
ψ sε t − s
s =0
converge em média quadrática para uma dada variável aleatória, desde que se verifique (9.35). Neste caso, diz-se que a série estocástica (9.33) é convergente em média quadrática. Como a diferença entre (9.34) e (9.33) se resume à constante µ , também se pode dizer que
yt = µ +
+∞ s =0
ψ sε t −s
converge em média quadrática.
Teorema 9.1 Seja {ε t } um ruído branco e {ψ s } uma sucessão de números reais absolutamente somável. Então:
Capítulo 9 – Modelos Dinâmicos e Autocorrelação
28
a) Para cada t, yt , dado por (9.34), é convergente em média quadrática. b) E ( yt ) = µ . c) As autocovariâncias são dadas por (9.37)
+∞
)σ ε2 = σ ε2
γ s = (ψ sψ 0 + ψ s +1ψ 1 + ψ s + 2ψ 2 +
i =0
ψ s +iψ i .
d) O processo { yt } é estacionário em covariância. e) As autocovariâncias são absolutamente somáveis, (9.38)
+∞ s =0
| γ s | < +∞ .
f) Se {ε t } é iid (ruído branco independente), então o processo { yt } é estritamente estacionário e ergódico.
Dem.: Para demonstrar a alínea a), é necessário provar que mq
n
ψ ε → yt , s =0 s t − s
ytn = µ +
ou seja, atendendo à propriedade a) da convergência em média quadrática para uma variável aleatória (ver capítulo 3) basta provar que lim E{( ytm − ytn ) 2 } = 0 ,
m→+∞ n→+∞
supondo, sem perda de generalidade, que m > n . Notando que
ytm − ytn =
m
ψ sε t − s ,
s = n +1
vem 2
m
E{( ytm − ytn ) 2 } = E
ψε s = n +1 s t − s
= σ ε2
m
ψ s2 .
s = n +1
Como se verifica (9.35), uma vez que a sucessão {ψ s } é absolutamente somável, também se verifica +∞ s =0
ψ s2 < +∞ ,
ou seja, {ψ s } é somável em quadrado [ver o comentário 1) a este teorema]. Como a série de termo geral ψ s2 é convergente, tem-se lim
n→+∞
n s =0
ψ s2 =
+∞ s =0
ψ s2 .
Então, de acordo com o critério de Cauchy, lim
m→+∞ n→+∞
m s =0
ψ s2 −
n s =0
ψ s2 = lim
m→+∞ n →+∞
m
ψ s2 = 0 ,
s = n +1
ficando provada a alínea a) do teorema. Para provar a alínea b), basta aplicar a propriedade b) da convergência em média quadrática para uma variável aleatória (ver capítulo 3). Assim,
Capítulo 9 – Modelos Dinâmicos e Autocorrelação
29
lim E ( ytn ) = E ( yt ) = µ .
n→+∞
Utilizando a propriedade c) da convergência em média quadrática para uma variável aleatória (ver capítulo 3), demonstra-se a alínea c) deste teorema. Com efeito, esta propriedade garante que lim E{( ytn − µ )( yt − s ,n − µ )} = E{( yt − µ )( yt − s − µ )} .
n→+∞
Como
E{( ytn − µ )( yt − s ,n − µ )} = (ψ sψ 0 + ψ s +1ψ 1 + ψ s + 2ψ 2 +
+ ψ s + nψ n )σ ε2 ,
vem imediatamente (9.37). Os resultados das alíneas b) e c) permitem concluir que { yt } é estacionário em covariância, ficando demonstrada a alínea d). Para provar a alínea e), começa-se por notar que, a partir de (9.37), tem-se +∞
| γ s | = σ ε2
i =0
+∞
ψ s +iψ i ≤ σ ε2
i =0
( | ψ s +i | | ψ i | ) .
Então, +∞ s =0
| γ s | ≤ σ ε2
+∞
+∞
s =0
i =0
= σ ε2
+∞
+∞
i =0
s =0
= σ ε2
i =0
+∞
( |ψ s + i | |ψ i | ) ( |ψ s + i | |ψ i | ) +∞
|ψ i |
s =0
( |ψ s + i | ) .
Como {ψ s } é absolutamente somável, existe um K < +∞ tal que +∞ s =0
|ψ s | < K ,
e, portanto, +∞ s =0
| ψ s +i | < K ( i = 0, 1, 2,
).
Finalmente, +∞ s =0
| γ s | < σ ε2 K
+∞ i =0
| ψ i | < σ ε2 K 2 < +∞ .
Para provar a alínea f), ver Hannan (1970). ∇∇
Comentários ao teorema 9.1: 1) Vai provar-se que: +∞ s =0
| ψ s | < +∞
+∞
ψ s2 < +∞ .
s =0
Com efeito, como +∞ s =0
| ψ s | < +∞
lim | ψ s | = 0 ,
s →+∞
Capítulo 9 – Modelos Dinâmicos e Autocorrelação
30
existe uma ordem n, a partir da qual | ψ s | < 1 , o que implica ψ s2 < | ψ s | , qualquer que seja s ≥ n . Então, +∞ s =0
ψ s2 =
n −1 s =0
ψ s2 +
+∞ s =n
n −1
ψ s2
0 e | λi | < bi < 1 . Sendo a ∗ = max{ai } e b = max{bi } , tem-se, para qualquer i, ai bis < a ∗b s . Então,
|ψ s | ≤ c
pi −1
q i =1
=0
a ∗b s = cp a ∗b s = ab s ( s = 0,1, 2,
),
onde a = cpa ∗ . Finalmente, tem-se +∞ s =0
+∞
|ψ s |
1 . Substituindo t por t + 1 em yt − µ = ϕ ( yt −1 − µ ) + ε t , e multiplicando ambos os membros por ϕ −1 , obtém-se yt − µ = ϕ −1 ( yt +1 − µ ) − ϕ −1ε t +1 ,
ou (1 − ϕ −1L−1 )( yt − µ ) = −ϕ −1ε t +1 , atendendo a que L−1 yt = yt +1 . Como o filtro (1 − ϕ −1L−1 ) −1 = 1 + ϕ −1 L−1 + ϕ −2 L−2 +
Capítulo 9 – Modelos Dinâmicos e Autocorrelação
36
é absolutamente somável [a sucessão {ϕ − s } , para s = 0, 1, 2, mável, com soma igual a ϕ /(ϕ − 1) ], pode fazer-se
, é absolutamente so-
yt − µ = −(1 − ϕ −1 L−1 ) −1ϕ −1ε t +1 ,
ou (9.48)
yt = µ − (1 + ϕ −1 L−1 + ϕ −2 L−2 +
) ϕ −1ε t +1 = µ −
+∞ s =1
ϕ − sε t + s .
Então, o processo AR(1), { yt } , é estacionário em covariância, e representa-se por um processo MA(∞) dos valores futuros do ruído branco, o qual não é muito útil em Economia. Facilmente se verifica que E ( yt ) = µ (fica ao cuidado do leitor determinar as autocovariâncias, γ s ). Neste caso, não se verifica que E ∗ ( yt | 1, yt −1 ) = α + ϕ yt −1 , pois, de acordo com a solução (9.48), não é verdade que E ( yt −1ε t ) = 0 . 3) | ϕ | = 1 . Quando ϕ = 1 , tem-se yt = α + yt −1 + ε t . Note-se que, quando o ruído branco é independente, este processo é um passeio aleatório com deriva ou constante, que é um exemplo já conhecido de processo não estacionário (ver definição 3.11). O processo { yt } não é estacionário em covariância. Com efeito, por substituição recursiva, obtém-se yt − yt −s = sα + (ε t + ε t −1 +
+ ε t − s +1 ) .
Se o processo fosse estacionário em covariância, calculando a variância de ambos os membros desta igualdade, obtinha-se 2(γ 0 − γ s ) = sσ ε2 , ou
ρs =
sσ 2 γs = 1 − ε < −1 , γ0 2γ 0
para s suficientemente grande. Esta contradição mostra que { yt } não pode ser estacionário em covariância. Outra maneira de verificar a não estacionaridade do processo consiste em fixar a condição inicial y0 , e notar que yt = y0 + α t + (ε t + ε t −1 +
+ ε1 ) .
Então, Var ( yt ) = σ ε2 t (para y0 fixo) cresce com t. Note-se, também, que yt = α + yt −1 + ε t ⇔ (1 − L) yt = α + ε t e que o filtro (1 − L) −1 = 1 + L + L2 + não é absolutamente somável. Quando ϕ = −1 , vem yt = α − yt −1 + ε t . Fazendo, para simplificar, α = 0 , obtém-se por substituição recursiva, yt − (−1) s yt − s = ε t − ε t −1 +
+ (−1) s −1ε t − s +1 .
Supondo que o processo é estacionário em covariância, o cálculo da variância de ambos os membros desta igualdade daria 2γ 0 − 2(−1) s γ s = sσ ε2 , ou
Capítulo 9 – Modelos Dinâmicos e Autocorrelação
37
sσ ε2 (−1) ρ s = 1 − < −1 , 2γ 0 s
para s suficientemente grande. Assim, tinha-se | ρ s | > 1 , o que leva a concluir que { yt } não pode ser estacionário em covariância. No seguimento, salvo referência em contrário, a expressão “processo AR(1)” refere-se à única solução estacionária em covariância da equação yt = α + ϕ yt −1 + ε t , quando | ϕ | < 1 (condição de estacionaridade). Retome-se o estudo geral dos processos auto-regressivos de ordem p, considerando, de novo, o polinómio em L, ϕ ( L) = 1 − ϕ1 L − ϕ 2 L2 − − ϕ p Lp . Se ϕ (1) = 1 − ϕ1 − ϕ 2 − − ϕ p ≠ 0 , seja
µ=
α 1 − ϕ1 − ϕ 2 −
−ϕ p
=
α . ϕ (1)
Então, o processo AR ( p ) , (9.43), pode ser dado por yt − µ = ϕ1 ( yt −1 − µ ) + ϕ 2 ( yt −2 − µ ) +
+ ϕ p ( yt − p − µ ) + ε t ⇔ ϕ ( L)( yt − µ ) = ε t .
Supondo que as raízes de
ϕ ( z ) = 1 − ϕ1 z − ϕ2 z 2 −
−ϕpz p
são, em módulo, superiores a 1 (verifica-se a condição de estabilidade ou de estacionaridade), sabe-se que o filtro
ψ ( L) = ϕ ( L) −1 = ψ 0 + ψ 1 L + ψ 2 L2 + é absolutamente somável [a sucessão {ψ s } , para s = 0, 1, 2, vel]. Então, tem-se (9.49)
yt = µ + ψ ( L) ε t = µ + (ψ 0 + ψ 1 L + ψ 2 L2 +
, é absolutamente somá-
)ε t = µ +
+∞ s =0
ψ s ε t −s .
Tendo em atenção o teorema 9.1, pode concluir-se que: − O processo AR ( p ) , { yt } , pode representar-se por um processo MA(∞) , ou seja, é um processo linear. − A solução (9.49) é a única solução estacionária em covariância da equação de diferenças estocástica (9.43). − Tem-se (9.50)
E ( yt ) = µ =
α 1 − ϕ1 − ϕ 2 −
−ϕp
.
− As autocovariâncias, γ s , dadas por (9.37), são absolutamente somáveis. Note-se que a estacionaridade em covariância exige ϕ (1) ≠ 0 , pois, caso contrário, ϕ ( z ) teria uma raíz igual a 1 (raíz unitária).
Capítulo 9 – Modelos Dinâmicos e Autocorrelação
38
Salvo referência em contrário, a expressão “processo AR ( p ) ” refere-se à única solução estacionária em covariância da equação (9.43), quando se verifica a condição de estacionaridade. Tal como se fez para o processo AR(1), os momentos, µ e γ s , podem ser calculados directamente de (9.43), tirando partido da estacionaridade em covariância. Assim, fazendo E ( yt ) = E ( yt −1 ) = = E ( yt − p ) = µ , obtém-se (9.50). Para determinar as autocovariâncias e os coeficientes de autocorrelação, vai começar-se pelo caso p = 2 , para facilitar a exposição. Multiplicando ambos os membros de yt − µ = ϕ1 ( yt −1 − µ ) + ϕ 2 ( yt −2 − µ ) + ε t por yt −s − µ , e calculando os respectivos valores esperados, obtém-se (9.51)
γ s = ϕ1γ s −1 + ϕ 2γ s −2 ( s = 1, 2,
),
que constitui uma equação homogénea de diferenças linear de 2.ª ordem, com os mesmos coeficientes do processo AR(2) (as autocovariâncias seguem um “padrão dinâmico” formalmente igual ao do próprio processo auto-regressivo). Notando que γ 1 = ϕ1γ 0 + ϕ 2γ −1 = ϕ1γ 0 + ϕ 2γ 1 , uma vez que γ −1 = γ 1 , tem-se
γ1 =
ϕ1 γ0, 1− ϕ2
bastando conhecer γ 0 para se ter a respectiva solução definida de (9.51). Quando se dividem ambos os membros de (9.51) por γ 0 , obtém-se uma equação semelhante relativa às autocorrelações (9.52)
ρ s = ϕ1ρ s −1 + ϕ2 ρ s − 2 ( s = 1, 2,
).
Agora, tem-se ρ 0 = 1 e
ρ1 =
ϕ1 . 1 − ϕ2
Os outros coeficientes de autocorrelação obtêm-se, por recorrência, utilizando (9.52). Por exemplo,
ρ 2 = ϕ1 ρ1 + ϕ 2 ρ 0 =
ϕ12 + ϕ2 . 1− ϕ2
Falta calcular a variância, γ 0 . Multiplicando por yt − µ ambos os membros de yt − µ = ϕ1 ( yt −1 − µ ) + ϕ 2 ( yt −2 − µ ) + ε t , e calculando os respectivos valores esperados, vem γ 0 = ϕ1γ 1 + ϕ 2γ 2 + σ ε2 ou γ 0 = ϕ1 ρ1γ 0 + ϕ 2 ρ 2γ 0 + σ ε2 . Então,
γ0 =
σ ε2 (1 − ϕ 2 )σ ε2 = . 1 − ϕ1 ρ1 − ϕ 2 ρ 2 (1 + ϕ 2 ){(1 − ϕ 2 ) 2 − ϕ12 }
Considerando qualquer p, multiplica-se ambos os membros de yt − µ = ϕ1 ( yt −1 − µ ) + ϕ 2 ( yt −2 − µ ) +
+ ϕ p ( yt − p − µ ) + ε t
por yt −s − µ . Calculando os respectivos valores esperados, obtém-se
Capítulo 9 – Modelos Dinâmicos e Autocorrelação + ϕ pγ p + σ ε2
γ 0 = ϕ1γ 1 + ϕ2γ 2 +
(9.53)
39
γ s = ϕ1γ s −1 + ϕ2γ s − 2 +
+ ϕ pγ s − p ( s = 1, 2, ) .
Para s = 0,1, 2, , p , e sabendo que γ − s = γ s , (9.53) é um sistema de p + 1 equações algébricas lineares nas incógnitas, γ 0 , γ 1 , γ 2 , , γ p , em função dos parâmetros do processo, ϕ1 , ϕ 2 , , ϕ p , σ ε2 . As outras autocovariâncias obtêm-se, por recorrência, usando a equação de diferenças dada pela segunda expressão de (9.53). Dividindo esta expressão por γ 0 , tem-se (9.54)
ρ s = ϕ1 ρ s−1 + ϕ 2 ρ s−2 +
+ ϕ p ρ s − p ( s = 1, 2,
).
Verifica-se, assim, que as autocovariâncias e os coeficientes de autocorrelação seguem a mesma equação de diferenças que a do próprio processo AR ( p ) . As relações (9.53), para s = 1, 2, , ou (9.54) são conhecidas pela designação de equações de Yule-Walker.
Processos ARMA Os processos ARMA têm duas componentes dinâmicas: − a componente auto-regressiva, ϕ1 yt −1 + ϕ 2 yt −2 + + ϕ p yt − p ; − a componente de médias móveis, θ 0ε t + θ1ε t −1 + θ 2ε t −2 + θ qε t −q .
Definição 9.7 – Processo ARMA O processo estocástico { yt } é um processo ARMA( p, q ) se e só se (9.55)
yt = α + ϕ1 yt −1 + ϕ 2 yt −2 +
+ ϕ p yt − p + θ 0ε t + θ1ε t −1 + θ 2ε t −2 +
+ θ q ε t −q ,
onde {ε t } é um ruído branco, ϕ p ≠ 0 , θ 0 = 1 e θ q ≠ 0 . Escreve-se, yt ~ ARMA( p, q ) . O processo definido em (9.55) pode apresentar-se usando os polinómios em L,
ϕ ( L) = 1 − ϕ1 L − ϕ 2 L2 − θ ( L) = 1 + θ1 L + θ 2 L2 +
− ϕ p Lp , + θ q Lq ,
obtendo-se (9.56)
ϕ ( L ) yt = α + θ ( L ) ε t .
Neste caso, tem-se a equação estocástica de diferenças linear de ordem p com coeficientes constantes, onde wt = α + ε t + θ1ε t −1 + θ 2ε t −2 + + θ qε t −q . Seja
µ=
α 1 − ϕ1 − ϕ 2 −
supondo que ϕ (1) = 1 − ϕ1 − ϕ 2 − yt − µ = ϕ1 ( yt −1 − µ ) +
−ϕ p
=
α , ϕ (1)
− ϕ p ≠ 0 . Então, + ϕ p ( yt − p − µ ) + ε t + θ1ε t −1 +
+ θ q ε t −q ,
Capítulo 9 – Modelos Dinâmicos e Autocorrelação
40
ou
ϕ ( L)( yt − µ ) = θ ( L)ε t . Se as raízes de ϕ (z ) são, em módulo, superiores a 1 (condição de estacionaridade), o filtro ψ ( L) = ϕ ( L) −1θ ( L) = ψ 0 + ψ 1 L + ψ 2 L2 + é absolutamente somável [a sucessão {ψ s } , para s = 0,1, 2, vel]. Então, (9.57)
− − − −
yt = µ + ψ ( L) ε t = µ + (ψ 0 + ψ 1 L + ψ 2 L2 +
, é absolutamente somá-
)ε t = µ +
+∞ s =0
ψ s ε t −s .
Atendendo ao teorema 9.1, conclui-se que: O processo ARMA( p, q ) , { yt } , pode representar-se por um processo MA(∞) , sendo, portanto, um processo linear. A solução (9.57) é a única solução estacionária em covariância da equação de diferenças estocástica (9.55). E ( yt ) = µ , tal como em (9.50). Como ψ ( L) = ϕ ( L) −1θ ( L) é equivalente a ϕ ( L)ψ ( L) = θ ( L) , os termos da sucessão {ψ s } são obtidos a partir das respectivas relações de convolução. Supondo, por exemplo, que p < q + 1 , vem:
ψ0 =1 ψ 1 − ϕ1ψ 0 = θ1 ψ 2 − ϕ1ψ 1 − ϕ 2ψ 0 = θ 2 …
ψ p−1 − ϕ1ψ p−2 − ϕ 2ψ p −3 − − ϕ p −1ψ 0 = θ p −1 ψ p − ϕ1ψ p −1 − ϕ 2ψ p−2 − − ϕ p−1ψ 1 − ϕ pψ 0 = θ p ψ p+1 − ϕ1ψ p − ϕ 2ψ p−1 − − ϕ p−1ψ 2 − ϕ pψ 1 = θ p+1 …
ψ q − ϕ1ψ q−1 − ϕ 2ψ q−2 − ψ q+1 − ϕ1ψ q − ϕ 2ψ q −1 −
− ϕ p−1ψ q− p+1 − ϕ pψ q− p = θ q − ϕ p−1ψ q− p+ 2 − ϕ pψ q− p +1 = 0
…. Fica ao cuidado do leitor reconstituir as relações de convolução para q + 1 ≤ p . Estas equações são facilmente resolúveis, obtendo-se
ψ 0 = 1 , ψ 1 = θ1 + ϕ1 , ψ 2 = θ 2 + ϕ 2 + θ1ϕ1 + ϕ12 ,…. Note-se que, para s ≥ s ∗ = max{ p, q + 1} , tem-se a equação homogénea de diferenças linear de ordem p, com coeficientes ϕ1 , ϕ 2 , , ϕ p , (9.58)
ψ s − ϕ1ψ s −1 − ϕ 2ψ s −2 −
− ϕ p −1ψ s − p +1 − ϕ pψ s − p = 0 ,
isto é, a partir de s ∗ , a dinâmica dos coeficientes do processo ARMA( p, q ) é inteiramente governada pelos parâmetros da componente auto-regressiva. − As autocovariâncias, γ s , dadas por (9.37), são absolutamente somáveis.
Capítulo 9 – Modelos Dinâmicos e Autocorrelação
41
Quando se utilizar a expressão “processo ARMA( p, q ) ” está a referir-se, salvo indicação em contrário, a única solução estacionária em covariância da equação (9.55), quando se verifica a condição de estacionaridade. Note-se também que a estacionaridade do processo ARMA( p, q ) depende apenas dos parâmetros do processo auto-regressivo, ϕ1 , ϕ 2 , , ϕ p . Vão apresentar-se as relações de convolução para três exemplos: 1) Processo ARMA(1,1): yt = α + ϕ yt −1 + ε t + θ ε t −1 . Tem-se: ϕ ( L) = 1 − ϕ L ; θ ( L) = 1 + θ L . Como ϕ ( L)ψ ( L) = θ ( L) , vem (1 − ϕ L)(ψ 0 + ψ 1L + ψ 2 L2 +
) =1+θ L ,
ou
ψ 0 + (ψ 1 − ϕψ 0 ) L + (ψ 2 − ϕψ 1 ) L2 +
= 1+θ L .
Donde
ψ0 =1 ψ1 = ϕ + θ ψ s − ϕψ s −1 = 0 ( s = 2, 3, ) . Neste caso, s∗ = 2 . 2) Processo ARMA(3,1): yt = α + ϕ1 yt −1 + ϕ2 yt − 2 + ϕ3 yt − 3 + ε t + θ ε t −1 . Tem-se: ϕ ( L) = 1 − ϕ1L − ϕ2 L2 − ϕ3 L3 ; θ ( L) = 1 + θ L . Então, (1 − ϕ1L − ϕ2 L2 − ϕ3 L3 )(ψ 0 + ψ 1L + ψ 2 L2 + ) = 1 + θ L , ou
ψ 0 + (ψ 1 − ϕ1ψ 0 ) L + (ψ 2 − ϕ1ψ 1 − ϕ2ψ 0 ) L2 + (ψ 3 − ϕ1ψ 2 − ϕ2ψ 1 − ϕ3ψ 0 ) L3 +
=1+θ L .
Donde
ψ0 =1 ψ 1 = ϕ1 + θ ψ 2 = ϕ12 + ϕ1θ + ϕ2 ψ s − ϕ1ψ s −1 − ϕ 2ψ s − 2 − ϕ3ψ s −3 = 0 ( s = 3, 4, ) . Neste caso, s∗ = 3 . 3) Processo ARMA(1,2): yt = α + ϕ yt −1 + ε t + θ1ε t −1 + θ 2 ε t − 2 . Tem-se: ϕ ( L) = 1 − ϕ L ; θ ( L) = 1 + θ1 L + θ 2 L2 . Obtém-se (1 − ϕ L)(ψ 0 + ψ 1L + ψ 2 L2 + ) = 1 + θ1 L + θ 2 L2 , ou
ψ 0 + (ψ 1 − ϕψ 0 ) L + (ψ 2 − ϕψ 1 ) L2 + (ψ 3 − ϕψ 2 ) L3 + Donde
= 1 + θ1 L + θ 2 L2 .
Capítulo 9 – Modelos Dinâmicos e Autocorrelação
42
ψ0 =1 ψ 1 = ϕ + θ1 ψ 2 = ϕ 2 + ϕθ1 + θ 2 ψ s − ϕψ s −1 = 0 ( s = 3, 4, ) . Neste caso, s∗ = 3 . Os momentos, µ e γ s , podem ser calculadas directamente a partir de (9.55), tirando partido da estacionaridade em covariância. Continua a ter-se (9.50), considerando a condição E ( yt ) = E ( yt −1 ) = = E ( yt − p ) = µ . Para determinar as autocovariâncias e os coeficientes de autocorrelação, começa-se por multiplicar ambos os membros de yt − µ = ϕ1 ( yt −1 − µ ) +
+ ϕ p ( yt − p − µ ) + ε t + θ1ε t −1 +
+ θ q ε t −q ,
por yt −s − µ , e calcular os valores esperados. Para s > q , obtêm-se as equações de Yule-Walker, (9.59)
γ s = ϕ1γ s −1 + ϕ 2γ s−2 +
+ ϕ pγ s − p ( s = q + 1, q + 2,
),
e (9.60)
ρ s = ϕ1 ρ s −1 + ϕ 2 ρ s −2 +
+ ϕ p ρ s − p ( s = q + 1, q + 2,
).
Assim, depois de q desfasamentos, as autocovariâncias (e os coeficientes de autocorrelação) verificam uma equação de diferenças linear de ordem p, que apenas depende dos parâmetros da componente auto-regressiva do processo ARMA. Note-se que as relações (9.59) e (9.60) não se verificam para s ≤ q , devido à correlação entre θ s ε t − s e yt − s . Assim, as autocovariâncias de ordem 1 a q no processo ARMA( p, q ) são mais complicadas do que as correspondentes no processo AR ( p ) . Por exemplo, considere-se o processo ARMA(1,1) [ p = q = 1 ]: yt − µ = ϕ ( yt −1 − µ ) + ε t + θ ε t −1 . Se se multiplicarem ambos os membros desta igualdade por yt − µ , por um lado, e por yt −1 − µ , por outro lado, obtém-se ( yt − µ ) 2 = ϕ ( yt −1 − µ )( yt − µ ) + (ε t + θ ε t −1 )( yt − µ ) ( yt − µ )( yt −1 − µ ) = ϕ ( yt −1 − µ ) 2 + (ε t + θ ε t −1 )( yt −1 − µ ) . Calculando os respectivos valores esperados, tem-se
γ 0 = ϕ γ 1 + E{(ε t + θ ε t −1 )( yt − µ )} γ 1 = ϕ γ 0 + E{(ε t + θ ε t −1 )( yt −1 − µ )}. A partir do processo ARMA(1,1), tem-se yt −1 − µ = ϕ ( yt − 2 − µ ) + ε t −1 + θ ε t − 2 , yt − µ = ϕ 2 ( yt − 2 − µ ) + ε t + (ϕ +θ )ε t −1 + ϕ θ ε t − 2 .
Capítulo 9 – Modelos Dinâmicos e Autocorrelação
43
Então, E {ε t + θ ε t −1}{ϕ 2 ( yt − 2 − µ ) + ε t + (ϕ +θ )ε t −1 + ϕ θ ε t − 2 } = (1 + ϕθ + θ 2 )σ ε2 , e E {ε t + θ ε t −1}{ϕ ( yt − 2 − µ ) + ε t −1 + θ ε t − 2} = θ σ ε2 . Logo,
γ 0 = ϕ γ 1 + (1 + ϕθ + θ 2 )σ ε2 γ 1 = ϕ γ 0 + θ σ ε2 . Resolvendo este sistema em relação a γ 0 e γ 1 , obtém-se 1 + 2ϕθ + θ 2 2 σε 1−ϕ 2 (1 + ϕθ )(ϕ + θ ) 2 γ1 = σε . 1−ϕ 2
γ0 =
Se se multiplicarem ambos os membros de yt − µ = ϕ ( yt −1 − µ ) + ε t + θ ε t −1 por yt −s − µ , para s = 2, 3, , e se calcularem os respectivos valores esperados, facilmente se obtém a relação de recorrência γ s = ϕ γ s −1 . Fica ao cuidado do leitor obter as fórmulas das autocovariâncias referentes aos processos ARMA(3,1) e ARMA(1,2). Considere-se um processo ARMA( p, q ) estável, ϕ ( L)( yt − µ ) = θ ( L)ε t , e suponha-se que os polinómios ϕ (z ) e θ (z ) têm r raízes comuns. Então, podem fazer-se as factorizações ϕ ( z ) = η ( z ) ϕ ∗ ( z ) e θ ( z ) = η ( z ) θ ∗ ( z ) , onde η (z ) é um polinómio de grau r, e os polinómios ϕ ∗ (z ) e θ ∗ (z ) têm, respectivamente, graus p − r e q − r . Por exemplo, se há apenas uma raiz comum, z1 , tem-se
η ( z) = 1 −
1 z. z1
Se existem apenas duas raízes comuns, complexas conjugadas, z1 = a + ib e z2 = a − ib , vem
η ( z) = 1 −
1 z z1
1−
1 1 1 1 1 2 2a 1 z =1− z+ z =1− 2 + × z+ 2 z2 . 2 2 z2 z1 z2 z1 z2 a +b a +b
Como ϕ ( L) = η ( L) ϕ ∗ ( L) e θ ( L) = η ( L) θ ∗ ( L) , pode escrever-se
η ( L) ϕ ∗ ( L)( yt − µ ) = η ( L) θ ∗ ( L)ε t . Como existe η ( L) −1 , tem-se
ϕ ∗ ( L)( yt − µ ) = θ ∗ ( L)ε t , ou seja, obtém-se outro processo ARMA( p − r , q − r ) . Atendendo a que
Capítulo 9 – Modelos Dinâmicos e Autocorrelação
44
ψ ( L) = ϕ ( L)−1θ ( L) = ϕ ∗ ( L)−1η ( L) −1η ( L) θ ∗ ( L) = ϕ ∗ ( L) −1θ ∗ ( L) , pode concluir-se que os dois processos ARMA são equivalentes, pois têm a mesma solução estacionária em covariância, yt = µ + ψ ( L) ε t . Assim, por razões de parcimónia, processos ARMA com raízes comuns são raramente usados para modelar processos estacionários em covariância.
Função geradora das autocovariâncias Um modo particularmente útil de sumarizar todo o perfil de autocovariâncias de um processo estocástico estacionário em covariância é através da função geradora das autocovariâncias.
Definição 9.8 – Função geradora das autocovariâncias Considere-se um processo estocástico, { yt } , estacionário em covariância. Suponha-se que a respectiva sucessão de autocovariâncias, {γ s } , é absolutamente somável. A função geradora das autocovariâncias é dada por (9.61)
g y ( z) =
+∞ s = −∞
γ szs = γ 0 +
+∞ s =1
γ s (z s + z−s ) ,
notando que γ s = γ − s e z é uma variável complexa (escalar). Tem particular interesse o caso em que o argumento desta função, z, pertence ao círculo unitário, definido por | z | = 1 . Assim, z = cos ω − i sen ω = exp{−iω} . Se a função (9.61) tem por argumento estes valores de z e for dividida por 2π , tem-se uma função de ω , que se chama o espectro ou função densidade espectral de { yt } , 1 1 s y (ω ) = g y (cos ω − i sen ω ) = g y (exp{−iω}) , 2π 2π onde ω se designa por frequência. Pode verificar-se que o espectro é uma função com contradomínio em ℜ . Com efeito, basta notar que
g y (cos ω − i sen ω ) = γ 0 +
+∞ s =1
γ s {(cos ω − i sen ω ) s + (cos ω − i sen ω )− s } ,
e que (cos ω − i sen ω ) s + (cos ω − i sen ω )− s = cos( sω ) − i sen ( sω ) + cos(− sω ) − i sen (− sω ) = cos( sω ) − i sen ( sω ) + cos( sω ) + i sen ( sω ) = 2 cos( sω ) . Então, s y (ω ) =
1 γ +2 2π 0
+∞ s =1
γ s cos( sω ) .
Capítulo 9 – Modelos Dinâmicos e Autocorrelação
45
Pode demonstrar-se que para sucessões de autocovariâncias absolutamente somáveis, todas as autocovariâncias se podem calcular a partir do espectro, existindo uma correspondência biunívoca entre a sucessão {γ s } e as funções g y (z ) ou s y (ω ) . Há, portanto, equivalência entre a análise de domínio-tempo (que se concentra directamente em {γ s } , tal como se fez até agora) e a análise de domínio-frequência (baseada na interpretação do espectro). A escolha do tipo de análise depende da facilidade com que se obtêm os resultados pretendidos. Para aprofundar esta questão, ver Hamilton (1994). Se o processo é um ruído branco, {ε t } , é imediato verificar que g y ( z ) = σ ε2 . No caso de um processo MA(1), dado por yt = µ + ε t + θ ε t −1 = µ + (1 + θ L)ε t , tem-se γ 0 = (1 + θ 2 )σ ε2 , γ 1 = γ −1 = θ σ ε2 e γ s = γ −s = 0 ( s = 2, 3, ). Então,
g y ( z ) = γ −1 z −1 + γ 0 + γ 1 z = σ ε2 (θ z −1 + 1 + θ 2 + θ z ) = σ ε2 (1 + θ z )(1 + θ z −1 ) , ou (9.62)
g y ( z ) = σ ε2 θ ( z )θ ( z −1 ) ,
onde θ ( z ) = 1 + θ z . O resultado (9.62) é imediatamente generalizável para os processos de médias móveis de ordem q. Assim, considerando
yt = µ + θ ( L) ε t = µ + (1 + θ1 L + θ 2 L2 +
+ θ q Lq ) ε t ,
tem-se (9.63)
g y ( z ) = σ ε2 θ ( z )θ ( z −1 ) = σ ε2 (1 + θ1 z + θ 2 z 2 +
+ θ q z q )(1 + θ1 z −1 + θ 2 z −2 +
+ θ q z −q ) .
Basta fazer o produto indicado em (9.63), para obter as expressões de γ s do processo MA(q ) . Este resultado pode generalizar-se para os processos de médias móveis infinitos [Fuller (1996)]: um filtro absolutamente − Seja {ε t } um ruído branco e ψ ( L) = ψ 0 + ψ 1 L + ψ 2 L2 + somável. Então, a função geradora das autocovariâncias do processo estocástico MA(∞) , { yt } , onde yt = µ + ψ ( L) ε t , é dada por (9.64)
g y ( z ) = σ ε2 ψ ( z )ψ ( z −1 ) = σ ε2 (ψ 0 + ψ 1 z + ψ 2 z 2 +
)(ψ 0 + ψ 1 z −1 + ψ 2 z −2 +
).
Mais geralmente: − Seja {xt } um processo estacionário em covariância, onde a sucessão das autocovariâncias é absolutamente somável, e g x (z ) a respectiva função geradora das autocovariâncias. Considere-se o processo estocástico { yt } , dado por yt = h( L) xt , onde o é absolutamente somável. Então, a função geradora filtro h( L) = h0 + h1 L + h2 L2 + das autocovariâncias de { yt } é dada por (9.65)
g y ( z ) = h( z ) g x ( z ) h( z −1 ) .
Capítulo 9 – Modelos Dinâmicos e Autocorrelação
46
− Considerando z = e − iω , e atendendo a (9.65), tem-se
g y (e− iω ) = h(e− iω ) g x (e − iω ) h(eiω ) . Dividindo ambos os membros por 2π , obtém-se o espectro de { yt } que resulta da filtragem com h(L) : s y (ω ) = h(e− iω ) sx (ω ) h(eiω ) . Considere-se o processo auto-regressivo de ordem p, estacionário em covariância, { yt } , dado por ϕ ( L)( yt − µ ) = ε t . Como este processo se pode representar por um MA(∞) , a função geradora das autocovariâncias é (9.66)
g y ( z) =
σ ε2 . ϕ ( z )ϕ ( z −1 )
Por exemplo, no caso AR(1), tem-se g y ( z) =
σ ε2 (1 − ϕ z )(1 − ϕ z −1 )
.
Pode verificar-se que se tem, de facto, a respectiva função geradora. Assim, notando que
σ ε2 (1 − ϕ z )(1 − ϕ z −1 )
= σ ε2 (1 + ϕ z + ϕ 2 z 2 +
)(1 + ϕ z −1 + ϕ 2 z −2 +
),
o coeficiente de z s é
σ ε2 (ϕ s + ϕ s +1ϕ + ϕ s +2ϕ 2 + ) = σ ε2
ϕs =γs. 1−ϕ 2
No caso de um processo ARMA( p, q ) , estacionário em covariância, dado por ϕ ( L)( yt − µ ) = θ ( L)ε t , vem a seguinte função geradora das autocovariâncias: (9.67)
g y ( z) =
σ ε2θ ( z ) θ ( z −1 ) . ϕ ( z )ϕ ( z −1 )
Por exemplo, no caso ARMA(1,1), yt − µ = ϕ ( yt −1 − µ ) + ε t + θ ε t −1 , tem-se g y ( z) =
σ ε2 (1 + θ z )(1 + θ z −1 ) . (1 − ϕ z )(1 − ϕ z −1 )
Invertibilidade Considere-se o processo MA(1) dado por yt − µ = (1 + θ L)ε t . Supondo que | θ | < 1 , o filtro (1 + θ L) −1 = 1 − θ L + θ 2 L2 − θ 3 L3 + é absolutamente somável. Então,
Capítulo 9 – Modelos Dinâmicos e Autocorrelação
47
(1 + θ L) −1 ( yt − µ ) = ε t , ou (9.68)
yt =
µ + θ yt −1 − θ 2 yt − 2 + θ 3 yt − 3 − 1+θ
+ εt .
Verifica-se, assim, que o processo MA(1) se pode representar por um processo AR (∞) , desde que se verifique a condição | θ | < 1 . Diz-se, então, que o processo MA(1) é invertível e | θ | < 1 é a condição de invertibilidade. Quando se tem um processo MA(q ) , yt − µ = θ ( L)ε t , onde
θ ( L) = 1 + θ L + θ 2 L2 +
+ θ q Lq ,
a condição de invertibilidade é que todas as raízes da equação
θ ( z) = 1 + θ z + θ 2 z 2 +
+θ q zq = 0 ,
se encontrem no exterior do círculo unitário. Nestas condições, o filtro
θ ( L) −1 = 1 + η1 L + η 2 L2 + η3 L3 + é absolutamente somável, e diz-se que o processo MA(q ) é invertível. A sua representação como AR (∞) é dada por θ ( L) −1 ( yt − µ ) = ε t , ou (9.69)
yt + η1 yt −1 + η 2 yt − 2 + η3 yt − 3 +
=
µ θ (1)
+ εt ,
onde θ (1) = 1 + θ + θ 2 + + θ q . Em geral, quando se considera um processo ARMA( p, q ) ,
ϕ ( L)( yt − µ ) = θ ( L)ε t , onde ϕ ( L) = 1 − ϕ1 L − ϕ 2 L2 − − ϕ p Lp , vai continuar a supor-se que θ (L) verifica a condição de invertibilidade. Então, a respectiva representação como AR (∞) é
θ ( L) −1ϕ ( L)( yt − µ ) = ε t , ou
θ ( L) −1ϕ ( L) yt =
ϕ (1) µ + εt , θ (1)
onde ϕ (1) = 1 − ϕ1 − ϕ 2 − − ϕ p . Esta representação não exige que ϕ (L) verifique a condição de estabilidade. No entanto, quando ambos os polinómios, ϕ (L) e θ (L) , verificam as respectivas condições de invertibilidade, o processo ARMA( p, q ) , tanto pode ser representado por um AR (∞) , como por um MA(∞) .
9.4 - Processos vectoriais Os conceitos e os resultados apresentados nas duas secções anteriores podem estender-se, sem dificuldade, ao caso dos processos vectoriais.
Capítulo 9 – Modelos Dinâmicos e Autocorrelação
48
Antes de mais recorde-se a definição de ruído branco vectorial (ver capítulo 3, definição 3.9). Diz-se que o processo estocástico vectorial, {ε •t } , onde ε •t é um vector aleatório m × 1 , é um ruído branco se e só se: E (ε •t ) = 0 ; Cov(ε •t ) = Σε ; Cov(ε •t , ε •,t − s ) = O ( s ≠ 0 ). Naturalmente, a matriz Σε é definida positiva e, como não é diagonal, pode haver correlação (contemporânea) entre os elementos do ε •t . A definição de processo vectorial de médias móveis de ordem q é a seguinte:
Definição 9.9 – Processo vectorial de médias móveis de ordem q O processo estocástico vectorial, { y•t } , onde y•t é um vector aleatório m × 1 , é um processo de médias móveis de ordem q se e só se (9.70)
y•t = µ + Θ 0 ε •t + Θ1 ε •,t −1 + Θ 2 ε •,t −2 +
+ Θ q ε •,t −q ,
onde {ε •t } é um ruído branco, Θ s ( s = 0,1, 2, , q ) é uma matriz quadrada de ordem m, Θ 0 = I m e µ é um vector m × 1 de constantes. Escreve-se, y•t ~ VMA(q ) . Fazendo
Θ( L) = I m + Θ1 L + Θ 2 L2 +
+ Θ q Lq ,
(9.70) pode escrever-se da seguinte maneira: (9.71)
y•t = µ + Θ( L) ε •t . Este processo é estacionário em covariância. Tem-se: E ( y•t ) = µ ;
Γs =
q −s i =0
Θ s + i Σε ΘTi ( s = 0, 1, 2,
Γs = O ( s = q + 1, q + 2,
, q );
),
onde Γs = Cov( y•t , y•,t − s ) é a matriz das autocovariâncias de ordem s. As fórmulas anteriores cobrem os casos em que s = −1,−2, , porquanto Γ− s = ΓsT . Por exemplo, para o processo VMA(1), y•t = µ + Θ 0 ε •t + Θ1ε •,t −1 , tem-se: Γ0 = Cov( y•t ) = E (Θ0 ε •t + Θ1ε •,t −1 )(Θ0 ε •t + Θ1ε •,t −1 )T = Θ0 Σε ΘT0 + Θ1 Σε Θ1T ; Γ1 = Cov( y•t , y•,t −1 ) = E (Θ0 ε •t + Θ1ε •,t −1 )(Θ0 ε •,t −1 + Θ1ε •,t − 2 )T = Θ1 Σε ΘT0 ; Γs = O ( s = 2, 3, ) . Antes de introduzir a definição de processo vectorial de médias móveis infinito, convém apresentar o conceito de filtro matricial absolutamente somável.
Capítulo 9 – Modelos Dinâmicos e Autocorrelação
49
Definição 9.10 – Filtro matricial absolutamente somável. Considere-se o filtro, (9.72)
A( L) = A0 + A1L + A2 L2 +
,
onde As ( s = 0, 1, 2, ) é uma matriz de tipo m × n . Se α ijs é o elemento genérico da matriz As , então o elemento genérico do filtro A(L) é dado pelo filtro (escalar)
α ij ( L) = α ij0 + α ij1 L + α ij2 L2 +
.
O filtro A(L) [a sucessão { As } ] é absolutamente somável se e só se cada filtro α ij (L) [cada sucessão {α ijs } ] é absolutamente somável.
Definição 9.11 – Processo vectorial de médias móveis infinito O processo estocástico vectorial, { y•t } , onde y•t é um vector aleatório m × 1 , é um processo de médias móveis infinito se e só se (9.73)
y•t = µ + Ψ0 ε •t + Ψ1 ε •,t −1 + Ψ2 ε •,t −2 +
,
onde {ε •t } é um ruído branco, Ψs ( s = 0,1, 2, ) é uma matriz quadrada de ordem m, Ψ0 = I m , a sucessão {Ψs } é absolutamente somável e µ é um vector m × 1 de constantes. Escreve-se, y•t ~ VMA(∞) . A expressão (9.73) pode escrever-se como (9.74)
y•t = µ + Ψ ( L) ε •t ,
onde o filtro absolutamente somável, Ψ (L) , é dado por Ψ ( L) = Ψ0 + Ψ1 L + Ψ2 L2 +
.
O teorema 9.1 pode ser generalizado para o caso dos processos VMA(∞) . Com efeito, tem-se: − Para cada t, y•t , dado por (9.73), é convergente em média quadrática. − E ( y•t ) = µ . − As matrizes das autocovariâncias são (9.75)
Γs =
+∞ i =0
Ψs + i Σε ΨiT ( s = 0,1,2,
).
Esta fórmula abrange s = −1,−2, , pois Γ− s = ΓsT . − O processo { y•t } é estacionário em covariância. − A sucessão das matrizes das autocovariâncias, {Γs } , é absolutamente somável. Do mesmo modo, os resultados do teorema 9.2 podem ser generalizados aos processos vectoriais. Assim: − Seja {x•t } , onde x•t é um vector aleatório n × 1 , um processo estacionário em covariância, e A(L) , dado por (9.72), absolutamente somável. Para cada t, y•t = A( L) x•t
Capítulo 9 – Modelos Dinâmicos e Autocorrelação
50
é convergente em média quadrática. − Se E ( x•t ) = µ x , então (9.76)
µ = E ( y•t ) = µ x
+∞ s =0
As .
− Se Γsx é a matriz das autocovariâncias de ordem s do processo {x•t } , a matriz das autocovariâncias respectiva do processo { y•t } é (9.77)
Γs =
+∞ i =0
+∞ =0
Ai Γsx− i + AT .
− O processo { y•t } é estacionário em covariância. − Se a sucessão das matrizes das autocovariâncias do processo {x•t } , {Γsx } , é absolutamente somável, então também o é a sucessão das matrizes das autocovariâncias do processo { y•t } , {Γs } . Também se podem generalizar os conceitos de produto de filtros e de filtro inverso. Sejam A(L) e B(L) dois filtros, em que as matrizes As do primeiro filtro são de tipo m × r , e as matrizes Bs do segundo, são de tipo r × n . O filtro produto é dado por D( L) = A( L) B( L) , onde as respectivas matrizes Ds , de tipo m × n , são obtidas a partir das seguintes relações de convolução: D0 = A0 B0 D1 = A0 B1 + A1 B0 D2 = A0 B2 + A1 B1 + A2 B0 … Ds = A0 Bs + A1 Bs −1 +
+ As −1 B1 + As B0
…. Facilmente se verifica que: o produto de filtros matriciais não é comutativo. Por exemplo, considerando os filtros A( L) = I m + A1 L e B( L) = I m + B1 L , tem-se A( L) B( L) = ( I m + A1 L)( I m + B1 L) = I m + ( A1 + B1 ) L + A1B1 L2 , B( L) A( L) = ( I m + B1 L)( I m + A1 L) = I m + ( B1 + A1 ) L + B1 A1 L2 , pelo que basta notar que, em geral, A1B1 ≠ B1 A1 . Também se pode verificar que: se os filtros A(L) e B(L) são absolutamente somáveis, então D(L) é absolutamente somável. Sejam A(L) e B(L) dois filtros, cujos coeficientes são matrizes quadradas de ordem m. O filtro B(L) é inverso de A(L) se A( L) B( L) = I m . Escreve-se, então, B( L) = A( L) −1 . Para qualquer sucessão de matrizes quadradas, { As : s = 0, 1, 2, } , o inverso do filtro A(L) existe se A0 é não singular. Com efeito, basta considerar nas relações de convolução, D0 = I m e Ds = O ( s = 1, 2, ) . Obtém-se: B0 = A0−1 ; B1 = − A0−1 A1B0 ; B2 = − A0−1 A1B1 − A0−1 A2 B0 ; ...
Capítulo 9 – Modelos Dinâmicos e Autocorrelação
51
Prova-se, sem dificuldade, que: 1) A(L) e A( L) −1 são permutáveis: A( L) A( L) −1 = A( L) −1 A( L) ; 2) A( L) B( L) = D( L) ⇔ B( L) = A( L) −1 D( L) ⇔ A( L) = D( L) B( L) −1 , desde que A0 e B0 tenham inversa; 3) { A( L) B( L)} −1 = B( L) −1 A( L) −1 , se existirem as inversas de A0 e B0 ; 4) O inverso de um filtro pode não ser absolutamente somável. Considere-se o polinómio em L com coeficientes matriciais, (9.78)
Φ( L) = I m − Φ1 L − Φ 2 L2 −
− Φ p Lp ,
onde cada matriz Φ s , s = 1, 2, , p , é quadrada de ordem m, e Φ p ≠ O . O filtro inverso de Φ(L) existe, e pode ser determinado com as relações de convolução, embora não fique garantido que Ψ ( L) = Φ ( L) −1 seja absolutamente somável. Pode, no entanto, generalizar-se o teorema 9.3: • Se se verificar que todas as raízes da equação (9.79)
| I m − Φ1z − Φ 2 z 2 −
− Φpz p | = 0
são, em módulo, maiores do que 1 (estão no exterior do círculo unitário), então o filtro Φ( L) −1 = Ψ ( L) = Ψ0 + Ψ1 L + Ψ2 L2 + é absolutamente somável. A condição enunciada é a condição de estabilidade, que pode ser apresentada de forma equivalente da seguinte maneira: as raízes da equação (9.80)
| I m z p − Φ1 z p −1 −
− Φ p −1z − Φ p | = 0
são, em módulo, menores do que 1 (estão no interior do círculo unitário). Por exemplo, se m = 2 e p = 1 , tem-se Φ( L) = I 2 − ΦL , onde
Φ=
ϕ11 ϕ12 . ϕ 21 ϕ 22
A equação (9.79) é a seguinte:
1 − ϕ11 z − ϕ12 z = 1 − (ϕ11 + ϕ 22 ) z + (ϕ11ϕ 22 − ϕ 21ϕ12 ) z 2 = 0 . − ϕ 21 z 1 − ϕ 22 z Pode, agora, apresentar-se as definições de processo vectorial auto-regressivo e de processo vectorial ARMA.
Definição 9.12 – Processo vectorial auto-regressivo ordem p O processo estocástico vectorial, { y•t } , onde y•t é um vector aleatório m × 1 , é um processo auto-regressivo de ordem p se e só se
Capítulo 9 – Modelos Dinâmicos e Autocorrelação (9.81)
y•t = α + Φ1 y•,t −1 + Φ 2 y•,t −2 +
52
+ Φ p y•,t − p + ε •t ,
onde {ε •t } é um ruído branco, Φ s ( s = 1, 2, , p ) é uma matriz quadrada de ordem m, Φ p ≠ O e α é um vector m × 1 de constantes. Escreve-se, y•t ~ VAR ( p ) . Se se utilizar (9.78), a expressão (9.81) pode apresentar-se do seguinte modo: (9.82)
Φ( L) y•t = α + ε •t . Se existir a inversa da matriz Φ(1) = I m − Φ1 − Φ 2 −
(9.83)
− Φ p , pode fazer-se
Φ( L)( y•t − µ ) = ε •t ,
onde µ = Φ(1) −1α . Por exemplo, o processo VAR(1) bivariado ( m = 2 ) é um sistema de 2 equações com três regressores comuns, y1t = α1 + ϕ11 y1,t −1 + ϕ12 y 2,t −1 + ε 1t y2t = α 2 + ϕ 21 y1,t −1 + ϕ 22 y 2,t −1 + ε 2t . Em termos gerais, um processo VAR ( p ) m-variado é um sistema de m equações com m p + 1 regressores comuns. Pode concluir-se que: − Verificada a condição de estabilidade, o processo VAR ( p ) , { y•t } , pode representar-se por um processo VMA(∞) , (9.84)
y•t = µ + Φ ( L) −1ε •t = µ + Ψ ( L)ε •t = µ +
+∞ s =0
Ψsε •,t − s ,
onde Ψ ( L) = Φ ( L) −1 . − Tem-se: E ( y•t ) = µ = Φ (1) −1α . − A sucessão das matrizes das autocovariâncias, (9.75), é absolutamente somável.
Definição 9.13 – Processo VARMA O processo estocástico, { y•t } , onde y•t é um vector aleatório m × 1 , é um processo VARMA( p, q ) se e só se (9.85)
y•t = α + Φ1 y•,t −1 +
+ Φ p y•,t − p + Θ 0ε •t + Θ1ε •,t −1 +
+ Θ qε •,t −q ,
onde {ε •t } é um ruído branco, Φ s ( s = 1, 2, , p ) é uma matriz quadrada de ordem m, Φ p ≠ O , Θ r ( r = 0,1, 2, , q ) é uma matriz quadrada de ordem m, Θ 0 = I m , Θ q ≠ O e α é um vector m × 1 de constantes. Escreve-se, y•t ~ VARMA( p, q) . Utilizando os polinómios Φ(L) e Θ(L) , tem-se (9.86)
Φ( L) y•t = α + Θ( L) ε •t ,
ou (9.87)
Φ( L)( y•t − µ ) = Θ( L) ε •t ,
Capítulo 9 – Modelos Dinâmicos e Autocorrelação
53
onde µ = Φ(1) −1α . Pode chegar-se às seguintes conclusões: − Verificada a condição de estabilidade relativamente ao polinómio Φ(L) , o processo VARMA( p, q ) , { y•t } , pode representar-se por um processo VMA(∞) , (9.88)
y•t = µ + Φ ( L) −1 Θ( L)ε •t = µ + Ψ ( L)ε •t = µ +
+∞
s =0
Ψs ε •,t − s ,
onde Ψ ( L) = Φ( L) −1 Θ( L) . − Tem-se: E ( y•t ) = µ = Φ (1) −1α . − A sucessão das matrizes das autocovariâncias, dadas por (9.75), é absolutamente somável. Finalmente, vai apresentar-se a definição de função geradora das matrizes das autocovariâncias.
Definição 9.14 – Função geradora das matrizes das autocovariâncias Seja { y•t } um processo estocástico vectorial estacionário em covariância. Supondo que a sucessão das matrizes das autocovariâncias, {Γs } , é absolutamente somável, a função geradora destas matrizes é (9.89)
Gy ( z) =
+∞
s = −∞
+∞
Γs z s = Γ0 +
s =1
(Γs z s + ΓsT z − s ) ,
onde Γ− s = ΓsT e z é uma variável complexa (escalar). Neste caso, o espectro do processo é dado por S y ( z) =
1 G y (exp{−iω}) . 2π
Facilmente se conclui que: − Considere-se o processo estocástico estacionário em covariância, {x•t } , onde x•t é um vector aleatório n × 1 e a sucessão das matrizes das autocovariâncias é absolutamente somável. Seja Gx (z ) a respectiva função geradora destas matrizes. Suponhase que o processo estocástico { y•t } , onde y•t é um vector aleatório m × 1 , é definido por y•t = A( L) x•t , onde A(L) é um filtro m × n absolutamente somável. Então, a função geradora das matrizes das autocovariâncias de { y•t } é (9.90)
G y ( z ) = A( z ) Gx ( z ) A( z −1 )T .
Apresentam-se a seguir as funções geradoras das matrizes das autocovariâncias para os vários processos estudados. Assim: − Ruído branco vectorial:
Gy (z ) = Σε ;
− VMA(q ) :
G y ( z ) = Θ( z ) Σε Θ( z −1 )T ;
− VMA(∞) :
G y ( z ) = Ψ ( z ) Σε Ψ ( z −1 )T ;
− VAR ( p ) :
G y ( z ) = {Φ ( z ) −1}Σε {Φ ( z −1 )−1}T ;
Capítulo 9 – Modelos Dinâmicos e Autocorrelação
54
G y ( z ) = {Φ ( z ) −1}{Θ( z )}Σε {Θ( z −1 )}T {Φ ( z −1 ) −1}T .
− VARMA( p, q ) :
O estudo mais aprofundado dos processos estocásticos vectoriais pode ser feito em Hamilton (1994), capítulos 10 e 11.
9.5 - Estimação de modelos auto-regressivos Considere-se o processo AR(1), yt = α + ϕ yt −1 + ε t , onde {ε t } é um ruído branco independente, a verificar a condição de estabilidade, | ϕ | < 1 . Nestas condições, como se sabe, este processo é estritamente estacionário e ergódico [ver teorema 9.1, alínea f)] e pode representar-se por um MA(∞) [ver (9.46)]. Fazendo xt • = [ 1 yt −1 ] e β =
α , ϕ
tem-se o modelo de regressão linear yt = xt • β + ε t . Pode provar-se, sem dificuldade, que este modelo é MRL-RPD com homocedasticidade condicionada. Com efeito, basta demonstrar que se verificam as hipóteses RPD.1 a RPD.6: − A linearidade (RPD.1) é óbvia. − Como { yt } é estacionário e ergódico, vem imediatamente que {( yt , xt• )} é também estacionário e ergódico (RPD.2). − Como, devido a (9.46), yt −1 só depende de {ε t −1 , ε t −2 , } , conclui-se que o regressor yt −1 é pré-determimado (RPD.3): E ( yt −1ε t ) = 0 . − Para verificar RPD.4 basta notar que
xtT• xt • =
1 yt −1
yt −1 1 µ , Qxx = E ( xtT• xt• ) = e | Qxx | = γ 0 > 0 . 2 yt −1 µ γ 0 + µ2
− Como yt −1 só depende de {ε t −1 , ε t −2 , } , está garantida a homocedasticidade condicionada (RPD.6): E (ε t2 | yt −1 ) = σ ε2 . − A hipótese RPD.5 também se verifica. Seja, g t • = xt•ε t = [ ε t
yt −1ε t ] .
Para o primeiro elemento de g t• , tem-se: E (ε t | g t −1,• , g t −2,• , ) = E (ε t | ε t −1 , ε t −2 ,
, yt − 2ε t −1 , yt −3ε t −2 , ) = 0 ,
uma vez que {ε t } é iid e yt − s só depende de {ε t − s , ε t −s −1 , } Quanto ao segundo elemento de g t• , vem:
E ( yt −1ε t | g t −1,• , g t −2,• , ) = E{E ( yt −1ε t | yt −1 , g t −1,• , g t −2,• , ) | g t −1,• , g t −2,• , } = E{ yt −1 E (ε t | yt −1 , g t −1,• , g t −2,• , ) | g t −1,• , g t −2,• , } = 0 , porque E (ε t | yt −1 , ε t −1 , ε t −2 , , yt −2ε t −1 , yt −3ε t −2 , ) = 0 . Fica, assim, provado que {g t • } = {(ε t , yt −1ε t )} é uma diferença-martingala.
Capítulo 9 – Modelos Dinâmicos e Autocorrelação
55
No caso de homocedasticidade condicionada, tem-se que S = σ ε2Qxx , pelo que fica garantido que a matriz S é não singular. Então, as conclusões da secção 3.6 são aplicáveis a este modelo. Em particular: − Para t = 1 , supõe-se que y0 faz parte da amostra. Fazendo b=
αˆ , ϕˆ
e notando que γ 0 = σ ε2 /(1 − ϕ 2 ) , vem
Cov a (b) = σ ε2 Qxx−1 = (1 − ϕ 2 )
γ 0 + µ2 −µ
−µ . 1
Donde (9.91)
Vara (ϕˆ ) = 1 − ϕ 2 .
− O estimador b é consistente e assintoticamente normal. − Como ^
Vara (ϕˆ ) = 1 − ϕˆ 2 , o respectivo erro padrão é dado por sϕˆ =
1 − ϕˆ 2 . n
Então, relativamente ao rácio-t, tem-se (9.92)
tϕˆ =
n (ϕˆ − ϕ ) 1 − ϕˆ 2
d
→ N (0,1) .
− Um estimador consistente de σ ε2 é s2 =
1 n−2
n 2 t =1 t
εˆ ,
onde εˆt = yt − (αˆ + ϕˆ yt −1 ) . Podem-se obter resultados semelhantes para os processos auto-regressivos de ordem p, yt = α + ϕ1 yt −1 + ϕ 2 yt −2 + + ϕ p yt − p + ε t , quando {ε t } é um ruído branco independente e se verifica a respectiva condição estabilidade (todas as raízes de ϕ (z ) são, em módulo, superiores a 1). Neste caso, vem yt = xt • β + ε t , onde
xt• = [ 1 yt −1
yt −2
α ϕ1 yt − p ] e β = ϕ 2 . ϕp
Capítulo 9 – Modelos Dinâmicos e Autocorrelação
56
Com um procedimento semelhante ao utilizado para o processo AR(1), pode provar-se que o modelo de regressão linear precedente é também um MRL-RPD. As hipóteses RPD.1, RPD.2, RPD.3 (todos os regressores são pré-determinados), RPD.5 e RPD.6 são de fácil verificação. Para verificar RPD.4, começa-se por notar que
1 yt −1 T xt• xt• = yt −2
yt −1 yt2−1 yt −1 yt −2
yt − 2 yt −1 yt −2 yt2−2
yt − p
yt −1 yt − p
yt − 2 yt − p
yt − p yt −1 yt − p yt − 2 y t − p . yt2− p
Então,
1
µ T Qxx = E ( xt • xt • ) = µ
µ
µ 2
γ0 + µ γ1 + µ2
µ 2
γ p−1 + µ 2 γ p −2 + µ 2 ,
γ1 + µ γ0 + µ2
µ γ p −1 + µ 2 γ p −2 + µ 2
γ0 + µ2
ou
Qxx =
1 µ eT , µ e V + µ 2 eeT
onde 1 e=
1
e V = Cov( yt −1 , yt −2 ,
1
γ0 γ1 , yt − p ) = γ 2
γ1 γ0 γ1
γ2 γ1 γ0
γ p−1 γ p −2 γ p−3
γ p−1 γ p −2 γ p−3 . γ0
Como
Qxx−1 =
1 + µ 2 eT V −1e − µ eT V −1 , − µV −1e V −1
facilmente se conclui que Qxx tem inversa, se e só se V é não singular. Como se pode provar que V tem inversa, para qualquer p, se γ 0 > 0 e γ s → 0 , quando s → +∞ (situação que se verifica neste modelo, porque a sucessão {γ s } é absolutamente somável), verifica-se a hipótese RPD.4. Pode, então, concluir-se que todos os resultados da secção 3.6 são válidos para este modelo. Assim: − O estimador MQ de β ,
Capítulo 9 – Modelos Dinâmicos e Autocorrelação
57
αˆ ϕˆ1 b = ϕˆ 2 , ϕˆ p é consistente e assintoticamente normal. − Tem-se 2
Cov a (b) = σ ε Q
−1 xx
1 e Cov a (b) = s n ^
2
−1 n
T t =1 t • t •
x x
,
onde s2 =
1 n − p −1
n 2 t =1 t
εˆ e εˆt = yt − (αˆ + ϕˆ1 yt −1 + ϕˆ 2 yt −2 +
+ +ϕˆ p yt − p ) .
− Nestes resultados parte-se do princípio que é possível observar y− p+1 , y− p+2 , quando t = 1, 2, , p .
, y0 ,
Os resultados anteriores supõem que a ordem da auto-regressão (o comprimento do desfasamento) é conhecida. Como se deve proceder se a ordem p é desconhecida? Antes de responder a esta questão, convém esclarecer que os resultados obtidos para o processo auto-regressivo de ordem p, com coeficientes ( ϕ1 , ϕ 2 , , ϕ p ) e estacionário em covariância, são igualmente válidos para o processo auto-regressivo de ordem r < p , com os mesmos coeficientes, ( ϕ1 , ϕ 2 , , ϕ r ), desde que se verifique a condição de estabilidade. Como se supõe que ϕ r ≠ 0 , e ϕ r +1 = ϕ r +2 = = ϕ p = 0 , pode demonstrar-se que os estimadores MQ destes coeficientes tendem em probabilidade para 0. Suponha-se que o verdadeiro comprimento do desfasamento é p ( ϕ p ≠ 0 ), desconhecido, e apenas se sabe que p é menor ou igual a p ∗ , conhecido. Então, podem-se propor critérios para estimar a verdadeira ordem de auto-regressão, a partir das estimativas MQ dos coeficientes ( ϕ1 , ϕ 2 , , ϕ p∗ ). Vão apresentar-se duas classes de critérios para propor um estimador pˆ para p. Assim: 1) A regra sequencial, “do geral para o particular”, baseada em rácios-t. Considera-se a auto-regressão com p ∗ desfasamentos, estimam-se os respectivos coeficientes pelo método MQ e efectua-se o teste de nulidade do coeficiente relativo ao desfasamento de ordem p ∗ , para um dado nível de significância (por exemplo, 0.10), utilizando o respectivo rácio-t; se a hipótese nula é rejeitada, o processo pára e faz-se pˆ = p ∗ ; caso contrário, elimina-se o último desfasamento, e faz-se um teste semelhante sobre o coeficiente do desfasamento de ordem p ∗ − 1 ; se a respectiva hipótese nula é rejeitada, vem pˆ = p ∗ − 1 ; caso contrário, considera-se a auto-regressão com p ∗ − 2 ; o procedimento pára quando a hipótese de nulidade do coeficiente do desfasamento de ordem mais elevada for, pela primeira vez, rejeitada.
Capítulo 9 – Modelos Dinâmicos e Autocorrelação
58
Como o teste do rácio-t é consistente, o comprimento estimado do desfasamento, pˆ , nunca pode ser inferior a p (o verdadeiro comprimento do desfasamento), para grandes amostras. Contudo, a probabilidade de sobre-ajustamento ( pˆ > p ) não é nula, mesmo para grandes amostras. Assim, lim P( pˆ < p ) = 0 e lim P( pˆ > p ) > 0 .
n→+∞
n→+∞
Para ilustrar estas propriedades, suponha-se que p = 2 e p ∗ = 3 . O procedimento sequencial inicia-se com a auto-regressão, yt = α + ϕ1 yt −1 + ϕ 2 yt −2 + ϕ 3 yt −3 + ε t , e testa-se hipótese ϕ 3 = 0 , supondo um nível de significância de 0.1. Em grandes amostras, a hipótese (verdadeira) é rejeitada com probabilidade 0.1, e faz-se pˆ = 3 , ou ela é aceite com probabilidade igual a 0.9. Neste caso, faz-se ϕ 3 = 0 , considera-se a autoregressão, yt = α + ϕ1 yt −1 + ϕ 2 yt −2 + ε t , e testa-se a hipótese ϕ 2 = 0 . Como p = 2 ( ϕ 2 ≠ 0 é verdadeiro), o valor absoluto do rácio-t relativo à estimativa MQ de ϕ 2 é muito elevado para grandes amostras, pelo que nunca se não rejeita esta hipótese (falsa). Assim, P( pˆ = 2) = 0.9 e P( pˆ = 3) = 0.1 , para grandes amostras. Existem duas variantes para a escolha do período da amostra, quando os dados disponíveis são ( y1 , y 2 , , yn ) . A primeira, consiste em estabelecer um período fixo para t = p ∗ + 1, p ∗ + 2, , n . A segunda variante, permite que o período amostral cresça de uma observação à medida que se vão eliminando desfasamentos. Assim, quando a auto-regressão tem s desfasamentos, toma-se t = s + 1, s + 2, , n . 2) Os critérios de informação baseados em somas de quadrados de resíduos e na dimensão da amostra. Estes critérios de informação escolhem o comprimento do desfasamento, s, que minimiza, para s = 0,1, 2, , p ∗ , (9.93)
ln
C ( n) SQR s , + ( s + 1) n n
onde SQR s é a soma dos quadrados dos resíduos MQ para a auto-regressão com s desfasamentos e C (n) é igual a 2 quando se considera o critério de informação de Akaike (AIC), e é igual a ln(n) , para o critério de informação Bayesiano (BIC), também conhecido por critério de informação de Schwartz (SIC). Podem-se fazer os seguintes comentários: a) Quando s cresce, a primeira parcela de (9.93) diminui e a segunda parcela aumenta. Assim, os critérios de informação estabelecem um compromisso entre um bom ajustamento e a parcimónia de coeficientes. b) Se não se fixasse um limite superior p ∗ , o valor de s que minimiza (9.93) poderia ser absurdamente elevado (note-se que para s = n − 1 , SQR s = 0 ). c) Tal como no critério sequencial, o período amostral pode corresponder às duas variantes referidas. Na primeira, tem-se a soma de n − p ∗ quadrados de resíduos; na segunda, cada SQR s é uma soma de n − s quadrados de resíduos. Em qualquer das variantes, pode-se também substituir, em (9.93), n pela respectiva dimensão da amostra (por exemplo, esta dimensão é n − p ∗ , na primeira varian-
Capítulo 9 – Modelos Dinâmicos e Autocorrelação
59
te). Alguns autores recomendam, com base em estudos de simulação, a utilização da primeira variante, tomando n − p ∗ para dimensão da amostra. Designando por pˆ AIC e pˆ BIC os comprimentos do desfasamento obtidos pelos critérios AIC e BIC, respectivamente, podem-se provar as seguintes propriedades: a) Para amostras suficientemente grandes, pˆ BIC ≤ pˆ AIC (no caso da variante atrás recomendada, esta desigualdade é verdadeira para n ≥ p ∗ + 8 ). b) Supondo que { yt } é um AR ( p ) estacionário e {ε t } é um ruído branco independente, em que existe o quarto momento, então plim( pˆ BIC ) = p , lim P( pˆ AIC < p ) = 0 e lim P( pˆ AIC > p ) > 0 . n→+∞
n→+∞
Deste modo: pˆ AIC verifica as mesmas propriedades que o estimador de p dado pela regra sequencial; pˆ BIC é consistente. Além disso, pode demonstrar-se que a consistência de pˆ BIC se mantém quando p ∗ cresce à taxa de ln(n) [isto é, quando p ∗ é igual à parte inteira de c ln(n) , para qualquer c > 0 ]. Quando se considera um processo ARMA, definido por (9.55), estável, o modelo de regressão linear respectivo é dado por (9.94)
yt = xt • β + ut ,
onde
xt• = [ 1 yt −1
yt −2
α ϕ1 yt − p ], β = ϕ 2 ϕp
e ut = ε t + θ1ε t −1 + θ 2ε t −2 +
+ θ q ε t −q .
A variável residual ut , deste modelo, envolve dois problemas. O primeiro, diz respeito ao facto de {ut } ser autocorrelacionado: ut ~ MA(q ) . O segundo problema tem a ver com o facto de haver regressores que não são ortogonais às variáveis residuais. Esta questão pode ser resolvida, utilizando variáveis instrumentais adequadas, que, neste caso, são: ( yt − q −1 , yt − q − 2 , ), para p ≤ q ; ( yt − p −1 , yt − p − 2 , ), para p > q . No que se refere ao primeiro, vai ver-se, nas secções 9.8 e 9.9, um método que permite obter um estimador consistente do vector β ; conhecido este estimador, os parâmetros θ i podem ser estimados, ainda que de forma não eficiente, a partir dos respectivos resíduos. No caso de um processo vectorial auto-regressivo, a estimação dos respectivos coeficientes é semelhante à dos processos (escalares) auto-regressivos. Por exemplo, no caso de um processo VAR(2), onde y•t tem três elementos ( m = 3 , p = 2 ), tem-se y•t = α + Φ1 y•,t −1 + Φ 2 y•,t −2 + ε •t ,
Capítulo 9 – Modelos Dinâmicos e Autocorrelação
60
onde:
y1t y•t = y2t y3 t
α1 ε1t ϕ11(1) ϕ12(1) ϕ13(1) ϕ11( 2) ϕ12( 2) ϕ13( 2 ) (1) (1) (1) ( 2) ( 2) (2) ; α = α 2 ; Φ1 = ϕ 21 ; Φ 2 = ϕ 21 ; ε •t = ε 2t . ϕ 22 ϕ 23 ϕ 22 ϕ 23 (1) (1) (1) ( 2) ( 2) (2) α3 ϕ 31 ϕ 32 ϕ 33 ϕ 31 ϕ 32 ϕ 33 ε 3t
Pode, então, contruir-se um sistema de três equações de regressão com sete regressores comuns, y1t = α1 + ϕ11(1) y1,t −1 + ϕ12(1) y2,t −1 + ϕ13(1) y3,t −1 + ϕ11( 2) y1,t −2 + ϕ12( 2 ) y2,t −2 + ϕ13( 2) y3,t −2 + ε 1t (1) (1) (1) (2) ( 2) ( 2) y2t = α 2 + ϕ 21 y1,t −1 + ϕ 22 y2,t −1 + ϕ 23 y3,t −1 + ϕ 21 y1,t −2 + ϕ 22 y2,t −2 + ϕ 23 y3,t −2 + ε 2t (1) (1) (1) ( 2) (2) ( 2) y3t = α 3 + ϕ 31 y1,t −1 + ϕ 32 y2,t −1 + ϕ 33 y3,t −1 + ϕ 31 y1,t −2 + ϕ 32 y2,t −2 + ϕ 33 y3,t −2 + ε 3t ,
ou
y1t = δ 1• x•t + ε1t y2t = δ 2• x•t + ε 2t y3t = δ 3• x•t + ε 3t , onde, para i = 1, 2, 3 ,
δ i• = [ α i ϕ i(•1) ϕ i(•2) ] é um vector 1× 7 , ϕ i(•1) é a linha i da matriz Φ1 , ϕ i(•2 ) é a linha i da matriz Φ 2 , e 1 x•t = y•,t −1 . y•,t − 2 Estes regressores (comuns às três equações) são ortogonais às respectivas variáveis residuais, ε it ( i = 1, 2, 3 ). Como se viu no capítulo 5, tem-se um modelo de regressão multivariada, o que permite obter δˆi• , aplicando a cada equação, separadamente, o método MQ. Considere-se, agora, p = 1 , com m qualquer, mas supondo que não há termos independentes. O processo VAR(1) respectivo, y•t = Φ y•,t −1 + ε •t , pode ser apresentado da seguinte maneira:
y1t y2 t ymt
=
ϕ12 ϕ22
ϕ1m ϕ2 m
y2,t −1
ϕm1 ϕ m 2
ϕmm
ym,t −1
ϕ11 ϕ21
y1,t −1 +
ε1t ε 2t ε mt
,
Capítulo 9 – Modelos Dinâmicos e Autocorrelação
61
ou yit = ϕi • y•,t −1 + ε it ( i = 1, 2,
, m ),
onde ϕi • é a linha i da matriz Φ . Trata-se de um sistema de m equações de regressão, todas com os mesmos regressores, ortogonais às variáveis residuais (regressão multivariada). Dispondo da amostra ( y•1 , y• 2 , , y• n ) , o estimador MQ de ϕi • é dado por n
ϕˆi • =
n
T • , t −1
yit y
t =2
t =2
−1
( i = 1, 2,
T •, t −1 • , t −1
y
y
, m ),
e, portanto, ˆ = Φ
−1
n
n
.
y yT t = 2 • , t −1 • ,t −1
y yT t = 2 • t • , t −1
Os raciocínios anteriores podem ser generalizados para qualquer m e qualquer p. Passa, então, a ter-se (9.95)
yit = δ i• x•t + ε it ( i = 1, 2,
onde δ i• = [ α i e
ϕ i(•1) ϕ i(•2)
, m ),
ϕ i(•p ) ] é um vector 1 × (mp + 1) , 1 y•,t −1 x•t = y•,t −2 . y•,t − p
Considerando o vector 1 × m(mp + 1) ,
δˆ = [ δˆ1• δˆ2•
δˆm• ],
e notando que Cov(ε •t ) = Vε , pode verificar-se que
1 Cov a (δˆ ) = Vˆε ⊗ n ^
.−1 n t =1
,
T •t •t
x x
onde ⊗ é o símbolo do produto de Kronecker e Vˆε =
1 n − mp − 1
ˆ y + εˆ εˆ e εˆ•t = y•t − (αˆ + Φ 1 • ,t −1
n T t =1 •t •t
ˆ y ). +Φ p • ,t − p
Se não se conhece o comprimento do desfasamento, p, pode ser utilizado um critério de informação para o estimar. Procura-se, então, minimizar, em relação a s, a expressão ln com s = 0,1, 2,
1 n
n T t =1 •t •t
εˆ εˆ
+ ( sm 2 + m)
C ( n) , n
, p ∗ ; C (n) tem o significado já conhecido.
Capítulo 9 – Modelos Dinâmicos e Autocorrelação
62
9.6 - Modelos ARMAX Nesta secção vão analisar-se mais alguns modelos econométricos dinâmicos.
Modelos com desfasamentos escalonados Nos comentários feitos no capítulo 2 relativamente à hipótese REX.2 (exogeneidade estrita), foi referido o modelo de regressão linear com desfasamento escalonado finito de ordem r, ou DL(r ) [DL significa Distributed Lags], (9.96)
yt = α + δ 0 xt + δ1 xt −1 + δ 2 xt − 2 +
+ δ r xt − r + ut ,
que procura especificar uma relação que põe em destaque o facto das variações correntes da variável explicativa se repercutirem contemporânea e diferidamente nos valores da variável a explicar. Um exemplo interessante consiste em considerar que o stock de capital no momento t (no final do período t), K t , depende dos investimentos correntes e desfasados nos últimos r períodos, I t − s ( s = 0,1, 2, , r ),
Kt = K0 +
r s =0
δ s I t − s + ut ,
onde K 0 é o stock inicial. Utilizando o operador L, (9.96) pode apresentar-se do seguinte modo: (9.97)
yt = α + δ ( L) xt + ut
δ ( L) = δ 0 + δ1L + δ 2 L2 +
+ δ r Lr .
Uma das hipóteses básicas do modelo DL(r ) é a exogeneidade estrita, E (ut | x1 , x2 , ) = 0 (t = r + 1, r + 2, ) , ou seja, o valor esperado de ut não depende de x, para qualquer período. Esta condição implica que ut não está correlacionado com x em qualquer período (passado, presente e futuro). Pode, no entanto, estabelecer-se uma hipótese mais fraca em que o valor de ut não depende de x no presente e no passado (exogeneidade contemporânea e passada), E (ut | xt , xt −1 , xt − 2 , ) = 0 . Deste modo, ut não está correlacionado com x no presente e no passado, mas pode estar correlacionado com x no futuro (por exemplo, x pode ser uma variável que segue determinadas regras de política económica que depende de valores passados de y). Se o modelo não é dinamicamente completo, existe autocorrelação das variáveis residuais. Se o for, verifica-se a condição E (ut | xt , xt −1 , yt −1, xt − 2 , yt − 2 , ) = 0 , ou
Capítulo 9 – Modelos Dinâmicos e Autocorrelação
63
E ( yt | xt , xt −1, yt −1 , xt − 2 , yt − 2 , ) = E ( yt | xt , xt −1 , xt − 2 ,
, xt − r ) .
Fazendo
xt• = [ 1 xt
xt −1
xt − 2
α δ0 δ1 xt − r ], β = , δ2 δr
obtém-se o MRL yt = xt • β + ut . Pode fazer-se a interpretação dos coeficientes, δ s ( s = 0,1, 2, , r ), em termos semelhantes ao que se fez na secção 9.1, isto é, medindo os efeitos dos desfasamentos por meio de multiplicadores. Assim, considerando o aumento temporário de x, de uma unidade no período t, o efeito ceteris paribus de xt sobre yt + h ( h = 0,1, 2, ) é medido pelo multiplicador ∂ yt + h = δ h ( h = 0,1, 2, ∂ xt
).
Em particular, δ 0 é o multiplicador de impacto. Para uma correcta compreensão destes multiplicadores, considere-se que r = 2 , yt = α + δ 0 xt + δ1 xt −1 + δ 2 xt − 2 + ut . Suponha-se também que, até ao período t − 1 , x é igual a c, no período t passa para c + 1 , mas regressa ao valor c a partir do período t + 1 . Deste modo, , xt −1 = c, xt = c + 1, xt +1 = c,
.
Admitindo que ut = 0 , tem-se: ... yt −1 = α + δ 0c + δ1c + δ 2c yt = α + δ 0 (c + 1) + δ1c + δ 2c yt +1 = α + δ 0c + δ1 (c + 1) + δ 2c yt + 2 = α + δ 0c + δ1c + δ 2 (c + 1) yt + 3 = α + δ 0c + δ1c + δ 2c ... Assim, δ 0 (multiplicador de impacto) mede a variação imediata de y devido ao aumento de uma unidade em x, no período t: δ 0 = yt − yt −1 . O mesmo aumento de x provoca uma variação de y no período t + 1 (em relação ao valor no período t − 1 ) igual a δ1 = yt +1 − yt −1 . De modo semelhante, para o período t + 2 , vem δ 2 = yt + 2 − yt −1 . No período t + 3 , tem-se yt + 3 − yt −1 = 0 , uma vez que se admitiu que r = 2 . Para sumarizar o efeito dinâmico de um aumento temporário de x é importante o conceito de distribuição dos desfasamentos. Na prática, conhecendo estimativas dos
Capítulo 9 – Modelos Dinâmicos e Autocorrelação
64
δ s , δˆs , pode apresentar-se a distribuição estimada dos desfasamentos representando graficamente os pares ( s, δˆs ) , para s = 0, 1, 2, , r . Quando se verifica um aumento permanente de x, de uma unidade a partir do período t, tem-se
∂ yt + h ∂ yt + h ∂ yt + h + + + ∂ xt + h ∂ xt + h −1 ∂ xt + h − 2
+
∂ yt + h = δ 0 + δ1 + δ 2 + ∂ xt
+ δ h ( h = 0,1, 2,
).
O multiplicador de longo prazo é dado por
MLP = δ 0 + δ1 + δ 2 +
r
+ δr =
s =1
δ s = δ (1) .
Considerando, de novo, r = 2 , e , xt −1 = c, xt = c + 1, xt +1 = c + 1, obtém-se: ... yt −1 = α + δ 0c + δ1c + δ 2c yt = α + δ 0 (c + 1) + δ1c + δ 2c yt +1 = α + δ 0 (c + 1) + δ1 (c + 1) + δ 2c yt + 2 = α + δ 0 (c + 1) + δ1 (c + 1) + δ 2 (c + 1) yt + 3 = α + δ 0 (c + 1) + δ1 (c + 1) + δ 2 (c + 1) ... Então, yt − yt −1 = δ 0 , yt +1 − yt −1 = δ 0 + δ1 , yt + 2 − yt −1 = δ 0 + δ1 + δ 2 = MLP , yt + 3 − yt −1 = MLP , ... Quando se faz a estandardização dos coeficientes δ s ,
ωs =
δs ( s = 0, 1, 2, δ (1)
, r ),
o modelo pode ser apresentado da seguinte maneira: yt = α + δ (1)ω ( L) xt + ut
ω ( L) = ω0 + ω1 L + ω 2 L2 +
+ ω r Lr .
Pode, então, calcular-se o desfasamento médio, Dm =
r s =0
δss = δ (1)
Como δ ′( L) = δ1 + 2δ 2 L + 3δ 3 L2 +
(9.98)
Dm =
r s =0
ωs s .
+ rδ r Lr −1 , obtém-se
δ ′(1) . δ (1)
O desfasamento mediano é dado por
Capítulo 9 – Modelos Dinâmicos e Autocorrelação
(9.99)
D0.50 = +
0.50 −
s =0
+1
ω − s =0 s
ωs
ω s =0 s
= +
65
0.50 −
s =0
ωs
ω +1
,
supondo que s =0
ω s ≤ 0.50 e
+1 s =0
ω s > 0.50 .
Facilmente se generaliza esta expressão para qualquer quantil. Por exemplo, suponha-se que δ ( L) = 0.1 + 0.25L + 0.35L2 + 0.15 L3 + 0.05 L4 . Então: MLP = δ (1) = 0.9 ; como δ ′( L) = 0.25 + 0.70 L + 0.45L2 + 0.20 L3 e δ ′(1) = 1.6 , o desfasamento médio é Dm = 1.6 / 0.9 = 1.78 períodos. Para obter o desfasamento mediano, considere-se o seguinte quadro:
s
0
1
2
3
4
ωs
0.11
0.28
0.39
0.17
0.05
0.11
0.39
0.78
0.95
1.00
s h =1
ωh
Então,
D0.50 = 1 +
0.50 − 0.39 = 1.28 períodos. 0.39
Do mesmo modo, obtém-se, por exemplo, D0.90 = 2 +
0.90 − 0.78 = 2.71 períodos. 0.17
No modelo DL(r ) existem r + 2 coeficientes de regressão (o termo independente, α , e os δ s , com s = 0, 1, 2, , r ), que podem ser estimados pelo método MQ. Contudo, existem duas dificuldades: 1) Em geral, há correlações substanciais entre os regressores ( xt , xt −1 , xt − 2 ,..., xt − r ). Esta presença da multicolinearidade proporciona, em geral, estimativas individuais pouco precisas dos δ s . No entanto, deve notar-se que, mesmo nestas condições, pode obter-se, em muitos casos, uma estimativa razoável de MLP. 2) Muitas vezes, o comprimento do desfasamento, r, é desconhecido. O erro de especificação de r pode ter sérias consequências. Contudo, pode estimar-se r com os procedimentos indicados atrás para a estimação da ordem de auto-regressão nos modelos AR ( p ) . Um método que tem sido proposto para reduzir os efeitos da multicolinearidade (conhecido pela designação de método do desfasamento escalonado polinomial de Almon), consiste em reduzir o número de parâmetros, admitindo que δ s se pode exprimir como uma função polinomial de s de grau conveniente < r . Assim,
δ s = γ 0 + γ 1s + γ 2 s 2 + Deste modo,
+ γ s ( s = 0, 1, 2,
, r ).
Capítulo 9 – Modelos Dinâmicos e Autocorrelação
66
δ0 = γ 0 δ1 = γ 0 + γ 1 + γ 2 + + γ δ 2 = γ 0 + 2γ 1 + 2 2 γ 2 + + 2 γ ...
δ r = γ 0 + rγ 1 + r 2 γ 2 +
+r γ ,
ou
δ = Hγ , onde
δ0 1 0 0 δ1 1 1 1 δ = δ 2 , H = 1 2 22 r2
1 r
δr
0
γ0 γ1 1 2 e γ = γ2 . r
γ
Note-se que a matriz H é de tipo (r + 1) × ( + 1) . Dispondo de uma amostra de dimensão n, tem-se Y = α en − r + X 2 δ + U = X β + U , onde
Y=
yr +1 yr + 2 yn
, X = [ en − r
X2]=
1 xr +1 1 xr + 2
xr xr +1
α x1 ur +1 δ0 x2 u δ α , β= = 1 , U = r +2 . δ2 δ
1
x´n −1
xr
xn
un
δr Substituindo δ por Hγ , obtém-se o modelo transformado, Y = α en − r + X 2 Hγ + U = α en − r + X 2∗ γ + U = X ∗ β∗ + U , onde
X 2∗ = X 2 H , X ∗ = en − r
X 2∗
α γ0 γ α e β∗ = = 1 . γ2 γ γ
Aplicando o método dos mínimos quadrados ao modelo transformado, obtém-se γˆ , e, portanto, δˆ = Hγˆ . Note-se que a reparametrização de δ para γ reduz o número de parâmetros de r + 2 para + 2 , o que implica a introdução de r − restrições lineares. Como determi-
Capítulo 9 – Modelos Dinâmicos e Autocorrelação
67
nar estas restrições? Como δ s é um polinómio em s de grau , as diferenças de ordem + 1 são nulas, as quais definem as r − restrições referidas. Por exemplo, se δ s = γ 0 + γ 1s + γ 2 s 2 , facilmente se verifica que as terceiras diferenças são nulas. Assim, ∆3δ s = (1 − L) 3 δ s = (1 − 3L + 3L2 − L3 )δ s = δ s − 3 δ s −1 + 3 δ s −2 − δ s −3 = 0 ( s = 3,
, r ).
Então, as r − 2 restrições são as seguintes:
δ 3 − 3 δ 2 + 3 δ1 − δ 0 = 0 δ 4 − 3 δ 3 + 3 δ 2 − δ1 = 0 ...
δ r − 3 δ r −1 + 3 δ r −2 − δ r −3 = 0 . A matriz R, de tipo (r − 2) × r , das restrições é −1 R=
3 −3
1 0
0 0
0 0
0 −1
3 −3 1
0 0
0 0
0
0
0
0 0
.
−1 3 − 3 1
Muitas vezes, a estimação livre dos δ s fornece resultados muito diferentes dos da estimação com restrições. Este é, sem dúvida, um inconveniente grave do método de Almon. Existem outras reparametrizações mais interessantes de (9.96) ou de (9.97). Para isso, começa-se por considerar dois resultados preliminares sobre decomposições de polinómios no operador de desfasamento: 1) Considere-se o polinómio de grau r em L,
δ ( L) = δ 0 + δ1 L + δ 2 L2 +
+ δ r Lr =
r s =0
δ s Ls .
Este polinómio pode ser decomposto da seguinte maneira:
δ ( L) = δ (1) + γ ( L)(1 − L) , onde
γ ( L) = γ 0 + γ 1 L + γ 2 L2 +
r −1
+ γ r −1 Lr −1 =
i =0
γ i Li ,
e
γi = −
r s = i +1
δ s = −(δ i +1 + δ i + 2 +
+ δ r ) (i = 0,1, 2,
γ r = 0. 2) O polinómio de grau r em L,
δ ( L) = δ 0 + δ1 L + δ 2 L2 +
+ δ r Lr =
pode ser decomposto da seguinte maneira:
δ ( L) = δ (1) L + γ ( L)(1 − L) ,
r s =0
δ s Ls ,
, r − 1)
Capítulo 9 – Modelos Dinâmicos e Autocorrelação
68
onde
γ ( L) = γ 0 + γ 1 L + γ 2 L2 +
+ γ r −1 Lr −1 =
r −1 i =0
γ i Li ,
e
γ 0 = δ0 γi = −
r s =i +1
δ s = −(δ i +1 + δ i+2 +
+ δ r ) (i = 1, 2,
, r − 1)
γ r = 0. Fica ao cuidado do leitor verificar estas duas decomposições. No entanto, vão fazer-se as deduções directas para r = 1 e r = 2 . Quando r = 1 , tem-se δ ( L) = δ 0 + δ1 L . Para efectuar a primeira decomposição, faz-se δ ( L) = δ 0 + δ1 − δ1 + δ1 L = (δ 0 + δ1 ) − δ1 (1 − L) = δ (1) + γ 0 (1 − L) , onde γ 0 = −δ1 . Quanto à segunda decomposição, tem-se
δ ( L) = δ 0 + δ 1 L + δ 0 L − δ 0 L = (δ 0 + δ1 ) L + δ 0 (1 − L) = δ (1) L + γ 0 (1 − L) , onde γ 0 = δ 0 . Quando r = 2 , o polinómio é δ ( L) = δ 0 + δ1 L + δ 2 L2 . Para a primeira decomposição, obtém-se
δ ( L) = δ 0 + δ1 + δ 2 − δ1 − δ 2 + δ 1 L + δ 2 L − δ 2 L + δ 2 L2 = (δ 0 + δ1 + δ 2 ) − (δ1 + δ 2 )(1 − L) − δ 2 L(1 − L) = δ (1) + (γ 0 + γ 1 L)(1 − L) , onde γ 0 = −(δ1 + δ 2 ) e γ 1 = −δ 2 . Para a segunda decomposição, vem
δ ( L) = δ 0 + δ 0 L + δ1 L + δ 2 L − δ 0 L − δ 2 L + δ 2 L2 = (δ 0 + δ1 + δ 2 ) L + δ 0 (1 − L) − δ 2 L(1 − L) = δ (1) L + (γ 0 + γ 1 L)(1 − L) , onde γ 0 = δ 0 e γ 1 = −δ 2 . Quando se considera o modelo DL(r ) , yt = α + δ ( L) xt + ut , e se utiliza a primeira decomposição, obtém-se yt = α + {δ (1) + γ ( L)(1 − L)} xt + ut = α + δ (1) xt + γ ( L)(1 − L) xt + ut = α + δ (1) xt + γ ( L) ∆xt + ut = α + δ (1) xt +
r −1 i =0
γ i ∆xt −i + ut
= α + δ (1) xt + γ 0 ∆xt + γ 1∆xt −1 + γ 2∆xt − 2 + Para r = 1 , vem
+ γ r −1∆xt − r +1 + ut .
Capítulo 9 – Modelos Dinâmicos e Autocorrelação
69
yt = α + {(δ 0 + δ1 ) − δ1 (1 − L)}xt + ut = α + (δ 0 + δ1 ) xt − δ1 ∆xt + ut . Para r = 2 , tem-se yt = α + {(δ 0 + δ1 + δ 2 ) − (δ1 + δ 2 )(1 − L) − δ 2 L(1 − L)}xt + ut = α + (δ 0 + δ1 + δ 2 ) xt − (δ1 + δ 2 ) ∆xt − δ 2 ∆xt −1 + ut . Fica ao cuidado do leitor verificar directamente estas duas igualdades. Usando a segunda decomposição, o modelo DL(r ) pode escrever-se da seguinte maneira: yt = α + {δ (1) L + γ ( L)(1 − L)}xt + ut = α + δ (1) xt −1 + γ ( L)(1 − L) xt + ut = α + δ (1) xt −1 + γ ( L) ∆xt + ut = α + δ (1) xt −1 +
r −1 i =0
γ i ∆xt −i + ut
= α + δ (1) xt −1 + γ 0 ∆xt + γ 1∆xt −1 + γ 2∆xt − 2 +
+ γ r −1∆xt − r +1 + ut .
Para r = 1 , tem-se yt = α + {(δ 0 + δ1 ) L + δ 0 (1 − L)}xt + ut = α + (δ 0 + δ1 ) xt −1 + δ 0∆xt + ut . Para r = 2 , resulta yt = α + {(δ 0 + δ1 + δ 2 ) L + δ 0 (1 − L) − δ 2 L(1 − L)}xt + ut = α + (δ 0 + δ1 + δ 2 ) xt −1 + δ 0 ∆xt − δ 2 ∆xt −1 + ut . Fica ao cuidado do leitor verificar directamente estas duas igualdades. Em qualquer dos casos, o modelo reparametrizado tem algumas vantagens: 1) Permite obter imediatamente uma estimativa do multiplicador de longo prazo, e da variância do seu estimador. 2) A possível multicolinearidade do modelo original poderá ser substancialmente reduzida, uma vez que as correlações entre os regressores do modelo transformado tendem a ser menores do que as correlações entre os regressores do modelo original. No modelo (9.96) ou (9.97) foi considerada apenas uma variável explicativa, mas pode estender-se, sem dificuldade, para k variáveis explicativas:
yt = α +
r1 s =0
δ1s xt − s ,1 +
r2 s =0
δ 2 s xt − s , 2 +
+
rk s =0
δ ks xt − s , k + ut .
Todas as considerações feitas para o modelo com uma variável, podem ser adaptadas imediatamente para o modelo com várias variáveis explicativas. A notação utilizada passa a ser DL(r1 , r2 , , rk ) . Outra notação muito usada continua a ser DL(r ) , onde r = max{r1, r2 , , rk } . Este modelo também pode ser apresentado da seguinte maneira:
Capítulo 9 – Modelos Dinâmicos e Autocorrelação
70
yt = α + δ1 ( L) xt1 + δ 2 ( L) xt 2 + 2
δ1 ( L) = δ10 + δ11L + δ12 L +
+ δ k ( L) xtk + ut + δ1r1 Lr1
δ 2 ( L) = δ 20 + δ 21L + δ 22 L2 +
+ δ 2 r2 Lr2
δ k ( L) = δ k 0 + δ k1L + δ k 2 L2 +
+ δ krk Lrk .
O modelo com desfasamento escalonado infinito, DL(∞) , com uma variável explicativa, pode ser formalizado da seguinte maneira: (9.100)
yt = α + δ 0 xt + δ1 xt −1 + δ 2 xt −2 +
+ ut ,
onde δ h → 0 , quando h → +∞ (note-se que a sucessão {δ h } não é necessariamente decrescente). Alternativamente, pode escrever-se (9.101)
yt = α + δ ( L) xt + ut
δ ( L) = δ 0 + δ1 L + δ 2 L2 +
,
onde δ (L) é, agora, um filtro (série de potências de L). Como este modelo tem uma infinidade de parâmetros, não pode ser estimado sem introduzir restrições sobre os coeficientes δ h . Os coeficientes δ h têm a mesma interpretação que no modelo DL(r ) . Assim, quando se verifica o aumento temporário de uma unidade de x no período t, δ 0 é o efeito de impacto, e qualquer δ h ( h = 1, 2, ) é o efeito desfasado de h períodos. Se se considerar um aumento permanente de uma unidade de x a partir do período t, δ 0 é o multiplicador de impacto, e δ 0 + δ1 + + δ h é o multiplicador ao fim de h períodos; o multiplicador de longo prazo é dado por
MLP = δ 0 + δ1 + δ 2 +
=
+∞
h =0
δ h = δ (1) ,
a verificar +∞
h =0
| δ h | < +∞ .
Os desfasamentos médio e mediano são calculados de forma semelhante à do modelo DL(r ) . No modelo DL(∞) existe um número infinito de coeficientes, que não podem ser estimados com um número finito de observações. Podem considerar-se dois tipos de soluções para este problema: 1) Supor que δ h = 0 para h superior a uma certa ordem r. Neste caso, tem-se o modelo DL(r ) . 2) Supor que os δ h são função de um número finito (em geral, reduzido) de parâmetros. Este tipo de solução vai ser explorado nas subsecções seguintes. O modelo DL(∞) é, também, facilmente generalizado para várias variáveis explicativas.
Capítulo 9 – Modelos Dinâmicos e Autocorrelação
71
Modelos ARMAX Uma classe importante de modelos dinâmicos é a dos ARMAX( p, r , q ) , (9.102)
yt = ϕ0 + ϕ1 yt −1 + ϕ2 yt − 2 + ut = ε t + θ1ε t −1 + θ 2ε t − 2 +
+ ϕ p yt − p + β 0 xt + β1xt −1 + β 2 xt − 2 +
+ β r xt − r + ut
+ θ qε t − q ,
onde {ε t } é um ruído branco. Trata-se de um modelo auto-regressivo de ordem p, em que as variáveis residuais seguem um processo de médias móveis de ordem q – modelo ARMA( p, q ) –, a que se junta uma variável explicativa com desfasamento escalonado de ordem r. Fazendo
ϕ ( L) = 1 − ϕ1L − ϕ2 L2 − β ( L) = β0 + β1L + β 2 L2 + θ ( L) = 1 + θ1L + θ 2 L2 +
− ϕ p Lp + β r Lr + θ q Lq ,
o modelo ARMAX( p, r , q ) pode escrever-se da seguinte forma: (9.103)
ϕ ( L) yt = ϕ0 + β ( L) xt + θ ( L) ε t .
Quando q = 0 , ou seja, ut = ε t , tem-se um modelo auto-regressivo com desfasamento escalonado finito, ou ARDL( p, r ) . Muitos dos modelos dinâmicos já conhecidos são casos particulares de modelos ARMAX. Assim, por exemplo: − − − −
DL(r ) = ARMAX(0, r ,0) , desde que {ut } seja um ruído branco; AR ( p ) = ARMAX( p,0, 0) , com a restrição β 0 = 0 ; ARMA( p, q) = ARMAX( p,0, q ) , com a restrição β 0 = 0 ; ARDL( p, r ) = ARMAX( p, r ,0) .
Esta generalidade dos modelos ARMAX torna-os particularmente importantes para a análise empírica que resulta da modelação de vários fenómenos económicos (em particular, macroeconómicos) observados ao longo do tempo. Como muitos destes modelos são casos particulares de um modelo geral, ARMAX( p, r , q ) , o procedimento que parece ser o mais correcto é o de iniciar a análise com este modelo – em vez de tomar como ponto de partida o modelo particular em questão –, e deixar que os dados “escolham” o modelo mais adequado (por meio de testes de certas restrições relativas aos parâmetros do modelo). Esta análise “do geral para o particular” é retomada no final desta secção. No entanto, vai ilustrar-se as potencialidades deste procedimento considerando, por exemplo, que o modelo geral é um ARDL(1,1) [ou ARMAX(1,1,0)], yt = ϕ 0 +ϕ1 yt −1 + β 0 xt + β1 xt −1 + ε t ( | ϕ1 | ≤ 1 ), onde {ε t } é um ruído branco.
Capítulo 9 – Modelos Dinâmicos e Autocorrelação
72
Vão apresentar-se oito casos particulares deste modelo, impondo restrições sobre os seus parâmetros [ver Hendry (1995), capítulo 7]: 1) O modelo de regressão linear simples estático, yt = ϕ 0 + β 0 xt + ε t , obtém-se com as restrições ϕ1 = 0 e β1 = 0 . 2) O modelo auto-regressivo de 1.ª ordem, yt = ϕ 0 +ϕ1 yt −1 + ε t , decorre das restrições β 0 = 0 e β1 = 0 . 3) O modelo nas primeiras diferenças das variáveis, ∆ yt = ϕ 0 + β 0 ∆ xt + ε t , resulta de fazer ϕ1 = 1 e β 0 + β1 = 0 . Note-se que, neste caso, o modelo inicial não é estável. 4) O modelo de indicador avançado (leading indicator), yt = ϕ 0 + β1 xt −1 + ε t , corresponde às restrições ϕ1 = 0 e β 0 = 0 . 5) O modelo de ajustamento parcial (ver adiante), yt = ϕ0 +ϕ1 yt −1 + β 0 xt + ε t , obtém-se com a restrição β1 = 0 . 6) Considere-se o modelo yt = α + β 0 xt + ut , onde ut =ϕ1 ut −1 + ε t ( | ϕ1 | < 1 ). Atendendo a que ut =(1 − ϕ1 L ) −1 ε t , vem yt = α + β 0 xt + (1 − ϕ1 L) −1 ε t . Então, (1 − ϕ1 L) yt = (1 − ϕ1 )α + β 0 (1 − ϕ1 L ) xt + ε t . Como o mesmo polinómio 1 − ϕ1 L é aplicado a yt e a xt , este modelo é conhecido pela designação de modelo de factores comuns. Obtém-se, assim, o modelo ARDL(1,1), yt = (1 − ϕ1 )α +ϕ1 yt −1 + β 0 xt + (1 − ϕ1 ) β 0 xt −1 + ε t , onde ϕ 0 = (1 − ϕ1 )α e β1 = (1 − ϕ1 ) β 0 . 7) O modelo DL(1), yt = ϕ0 + β 0 xt + β1 xt −1 + ε t , obtém-se fazendo ϕ1 = 0 . 8) O modelo dead start, yt = ϕ0 +ϕ1 yt −1 + β1 xt −1 + ε t , resulta de β 0 = 0 . Facilmente se conclui que um processo ARMAX( p, r , q ) é estável se e só se o polinómio ϕ (L) é invertível [as raízes da equação característica, ϕ ( z ) = 0 , estão no exterior do círculo unitário (são, em módulo, superiores a 1)]. Um modelo ARMAX estável pode ser considerado um modelo de regressão linear, yt = xt • β + ut , onde xt• = [ 1 yt −1 yt − 2
β T = [ ϕ 0 ϕ1 ϕ 2
yt − p xt xt −1 xt − 2
ϕ p β 0 β1 β 2
ut = ε t + θ1ε t −1 + θ 2ε t −2 +
xt − r ],
β r ],
+ θ q ε t −q .
Tal como nos modelos ARMA, a variável residual ut apresenta dois problemas, mesmo que o regressor xt − s ( s = 0, 1, 2, , r ) seja pré-determinado. O primeiro, diz respeito à autocorrelação de {ut } : ut ~ MA(q ) [ver secções 9.8 e 9.9]. O outro, tem a ver com a existência de regressores endógenos. O problema é resolvido com a introdução de variáveis instrumentais pertencentes às listas ( xt − r −1 , xt − r − 2 , ) ou ( yt − q−1 , yt −q−2 , ) . Em (9.102) ou (9.103) considerou-se apenas uma variável explicativa, x, mas a generalização é imediata quando há várias variáveis explicativas. Tem-se:
Capítulo 9 – Modelos Dinâmicos e Autocorrelação
yt = α +
p i =1
ϕi yt −i +
r1 s =0
r2
β1s xt − s ,1 +
s =0
73
β 2 s xt − s , 2 +
+
rk s =0
β ks xt − s , k + ut ,
ou
ϕ ( L) yt = α + β1 ( L) xt1 + β 2 ( L) xt 2 +
+ β k ( L) xtk + ut ,
onde
β1 ( L) = β10 + β11L + β12 L2 +
+ β1r1 Lr1
β 2 ( L) = β 20 + β 21L + β 22 L2 +
+ β 2 r2 Lr2
β k ( L) = β k 0 + β k1L + β k 2 L2 +
+ β krk Lrk .
Utilizam-se as notações ARMAX( p, r1 , r2 , r = max{r1, r2 , , rk } .
, rk , q ) ou ARMAX( p, r , q ) , onde
Relações entre modelos com desfasamento escalonado infinito e modelos ARMAX. Começa-se por analisar um modelo simples. Considere-se um DL(∞) , (9.100) ou (9.101), e a seguinte hipótese sobre os coeficientes: (9.104)
δ s = γ ϕ s , | ϕ | < 1 ( s = 0,1, 2,
).
Verifica-se imediatamente que δ s → 0 , quando s → +∞ . O modelo DL(∞) a verificar (9.104) designa-se por modelo com desfasamento geométrico (Koyck) [Geometric Distributed Lag, GDL]. Substituindo (9.104) em (9.100), vem yt = α + γ xt + γ ϕ xt −1 + γ ϕ 2 xt −2 +
+ ut .
Como
ϕ yt −1 = αϕ + γ ϕ xt −1 + γ ϕ 2 xt − 2 +
+ ϕ ut −1 ,
subtraindo ordenadamente as duas igualdades, obtém-se (9.105)
yt = α 0 + γ xt +ϕ yt −1 + vt ,
onde α 0 = α (1 − ϕ ) e vt = ut − ϕ ut −1 (os coeficientes de yt −1 e de ut −1 são simétricos). A introdução das restrições (9.104) sobre os δ s transforma o modelo DL(∞) [com uma infinidade de coeficientes] num modelo mais parcimonioso, com apenas três coeficientes, (α , ϕ , γ ) . Esta expressão pode ser obtida de outra forma, utilizando δ (L) . Com efeito, como δ ( L) = γ + γ ϕ L + γ ϕ 2 L2 + = γ (1 +ϕ L +ϕ 2 L2 + ) = γ ϕ ( L) , onde ϕ ( L) = 1 +ϕ L +ϕ 2 L2 +
, vem yt = α + γ ϕ ( L) xt + ut .
Notando que ϕ ( L) = (1 − ϕ L) −1 , tem-se
Capítulo 9 – Modelos Dinâmicos e Autocorrelação
74
(1 − ϕ L) yt = (1 − ϕ )α + γ xt + (1 − ϕ L)ut , ou yt = α (1 − ϕ ) + γ xt + ϕ yt −1 + (ut − ϕ ut −1 ) , obtendo-se, assim, (9.105). Facilmente se conclui que MLP = δ (1) =
yt −1
+∞
s =0
δs = γ
+∞
s =0
ϕs =
γ 1−ϕ
.
Admitindo exogeneidade contemporânea e passada de x, pode verificar-se que é um regressor endógeno. De facto,
Cov(vt , yt −1 ) = E (vt yt −1 ) = E{(ut − ϕ ut −1 )(α + γ xt −1 + γ ϕ xt −2 +
+ ut −1 )}
= −ϕ Var (ut −1 ) = −ϕ σ u2 ≠ 0 . Se ut = ε t (ruído branco), verifica-se, sem dificuldade, que o modelo com GDL é um ARMAX(1,0,1). Neste caso, vt ~ MA(1) , com parâmetro igual ao simétrico do coeficiente da componente auto-regressiva do processo. A variável instrumental de yt −1 é xt −1 . O modelo com GDL pode ser formalizado com várias variáveis explicativas.
Exemplo 9.6 – Numa versão simplificada da função consumo de Friedman (1957) propõe-se que o consumo, Ct , depende do rendimento permanente, Yt ∗ , definido como a quantidade máxima de consumo que se pode fazer fixada uma determinada quantidade de riqueza. Tem-se, então, Ct = β Yt ∗ + ut . A consequência mais interessante desta concepção da função consumo resulta da relação dinâmica existente entre a riqueza e os valores ao longo do tempo do rendimento permanente. Assim, pode admitir-se que esta variável não observável se relaciona com os valores observados do rendimento, Y, presente e passados, do seguinte modo: Yt ∗ = δ 0Yt + δ1Yt −1 + δ 2Yt − 2 +
.
Assim, o rendimento permanente depende do rendimento observado segundo um processo DL(∞) , sem termo independente e sem variável residual. Admitindo que o desfasamento escalonado é geométrico, δ s = γ ϕ s , vem Yt ∗ = γ Yt + γ ϕ Yt −1 + γ ϕ 2Yt − 2 +
= γ (1 +ϕ L +ϕ 2 L2 +
)Yt = γ (1 −ϕ L) −1Yt .
Note-se, também, que Yt ∗ = γ Yt +ϕ Yt ∗−1 . Como Ct = β Yt ∗ + ut , obtém-se Ct = β γ (1 −ϕ L)−1Yt + ut . Multiplicando ambos os membros por 1 −ϕ L , resulta Ct = β γ Yt + ϕ Ct −1 + (ut − ϕ ut −1 ) , o que mostra que o regressor Ct −1 é endógeno. ∇
Capítulo 9 – Modelos Dinâmicos e Autocorrelação
75
Os resultados anteriores podem ser generalizados. Pode verificar-se que qualquer ARMAX( p, r , q ) estável, ϕ ( L) yt = ϕ 0 + β ( L) xt + vt , onde vt = θ ( L)ε t , é equivalente a um modelo DL(∞) , yt = α + δ ( L) xt + ε t , onde {ε t } é um ruído branco, estabelecendo determinadas restrições sobre os δ s . Como existe ϕ ( L) −1 , tem-se yt = ϕ ( L) −1ϕ 0 + ϕ ( L) −1 β ( L) xt + ϕ ( L) −1 vt . Confrontando esta expressão com a do modelo DL(∞) , conclui-se que:
α = ϕ ( L) −1ϕ0 =
ϕ0 ϕ0 = ϕ (1) 1 − ϕ1 − ϕ 2 −
−ϕp
;
δ ( L) = ϕ ( L) −1 β ( L) ou ϕ ( L)δ ( L) = β ( L) ; ε t = ϕ ( L) −1 vt ou vt = ϕ ( L)ε t = ε t − ϕ1ε t −1 − ϕ 2ε t −2 −
− ϕ pε t − p .
Conclui-se, então, que θ ( L) = ϕ ( L) [e, portanto, p = q ]. Assim, tem-se um processo ARMAX( p, r , p ) , onde os parâmetros do processo de médias móveis, {vt } , são, respectivamente, os simétricos dos coeficientes da componente auto-regressiva do processo. A partir do modelo ARMAX( p, r , p ) , pode concluir-se que MLP = δ (1) =
β (1) . ϕ (1)
Notando que
δ ( L) =
β ( L) ϕ ( L) β ′( L) − ϕ ′( L) β ( L) e δ ′( L) = , ϕ ( L) ϕ ( L) 2
obtém-se
δ ′( L) ϕ ( L) β ′( L) − ϕ ′( L) β ( L) ϕ ( L) β ′( L) ϕ ′( L) = × = − . δ ( L) ϕ ( L) 2 β ( L ) β ( L) ϕ ( L) Então, o desfasamento médio é dado por Dm =
δ ′(1) β ′(1) ϕ ′(1) = − . δ (1) β (1) ϕ (1)
Para exemplificar estes resultados, seja yt = ϕ0 + ϕ1 yt −1 + β 0 xt + β1 xt −1 + vt , onde | ϕ1 | < 1 , ϕ ( L) = 1 − ϕ1 L e β ( L) = β 0 + β1 L , e o DL(∞) , yt = α + δ ( L) xt + ε t , onde {ε t } é um ruído branco. Como (1 − ϕ1 L) yt = ϕ 0 + ( β 0 + β1 L) xt + vt , obtém-se
Capítulo 9 – Modelos Dinâmicos e Autocorrelação
76
yt = (1 − ϕ1 L) −1ϕ 0 + (1 − ϕ1 L) −1 ( β 0 + β1 L) xt + (1 − ϕ1 L) −1 vt , ou
ϕ0 + (1 +ϕ1 L + ϕ12 L2 + )( β 0 + β1 L) xt + (1 + ϕ1 L + ϕ12 L2 + ) vt 1 − ϕ1 ϕ = 0 + β 0 ( xt +ϕ1 xt −1 + ϕ12 xt −2 + ) + β1 ( xt −1 + ϕ1 xt −2 + ϕ12 xt −3 + ) 1 − ϕ1
yt =
+ (vt + ϕ1vt −1 + ϕ12 vt −2 +
).
Neste caso, tem-se
α = ϕ 0 /(1 − ϕ1 ) ; vt + ϕ1 vt −1 + ϕ12 vt −2 + = ε t ⇔ vt = ε t − ϕ1ε t −1 ~ MA(1) ; ϕ ( L)δ ( L) = β ( L) ⇔ (1 − ϕ1 L)(δ 0 + δ1 L + δ 2 L2 + ) = β 0 + β1 L , concluindo-se que o modelo dado é um ARMAX(1,1,1). Então, yt = α + β 0 xt + ( β 0ϕ1 + β1 ) xt −1 + ϕ1 ( β 0ϕ1 + β1 ) xt −2 + ϕ12 ( β 0ϕ1 + β1 ) xt −3 +
+ εt .
Assim,
δ 0 = β0 δ1 = β 0ϕ1 + β1 δ 2 = ϕ1 ( β 0ϕ1 + β1 ) δ 3 = ϕ12 ( β 0ϕ1 + β1 ) As restrições sobre os δ s são, portanto,
δ s = ϕ1s −1 ( β 0ϕ1 + β1 ) ( s = 1, 2, 3,
).
Fica ao cuidado do leitor mostrar que estas relações podiam ser obtidas a partir da igualdade (1 − ϕ1 L)(δ 0 + δ1 L + δ 2 L2 + ) = β 0 + β1 L . Facilmente se conclui que MLP =
β (1) β 0 + β1 = . ϕ (1) 1 − ϕ1
Como ϕ ′( L) = −ϕ1 e β ′( L) = β1 , o desfasamento médio é
Dm =
β 0ϕ1 + β1 δ ′(1) β ′(1) ϕ ′(1) β1 ϕ = − = + 1 = . δ (1) β (1) ϕ (1) β 0 + β1 1 − ϕ1 (1 − ϕ1 )( β 0 + β1 )
Considere-se, agora, o modelo ARMAX estável
yt = ϕ 0 + ϕ1 yt −1 + ϕ 2 yt −2 + β 0 xt + β1 xt −1 + vt , onde
Capítulo 9 – Modelos Dinâmicos e Autocorrelação
77
ϕ ( L) = 1 − ϕ1 L − ϕ 2 L2 β ( L ) = β 0 + β1 L , que vai ser confrontado com um DL(∞) , yt = α + δ ( L) xt + ε t , onde {ε t } é um ruído branco. Utilizando a igualdade ϕ ( L)δ ( L) = β ( L) , tem-se (1 − ϕ1 L − ϕ 2 L2 )(δ 0 + δ1 L + δ 2 L2 +
) = β 0 + β1 L .
Donde,
δ 0 + (δ1 − ϕ1δ 0 ) L + (δ 2 − ϕ1δ 1 − ϕ 2δ 0 ) L2 + (δ 3 − ϕ1δ 2 − ϕ 2δ1 ) L3 +
= β 0 + β1 L .
Então,
δ0 = β0 δ 0 = β0 δ1 − ϕ1δ 0 = β1 δ1 = ϕ1β 0 + β1 δ 2 − ϕ1δ1 − ϕ 2δ 0 = 0 ou δ 2 = ϕ1δ1 + ϕ 2δ 0 δ 3 − ϕ1δ 2 − ϕ 2δ1 = 0 δ 3 = ϕ1δ 2 + ϕ 2δ1 Obtém-se, assim, um δ ( L) com restrições sobre os δ j : − δ 0 e δ 1 são livres; − δ s = ϕ1δ s −1 + ϕ 2δ s −2 ( s = 2, 3,
).
Neste caso, tem-se MLP =
β 0 + β1 β (1) = . ϕ (1) 1 − ϕ1 − ϕ 2
Como ϕ ′( L) = −ϕ1 − 2ϕ 2 L e β ′( L) = β1 , o desfasamento médio é dado por
Dm =
(ϕ + 2ϕ 2 ) β 0 + (1 + ϕ 2 ) β1 δ ′(1) β ′(1) ϕ ′(1) β1 ϕ + 2ϕ 2 = − = + 1 = 1 . δ (1) β (1) ϕ (1) β 0 + β1 1 − ϕ1 − ϕ 2 (1 − ϕ1 − ϕ 2 )( β 0 + β1 )
Expectativas adaptativas Na literatura encontram-se muitos modelos dinâmicos em que algumas variáveis não são observáveis. Por exemplo, o rendimento permanente na função consumo, a expectativa de inflação na função procura de moeda, o stock de capital desejado na função investimento, o nível de produção óptimo na função de produção. Estas variáveis representam valores de expectativa, níveis planeados ou desejados, ou montantes óptimos. A impossibilidade (ou grande dificuldade) em dispor de observações para estas variáveis impõe a necessidade de introduzir hipóteses complementares sobre os seus comportamentos. As hipóteses estabelecidas pretendem relacionar os valores não observados com a informação disponível.
Capítulo 9 – Modelos Dinâmicos e Autocorrelação
78
A incorporação de variáveis explicativas sob a forma de valores de expectativa não observados (ou não observáveis) é um procedimento frequente. Considere-se, por exemplo, o seguinte modelo: yt = α + β xt∗+1 + ut , onde xt∗+1 é valor expectativa em t + 1 da variável x. Por exemplo: a produção de uma certa exploração agrícola em determinado ano depende do preço esperado no ano seguinte; a oferta de moeda em determinado período pode depender da taxa esperada de inflação no período seguinte. Existem vários modos simples de postular o comportamento de xt∗+1 . Por exemplo: − Expectativas ingénuas: xt∗+1 = xt ; − Expectativas com variação constante: xt∗+1 − xt = xt − xt −1 ; − Expectativas extrapolativas: xt∗+1 = ω0 xt + ω1xt −1 + ω2 xt − 2 + onde ω ( L) = ω0 + ω1L + ω2 L2 +
, ou xt∗+1 = ω ( L) xt ,
é um filtro.
No entanto, vai adoptar-se a hipótese das expectativas adaptativas,
xt∗+1 − xt∗ = η ( xt − xt∗ ) , onde 0 < η < 1 .
(9.106)
O parâmetro η pode ser interpretado como um coeficiente de adaptação, uma vez que a especificação das expectativas adaptativas traduz um processo de aprendizagem com os erros anteriores. Notando que xt∗+1 = η xt + (1 − η ) xt∗ , verifica-se que xt∗+1 é uma média ponderada de xt e de xt∗ . Quando η → 1 , xt∗+1 → xt (expectativas ingénuas); quando η → 0 , vem xt∗+1 → xt∗ (a expectativa não se modifica) Assim, quanto maior for η , maior é a capacidade de adaptação. Como {1 − (1 − η ) L}xt∗+1 = η xt , obtém-se
xt∗+1 = η {1 − (1 − η ) L}−1 xt = η {1 + (1 − η ) L + (1 − η ) 2 L2 + }xt = η h( L) xt = η xt + η (1 − η ) xt −1 + η (1 − η )2 xt − 2 +
,
onde
h( L) = {1 − (1 − η ) L}−1 = 1 + (1 − η ) L + (1 − η )2 L2 +
.
Então,
yt = α + β η h( L) xt + ut , verificando-se, assim, que as expectativas adaptativas conduzem a um modelo DL(∞) . Multiplicando ambos os membros por h( L) −1 = 1 − (1 − η ) L , tem-se
yt = αη + β η xt + (1 − η ) yt −1 + ut − (1 − η ) ut −1 = α 0 + γ xt + (1 − η ) yt −1 + vt ,
Capítulo 9 – Modelos Dinâmicos e Autocorrelação
79
onde α 0 = αη , γ = β η e vt = ut − (1 − η ) ut −1 . Conclui-se imediatamente que se obtém um processo ARMAX(1,0,1), quando ut = ε t (ruído branco). Note-se que se trata de um modelo com desfasamento escalonado geométrico com ϕ = 1 − η e γ = β η , ou seja, δ s = βη (1 − η ) s . Para estimar os parâmetros deste modelo deve utilizar-se o método das variáveis instrumentais, utilizando xt −1 como instrumento de yt −1 .
Exemplo 9.7 – Retome-se o exemplo 9.6. Suponha-se que o desfasamento escalonado geométrico é dado por δ s = η (1 −η ) s [tem-se γ = η e ϕ = 1 −η ]. Então, Yt ∗ = η Yt + η (1 − η )Yt −1 + η (1 − η ) 2 Yt − 2 +
= η{1 −(1 − η ) L}−1Yt ,
que é equivalente à hipótese das expectativas adaptativas,
Yt ∗ = η Yt + (1 −η )Yt ∗−1 ⇔ Yt ∗ − Yt ∗−1 = η (Yt − Yt ∗−1 ) . Como Ct = β Yt ∗ + ut , obtém-se
Ct = β η{1 −(1 − η ) L}−1Yt + ut , ou
Ct = β η Yt + (1 − η )Ct −1 + {ut − (1 − η )ut −1} , onde Ct −1 continua a ser um regressor endógeno. ∇
Ajustamento parcial Suponha-se, agora, que os valores de expectativa dizem respeito à variável a explicar. Para ilustrar esta situação, considere-se o modelo
yt∗ = α + β xt + ut , onde yt∗ é valor expectativa em t da variável y. Por exemplo: pretende-se modelar os níveis desejados de investimento num modelo de acelerador flexível; procura-se explicar os níveis desejados de stocks em função do volume de vendas. Em muitos destes casos, introduz-se uma hipótese (do ajustamento parcial) que visa representar a situação segundo a qual, período a período, existe convergência entre os níveis desejados da variável a explicar e os níveis efectivamente observados. As causas do desajustamento podem atribuir-se às demoras na efectivação dos planos de investimento, aos custos associados à realização dos processos produtivos, às falhas da gestão empresarial, etc. A hipótese do ajustamento parcial estabelece que (9.107)
yt − yt −1 = γ ( yt∗ − yt −1 ) , onde 0 < γ < 1 .
O parâmetro γ pode ser interpretado como um coeficiente de ajustamento entre os valores desejados, yt∗ , e os valores observados, yt . Notando que
Capítulo 9 – Modelos Dinâmicos e Autocorrelação
80
yt = γ yt∗ + (1 − γ ) yt −1 , conclui-se que yt é uma média ponderada de yt∗ e de yt −1 . Quando γ → 1 , yt → yt∗ (ajustamento rápido); quando γ → 0 , vem yt → yt −1 (ajustamento lento) Assim, quanto maior for γ , maior é a velocidade de ajustamento. Note-se que (9.107) pode apresentar-se na forma {1 − (1 − γ ) L} yt = γ yt∗ , ou
yt = γ {1 − (1 − γ ) L}−1 yt∗ = γ yt∗ + γ (1 − γ ) yt∗−1 + γ (1 − γ ) 2 yt∗− 2 +
.
Assim, por exemplo, o stock actual resulta da combinação dos stocks desejados no presente e no passado. Facilmente se verifica que
yt = γ (α + β xt + ut ) + (1 − γ ) yt −1 , ou
yt = α γ + βγ xt + (1 − γ ) yt −1 + γ ut = α 0 + β 0 xt + (1 − γ ) yt −1 + vt , onde α 0 = α γ , β 0 = β γ e vt = γ ut . Quando ut = ε t (ruído branco), o modelo obtido é um ARMAX(1,0,0). Os parâmetros podem ser estimados com o método MQ. Pode também mostrar-se que a hipótese do ajustamento parcial também dá lugar a um modelo DL(∞) . Com efeito, como {1 − (1 − γ ) L} yt = α γ + βγ xt + vt , obtém-se
yt = α + βγ {1 − (1 − γ ) L}−1 xt + {1 − (1 − γ ) L}−1 vt = α + βγ {1 + (1 − γ ) L + (1 − γ ) 2 L2 + }xt + vt′ = α + βγ xt + βγ (1 − γ ) xt −1 + βγ (1 − γ ) 2 xt − 2 +
+ vt′,
onde vt′ = {1 − (1 − γ ) L}−1 vt .
Exemplo 9.8 – A análise da procura de bens duradouros fornece um exemplo interessante de utilização da hipótese do ajustamento parcial, conhecida pela designação de modelo de ajustamento de stocks. Suponha-se que S t∗ = β 0 + β1 Pt + β 2 Gt + ut , onde: S t∗ é o nível desejado de stocks de um determinado bem duradouro (por exemplo, capital fixo); Pt é o preço relativo do bem; Gt é a despesa real total. A hipótese de ajustamento de stocks é a seguinte:
S t − S t −1 = γ ( S t∗ − S t −1 ) , onde 0 < γ < 1 .
Capítulo 9 – Modelos Dinâmicos e Autocorrelação
81
Adicionalmente, introduza-se uma equação que traduz a depreciação do bem, Dt . Supõe-se que a depreciação se faz a uma taxa d, constante e proporcional ao valor do stock, Dt = d S t −1 . Representando com Ct as compras no período t, tem-se
Ct = St − St −1 + Dt = St − St −1 + d St −1 = γ ( St∗ − St −1 ) + d St −1 , ou
Ct = β 0γ + β1γ Pt + β 2γ Gt + (d − γ ) St −1 + γ ut . Como St −1 é o stock existente no princípio do período t, esta variável implica a presença, como elemento explicativo das compras, de um factor representativo de inércias passadas. Admitindo que o ajustamento (parcial) é relativamente rápido, é de esperar que d < γ , ou seja, que o coeficiente de St −1 na equação das compras é negativo. Segundo Houthakker e Taylor, a análise feita também é válida para bens não duradouros (bens de consumo) e para serviços. Neste caso, a variável S é interpretada como um “stock psicológico” resultante da persistência dos hábitos de consumo; a taxa de depreciação representa a taxa de diminuição dos hábitos, que são determinados fundamentalmente pelos gastos e pelas preferências. Como esta adaptação dos hábitos é, em geral, lenta, pode esperar-se que d − γ > 0 . Esta equação apresenta um problema de identificação, porque tem quatro coeficientes para estimar cinco parâmetros ( β 0 , β1 , β 2 , γ , d ) . Este problema pode ser evitado, fixando um deles (em geral a taxa de depreciação), e estimando os outros. Mesmo assim, não fica resolvido o problema principal da estimação, ou seja, o da disponibilidade de informação sobre o nível de stocks. Alguns autores [Stone e Rowe (1958, 1960); Nerlove (1958); Houthaker e Taylor (1970)] propõem a utilização da relação Ct = S t − S t −1 + d S t −1 para obter S t em função dos desfasamentos escalonados das compras. Com efeito, como Ct = {1 − (1 − d ) L}S t , vem
S t = {1 − (1 − d ) L}−1 Ct = Ct + (1 − d )Ct −1 + (1 − d ) 2 Ct −2 +
.
Assim, o stock de capital é determinado pelas aquisições actuais e passadas, e pela taxa de depreciação. Substituindo esta expressão na equação das compras, obtém-se
Ct = β 0γ + β1γ Pt + β 2γ Gt + (d − γ ){1 − (1 − d ) L}−1 Ct −1 + γ ut . Multiplicando ambos os membros por 1 − (1 − d ) L , vem
Ct = β 0γ d + β1γ Pt − β1γ (1 − d ) Pt −1 + β 2γ Gt − β 2γ (1 − d ) Gt −1 + (1 − γ ) Ct −1 + vt , onde vt = γ ut − γ (1 − d ) ut −1 . Se ut é um ruído branco, tem-se um ARMAX(1, 1, 1) . Esta proposta não está isenta de dificuldades para a estimação dos parâmetros: há um problema de sobre-identificação (seis coeficientes e cinco parâmetros estruturais); o regressor Ct −1 é endógeno, devido à existência de autocorrelação (as respectivas variáveis instrumentais são Pt −2 e ou Gt −2 ). Facilmente se verifica que a equação das compras se pode apresentar da seguinte maneira:
Capítulo 9 – Modelos Dinâmicos e Autocorrelação
82
∆ Ct = β 0γ d + β1γ ∆Pt + β1γ d Pt −1 + β 2γ ∆Gt + β 2γ d Gt −1 − γ Ct −1 + vt . ∇ A hipótese do ajustamento parcial pode ser deduzida a partir de um critério de ajustamento óptimo, em que a penalização de comportamentos afastados do nível desejado é caracterizada por uma função com duas componentes: a primeira, reflecte, para cada período, o custo de divergência em relação ao valor desejado; a segunda, representa o custo associado com o esforço exigido nos sucessivos processos de ajustamento. Formalmente, o problema consiste na minimização de uma função custo do tipo
C=
a ( yt∗ − yt ) 2 + ( yt − yt −1 ) 2 ( a > 0 ), t =1 (1 + i )t +∞
onde i é a taxa de actualização (taxa de juro). Fazendo i = 0 , para simplificar, para cada período t tem-se o seguinte custo de ajustamento: Ct = a ( yt∗ − yt ) 2 + ( yt − yt −1 ) 2 . Para minimizar Ct em relação a yt , faz-se ∂Ct = −2a ( yt∗ − yt ) + 2( yt − yt −1 ) = 0 . ∂ yt Donde
yt =
a ∗ 1 yt + yt −1 , a +1 a +1
isto é, obtém-se a equação do ajustamento parcial fazendo γ = a /(a + 1) .
Mecanismo de correcção do erro Considere-se outro critério definidor do custo de ajustamento entre valores observados e valores desejados:
Ct = a ( yt∗ − yt ) 2 + yt − { yt −1 + c ( yt∗ − yt∗−1 )}
2
( a > 0 ).
Esta função custo tem duas componentes: o custo associado com o desvio entre o valor desejado e o valor observado; o custo associado com o desvio entre o valor observado corrente e desfasado, sendo este último corrigido por uma fracção da variação dos níveis desejados da variável. A minimização de Ct em relação a yt resulta do anulamento da respectiva derivada parcial, ∂Ct = −2a ( yt∗ − yt ) + 2 yt − { yt −1 + c ( yt∗ − yt∗−1 )} = 0 , ∂ yt obtendo-se (a + 1) yt = a yt∗ + yt −1 + c ( yt∗ − yt∗−1 ) = a yt∗ + yt −1 + c ∆yt∗ ,
Capítulo 9 – Modelos Dinâmicos e Autocorrelação
83
ou (9.108)
yt = γ yt∗ + (1 − γ ) yt −1 + c(1 − γ )∆yt∗ ,
onde γ = a /(a + 1) . Como yt∗ = α + β xt + ut e ∆yt∗ = β ∆ xt + (ut − ut −1 ) , vem
yt = γ (α + β xt + ut ) + (1 − γ ) yt −1 + c(1 − γ )( β ∆ xt + ut − ut −1 ) , ou
yt = α γ + β γ xt + β c(1 − γ )∆ xt + (1 − γ ) yt −1 + {γ + c(1 − γ )}ut − c(1 − γ ) ut −1 = α 0 + β 0 xt + γ 0 ∆ xt + (1 − γ ) yt −1 + vt , onde α 0 = α γ , β 0 = β γ , γ 0 = β c (1 − γ ) e vt = {γ + c(1 − γ )}ut − c(1 − γ ) ut −1 . Este modelo é um ARMAX(1,1,1) quando ut = ε t (ruído branco). Para estimar os parâmetros deste modelo deve utilizar-se o método das variáveis instrumentais, utilizando xt − 2 como instrumento de yt −1 . A condição (9.108) pode ser reformalizada. Assim, a partir de (9.108), tem-se
yt = γ yt∗ + yt −1 − γ yt −1 + c(1 − γ ) yt∗ − c(1 − γ ) yt∗−1 , ou
∆yt = γ yt∗ + γ yt∗−1 − γ yt∗−1 − γ yt −1 + c(1 − γ ) yt∗ − c(1 − γ ) yt∗−1 = { γ + c(1 − γ )} yt∗ − { γ + c(1 − γ )} yt∗−1 + γ ( yt∗−1 − yt −1 ) = { γ + c(1 − γ )}∆yt∗ + γ ( yt∗−1 − yt −1 ) . Fazendo δ = γ + c(1 − γ ) = (a + c) /(a + 1) , obtém-se (9.109)
∆yt = δ ∆yt∗ + γ ( yt∗−1 − yt −1 ) .
Verifica-se, assim, que a variação de y se decompõe em duas parcelas: a primeira, é uma proporção da variação desejada; a segunda, corresponde à correcção do erro observado. A condição (9.109) é a hipótese do mecanismo de correcção do erro (MCE). Como ∆yt∗ = β ∆ xt + (ut − ut −1 ) e yt∗−1 = α + β xt −1 + ut −1 , resulta que ∆yt = δ {β ∆ xt + (ut − ut −1 )} + γ (α + β xt −1 + ut −1 − yt −1 ) = α γ + β δ ∆ xt + γ ( β xt −1 − yt −1 ) + {δ ut + (γ − δ )ut −1}, ou ∆yt = β 0 ∆ xt + γ (α + β xt −1 − yt −1 ) + {δ ut + (γ − δ )ut −1} , onde β 0 = β δ . Pode, então, concluir-se que a variação de y depende da variação de x (com peso β 0 ), e de (α + β xt −1 ) − yt −1 , desvio entre o valor desejado no período t − 1 (eliminando a respectiva variável residual: yt∗−1 − ut −1 ), e o valor observado de y no mesmo período, yt −1 (com peso γ > 0 ). Este desvio mede até que ponto o valor desejado não é obtido. O parâmetro γ pode ser interpretado como a parte do desvio que se reflecte na variação de
Capítulo 9 – Modelos Dinâmicos e Autocorrelação
84
y no período seguinte. Assim, a segunda parcela, γ (α + β xt −1 − yt −1 ) , é habitualmente designada por termo de correcção do erro. Por exemplo, se α + β xt −1 < yt −1 (o valor observado é superior ao valor desejado), então, ceteris paribus, y decresce no período seguinte, aproximando-se yt do valor desejado. Quando c = 0 , tem-se δ = γ , e a hipótese MCE reduz-se à do ajustamento parcial; c = 1 implica δ = 1 , e a hipótese MCE pode apresentar-se do seguinte modo: ∆yt = ∆yt∗ + γ ( yt∗−1 − yt −1 ) ⇔ yt − yt∗ = γ ( yt −1 − yt∗−1 ) . Neste caso, obtém-se ∆yt = β ∆ xt + γ (α + β xt −1 − yt −1 ) + { ut − (1 − γ )ut −1} . Um modelo com mecanismo de correcção do erro pode, também, ser obtido mediante uma reparametrização de um modelo ARMAX estável, em que o valor desejado é o equilíbrio estático de longo prazo, yte . Por exemplo, começa-se por considerar o modelo ARMAX(1,1,0), yt = ϕ0 +ϕ1 yt −1 + β 0 xt + β1 xt −1 + ε t ( | ϕ1 | < 1 ). Note-se, antes de mais, que o equilíbrio estático de longo prazo verifica as condições yte = yt = yt −1 , xt = xt −1 e ε t = 0 . Então, obtém-se yte =
ϕ0 β + β1 + 0 xt = λ0 + λ1 xt , 1 − ϕ1 1 − ϕ1
onde λ0 = ϕ0 /(1 − ϕ1 ) e λ1 = ( β 0 + β1 ) /(1 − ϕ1 ) (note-se que λ1 é o multiplicador de longo prazo). São possíveis várias parametrizações equivalentes do modelo ARMAX(1,1,0), mas a mais interessante é aquela que tem um mecanismo de correcção do erro. Começa-se por subtrair a ambos os membros yt −1 , ∆ yt = ϕ0 + (ϕ1 − 1) yt −1 + β 0 xt + β1 xt −1 + ε t , obtendo-se uma parametrização que não oferece qualquer vantagem especial. Somando e subtraindo β 0 xt −1 ao segundo membro da igualdade anterior, tem-se a forma de Barsden, ∆ yt = ϕ0 + (ϕ1 − 1) yt −1 + β 0 xt + β 0 xt −1 − β 0 xt −1 + β1 xt −1 + ε t = ϕ0 + (ϕ1 − 1) yt −1 + ( β 0 + β1 ) xt −1 + β 0∆ xt + ε t , que permite determinar o MLP dividindo o coeficiente de xt −1 pelo simétrico do coeficiente de yt −1 . Se, alternativamente, for somado e subtraído β1xt ao segundo membro daquela igualdade, vem ∆ yt = ϕ0 + (ϕ1 − 1) yt −1 + β 0 xt + β1 xt − β1 xt + β1 xt −1 + ε t = ϕ0 + (ϕ1 − 1) yt −1 + ( β 0 + β1 ) xt − β1∆ xt + ε t , que possibilita a obtenção do MLP dividindo o quociente de xt pelo simétrico do coeficiente de yt −1 .
Capítulo 9 – Modelos Dinâmicos e Autocorrelação
85
O modelo com mecanismo de correcção do erro é imediatamente obtido a partir da forma de Barsden, pondo em evidência ϕ1 − 1 nas três primeiras parcelas, ∆ yt = ϕ0 + (ϕ1 − 1) yt −1 + ( β 0 + β1 ) xt −1 + β 0 ∆ xt + ε t = (ϕ1 − 1) yt −1 +
ϕ0 β + β1 x + β 0 ∆ xt + ε t + 0 ϕ1 − 1 ϕ1 − 1 t −1
= (ϕ1 − 1)( yt −1 − λ0 − λ1 xt −1 ) + β 0 ∆ xt + ε t = (ϕ1 − 1)( yt −1 − yte−1 ) + β 0 ∆ xt + ε t . Deste modo, ∆yt depende de yt −1 − yte−1 (com coeficiente ϕ1 − 1 ) e de ∆ xt (com coeficiente β 0 ). A diferença entre yt −1 e yte−1 mede até que ponto o equilíbrio de longo prazo entre y e x não é satisfeito, e, por isso, designa-se por erro de equilíbrio. O coeficiente ϕ1 − 1 é negativo devido à condição de estabilidade, e pode ser interpretado como a proporção do desequilíbrio que se repercute na variação de y no período seguinte. Em consequência, (ϕ1 − 1)( yt −1 − yte−1 ) é o termo de correcção do erro. Por exemplo, se yt −1 < yte−1 (o valor corrente é menor de que o valor de equilíbrio), então, ceteris paribus, ∆yt > 0 ou yt > yt −1 (y cresce no período seguinte, aproximando-se do valor de equilíbrio). Estas considerações permitem afirmar que o modelo incorpora um feedback negativo que visa corrigir desequilíbrios passados para alcançar o equilíbrio de longo prazo (mesmo que ∆ xt = 0 e ε t = 0 , ∆yt só se anula quando a solução de equilíbrio é satisfeita, ou seja, quando yte = λ0 + λ1xt ). Pode concluir-se que a equação com mecanismo de correcção do erro é essencialmente uma relação de ajustamento dinâmico de curto prazo, mas em que o ajustamento é comandado pela relação de equilíbrio de longo prazo. É interessante notar que o processo AR(1) estacionário, yt = ϕ0 + ϕ1 yt −1 + ε t , com | ϕ1 | < 1 , é um modelo simples com MCE. Com efeito, tem-se ∆yt = (ϕ1 − 1)( yt −1 − ye ) + ε t , onde ye = ϕ0 /(1 − ϕ1 ) é o valor de equilíbrio de longo prazo. Então, como ϕ1 − 1 < 0 , e se, por exemplo, yt −1 > yte−1 , então y decresce no período seguinte, aproximando-se do valor de equilíbrio. Voltando ao modelo ARMAX(1,1,0), pode, ainda, considerar-se mais duas formas de o parametrizar. A primeira, é a forma homogénea, que é aparentada com a do mecanismo de correcção do erro. Esta forma obtém-se a partir da forma de Barsden, somando e subtraindo, ao segundo membro, (ϕ1 − 1) xt −1 , ∆ yt = ϕ0 + (ϕ1 − 1) yt −1 + ( β 0 + β1 ) xt −1 + β 0 ∆ xt + ε t = ϕ0 + (ϕ1 − 1) yt −1 + (ϕ1 − 1) xt −1 − (ϕ1 − 1) xt −1 + ( β 0 + β1 ) xt −1 + β 0 ∆ xt + ε t = ϕ0 + (ϕ1 − 1)( yt −1 − xt −1 ) + ( β 0 + β1 + ϕ1 − 1) xt −1 + β 0∆ xt + ε t . Comparando esta expressão com a do MCE, parece que o multiplicador de longo prazo é igual a 1 (daí a designação forma homogénea); como, de facto, isto não sucede, diz-se que a parcela ( β 0 + β1 + ϕ1 − 1) xt −1 “quebra a homogeneidade”.
Capítulo 9 – Modelos Dinâmicos e Autocorrelação
86
A segunda, conhecida pela designação de forma de Bewley, obtém-se a partir do modelo ARMAX(1,1,0), subtraindo ϕ1 yt a ambos os membros, e somando e subtraindo, ao segundo membro, β1xt . Assim, yt − ϕ1 yt = ϕ0 − ϕ1 yt +ϕ1 yt −1 + β 0 xt + β1 xt − β1 xt + β1 xt −1 + ε t , ou (1 − ϕ1 ) yt = ϕ0 − ϕ1∆ yt + ( β 0 + β1 ) xt − β1∆ xt + ε t , ou, ainda, yt = γ ϕ0 − γ ϕ1∆ yt + γ ( β 0 + β1 ) xt − γ β1∆ xt + γ ε t , onde γ = 1 /(1 − ϕ1 ) . Neste caso, o MLP é o coeficiente de xt . Note-se, no entanto, que o regressor ∆yt é endógeno. Qualquer uma das formas referidas (Barsden, MCE, homogénea, Bewley, etc.) para parametrizar o modelo ARMAX(1,1,0) pode fornecer estimativas dos parâmetros estruturais deste modelo. A forma privilegiada é, contudo, a de Barsden pelas seguintes razões: 1) Fornece imediatamente uma estimativa para o coeficiente de ajustamento de curto prazo, ϕ1 − 1 . 2) Permite obter facilmente uma estimativa do MLP, conforme já descrito. 3) É preferível ao próprio modelo ARMAX(1,1,0) porque pode atenuar os problemas de multicolinearidade. Em geral, pode provar-se que qualquer modelo ARMAX( p, r , q ) estável,
ϕ ( L) yt = ϕ0 + β ( L) xt + ut , pode ser reparametrizado de forma a obter um modelo com MCE. Como se sabe, o polinómio de grau r em L,
β ( L) = β 0 + β1L + β 2 L2 +
r
+ β r Lr =
s =0
β s Ls ,
pode ser decomposto da seguinte maneira:
β ( L) = β (1) L + γ ( L)(1 − L) , onde
γ ( L) = γ 0 + γ 1L + γ 2 L2 +
r −1
+ γ r −1Lr −1 =
i =0
γ i Li ,
e
γ 0 = β0 γi = −
r s = i +1
β s = − ( β i +1 + β i + 2 +
+ β r ) (i = 1, 2,
, r − 1)
γ r = 0. De forma semelhante pode decompor-se o polinómio de grau p em L,
ϕ ( L) = 1 − ϕ1L − ϕ2 L2 −
− ϕ p Lp = 1 −
p h =1
ϕh Lh .
Capítulo 9 – Modelos Dinâmicos e Autocorrelação
87
Assim, tem-se
ϕ ( L) = ϕ (1) L + α ( L)(1 − L) , onde
α ( L) = 1 − α1L − α 2 L2 −
− α p −1Lp −1 = 1 −
p −1 g =1
α g Lg ,
e
αg = −
p h = g +1
ϕh = −(ϕ g +1 + ϕ g + 2 +
+ ϕ p ) ( g = 1, 2,
, p − 1)
α p = 0. Começa-se por notar que yte =
ϕ0 β (1) + xt = λ0 + λ1xt , ϕ (1) ϕ (1)
onde λ0 = ϕ0 / ϕ (1) e λ1 = β (1) / ϕ (1) (multiplicador de longo prazo). Substituindo, no modelo ARMAX, as decomposições referidas de ϕ (L) e de β (L) , obtém-se {ϕ (1) L + α ( L)(1 − L)} yt = ϕ0 + {β (1) L + γ ( L)(1 − L)}xt + ut , ou
ϕ (1) yt −1 + α ( L)∆yt = ϕ0 + β (1) xt −1 + γ ( L)∆xt + ut , ou, ainda,
ϕ (1) yt −1 + 1 −
p −1 g =1
r −1
α g Lg ∆yt = ϕ0 + β (1) xt −1 +
i =0
γ i Li ∆xt + ut .
Então, a forma de Barsden é dado por ∆yt = ϕ0 − ϕ (1) yt −1 +
p −1 g =1
r −1
α g Lg ∆yt + β (1) xt −1 +
i =0
γ i Li ∆xt + ut ,
ou ∆yt = ϕ0 − ϕ (1) yt −1 + α1∆yt −1 + α 2∆yt − 2 +
+ α p −1∆yt − p +1
+ β (1) xt −1 + γ 0 ∆xt + γ 1∆xt −1 + γ 2∆xt − 2 +
+ γ r −1∆xt − r +1 + ut .
Verifica-se, assim, que se obtém um ARMAX( p − 1, r − 1, q ) nas primeiras diferenças de y e de x, aumentado com os seus níveis desfasados de um período. A representação MCE resulta de pôr em evidência η = −ϕ (1) na forma de Barsden, considerando o termo independente e os termos em yt −1 e em xt −1 . Tem-se
∆yt = η ( yt −1 − λ0 − λ1 xt −1 ) +
p −1 g =1
α g Lg ∆yt +
= η ( yt −1 − yte−1 ) + α1∆yt −1 + α 2∆yt − 2 + + γ 0 ∆xt + γ 1∆xt −1 + γ 2∆xt − 2 +
r −1 i =0
γ i Li ∆xt + ut
+ α p −1∆yt − p +1
+ γ r −1∆xt − r +1 + ut .
,
Capítulo 9 – Modelos Dinâmicos e Autocorrelação
88
Deste modo, ∆yt depende do erro de equilíbrio yt −1 − yte−1 (com coeficiente η ), dos ∆ xt −i (com coeficientes γ i ; i = 0,1, 2, , r − 1 ), e dos ∆ yt − g (com coeficientes α g ; g = 1, 2, , p − 1 ). A condição de estabilidade garante que η < 0 , e, portanto, a primeira parcela, η ( yt −1 − yte−1 ) , é o termo de correcção do erro, que tem a interpretação já conhecida. Fica ao cuidado do leitor determinar as formas de Barsden e MCE para o modelo ARMAX(1,1,0) com tendência linear, yt = ϕ 0 + δ t +ϕ1 yt −1 + β 0 xt + β1 xt −1 + ε t ( | ϕ1 | < 1 ), e para o modelo ARMAX(2,2,0) estável, yt = ϕ 0 +ϕ1 yt −1 +ϕ 2 yt −2 + β 0 xt + β1 xt −1 + β 2 xt −2 + ε t . Finalmente, note-se que: do ponto de vista da estimação é preferível utilizar a forma de Barsden pelos mesmos motivos já mencionados para o caso ARMAX(1,1,0); facilmente se estende esta análise para modelos com várias variáveis explicativas; os modelos MCE têm, como se vai ver no capítulo 10, uma importância decisiva para o estudo da cointegração.
A modelação do geral para o particular Muitos autores (entre eles, Hendry e Mizon) defendem que a melhor estratégia para obter um modelo dinâmico adequado consiste em começar por especificar um modelo suficientemente geral – um ARMAX com ordens de desfasamento elevadas, de preferência com as formas reparametrizadas atrás analisadas –, e, testando “para baixo”, caminhar para um modelo mais simples, mas que seja satisfatório. As principais características desta metodologia “do geral para o particular” são as seguintes: 1) Não se adopta o princípio da parcimónia. Assim, não há intenção, a priori, de identificar um modelo parcimonioso, ou seja, não se atribui importância à sobreparametrização. Esta concepção é, porventura, a mais criticada. 2) Desde a primeira especificação, e em cada fase do processo de simplificação, os modelos passam pelo crivo de uma bateria de testes para detecção de erros de especificação (testes de heterocedasticidade, de autocorrelação, RESET, de alteração da estrutura, etc.). 3) A teoria económica é utilizada apenas para indicar as variáveis a considerar, e a forma geral da relação de equilíbrio de longo prazo. Em contrapartida, a escolha da estrutura dinâmica de curto prazo é feita a partir dos dados, recorrendo aos testes mais adequados para as restrições propostas. Para ilustrar estas considerações, suponha-se, por exemplo, que o modelo inicial é um ARMAX(1,1,0). Pergunta-se: porquê iniciar o trabalho de especificação com um caso particular [por exemplo, um dos seguintes modelos: regressão linear simples; auto-regressivo de 1.ª ordem; com as primeiras diferenças das variáveis; de indicador avança-
Capítulo 9 – Modelos Dinâmicos e Autocorrelação
89
do; de ajustamento parcial; com factores comuns; DL(1); dead start], sem ter testado previamente as restrições impostas? Parece ter mais sentido iniciar o estudo pelo modelo mais geral, e considerar um modelo particular apenas quando as restrições que ele implica não forem rejeitadas pelos dados (e se não apresentar sintomas de má especificação). Deste modo, vai deixar-se que os dados “falem livremente”, impondo as restrições que eles não rejeitem ou, até, que eles próprios sugiram (por exemplo, excluindo regressores com coeficientes não significativos). A estratégia do “geral para o particular” pode envolver as seguintes fases: 1) Especificação inicial de um modelo dinâmico com ordens de desfasamento elevadas (um ARMAX, de preferência reparametrizado sob a forma de Barsden), que seja compatível com a relação de equilíbrio de longo prazo (dada pela teoria económica), e que não imponha restrições sobre a dinâmica de curto prazo. 2) Simplificação do modelo excluindo regressores não significativos, ou impondo restrições que sejam suportadas pelos dados, e que não provoquem o aparecimento de sintomas de erros de especificação. Em geral, são os coeficientes de desfasamento de ordens mais elevadas que tenderão a ser os mais pequenos, pelo que se começa por testar a sua significância, “descendo” em seguida para os desfasamentos de ordem mais baixa. 3) Avaliação final do modelo seleccionado com base na teoria económica, e nos testes de má especificação (misspecification tests). A estratégia de modelação “do particular para o geral” é a abordagem tradicional predominante até finais da década de 1970. Para esta estratégia, o modelo econométrico deve reflectir o princípio da parcimónia, e deve basear-se numa teoria económica. O modelo que daqui resulta é considerado o modelo “verdadeiro”, ou seja, não há problemas de especificação. O papel do econometrista resume-se à estimação eficiente dos parâmetros, procurando “remediar” os “problemas” que surgem (heterocedasticidade, autocorrelação, sinais trocados, coeficiente de determinação baixo, etc.). Outro investigador, usando outra teoria, com o mesmo conjunto de dados, e aplicando a mesma metodologia, pode chegar a uma especificação radicalmente diferente, considerada por ele correcta. Assim, a Econometria seria apenas um instrumento para validar teorias económicas, e não para as pôr em causa. As principais críticas usualmente apontadas a este metodologia são as seguintes: 1) Iniciando a análise empírica pelo modelo simples, cada teste de hipóteses está condicionado por pressupostos iniciais arbitrários que, se não forem válidos, contaminam todo o processo de especificação. Em cada passo do processo de generalizção, as conclusões são potencialmente erradas, pois em fases posteriores podem descobrir-se novos problemas. 2) Os testes estatísticos usuais não são válidos em modelos com variáveis omitidas (como tenderão a ser os modelos iniciais). 3) Não é possível controlar o nível ou dimensão global real da sequência de testes. 4) Pode haver ocultação da descoberta de um modelo adequado. Um exemplo simples é o da estimação de um modelo estático com autocorrelação do tipo AR(1), quando o
Capítulo 9 – Modelos Dinâmicos e Autocorrelação
90
modelo mais adequado seria um ARDL(1,1). De facto, como a estimação daquele modelo estático é equivalente à estimação de um modelo ARDL(1,1) com certas restrições, há o perigo de adoptar este modelo sem testar tais restrições. Se estas não forem válidas, não só se escolhe um modelo mal especificado, mas também o estimador utilizado não é consistente.
9.7 - Teoremas limite para processos autocorrelacionados Nesta secção retoma-se o estudo, já iniciado na secção 3.1, das propriedades assintóticas da média da amostra, y , para processos estocásticos autocorrelacionados, { yt } . Recorde-se, em primeiro lugar, o enunciado do teorema da ergodicidade (ver capítulo 3, teorema 3.7) para processos escalares: − Se { yt } é estacionário e ergódico, e se existe µ = E ( yt ) , então y converge em probabilidade para µ (o processo { yt } obedece à lei dos grandes números). Verifica-se, assim, que este teorema estabelece uma condição suficiente para que y seja consistente para estimar o parâmetro µ . A seguir, vai apresentar-se outra condição suficiente de consistência, sob a forma de restrições relativas a um processo estacionário em covariância.
Teorema 9.4 [Lei dos grandes números para processos estacionários em covariância com autocovariâncias a tender para zero] Seja { yt } um processo estacionário em covariância, com valor esperado µ , e {γ s } a respectiva sucessão de autocovariâncias. Tem-se: mq
a) Se lim γ s = 0 então y → µ . s →+∞
b) Se {γ s } é somável então lim Var n → +∞
ny =
+∞ s = −∞
γ s < +∞ .
Dem.: Para demonstrar a alínea a), basta provar que lim Var ( y ) = 0 .
n→+∞
Com efeito, de
Var ( y1 + y2 +
+ yn −1 + yn )
= Var ( y1 ) + 2 Cov( y1, y2 ) +
+ 2 Cov( y1 , yn −1 ) + 2 Cov( y1, yn )
+ Var ( y2 ) + 2 Cov( y2 , y3 ) +
+ 2 Cov( y2 , yn −1 ) + 2 Cov( y2 , yn )
+ + Var ( yn −1 ) + 2 Cov( yn −1 , yn ) + Var ( yn ) = nγ 0 + 2(n − 1)γ 1 + vem
+ 2(n − s )γ s +
+ 2 γ n −1 = nγ 0 + 2
n −1 s =1
(n − s )γ s ,
Capítulo 9 – Modelos Dinâmicos e Autocorrelação Var ( y ) =
1 Var ( y1 + y2 + n2
+ yn ) =
91
γ0 n
+
2 n
n −1 s =1
1−
s γs. n
Então, notando que 1 − s / n = 0 para s = n ,
Var ( y ) =
γ0 n
+
2 n
n s =1
2 n n γ 2 ≤ 0+ n n ≤
γ0
n
+
s =1 n s =1
1−
s γs n
1−
s |γs | n
| γ s |.
Se se demonstrar que lim γ s = 0
lim
s →+∞
s →+∞
1 n
n s =1
|γs | = 0,
fica provada a alínea a). Como, por hipótese, {γ s } converge para 0, pode concluir-se que: − ∀s , | γ s | < c ; − ∀ε > 0, ∃ nε : s > nε
| γ s |
nε
n i=s
γi
1) ,
que se designa por núcleo truncado. Quando q é desconhecido, pode usar-se este núcleo com um comprimento da banda que cresce com n; à medida que n cresce, cada vez mais matrizes Γˆ s são utilizadas para calcular Sˆ . No entanto, nada garante que a matriz Sˆ obtida seja semidefinida positiva. Newey-West (1987) demonstraram que o estimador de S baseado no núcleo de Bartlett, 1− | x | ( | x | < 1) , k ( x) = 0 ( | x | ≥ 1) , é uma matriz semidefinida positiva (ou definida positiva). Este estimador é conhecido pelo nome de estimador de Newey-West. Por exemplo, para q (n) = 3 , incluem-se os estimadores das matrizes das autocovariâncias até dois desfasamentos, obtendo-se 2 1 Sˆ = Γˆ 0 + (Γˆ1 + Γˆ1T ) + (Γˆ 2 + Γˆ 2T ) . 3 3 Para q (n) = 4 , vem 3 1 1 Sˆ = Γˆ 0 + (Γˆ1 + Γˆ1T ) + (Γˆ 2 + Γˆ 2T ) + (Γˆ 3 + Γˆ 3T ) . 4 2 4 Em geral, tem-se (9.123)
Sˆ = Γˆ 0 +
q ( n ) −1 s =1
1−
s (Γˆ s + Γˆ sT ) . q ( n)
Capítulo 9 – Modelos Dinâmicos e Autocorrelação
100
A escolha de q (n) depende do tipo de dados temporais (ver capítulo 3, secção 3.10). Fica ao cuidado do leitor analisar a situação em que todos os regressores são prédeterminados: xt • = zt • (ver secção 3.9 do capítulo 3). Esta questão pode ser aprofundada em Andrews (1991). Existem outros procedimentos para estimar S, como é o caso do estimador VARHAC (VAR heteroskedasticity and autocorrelation consistent). Ver, por exemplo, Den Hann e Levin (1996) e Hayashi (2000), pp. 410-412. 9.9 - Implicações da homocedasticidade condicionada
Na secção 4.9, onde se introduziu a hipótese REN.6 (homocedasticidade condicionada), viu-se que o estimador MGM se reduz ao estimador MQ2P. Na presente secção vai mostrar-se como este estimador pode ser generalizado de forma a incorporar autocorrelação. A relação entre as autocorrelações nos processos {g t• } e {ut } é fácil de estabelecer, quando existe homocedasticidade condicionada. Seja
ω s = E (ut ut −s ) ( s = 0, ± 1, ± 2,
),
onde ω s não depende de t, porque {ut } é estacionário (devido a REN.1 e REN.2). Se E (ut ) = 0 (o que acontece se o modelo tiver termo independente), ω s é a autocovariância de ordem s do processo {ut } . A hipótese REN.6 vai ser substituída pela seguinte: Hipótese REN.6’ – Homocedasticidade condicionada As variáveis residuais são condicionalmente homocedásticas,
(9.124)
E (ut ut −s | zt • , zt −s ,• ) = ω s ( s = 0,±1,±2,
).
Note-se que esta hipótese abrange REN.6, quando s = 0 . Considerando (9.124), obtém-se Γs = E ( gtT• g t − s ,• ) = E (ut ut − s ztT• zt − s ,• ) = E{E (ut ut − s ztT• zt − s ,• | zt • , zt − s ,• )} = E{E (ut ut − s | zt • , zt − s ,• ) ztT• zt − s ,• } = ωs E ( ztT• zt − s ,• ) . Fica, assim, verificado que o processo {g t• } tem autocorrelação se e só se o mesmo acontece com o processo {ut } , desde que E ( ztT• zt −s ,• ) ≠ O . Para estimar Γs vai explorar-se a circunstância de se ter o produto de dois segundos momentos, ω s = E (ut ut −s ) e E ( ztT• zt −s ,• ) . Um estimador natural deste valor esperado é, obviamente, 1 n . zT z t = s +1 t • t − s , • n
Capítulo 9 – Modelos Dinâmicos e Autocorrelação
101
Facilmente se prova (seguindo uma demonstração semelhante a da propriedade 4.3 dos estimadores MGM; ver capítulo 4) que um estimador consistente de ω s é dado por 1 n uˆt uˆt −s , n t =s +1 onde uˆt = yt − xt • βˆ e βˆ é um estimador consistente de β . Assim, quando se verifica (9.124), um estimador consistente de Γs é (9.125)
1 Γˆ s = n
n t = s +1 t
uˆ uˆt − s
1 n
n T t = s +1 t • t − s , •
z z
.
Utilizando (9.125), os estimadores da matriz S são ainda obtidos, conforme as situações, com as expressões (9.121) a (9.123), apresentadas no final da secção anterior. A matriz Sˆ pode escrever-se na forma (9.126)
1 ˆZ, Sˆ = Z T Ω n
ˆ tem uma forma onde Z é matriz n × p das observações das variáveis instrumentais e Ω semelhante à matriz das autocovariâncias de {ut } ,
ˆ = Ω
ωˆ 0 ωˆ1 ωˆ 2
ωˆ1 ωˆ 0 ωˆ1
ωˆ 2 ωˆ1 ωˆ 0
ωˆ n − 2 ωˆ n −1 ωˆ n −3 ωˆ n − 2 ωˆ n − 4 ωˆ n − 3
ωˆ n − 2 ωˆ n −3 ωˆ n − 4 ωˆ n −1 ωˆ n − 2 ωˆ n −3
ωˆ 0 ωˆ1
.
ωˆ1 ωˆ 0
Quando se sabe, a priori, que Cov(ut , ut −s ) = 0 (ou, de forma equivalente, que ˆ são da forma Γs = O ) para s > q , os elementos de Ω 1
ωˆ s = n
n t = s +1 t
( s = 0, 1, 2,
0
( s = q + 1, q + 2, ) .
uˆ uˆt − s
, q) ,
Neste caso, a matriz Sˆ , dada por (9.126), é igual a (9.121). Com efeito, notando ˆ Z é igual a que Z Ω T
[z
T 1•
z2T•
z3T•
znT−1,•
z1Tn•
]
ωˆ 0 ωˆ1 ωˆ 2
ωˆ1 ωˆ 0 ωˆ1
ωˆ 2 ωˆ1 ωˆ 0
ωˆ n − 2 ωˆ n −3 ωˆ n − 4 ωˆ n −1 ωˆ n − 2 ωˆ n −3 ou
ωˆ n − 2 ωˆ n −1 ωˆ n −3 ωˆ n − 2 ωˆ n − 4 ωˆ n −3 ωˆ 0 ωˆ1
ωˆ1 ωˆ 0
z1• z2• z3• zn −1,• zn •
,
Capítulo 9 – Modelos Dinâmicos e Autocorrelação
102
ωˆ 0 z1T• z1• + ωˆ 1 z 2T• z1• + ωˆ 2 z3T• z1• +
+ ωˆ n−2 z nT−1,• z1• + ωˆ n−1 z nT• z1• +
ωˆ 1 z1T• z2• + ωˆ 0 z 2T• z 2• + ωˆ 1 z3T• z 2• +
+ ωˆ n−3 z nT−1,• z 2• + ωˆ n−2 z nT• z 2• +
ωˆ 2 z1T• z3• + ωˆ 1 z2T• z3• + ωˆ 0 z3T• z3• +
+ ωˆ n−4 z nT−1,• z3• + ωˆ n−3 z nT• z3• +
+
ωˆ n−2 z1T• z n−1,• + ωˆ n−3 z 2T• z n−1,• + ωˆ n−4 z3T• zn−1,• + ωˆ n−1 z1T• z n• + ωˆ n−2 z2T• zn• + ωˆ n−3 z3T• zn• +
+ ωˆ 0 z nT−1,• z n−1,• + ωˆ 1 z nT• z n−1,• +
+ ωˆ 1 z nT−1,• z n• + ωˆ 0 z nT• z n• ,
obtém-se 1 ˆ Z = ωˆ 1 Sˆ = Z T Ω 0 n n = Γˆ 0 +
n T t =1 t • t •
z z
q s =1
+
q s =1
ωˆ s
1 n
n t =1
( ztT• zt − s ,• + ztT− s ,• zt • )
(Γˆ s + Γˆ sT ) .
Fica ao cuidado fazer estes cálculos de verificação de (9.126), por exemplo, para n = 3 e q =1. Quando q não é conhecido, e considerando o estimador de S baseado no núcleo de Bartlett, faz-se
ωˆ s =
1−
s 1 q ( n) n
n
uˆ uˆt − s
t = s +1 t
0
( s = 0,1, 2,
, q(n) − 1) ,
( s = q(n), q(n) + 1, ) .
Com a mesma técnica utilizada para o caso anterior, pode provar-se que
1 ˆ Z = Γˆ + Sˆ = Z T Ω 0 n
q ( n ) −1 s =1
1−
s (Γˆ s + Γˆ sT ) . q( n)
Estes resultados permitem obter o estimador MGM eficiente que verifica a condição (9.124). Assim, a partir de βˆ ( Sˆ −1 ) = ( S zxT Sˆ −1S zx ) −1 S zxT Sˆ −1s zy [ver (4.71)], vem (9.127)
ˆ Z ) −1 Z T X }−1 X T Z ( Z T Ω ˆ Z ) −1 Z T Y , βˆ ( Sˆ −1 ) = { X T Z ( Z T Ω
que constitui uma generalização do estimador MQ2P, dado por (4.54). O estimador consistente da respectiva matriz das covariâncias assintóticas é, então, (9.128)
^
ˆ Z ) −1 Z T X }−1 . Cov a {βˆ ( Sˆ −1 )} = ( S zxT Sˆ −1S zx )−1 = n{ X T Z ( Z T Ω
Recorde-se que a estatística de Sargan, com homocedasticidade condicionada e ausência de autocorrelação, é dada por (4.96). Quando se admite a existência de autoˆZ, correlação, este resultado pode ser generalizado. Neste caso, como Sˆ = (1 / n) Z T Ω tem-se ~ ~ 1 ˆZ J ( β , Sˆ −1 ) = n( szy − S zx β )T Z T Ω n
−1
~ ~ ˆ Z )−1 Z T (Y − Xβ~ ) . ( szy − S zx β ) = (Y − Xβ )T Z ( Z T Ω
Capítulo 9 – Modelos Dinâmicos e Autocorrelação
103
~ Quando se substitui β por βˆ ( Sˆ −1 ) dado por (9.127), obtém-se a respectiva estatística de Sargan, ˆ Z ) −1 Z TUˆ , QS = Uˆ T Z ( Z T Ω onde Uˆ = Y − X βˆ ( Sˆ −1 ) . Quando todos os regressores são pré-determinados, mas existem variáveis instrumentais que não são regressores ( xt • é subconjunto próprio de zt • ), sabe-se que, no caso de homocedasticidade condicionada e de ausência de autocorrelação, o estimador MQ2P reduz-se ao estimador MQ. Quando há autocorrelação (e homocedasticidade condicionada) tal já não acontece: o estimador (9.127) é diferente do estimador MQ.
Capítulo 9 – Modelos Dinâmicos e Autocorrelação
104
PALAVRAS-CHAVE Ajustamento parcial Autocovariância Círculo unitário Coeficiente de autocorrelação Comportamento da solução Comprimento da banda Condição de Gordin Condição de invertibilidade Condições iniciais Critério de informação Bayesiano Critério de informação de Akaike Decomposição do polinómio em L Desfasamento mediano Desfasamento médio Desfasamento polinomial (Almon) Efeito acumulado Efeito de longo prazo Efeito permanente Efeito transitório Equação característica Equação homogénea Equação linear de 1.ª ordem Equação linear de 2.ª ordem Equações de Yule-Walker Equações (lineares) com diferenças Erro de equilíbrio Estimação de modelos auto-regressivos Estimador de Newey-West Estimadores baseados em núcleos Expectativas adaptativas Filtro Filtro absolutamente somável Filtro inverso Forma de Barsden Forma de Bewley Função geradora de autocovariâncias
Multiplicador de longo prazo Multiplicador dinâmico Núcleo (truncado) Núcleo de Bartlett Operador de desfasamento Operador diferença Operador inverso Operador linear Operador produto Operador soma Operadores permutáveis Passeio aleatório Polinómio em L Processo ARMA Processo auto-regressivo Processo de médias móveis Processo de médias móveis infinito Processo estacionário Processo invertível Processo linear Processo VAR Processo VARMA Processo vectorial Processo VMA Produto de filtros Quadrado de um operador Relação dinâmica Relações de convolução Ruído branco Solução definida Solução estável Solução instável Solução geral Solução particular Soma telescópica Teorema do limite central para processo de médias móveis infinito Lei dos grandes números para processos Teorema do limite central para processo estacionário e ergódico estacionários em covariância Matriz das covariâncias de longo prazo Termo de correcção do erro Mecanismo de correcção do erro Valor actual
Capítulo 9 – Modelos Dinâmicos e Autocorrelação Método da substituição recursiva Modelo ARMAX Modelo com desfasamentos escalonados Multiplicador de impacto
Variância de longo prazo Variável input Variável output
105
Capítulo 9 – Modelos Dinâmicos e Autocorrelação
106
PERGUNTAS DE REVISÃO 1. 2.
3.
4.
Considere a seguinte relação entre as variáveis y e w: yt = ϕ yt −1 + wt . Discuta o comportamento do respectivo multiplicador dinâmico, quando ϕ ∈ [ − 1,1 ]. Considere a seguinte relação entre as variáveis y e w: yt = ϕ yt −1 + wt . Sendo r a taxa de juro, indique o efeito de w (variável input) sobre o valor actual do fluxo de valores futuros de y (variável output), yt , yt +1 , yt +2 ,…. Considere a seguinte relação entre as variáveis y e w: yt = ϕ 1 yt −1 + ϕ 2 yt −2 + wt . Supondo que as raízes da equação 1 − ϕ 1 z − ϕ 2 z 2 = 0 , são diferentes ( z1 ≠ z 2 ), indique o efeito ceteris paribus de wt sobre yt + s (multiplicador dinâmico). Considere a seguinte relação entre as variáveis y e w: yt = ϕ 1 yt −1 + ϕ 2 yt − 2 + ϕ 3 yt −3 + wt .
5.
Supondo que as raízes da equação característica, λ3 − ϕ1λ2 − ϕ 2 λ − ϕ 3 = 0 , são diferentes, indique o efeito ceteris paribus de wt sobre yt + s (multiplicador dinâmico). Considere a seguinte relação entre as variáveis y e w: yt = ϕ 1 yt −1 + ϕ 2 yt − 2 + ϕ 3 yt −3 + wt .
6.
Sendo r a taxa de juro, indique o efeito de w (variável input) sobre o valor actual do fluxo de valores futuros de y (variável output), yt , yt +1 , yt +2 ,…. Considere os filtros
α ( L) = α 0 + α1 L + α 2 L2 +
7. 8.
9. 10. 11.
12.
13.
e β ( L) = β 0 + β1L + β 2 L2 +
.
Fazendo δ ( L) = α ( L) β ( L) = δ 0 + δ 1 L + δ 2 L2 + , indique as expressões de δ 0 , δ 1 e δ 2 a partir dos coeficientes dos filtros α (L) e β (L) . Apresente um exemplo de filtro que não é absolutamente somável. Suponha que yt ~ MA(2) : yt = ε t +θ1ε t −1 + θ 2ε t − 2 , onde {ε t } é um ruído branco. Deduza a expressão de Corr ( yt , yt − 2 ) [coeficiente de autocorrelação de segunda ordem]. Suponha que yt ~ MA(3) : yt = ε t +θ1ε t −1 + θ 2ε t − 2 + θ 3ε t −3 , onde {ε t } é um ruído branco. Deduza as expressões das autocovariâncias de ordem s ( s = 2, 3, 4 ). Considere o filtro α (L) . Indique a condição para que este filtro seja absolutamente somável. Seja o modelo de regressão yt = α + β xt + ut , onde u t = ρ1u t −1 + ρ 2u t − 2 + ε t e ε t é um ruído branco. Utilizando o operador L, construa um modelo equivalente ao modelo dado, mas em que a variável residual é o ruído branco. Suponha que yt ~ AR (2) : yt = α + ϕ1 yt −1 + ϕ 2 yt − 2 + ε t , onde {ε t } é um ruído branco. Admitindo que o processo é estacionário, indique a relação entre os coeficientes de autocorrelação de ordem s ( s = 1, 2, 3 ). Considere um processo ARMA(2,3), yt = α + ϕ1 yt −1 + ϕ 2 yt − 2 + ε t + θ1ε t −1 + θ 2ε t − 2 + θ 3ε t −3 ,
Capítulo 9 – Modelos Dinâmicos e Autocorrelação
14.
107
onde {ε t } é um ruído branco. Em que condições se pode afirmar que este processo é estacionário em covariância? Considere um processo ARMA(2,3), yt = α + ϕ1 yt −1 + ϕ 2 yt − 2 + ε t + θ1ε t −1 + θ 2ε t − 2 + θ 3ε t −3 ,
15.
onde {ε t } é um ruído branco. Fazendo µ = α ϕ (1) , reformule o processo de forma que { yt − µ} seja ainda ARMA(2,3), mas sem termo independente. Considere um processo ARMA(3,1) estacionário, yt = α + ϕ1 yt −1 + ϕ 2 yt − 2 + ϕ 3 yt −3 + ε t + θ ε t −1 .
16.
Como sabe, este processo pode ser representado por um processo MA(∞) , com filtro ψ (L) . Determine ψ s ( s = 0,1, 2,3 ). Considere um processo ARMA(3,1) estacionário, yt = α + ϕ1 yt −1 + ϕ 2 yt − 2 + ϕ 3 yt −3 + ε t + θ ε t −1 .
17.
Que condições deve impôr aos parâmetros para garantir que o processo se possa representar por um processo MA(∞) ? Considere um processo ARMA(3,2) estacionário, yt = α + ϕ1 yt −1 + ϕ 2 yt − 2 + ϕ 3 yt −3 + ε t + θ1 ε t −1 + θ 2 ε t − 2 .
18.
19.
20.
21.
22.
23. 24.
Que condições deve impôr aos parâmetros para garantir que o processo se possa representar por um processo AR (∞) ? Considere-se o processo AR(1) estacionário, yt = α + ϕ yt −1 + ε t , onde {ε t } é um ruído branco independente. Considerando este modelo como um MRL, verifique a hipótese RPD.4 [a matriz Qxx = E ( xtT• xt • ) existe e tem inversa]. Considere um processo MA(3), yt = α + ε t + θ1ε t −1 + θ 2ε t − 2 + θ 3ε t −3 , onde {ε t } é um ruído branco. Que condições deve impôr aos parâmetros para garantir que o processo é invertível? Considere-se o processo AR(1) estacionário, yt = α + ϕ yt −1 + ε t , onde {ε t } é um ruído branco independente. Considerando este modelo como um MRL, verifique que g t • = xt •ε t é uma diferença-martingala. Considere-se o processo AR(1) estacionário, yt = α + ϕ yt −1 + ε t , onde {ε t } é um ruído branco independente. Considerando este modelo como um MRL, e supondo que a hipótese da homocedasticidade condicionada é verdadeira, verifique que a matriz S = E (ε t2 xtT• xt • ) existe e tem inversa. Considere-se o processo AR(2) estacionário, yt = α + ϕ1 yt −1 + ϕ 2 yt − 2 + ε t , onde {ε t } é um ruído branco independente. Considerando este modelo como um MRL, determine a matriz E ( xtT• xt • ) . Suponha que a hipótese da homocedasticidade condicionada é verdadeira, e que E ( xtT• xt • ) existe e tem inversa. Verifique que a matriz S = E (ε t2 xtT• xt • ) existe e tem inversa. Considere um modelo DL(r ) , yt = δ ( L) xt + u t . Indique a fórmula para calcular o desfasamento que corresponde a 80% do efeito. Seja o modelo yt = α + δ ( L) xt + u t , onde δ ( L) = 2.2 + 0.8 L + 0.3L2 + 0.1L3 . Determine o desfasamento médio.
Capítulo 9 – Modelos Dinâmicos e Autocorrelação 25.
26.
27.
28.
29.
30.
108
Considere um modelo de regressão linear explicativo do comportamento de y em função de x e de z. Indique a equação de regressão do respectivo modelo ARMAX(1,2,1), supondo que os regressores que envolvem as variáveis x e z são estritamente exógenos. Considere o operador δ ( L) = δ 0 + δ1 L + δ 2 L2 + + δ r Lr . Pode provar-se a seguinte decomposição deste operador: δ ( L) = δ (1) L + γ ( L)(1 − L) , onde γ (L) é um polinómio em L, mas de grau r − 1 . Supondo r = 2 , e aplicando a decomposição referida, aplique o operador δ (L) a xt de forma a obter uma expressão em xt −1 , ∆xt e ∆xt −1 . Considere o operador δ ( L) = δ 0 + δ1 L + δ 2 L2 + + δ r Lr . Pode provar-se a seguinte decomposição deste operador: δ ( L) = δ (1) L + γ ( L)(1 − L) , onde γ (L) é um polinómio em L, mas de grau r − 1 . Supondo r = 3 , aplique o operador δ (L) a xt de forma a obter uma expressão em xt −1 , ∆xt , ∆xt −1 e ∆xt − 2 . Suponha que δ (L) e γ (L) são polinómios em L de grau 3 e de grau 2, respectivamente. Determine as expressões dos coeficientes do segundo polinómio em função dos coeficientes do primeiro, sabendo que δ ( L) = δ (1) + γ ( L)(1 − L) . Suponha que δ (L) e γ (L) são polinómios em L de grau 4 e de grau 3, respectivamente. Determine as expressões dos coeficientes do segundo polinómio em função dos coeficientes do primeiro, sabendo que δ ( L) = δ (1) L + γ ( L)(1 − L) . Considere o processo ARMAX(2,1, 2) estável, yt = ϕ 0 +ϕ1 yt −1 +ϕ 2 yt − 2 + β 0 xt + β1 xt −1 + ε t + θ1 ε t −1 + θ 2 ε t − 2 .
31.
Conside este modelo como um MRL, e suponha que os regressores que envolvem a variável x são pré-determinados. Indique a ordem de autocorrelação (se existir) e os eventuais regressores endógenos. Seja o processo ARMAX estável, yt = ϕ 0 +ϕ1 yt −1 +ϕ 2 yt − 2 + β 0 xt + β1 xt −1 + vt .
32.
Considere processo DL(∞) associado. Determine as restrições sobre os respectivos δ j . Seja o processo ARMAX estável, yt = ϕ 0 +ϕ1 yt −1 +ϕ 2 yt − 2 + β 0 xt + β1 xt −1 + β 2 xt − 2 + vt .
33. 34.
Considere o aumento temporário de x, de uma unidade no período t. Determine, em função dos parâmetros do processo ARMAX, o efeito ceteris paribus de xt sobre yt + 3 . Considere-se um processo DL(∞) , yt = α + δ 0 xt + δ1 xt −1 + δ 2 xt −2 + + ut , onde δ s = γ ϕ s , | ϕ | < 1 ( s = 0,1, 2, ). Deduza o respectivo modelo ARMAX. Considere o modelo yt∗ = α + β xt + ut , onde yt∗ é valor expectativa em t da variável y. Suponha que ∆yt = δ ∆yt∗ + γ ( yt∗−1 − yt −1 ) , onde 0 < γ < 1 e δ > 0 [hipótese do mecanismo de correcção do erro]. Determine o modelo ARMAX respectivo.
Capítulo 9 – Modelos Dinâmicos e Autocorrelação 35.
36. 37.
38.
39.
109
Seja a hipótese do mecanismo de correcção do erro, ∆yt = δ ∆yt∗ + γ ( yt∗−1 − yt −1 ) , onde 0 < γ < 1 e δ > 0 . Indique as condições em que esta hipótese se reduz à hipótese do ajustamento parcial. Considere o modelo yt = α + θ t + ϕ yt −1 + ε t , onde | ϕ | < 1 e ε t é um ruído branco. Indique o termo de correcção do erro. Considere o modelo yt = α + ϕ yt −1 + ε t , onde | ϕ |< 1 e {ε t : t = 1,2, } é um ruído branco. Apresente a relação de equilíbrio de longo prazo (RELP) e reescreva o modelo explicitando o termo de correcção de erro (TCE). Suponha que o modelo yt = ϕ 0 +ϕ1 yt −1 +ϕ 2 yt −2 + β 0 xt + β1 xt −1 + β 2 xt −2 + ε t é estável. Reparametrize-o de forma a explicitar ∆yt em função de yt −1 , ∆ yt −1 , xt −1 , ∆ xt , ∆ xt −1 e ε t (forma de Barsden). Seja o processo ARMAX estável, yt = ϕ 0 +ϕ1 yt −1 +ϕ 2 yt − 2 + β 0 xt + β1 xt −1 + β 2 xt − 2 + ε t .
40.
Apresente a relação de equilíbrio de longo prazo (RELP) e reescreva o modelo de forma a explicitar a forma de Barsden. Seja o processo ARMAX estacionário em torno da tendência, yt = ϕ 0 +δ t + ϕ1 yt −1 +ϕ 2 yt − 2 + β 0 xt + β1 xt −1 + β 2 xt − 2 + ε t . Apresente a relação de equilíbrio de longo prazo (RELP) e reescreva o modelo de forma a pôr em evidência o termo de correcção de erro (TCE).
CAPÍTULO 10 RAÍZES UNITÁRIAS E COINTEGRAÇÃO Nos modelos econométricos com dados temporais estudados nos capítulos anteriores desempenhou um papel fundamental a hipótese da estacionaridade dos respectivos processos estocásticos. A constatação de que muitas variáveis económicas são não estacionárias tem como consequência que os resultados assintóticos anteriormente obtidos, necessários para efectuar inferência estatística sobre os parâmetros desconhecidos dos modelos especificados, têm que ser modificados. A questão da não estacionaridade está intimamente relacionada com a existência de tendências. Em economia, não faltam exemplos de variáveis que apresentam algum tipo de tendência temporal. Nalguns casos, como o PIB a preços constantes (ou o seu logaritmo), a variável apresenta tendência temporal média crescente, ou seja, o seu valor médio, em vez de se manter constante, cresce de forma consistente ao longo do tempo. Este tipo de tendência (linear ou não) é designada por tendência determinística. Na figura 10.1 apresenta-se uma série longa do logaritmo do PIB anual de Portugal, de 1865 a 2001, em milhões de dólares 1990 (International Geary-Khamis). 13
12
11
10
9
8
7
6 1865
1873
1881
1889
1897
1905
1913
1921
1929
1937
1945
1953
1961
1969
1977
1985
1993
2001
Fig. 10.1 – Logaritmo do PIB português (1865-2001), em milhões de dólares 1990. Fonte: Angus Maddison (2003), The World Economy: Historical Statistics, OECD Development Centre.
Capítulo 10 – Raízes unitárias e cointegração
2
Noutros casos, como as taxas de câmbio (por exemplo, o rácio euro/dólar), a variável não apresenta tendência em média, mas qualquer variação no seu valor parece ter um efeito permanente nos valores futuros de tal forma que o melhor previsor destes valores é o seu valor corrente. Na figura 10.2 apresenta-se uma série da taxa mensal de câmbio de referência do Euro em relação ao Dólar dos Estados Unidos (USD), de Janeiro de 1999 a Dezembro de 2005. 1.5
1.25
1
0.75
0.5 1999 Jan
1999 M ai
1999 Set
2000 Jan
2000 M ai
2000 Set
2001 Jan
2001 M ai
2001 Set
2002 Jan
2002 M ai
2002 Set
2003 Jan
2003 M ai
2003 Set
2004 Jan
2004 M ai
2004 Set
2005 Jan
2005 M ai
2005 Set
Fig. 10.2 – Taxa mensal de câmbio de referência Euro/USD (Jan-1999 a Dez-2005). Fonte: Banco de Portugal.
Um processo com esta propriedade, que não é verdadeira para os processos estacionários, tem a designação de tendência estocástica. Recordando a definição de martingala (ver definição 3.10 do capítulo 3), facilmente se verifica que martingala e tendência estocástica são sinónimos. Com efeito, se o processo { yt } é uma martingala tem-se E ( yt +1 | yt , yt −1 , ) = yt , e conclui-se (utilizando a propriedade do valor esperado iterado) que E ( yt + s | yt , yt −1, ) = yt , para s = 2, 3, . Como vai ver-se, as tendências estocásticas gozam de uma propriedade muito importante: revelam um comportamento claro de não gravitarem em torno de um valor constante ou de uma tendência temporal determinística. Note-se, contudo, que podem existir processos não estacionários sem apresentarem tendência. Por exemplo, seja o processo iid, {ε t } , tal que Var (ε t ) = 1 , e suponha-se que d t = 1 , quando t é ímpar, e que d t = 2 , quando t é par. O processo {ut } , tal que ut = dtε t , não é estacionário porque Var (ut ) = 1 , quando t é ímpar, e Var (ut ) = 4 , quando t é par. No entanto, {ut } é um processo sem tendência. A premissa básica deste capítulo é a de que as variáveis económicas podem ser representadas pela soma de três parcelas: uma componente determinística (em muitos casos, uma tendência linear), uma tendência estocástica, e um processo estacionário. As duas últimas parcelas constituem a componente estocástica.
Capítulo 10 – Raízes unitárias e cointegração
3
10.1 - Processos integrados Nesta secção vai introduzir-se uma classe importante de processos com tendência estocástica, a classe dos processos integrados. Para definir processo integrado de ordem d (inteiro e positivo), vai começar-se por apresentar a definição de processo de ordem 0.
Definição 10.1 – Processo integrado de ordem 0 Considere-se o processo estocástico { yt } , supondo que (10.1)
yt = ct + wt ,
onde ct é a componente determinística e wt é a componente estocástica. O processo { yt } é integrado de ordem 0, yt ~ I (0) , se e só se {wt } é estritamente estacionário com valor esperado nulo, e a respectiva variância de longo prazo é positiva.
1) 2) 3)
4) 5)
Podem-se fazer os seguintes comentários: Facilmente se verifica que E ( yt ) = ct . Obviamente, o processo {wt } também é I (0) . A componente determinística pode ser, por exemplo, apenas uma constante ( ct = α ), pode ser composta por uma tendência linear ( ct = α + δ t ) ou pode ser mais complexa (incluir dummies sazonais ou outras variáveis não estocásticas). Os ruídos brancos (independentes), os processos iid e os processos ARMA estacionários são exemplos de processos I (0) . A variância de longo prazo de {wt } é igual à variância de longo prazo de { yt } , que, recorde-se (ver secção 9.7 do capítulo 9), é dada por VLP( yt ) = lim Var n → +∞
ny .
A exigência de que este deve ser positivo é esclarecida mais adiante.
Definição 10.2 – Processo integrado de ordem d (inteiro e positivo) O processo estocástico { yt } é integrado de ordem d, yt ~ I (d ) ( d = 1, 2, ), se e só se o processo das diferenças de ordem d, {∆ d yt } , é I (0) . Em particular, { yt } é integrado de ordem 1, yt ~ I (1) , se e só se {∆yt } é I (0) . O processo I (d ) , { yt } , pode ser apresentado da seguinte maneira:
∆d yt = ct + wt , onde {wt } é o processo I (0) , com valor esperado nulo. Diz-se, então, que { yt } é o processo I (d ) associado ao processo {wt } . Em particular, para d = 1 , tem-se ∆yt = ct + wt .
Capítulo 10 – Raízes unitárias e cointegração
4
Fazem-se a seguir mais alguns comentários sobre os processos I (1) : 1) Quando o processo { yt } é integrado de ordem 1, tem-se yt = yt −1 + ct + wt . Admitindo que o processo teve início em determinada data, suponha-se, sem perda de generalidade, que a data inicial é t = 0 . Deste modo, obtém-se (por substituição sucessiva)
yt = y0 + ct + ct −1 +
+ c1 + wt + wt −1 +
+ w1 = y0 +
t
c +
s =1 s
t s =1
ws = y0 + Ct + Wt ,
onde
Ct =
t
t
c e Wt =
s =1 s
s =1
ws .
Assim, a variável yt decompõe-se em três parcelas: o valor inicial, y0 [supõe-se que Var ( y0 ) < +∞ ]; a componente determinística, Ct ; a tendência estocástica, Wt . Tem-se E ( yt ) = E ( y0 ) + E (Ct ) = E ( y0 ) + Ct . Sem dificuldade se verifica que a variância de yt , condicionada pelo valor inicial y0 , depende de t, e é finita para cada t. Com efeito, obtém-se Var ( yt | y0 ) = Var (Wt | y0 ) = Var ( w1 + w2 + = t γ 0 + 2{(t − 1) γ 1 + (t − 2) γ 2 +
+ wt −1 + wt | y0 ) + 2 γ t − 2 + γ t −1} < +∞,
onde:
γ 0 = Var ( ws | y0 ) , para s = 1, 2, , t ; γ 1 = Cov( ws , ws −1 | y0 ) , para s = 2, 3, , t ; γ 2 = Cov( ws , ws − 2 | y0 ) , para s = 3, 4, , t ; ...
γ t − 2 = Cov( ws , ws −t + 2 | y0 ) , para s = t − 1, t ; γ t −1 = Cov( wt , w1 | y0 ) . Se o processo “não teve início” (isto é, se “começou” em − ∞ ), verifica-se sem dificuldade que a variância de yt é infinita. 2) Quando ct = α , tem-se ∆ yt = α + wt , e, portanto, yt = y0 + Ct + Wt = y0 + α t + wt + wt −1 +
+ w1 ,
onde Ct = α t . Tem-se E ( yt ) = E ( y0 ) + α t . Deduz-se imediatamente que este processo I (1) pode ter uma tendência linear determinística. Se α = 0 , o processo I (1) não tem tendência, e pode designar-se por processo I (1) sem deriva. Se α ≠ 0 , o processo tem deriva. Obviamente, um processo I (1) com deriva é igual à soma de uma tendência linear determinística com um processo I (1) sem deriva (com uma tendência estocástica). Em suma, pode afirmar-se que “a média do processo I (0) corresponde à tendência linear do processo I (1) ”. 3) Quando ct = α + δ t , e, portanto, ∆ yt = α + δ t + wt , vem
yt = y0 + Ct + Wt = y0 + α +
δ 2
t+
δ 2
t 2 + wt + wt −1 +
+ w1 ,
Capítulo 10 – Raízes unitárias e cointegração
5
onde Ct = α +
δ 2
t+
δ 2
t2 .
Tem-se E ( yt ) = E ( y0 ) + α +
δ 2
t+
δ 2
t2 .
Verifica-se imediatamente que este processo I (1) pode ter uma tendência quadrática determinística. Se δ = 0 , o processo I (1) tem tendência linear. Se δ ≠ 0 , o processo tem tendência quadrática. Neste caso, o processo I (1) é igual à soma de uma tendência quadrática determinística com um processo I (1) sem deriva (com uma tendência estocástica). Em suma, pode afirmar-se que “a tendência linear do processo I (0) corresponde à tendência quadrática do processo I (1) ”. 4) Um processo I (1) também se pode chamar processo diferença-estacionário (difference-stationary), uma vez que o respectivo processo das primeiras diferenças é estacionário. 5) Na definição 10.1 foi imposta a condição de a variância de longo prazo ser positiva. Esta condição tem por objectivo evitar a situação contraditória que se passa a expor. Considere-se o processo { yt } tal que yt = ε t − ε t −1 , onde {ε t } é um ruído branco independente. No capítulo 9 (secção 9.7) verificou-se que a variância de longo prazo de { yt } é nula. Se não se exigisse, na definição 10.1, que a variância de longo prazo deve ser positiva, este processo { yt } seria I (0) . Mas, como yt = ∆ε t , então {ε t } seria também I (1) ! Para clarificar esta situação contraditória, vai definir-se que o processo das primeiras diferenças de um processo I (0) é um processo I (−1) . É o que acontece com { yt } , porque yt = ∆ε t e {ε t } é I (0) . Vai demonstrar-se que a variância de longo prazo de um processo I (−1) é nula. Com efeito, seja ut ~ I (0) , com Cov(ut , ut − s ) = γ s < +∞ , qualquer que seja s (inteiro). Começa por verificar-se que o processo {vt } , onde vt = ut − ut −1 , é estacionário em covariância, uma vez que E (vt ) = 0 , Var (vt ) = Var (ut − ut −1 ) = 2 (γ 0 − γ 1 ) e Cov(vt , vt − s ) = E (vt vt − s ) = E{(ut − ut −1 )(ut − s − ut − s −1 )} = 2 γ s − γ s +1 − γ s −1 . Como + vn = un − u0 e Var (un − u0 ) = 2 (γ 0 − γ n ) = 2 γ 0 (1 − ρ n ) ,
v1 + v2 +
onde ρ n é o coeficiente de autocorrelação de ordem n, conclui-se imediatamente que a variância de longo prazo é nula. De facto, tem-se lim Var
n → +∞
(
)
n v = lim Var n → +∞
un − u0 1 = lim {2 γ 0 (1 − ρ n )} = 0 , n → +∞ n n
uma vez que 2 γ 0 (1 − ρ n ) é finito (basta notar que | ρ n | ≤ 1 ). 6) Em Economia, a grande maioria das variáveis económicas correspondem a processos I (0) ou I (1) ; raramente são I (2) .
Capítulo 10 – Raízes unitárias e cointegração
6
Vão apresentar-se alguns exemplos de processos I (1) : 1) Suponha-se que yt = yt −1 + wt , onde {wt } é um processo auto-regressivo de 1.ª ordem com valor esperado nulo: wt = ϕ wt −1 + ε t , onde | ϕ | < 1 e {ε t } é um ruído branco. O processo { yt } é I (1) porque ∆ yt = wt ~ I (0) . Tem-se ct = 0 . Neste caso, vem yt = y0 + wt + wt −1 + + w1 = y0 + Wt , com E ( yt ) = E ( y0 ) , para qualquer t. Quando se considera y0 = 0 (para simplificar), vem:
Var ( yt ) = E{( w1 + w2 +
+ wt −1 + wt ) 2}
=γ 0 (t + 2{(t − 1) ϕ + (t − 2) ϕ 2 +
+ 2ϕ t − 2 + ϕ t −1}),
uma vez que γ s = γ 0 ϕ s ( s = 1, 2, , t ). Não é difícil verificar que as autocovariâncias Cov( yt , yt + s ) e Cov( yt , yt − s ) são diferentes, e dependem de t e de s. 2) Passeio aleatório sem deriva: yt = yt −1 + ε t , em que {ε t } é um ruído branco independente. O processo { yt } é I (1) porque ∆ yt = ε t ~ I (0) . Neste caso, ct = 0 e wt = ε t . Então,
yt = y0 + ε t + ε t −1 +
+ ε1 = y0 +
t s =1
εs .
Então, E ( yt ) = E ( y0 ) , para qualquer t. Quando se considera y0 = 0 (para simplificar), vem: Var ( yt ) = σ ε2t ; Cov( yt , yt + s ) = σ ε2 t ; Cov( yt , yt − s ) = σ ε2 (t − s ) , o que mostra claramente que o processo { yt } não é estacionário. Daqui resulta que as correlações (ver capítulo 3)
Corr ( yt , yt + s ) =
t t−s e Corr ( yt , yt − s ) = , t+s t
dependem de t. Para t fixo, a correlação entre yt e yt + s , por exemplo, tende para zero (em geral, lentamente) quando s → +∞ . De facto, quanto maior é t, mais lentamente a correlação tende para zero, quando s cresce. Se se escolher um s grande, pode sempre escolher-se um t suficientemente grande, tal que a correlação entre yt e yt + s esteja próxima de 1. Deste modo, o passeio aleatório é assintoticamente correlacionado. 3) Passeio aleatório com deriva: yt = α + yt −1 + ε t , em que {ε t } é um ruído branco independente. O processo { yt } é I (1) porque ∆ yt = α + ε t ~ I (0) . Tem-se ct = α , wt = ε t e
yt = y0 + α t + ε t + ε t −1 +
+ ε1 = y0 + α t +
t s =1
εs .
Então, E ( yt ) = E ( y0 ) + α t , para qualquer t. As expressões das variâncias, das autocovariâncias e dos coeficientes de autocorrelação são iguais às do exemplo anterior. 4) Passeio aleatório com tendência linear: yt = α + δ t + yt −1 + ε t , em que {ε t } é um ruído branco independente. O processo { yt } é I (1) porque ∆ yt = α + δ t + ε t ~ I (0) .
Capítulo 10 – Raízes unitárias e cointegração
7
Então, ct = α + δ t , wt = ε t e yt = y0 + α +
δ 2
t+
δ 2
t 2 + ε t + ε t −1 +
+ ε1 = y0 + α +
δ 2
t+
δ 2
t
t2 +
s =1
εs ,
e, portanto, E ( yt ) = E ( y0 ) + (α + δ / 2) t + (δ / 2) t 2 . As expressões das variâncias, das autocovariâncias e dos coeficientes de autocorrelação ainda são iguais às do exemplo anterior. Um processo I (1) mostra um comportamento altamente persistente, ou seja, o valor de y hoje é importante para determinar o valor de y num futuro distante. Com efeito, no caso de o processo não ter deriva, tem-se
yt + s = yt + wt + s + wt + s −1 +
+ wt +1 = yt +
s i =1
wt + i ,
e E ( yt + s | yt ) = yt , ∀s ≥ 1 . Isto significa que, por mais distante que seja o futuro, a melhor previsão de yt + s é yt . No caso de o processo I (1) ter deriva, ct = α , facilmente se conclui que
yt + s = yt + α s + wt + s + wt + s −1 +
s
+ wt +1 = yt + α s +
i =1
wt + i ,
e E ( yt + s | yt ) = α s + yt , ∀s ≥ 1 . Por exemplo, a este propósito vai confrontar-se um passeio aleatório sem deriva, yt = yt −1 + ε t , com um processo AR(1) estável, yt = ϕ yt −1 + ε t ( | ϕ | < 1 ). Para o primeiro processo, tem-se
yt + s = yt + ε t + s +ε t + s −1 +
+ ε t +1 = yt +
s i =1 t + i
ε
,
e E ( yt + s | yt ) = yt , para qualquer s. No caso do segundo processo, vem
yt + s = ϕ s yt + ε t + s + ϕ ε t + s −1 + ϕ 2ε t + s − 2 +
+ ϕ s − 2ε t + 2 + ϕ s −1ε t +1 = ϕ s yt +
s i =1
ϕ s − iε t + i ,
e portanto, E ( yt + s | yt ) = ϕ s yt , ∀s ≥ 1 , que tende para zero quando s → +∞ . Deve, ainda, notar-se que existem processos não estacionários que não são integráveis. Por exemplo, o processo dado por yt = α + ϕ yt −1 + ε t , com | ϕ | > 1 . Como já se afirmou, muitas variáveis económicas apresentam tendência (crescente) ao longo do tempo. Em muitos casos, variáveis com este comportamento são caracterizadas por processos estacionários em tendência (trend-stationary), e podem escrever-se como a soma de uma tendência (linear) determinística (se existir) e de um processo estacionário. Noutras situações, aquelas variáveis comportam-se como processos diferença-estacionários (difference-stationary), e podem ser decompostos em três parcelas: uma tendência (linear) determinística (se existir); uma tendência estocástica; um processo estacionário. Desta forma, a diferença entre os dois tipos de processos reside na existência da tendência estocástica. Para ilustrar a diferença entre os dois processos, considere-se o seguinte modelo:
yt = α + δ t + ut ut = ρ ut −1 + ε t ,
Capítulo 10 – Raízes unitárias e cointegração
8
onde {ε t } é um ruído branco independente. A previsão de y para a data t + s , condicionada por ( yt , yt −1 , ) pode ser dada por E ( yt + s | yt , yt −1, ) = α + δ (t + s ) + E (ut + s | yt , yt −1 , ) = α + δ (t + s ) + E (ut + s | ut , ut −1 , ), atendendo a que ( yt , yt −1 , ) e (ut , ut −1, ) contêm a mesma informação. Como ut + s = ρ sut + ε t + s + ρ ε t + s −1 + ρ 2ε t + s − 2 +
+ ρ s − 2ε t + 2 + ρ s −1ε t +1 ,
tem-se
E ( yt + s | yt , yt −1 , ) = α + δ (t + s ) + ρ sut = α + δ (t + s ) + ρ s ( yt − α − δ t ). Vão considerar-se duas situações: a) | ρ | < 1 . Neste caso, {ut } é um processo AR(1) estacionário [é um processo I (0) com média nula]. Então, { yt } é estacionário em tendência. Como E (ut2 ) < +∞ , vem E{( ρ sut )2 } = ρ 2 s E (ut2 ) → 0 quando s → +∞ . Deste modo, E ( yt + s | yt , yt −1, ) converge em média quadrática para a tendência linear, α + δ (t + s ) . Mais precisamente, E [{E ( yt + s | yt , yt −1 , ) − α − δ (t + s )}2 ] → 0 , quando s → +∞ . Assim, o valor corrente e os valores passados de y não afectam a previsão se o respectivo horizonte temporal está suficientemente afastado. Em particular, se δ = 0 , então mq
E ( yt + s | yt , yt −1 , ) → E ( yt ) = α , ou seja, a previsão de longo prazo é o valor esperado não condicionado. Esta propriedade, que se designa por reversão para a média (mean reversion), caracteriza o processo em causa (mais geralmente, é uma propriedade dos processos estacionários lineares). Por esta razão, um processo estacionário linear também se pode designar por componente transitória. b) ρ = 1 . Neste caso, {ut } é um passeio aleatório sem deriva (um caso particular de tendência estocástica), podendo escrever-se yt = (α + u0 ) + δ t + ε t + ε t −1 +
+ ε1 .
Assim, { yt } é um passeio aleatório com deriva δ , e valor inicial α + u0 [um caso particular de processo I (1) ou processo diferença-estacionário]. Fazendo ρ = 1 na expressão de E ( yt + s | yt , yt −1, ) , obtém-se
Capítulo 10 – Raízes unitárias e cointegração
9
E ( yt + s | yt , yt −1, ) = δ s + yt . Assim, espera-se que um passeio aleatório com deriva δ cresça a uma taxa constante δ , qualquer que seja o valor corrente de y. Devido à existência de uma tendência estocástica, o valor corrente de y tem um efeito permanente na previsão, qualquer que seja o respectivo horizonte temporal. Por esta razão, uma tendência estocástica também tem o nome de componente permanente. Numa primeira abordagem, sobretudo gráfica, pode ser difícil distinguir os dois comportamentos referidos. Contudo, os dois modelos especificam comportamentos muito diferentes para { yt } , exactamente os mesmos que distinguem um processo I (0) de um processo I (1) . Além disso, os dois modelos contêm recomendações implícitas diferentes sobre a forma de proceder. Com efeito, a eliminação da tendência no primeiro dá origem a um processo estacionário sem tendência; em contrapartida, no segundo, para obter um processo estacionário, devem considerar-se as primeiras diferenças, ∆yt .
10.2 - Os instrumentos básicos da econometria das raízes unitárias O instrumento básico da econometria das raízes unitárias é o chamado teorema do limite central funcional (TLCF). Para que o TLCF seja aplicável, é necessário particularizar os processos I (1) , impondo restrições aos processos I (0) associados. A restrição que se vai estabelecer sobre os processos I (0) é que sejam lineares.
Definição 10.3 – Processo I (0) linear O processo I (0) , { yt } , é linear se e só se yt = ct + wt , e o processo {wt } verifica as seguintes condições: a) wt = ψ ( L)ε t , onde ψ ( L) = ψ 0 + ψ 1L + ψ 2 L2 + (para t = 0,± 1,± 2, 2 2 ruído branco independente [com E (ε t ) = σ ε > 0 ]; +∞
b)
s =0
), e {ε t } é um
s |ψ s | < +∞ ;
c) ψ (1) = ψ 0 + ψ 1 + ψ 2 +
≠0.
Podem fazer-se os seguintes comentários: 1) A condição b) da definição anterior (por vezes, conhecida pela designação de somabilidade de 1.ª ordem ou somabilidade-um) é mais forte que a condição habitual de somabilidade absoluta, permitindo provar mais facilmente alguns resultados teóricos. 2) Para compreender o alcance da condição c), recorde-se que, devido ao teorema 9.4 e à relação (9.64), a variância de longo prazo (que se vai representar por λ2 ) é dada por (10.2)
λ2 =
+∞ s = −∞
γs = γ0 + 2
+∞ s =1
γ s = g w (1) = σ ε2{ψ (1)}2 > 0 ,
onde g w (1) é o valor, no ponto 1, da função geradora das autocovariâncias do processo {wt } . Deste modo, fica garantido que a variância de longo prazo é positiva.
Capítulo 10 – Raízes unitárias e cointegração
10
3) Facilmente se conclui que o processo {wt } da definição 10.3 é: um processo MA(∞) com valor esperado nulo; é um processo I (0) . 4) Na definição 10.3 pode substituir-se o ruído branco independente, {ε t } , por um processo de inovação mais geral; por exemplo, uma diferença-martingala estacionária. A escolha do ruído branco independente destina-se a simplificar a exposição. 5) Doravante, quando se utilizar a expressão “processo I (0) ”, está a referir-se um processo I (0) linear. 6) Considere-se que { yt } é um processo I (1) , ∆yt = ct + wt , onde wt = ψ ( L)ε t está nas condições da definição 10.3. Então, diz-se que o processo I (1) é linear [trata-se de um processo I (1) associado ao processo I (0) linear {wt } , que tem valor esperado nulo]. A série de potências de L, ψ ( L) = ψ 0 + ψ 1L + ψ 2 L2 + , verifica a seguinte identidade (ver na secção 9.6 do capítulo 9 um resultado semelhante relativo aos polinómios em L): (10.3)
ψ ( L) = ψ (1) + δ ( L)(1 − L) ,
onde
δ ( L) =
+∞ i =0
δ i Li = δ 0 + δ1L + δ 2 L2 +
e
δ i = −(ψ i +1 + ψ i + 2 + ) (i = 0,1, 2, ) . Por exemplo, vai verificar-se (10.3) para ψ ( L) = (1 − ϕ L)−1 , com | ϕ | < 1 . Com efeito, como ψ ( L) = 1 + ϕ L + ϕ 2 L2 + , obtém-se ψ (1) = 1 + ϕ + ϕ 2 + = 1 (1 − ϕ ) , e
δ 0 = −(ϕ + ϕ 2 + ) = −
ϕ 1−ϕ
ϕ2 δ1 = −(ϕ + ϕ + ) = − 1−ϕ ϕ3 δ 2 = −(ϕ 3 + ϕ 4 + ) = − 1−ϕ 2
3
Então,
ϕ ϕ2 ϕ3 2 1 ψ (1) + δ ( L)(1 − L) = − + L+ L + 1−ϕ 1−ϕ 1−ϕ 1−ϕ
(1 − L) ,
sendo fácil verificar que
ϕ ϕ2 ϕ3 2 1 − + L+ L + 1−ϕ 1−ϕ 1−ϕ 1−ϕ
(1 − L) = 1 + ϕ L + ϕ 2 L2 +
.
Utilizando a identidade (10.3), tem-se wt = ψ ( L)ε t = {ψ (1) + δ ( L)(1 − L)}ε t = ψ (1)ε t + δ ( L)ε t − δ ( L)ε t −1 = ψ (1)ε t + ηt − ηt −1 ,
Capítulo 10 – Raízes unitárias e cointegração
11
onde ηt = δ ( L)ε t . Pode demonstrar-se que δ ( L) é absolutamente somável. Com efeito, fica ao cuidado do leitor verificar todos os passos da seguinte sequência de igualdades e desigualdades: +∞ i =0
| δi | =
+∞ i =0
−
+∞
ψj ≤
j = i +1
+∞
+∞
i =0
j = i +1
|ψ j | =
+∞ j =0
j |ψ j | < +∞ .
Então, devido ao teorema 9.1, {ηt } é um processo estacionário em covariância com valor esperado nulo (é, também, um processo estritamente estacionário e ergódico). A partir de ∆yt = ct + wt , tem-se
yt = y0 +
t
c +
s =1 s
t s =1
ws = y0 + Ct +
t s =1
ws .
Fazendo wt = ψ (1)ε t + ηt − ηt −1 , e notando que t s =1
(ηs − ηs −1 ) = ηt − η0 ,
obtém-se a decomposição de Beveridge-Nelson: (10.4)
yt = Ct +
t s =1
{ψ (1)ε s + ηs − ηs −1} + y0 = Ct + ψ (1) ωt + ηt + ( y0 − η0 ) ,
onde
ωt =
t s =1
εs .
Assim, qualquer processo I (1) linear pode ser escrito como soma de: uma componente determinística, Ct ; uma tendência estocástica, que é um passeio aleatório sem deriva, ψ (1) ωt ; um processo estacionário, ηt ; uma condição inicial, y0 − η0 . Note-se que a componente estacionária, ηt , pode não ser um processo I (0) . Por exemplo, se wt = ψ 0 ε t − 2ε t −1 + ε t − 2 , tem-se δ 0 = 1 , δ1 = −1 e δ ( L) = 1 − L . Portanto, ηt = ε t − ε t −1 . Este processo, embora estacionário, não é I (0) , porque a sua variância de longo prazo é nula. Resumindo, tem-se:
Teorema 10.1 – Decomposição de Beveridge-Nelson Seja {wt } um processo I (0) linear (satisfaz as condições da definição 10.3). Então, w1 + w2 +
+ wt = ψ (1)(ε1 + ε 2 +
+ ε t ) + ηt − η0 ,
onde ηt = δ ( L)ε t , δ i = −(ψ i +1 + ψ i + 2 + ) (i = 0,1, 2, ) . O processo {ηt } é estritamente estacionário e ergódico, e tem valor esperado nulo. Suponha-se que ct = 0 em (10.4), pelo que { yt } é um processo I (1) sem componente determinística. Uma implicação importante da decomposição (10.4) é que qualquer processo I (1) sem componente determinística é “dominado” pela tendência estocástica, ψ (1) ωt . Assim, dividindo ambos os membros de (10.4) por t , obtém-se
Capítulo 10 – Raízes unitárias e cointegração
12
yt y 1 η η = ψ (1) ωt + 0 + t − 0 . t t t t t
Como, por hipótese, E ( y02 ) < +∞ , tem-se E{( y0 t ) 2 } → 0 , quando t → +∞ . Logo, y0 t converge em probabilidade para zero. O mesmo se passa com ηt t e com η0 t . Então, assintoticamente, a parcela entre parêntesis recto pode ser ignorada. Além disso, devido ao TLC de Lindeberg-Levy,
ψ (1)
ωt t
d
→ N (0, σ ε2{ψ (1)}2 ) ,
e, portanto, a tendência estocástica cresce à taxa t . Utilizando (10.2), a tendência estocástica pode ser escrita da seguinte maneira:
ψ (1) ωt = λ
ωt , σε
o que mostra que as variações da tendência estocástica de { yt } têm variância igual a λ2 (a variância de longo prazo de {∆ yt } ). Considere-se, agora, ct = α ≠ 0 (com deriva). Dividindo ambos os membros de (10.4) por t, vem
ω yt y η η = α + ψ (1) t + 0 + t − 0 . t t t t t Facilmente se conclui que yt t tende em probabilidade para α , uma vez que as outras parcelas convergem em probabilidade para zero. Assim, a componente estocástica e a componente estacionária podem, assintoticamente, serem ignoradas. Deste modo, a tendência linear determinística domina o processo I (1) , em grandes amostras. As considerações precedentes, feitas na sequência do teorema 10.1, e quando se supõe que ct = 0 , podem ser utilizadas para demonstrar o teorema 9.5 [TLC para os processos MA(∞) ], desde que substitua a hipótese da somabilidade absoluta de {ψ s } pela hipótese da somabilidade de 1.ª ordem [condição b) da definição 10.3]. Com efeito, considerando o processo I (0) linear, yt − µ = ψ ( L)ε t (ver enunciado do teorema 9.5) e a decomposição (10.3), obtém-se yt − µ = ψ (1)ε t + ηt − ηt −1 , onde ηt = δ ( L)ε t . Então, n t =1
( yt − µ ) = ψ (1) ωt + ηn − η0 .
Dividindo ambos os membros por n, vem
y − µ = ψ (1)
ωt n
+
η n η0 n
−
n
.
Donde, n ( y − µ ) = ψ (1)
Como ηn
n e η0
ωt n
+
ηn n
−
η0 n
.
n tendem em probabilidade para zero, e
Capítulo 10 – Raízes unitárias e cointegração
ψ (1)
ωt n
13
d
→ N (0, λ2 ) ,
o que prova (9.110). É possível relacionar os processos I (d ) com os processos ARMA. Com efeito, considere-se a equação com diferenças ϕ ( L) wt = θ ( L)ε t , onde
ϕ ( L) = 1 − ϕ1L − ϕ 2 L2 −
− ϕ p Lp , θ ( L) = 1 + θ1 L + θ 2 L2 +
+ θ q Lq ,
{ε t } é um ruído branco independente e ϕ (1) ≠ 0 . Se ϕ ( L) satisfaz a condição de estacionaridade [as raízes da equação polinomial ϕ ( z ) = 0 estão no exterior do círculo unitário], então o processo {wt } é ARMA( p, q) , e é a única solução estacionária em covariância daquela equação com diferenças (ver secção 9.3). Conclui-se imediatamente que {wt } é I (0) com valor esperado nulo. O processo I (1) , { yt } , associado àquele processo ARMA( p, q) , é definido pela relação ∆ yt = α 0 + wt (para simplificar supõe-se que ct = α 0 ). Nestas condições, diz-se que { yt } segue um processo ARMA integrado de ordem 1. Pode, então, escrever-se: yt ~ ARIMA( p, 1, q ) . Como ∆yt = (1 − L) yt , tem-se wt = (1 − L) yt − α 0 . Substituindo na equação com diferenças, obtém-se
ϕ ( L){(1 − L) yt − α 0 } = θ ( L)ε t ⇔ ϕ ∗ ( L) yt = α + θ ( L)ε t , onde ϕ ∗ ( L) = ϕ ( L)(1 − L) e α = ϕ ( L)α 0 = (1 − ϕ1 − ϕ2 − − ϕ p )α 0 . Verifica-se imediatamente que uma das raízes de ϕ ∗ ( z ) = 0 é igual a um, e as restantes p são, em módulo, superiores a 1. Assim, existe uma raiz unitária. Mais geralmente, o processo I (d ) , { yt } , associado a {wt } , é definido pela relad ção ∆ yt = wt . Diz-se, então, que { yt } segue um processo ARMA integrado de ordem d: yt ~ ARIMA( p, d , q ) . Esta classe de processos I (d ) satisfaz a equação
ϕ ∗ ( L) yt = α + θ ( L)ε t , em que ϕ ∗ ( L) = ϕ ( L)(1 − L) d é um polinómio de grau p + d , com p raízes com módulo superior a 1 e d raízes unitárias. Assim, na classe do processos ARIMA( p, d , q ) , o problema da ordem de integração é equivalente ao problema da determinação do número de raízes unitárias do polinómio que opera sobre yt . Nestas condições, pode dizer-se que o processo { yt } é integrado de ordem d ou tem d raízes unitárias. Para ilustrar as considerações precedentes, considere-se o processo AR(3)
ϕ ∗ ( L) yt = α + ε t ϕ ∗ ( L) = 1 − ϕ1∗ L − ϕ2∗ L2 − ϕ3∗ L3 . Suponha-se que uma das raízes do polinómio do 3.º grau, ϕ ∗ ( z ) = 0 , é unitária, e as outras duas estão no exterior do círculo unitário. Nestas condições, ϕ ∗ (L) pode factorizar-se da seguinte maneira:
ϕ ∗ ( L) = 1 − ϕ1∗ L − ϕ2∗ L2 − ϕ3∗ L3 = (1 − ϕ1L − ϕ2 L2 )(1 − L) = ϕ ( L)(1 − L) ,
Capítulo 10 – Raízes unitárias e cointegração
14
onde ϕ ( L) = 1 − ϕ1L − ϕ2 L2 . Então, (1 − ϕ1L − ϕ2 L2 )(1 − L) yt = α + ε t ⇔ (1 − ϕ1L − ϕ 2 L2 )∆ yt = α + ε t , o que mostra que yt ~ I (1) . Se o polinómio ϕ ∗ ( z ) = 0 tem duas raízes unitárias, e a outra tem módulo maior do que 1, tem-se
ϕ ∗ ( L) = 1 − ϕ1∗ L − ϕ2∗ L2 − ϕ3∗ L3 = (1 − ϕ L)(1 − L) 2 = ϕ ( L)(1 − L) 2 , onde ϕ ( L) = (1 − ϕ L) , e (1 − ϕ L)(1 − L) 2 yt = α + ε t ⇔ (1 − ϕ L)∆2 yt = α + ε t , ou seja, yt ~ I (2) . Na secção seguinte vai estudar-se os testes de raízes unitárias. As distribuições limite das respectivas estatísticas-teste são apresentadas com base em processos de Wiener (ou processos de movimento Browniano).
Definição 10.4 – Processo de Wiener estandardizado Um processo de Wiener estandardizado (ou processo de movimento Browniano), W (⋅) , é um processo estocástico em tempo contínuo, fazendo corresponder a cada momento t pertencente ao intervalo [0, 1] uma variável aleatória W (t ) , a verificar: a) W (0) = 0 ; b) Para quaisquer momentos 0 ≤ t1 < t2 < < tm ≤ 1 , as variações
W (t2 ) − W (t1 ) , W (t3 ) − W (t2 ) ,..., W (tm ) − W (tm −1 ) são independentes, e têm distribuição normal. Tem-se W ( s ) − W (t ) ~ N (0, s − t ) [em particular, W (1) ~ N (0, 1) ]; c) Para qualquer realização do processo estocástico, W (t ) é contínua em t com probabilidade 1. Em termos aproximados, o TLCF (teorema do limite central funcional; também chamado princípio da invariância) estabelece que o processo de Wiener é a versão em tempo contínuo do passeio aleatório sem deriva (que é um processo aleatório em tempo discreto). Para ilustrar esta afirmação, suponha-se que se gera uma realização de comprimento n ( t = 1, 2, , n ) de um passeio aleatório em que as primeiras diferenças têm variância igual a 1 (passeio aleatório estandardizado): ∆ yt = ε t , com E (ε t2 ) = 1 . Considerem-se os casos em que n é igual a 10, a 100 e a 1000. Os gráficos respectivos encontram-se na figura 10.3, onde as ordenadas são obtidas dividindo cada valor gerado por n , e a escala horizontal é comprimida de forma a ajustar-se ao intervalo [0, 1]. A figura mostra que o gráfico é cada vez mais denso, à medida que n cresce. Quando n → +∞ , o TLCF assegura que o processo limite é o processo de Wiener W (r ) , com r ∈ [0, 1]. A condição b) da definição 10.4 é uma formulação matemática de que a sequência de variações instantâneas de um processo de Wiener é iid. A versão em tem-
Capítulo 10 – Raízes unitárias e cointegração
15
po contínuo de um passeio aleatório sem deriva cujas variações têm variância igual a σ ε2 é dado por σ ε W (r ) . Amostra de dimensão 10 1 0.5 0 1 -0.5 -1 -1.5 -2 -2.5
Amostra de dimensão 100 1 0.5 0 1 -0.5 -1 -1.5 -2
Amostra de dimensão 1000 2 1.5 1 0.5 0 1 -0.5
Fig. 10.3 – Ilustração do teorema do limite central funcional (TLCF). Para prosseguir a analogia entre um passeio aleatório sem deriva é um processo de Wiener, considere-se um passeio aleatório estandardizado centrado (demeaned). Este processo é construído a partir de ∆ yt = ε t , com E (ε t2 ) = 1 , subtraindo a média dos valores y0 , y1 ,..., yn −1 (média amostral):
Capítulo 10 – Raízes unitárias e cointegração
ytc = yt −
16
y0 + y1 + + yn −1 ( t = 0,1, n
, n − 1 ).
A versão em tempo contínuo deste processo é o processo de Wiener estandardizado centrado, W c (r ) = W (r ) −
1 0
W ( s ) ds .
[A série centrada foi definida para t = 0,1, , n − 1 para coincidir com a convenção seguida no teorema 10.2 (ver adiante); se a série centrada for definida para t = 1, 2, , n , então a versão em tempo contínuo correspondente continua a ser W c (r ) ]. Note-se o seguinte: seja { yt } um processo I (1) sem componente determinística, ou seja, ∆ yt = wt , onde {wt } é um processo I (0) . Logo, yt = y0 + w1 + w2 + + wt . Facilmente se verifica que o valor inicial y0 não afecta ytc . Com efeito,
ytc = yt −
y0 + y1 + y2 + n
+ yn −1
y0 + ( y0 + w1 ) + ( y0 + w1 + w2 ) + + ( y0 + w1 + w2 + n w + ( w1 + w2 ) + + ( w1 + w2 + + wt ) = y0 + w1 + w2 + + wt − y0 − 1 n w + ( w1 + w2 ) + + ( w1 + w2 + + wt ) . = w1 + w2 + + wt − 1 n = y0 + w1 + w2 +
+ wt −
+ wt )
Pode, também, construir-se a partir do passeio aleatório { yt } , uma série sem tendência:
ytnt = yt − βˆ0 − βˆ1 t ( t = 0,1,
, n − 1 ),
onde βˆ0 e βˆ1 são as estimativas MQ dos coeficientes da regressão de yt sobre 1 e t. A versão em tempo contínuo análoga é o processo de Wiener estandardizado sem tendência, W nt (r ) = W (r ) − d 0 − d1 r , onde d0 =
1 0
(4 − 6 s) W ( s ) ds e d1 =
1 0
(−6 + 12 s ) W ( s ) ds
são, respectivamente, as variáveis aleatórias limite de βˆ0 e βˆ1 [a demonstração pode encontrar-se em Phillips e Durlauf (1986)]. Assim, se uma tendência linear determinística é ajustada pelo método MQ a um passeio aleatório sem deriva, a estimativa do respectivo coeficiente, βˆ1 , converge em distribuição para a variável aleatória d1 . Mesmo no caso de grandes amostras βˆ1 é, em geral, diferente de zero. Nalguma literatura, este fenómeno é conhecido pela designação de eliminação espúria da tendência (spurious detrending). Note-se o seguinte: seja { yt } um processo I (1) com deriva, ∆ yt = α + wt , onde {wt } é um processo I (0) . Logo, yt = y0 + α t + w1 + w2 + + wt . Pode verificar-se que o valor inicial y0 e o valor de α não afectam ytnt .
Capítulo 10 – Raízes unitárias e cointegração
17
Os testes de raízes unitárias envolvem processos I (0) e I (1) (ver secção seguinte). Os resultados fundamentais coleccionados no teorema seguinte vão ser utilizados para obter as distribuições limite das respectivas estatísticas-teste.
Teorema 10.2 – Distribuições limite de estatísticas que envolvem variáveis I (0) e I (1) Seja { yt } um processo I (1) sem componente determinística, pelo que {∆ yt } é um processo I (0) com valor esperado nulo a verificar as condições da definição 10.3. Seja λ2 a variância de longo de prazo de {∆ yt } e γ 0 = Var (∆ yt ) . Então: a)
1 n2
b)
1 n
c)
1 n2
d)
1 n
e)
1 n2
f)
1 n
n
d
1
y 2 → λ2 t =1 t −1
0 d
n
(∆yt ) yt −1 → t =1 n
W (r ) 2 dr ;
λ2 2
d
1
( ytc−1 ) 2 → λ2 t =1 d
n
(∆yt ) ytc−1 → t =1 n t =1
n
0
λ2
d
d
1 0
λ2 2
γ0 2
;
{W c (r )}2 dr ; {W c (1)}2 − {W c (0)}2 −
2
( ytnt−1 ) 2 → λ2
(∆yt ) ytnt−1 → t =1
W (1) 2 −
γ0 2
;
{W nt (r )}2 dr ; {W nt (1)}2 − {W nt (0)}2 −
γ0 2
.
A convergência considerada nas alíneas anteriores é conjunta, isto é, o vector formado pelas estatísticas indicadas em a)-f) converge para um vector aleatório cujas componentes são as correspondentes variáveis aleatórias também indicadas em a)-f). Por exemplo, o resultado a) lê-se da seguinte maneira: a sucessão de variáveis aleatórias 1 n y2 , 2 t =1 t −1 n indexadas por n, converge em distribuição para a variável aleatória
λ2
1 0
W (r ) 2 dr .
Note-se que todas as variáveis aleatórias limite são escritas em termos de processos de Wiener estandardizados. O mesmo processo de Wiener, W (⋅) , aparece em a) e em b); os processos de Wiener centrado e sem tendência, referidos em c)-f) são obtidos a partir do processo W (⋅) ; assim, as variáveis aleatórias limite consideradas em a)-f) podem estar correlacionadas. Para aprofundar, por exemplo, a compreensão da conclusão a) do teorema 10.2, suponha-se temporariamente que o processo { yt } é um passeio aleatório sem deriva, tal
Capítulo 10 – Raízes unitárias e cointegração
18
que σ 2 = Var (∆ yt ) , e com y0 fixo. Dado que o processo de Wiener é a respectiva versão em tempo contínuo, não é surpreende que n t =1
yt2−1 ,
devidamente normalizado por uma potência de n, tenda para
λ2
1 0
W (r ) 2 dr .
Talvez não seja evidente que a normalização adequada consista em dividir por n . Contudo, como E ( yt2 ) = Var ( yt ) = σ 2 t , uma forma de ver que esta normalização é a indicada, passa por notar que 2
E
n t =1
n
yt2−1 = σ 2
t =1
(t − 1) = σ 2
(n − 1)n , 2
e que a média de n t =1
yt2−1
cresce à taxa n 2 . Para se obter uma variável aleatória com distribuição limite, esta soma tem de ser dividida por n 2 . Suponha-se, agora, que { yt } está nas condições gerais do teorema 10.2. O problema da autocorrelação em {∆ yt } pode ser resolvido substituindo γ 0 = Var (∆ yt ) por λ2 (a variância de longo de prazo de {∆ yt } ). Isto pode fazer-se porque, como se viu, devido às implicações da decomposição de Beveridge-Nelson, um processo I (1) sem componente determinística é dominado, em grandes amostras, por um passeio aleatório cujas primeiras diferenças têm variância igual a λ2 . Dito de outro modo, a distribuição limite de 1 n y2 , 2 =1 t −1 t n em vez de ser um processo I (1) com primeiras diferenças autocorrelacionadas, é um passeio aleatório cujas primeiras diferenças têm variância λ2 . O mesmo tipo de raciocínio se pode fazer para as outras alíneas do teorema 10.2. A demonstração do teorema 10.2 encontra-se, por exemplo, em Stock (1994). Trata-se de uma aplicação do TLCF e de um teorema chamado “teorema da aplicação contínua”. Como W (1) ~ N (0, 1) , a variável aleatória limite em b) é
λ2 2
v−
γ0 2
,
onde v ~ χ 2 (1) . A demonstração de b) pode fazer-se sem o aparato sofisticado do TLCF e do teorema da aplicação contínua. Como yt = yt −1 + ∆ yt , obtém-se yt2 = ( yt −1 + ∆ yt ) 2 ou yt2 = yt2−1 + 2 yt −1 (∆ yt ) + (∆ yt ) 2 . Então,
1 (∆ yt ) yt −1 = { yt2 − yt2−1 − (∆ yt ) 2} . 2 Donde
Capítulo 10 – Raízes unitárias e cointegração n t =1
19
1 1 (∆ yt ) yt −1 = ( yn2 − y02 ) − 2 2
n t =1
(∆ yt ) 2 .
Dividindo ambos os membros desta igualdade por n, obtém-se
1 n
1 2
n
(∆ yt ) yt −1 = t =1
yn n
2
−
1 2
y0 n
2
−
1 2n
n t =1
(∆ yt ) 2 .
Como E ( y0 n ) → 0 e Var ( y0 n ) → 0 , y0 n tende em probabilidade para zero. Assim, a segunda parcela do segundo membro da igualdade anterior converge em probabilidade para zero. Quanto à primeira parcela, tem-se yn 1 = ( y0 + ∆y1 + ∆y2 + n n
+ ∆yn ) =
y0 1 + n n n
n t =1
∆yt .
Como já se viu, y0 n tende em probabilidade para zero. Como ∆ yt ~ I (0) , e satisfaz as condições da definição 10.3, verificam-se as hipóteses do teorema 9.5 [TLC para um processo MA(∞) ]. Então,
n
1 n
n
d
∆yt → N (0, λ2 ) ou t =1
n
1 n
d
n
∆yt → λ x , onde x ~ N (0, 1) . t =1
Assim, 1 yn 2 n
2
d
→
λ2 2
x 2 , onde x 2 ~ χ 2 (1) .
Como ∆ yt é estacionário e ergódico,
1 2n
p
n
(∆ yt ) 2 → t =1
γ0 2
.
Pode, então, concluir-se que 1 n
n
d
(∆ yt ) yt −1 → t =1
λ2 2
x2 −
γ0 2
.
10.3 - Testes de raízes unitárias Dickey e Fuller estudaram vários testes estatísticos para saber se um determinado processo, { yt } , é I (1) (hipótese nula) ou I (0) (hipótese alternativa) [Fuller (1976), Dickey e Fuller (1979) e (1981)]. Para isso, começaram por analisar o caso simples de um processo AR(1) [sem constante], yt = ϕ yt −1 + ε t , onde y0 é o respectivo valor inicial e o processo {ε t } verifica a condição E (ε t | yt −1 , yt − 2 ,
, y0 ) = 0 .
Capítulo 10 – Raízes unitárias e cointegração
20
Em particular, pode supor-se que {ε t } é iid e E (ε t ) = 0 (ruído branco independente), e ε t e y0 são independentes. Se { yt } é um processo AR(1) nas condições indicadas, tem uma raiz unitária se e só se ϕ = 1 . Neste caso, o processo { yt } é um passeio aleatório sem deriva [processo I (1) ] Quando | ϕ | < 1 , o processo { yt } é um AR(1) estacionário com valor esperado nulo [processo I (0) ]. Vai impor-se a restrição − 1 < ϕ ≤ 1 ou 0 < ϕ ≤ 1 [em economia, em geral, tem-se ϕ > 0 , pois é raro admitir-se que ϕ < 0 para um processo que se suspeita ter uma raiz unitária; A possibilidade de | ϕ | > 1 não é habitualmente considerada, uma vez que implicaria que { yt } fosse explosivo]. Impondo uma das restrições referidas, o teste de existência de raiz unitária é o seguinte: H 0 : ϕ = 1 contra H1 : ϕ < 1 . [a hipótese nula diz respeito ao processo I (1) ; a hipótese alternativa refere-se processo I (0) ]. Trata-se, portanto, de um teste unilateral (à esquerda). Estes testes baseiam-se no estimador MQ de ϕ , ϕˆ , quando se faz a regressão de yt sobre yt −1 , e fazendo a convenção de que a amostra é formada por n + 1 observações, ( y0 , y1, y2 , , yn ) . Sob a hipótese nula, o erro de amostragem é dado por n
ϕˆ − 1 =
yt yt −1
t =1 n
y2 t =1 t −1
n t =1
−1 =
(∆yt ) yt −1 n
y2 t =1 t −1
.
Multiplicando ambos os membros por n, pode escrever-se n
n(ϕˆ − 1) = n
t =1
(∆yt ) yt −1 n
y2 t =1 t −1
=
(1 / n)
n t =1
(∆yt ) yt −1 n
(1 / n 2 )
y2 t =1 t −1
.
Vai obter-se a distribuição limite de n(ϕˆ − 1) , sob a hipótese nula. Assim: podem aplicar-se os resultados a) e b) do teorema 10.2, uma vez que { yt } é um processo I (1) sem deriva; como {∆ yt } é um ruído branco independente, tem-se γ 0 = λ2 (a variância do processo {∆ yt } é igual à respectiva variância de longo prazo). Logo,
ω1n =
1 n
d
n
(∆yt ) yt −1 → ω1 = t =1
d 1 n 2 y → ω2 = γ 0 1 − t 2 t =1 n Como esta convergência é conjunta, vem
ω2 n =
ω•n =
γ0 2 1 0
W (1)2 −
γ0 2
,
W (r ) 2 dr .
ω1n d ω →ω = 1 . ω2 n ω2
Como n(ϕˆ − 1) é função contínua de ω• n , resulta que n(ϕˆ − 1) =
ω1n d ω1 (1 / 2)γ 0{W (1)2 − 1} (1 / 2){W (1) 2 − 1} → = = = DFϕ , 1 1 ω2 n ω2 W (r )2 dr W (r ) 2 dr γ 0
ou
0
0
Capítulo 10 – Raízes unitárias e cointegração (10.5)
21
d
n(ϕˆ − 1) → DFϕ .
A estatística-teste n(ϕˆ − 1) chama-se estatística de Dickey-Fuller- ϕ ou estatística DF- ϕ . O teste em questão designa-se, então, por teste DF- ϕ . A mecânica do teste é a seguinte: 1) Estima-se o parâmetro ϕ pelo método MQ e calcula-se o valor observado da estatística DF- ϕ dada por (10.5). Este valor é comparado com o valor crítico fornecido pela tabela resultante da distribuição de DFϕ (ver tabela 10A.1 do anexo 10A) [ou o respectivo valor-p é comparado com o nível de significância do teste]; 2) A hipótese nula é rejeitada quando o valor observado da estatística DF- ϕ é inferior ao valor crítico [ou o respectivo valor-p é inferior ao nível de significância]. Note-se o seguinte: − No teste DF- ϕ não se pode utilizar a estatística n (ϕˆ − 1) , porque tem distribuição limite degenerada. Usando n(ϕˆ − 1) , tem-se uma distribuição limite não degenerada. Neste caso, diz-se que o estimador ϕˆ é superconsistente, uma vez que converge à taxa n (mais rápida). − Facilmente se verifica que n1−ν (ϕˆ − 1) tende em probabilidade para zero, para qualquer 0 < ν < 1 , e supondo que ϕ = 1 . Com efeito, basta notar que 1 n(ϕˆ − 1) , nν
n1−ν (ϕˆ − 1) =
onde o primeiro factor do segundo membro tende para 0, e o segundo, de acordo com (10.5), tende em distribuição para uma variável aleatória. Assim, n1−ν (ϕˆ − 1) tem distribuição limite degenerada [a estatística n (ϕˆ − 1) corresponde ao caso ν = 0.5 ]. − A hipótese nula não especifica os valores de y0 (valor inicial) e de γ 0 (variância do ruído branco), pois não afectam a distribuição limite (a distribuição da variável aleatória DFϕ ). Assim, no teste DF- ϕ , a distribuição limite não envolve aqueles parâmetros perturbadores. − O numerador e o denominador da variável aleatória DFϕ envolve o mesmo processo de Wiener, pelo que estão correlacionados. Como W (1) ~ N (0, 1) , o numerador pode ser escrito da seguinte maneira: ( w − 1) / 2 , onde w = W (1) 2 ~ χ 2 (1) . − Suponha-se que no modelo yt = ϕ yt −1 + ε t , onde {ε t } é um ruído branco independente, se substitui ε t por ut , em que {ut } é um processo I (0) com valor esperado nulo, a verificar as condições da definição 10.3. Sob a hipótese nula, H 0 : ϕ = 1 , tem-se yt = yt −1 + ut , e, portanto, { yt } é um processo I (1) sem deriva. Aplicando directamente os resultados a) e b) do teorema 10.2, obtém-se
n(ϕˆ − 1) =
n
(1 / n)
(∆yt ) yt −1 t =1 2
(1 / n )
n
2 t −1
y t =1
λ2 d
→ 2 2
λ
W (1) 2 − 1 0
γ0
2 = W (r ) dr 2
1 γ W (1) 2 − 02 2 λ 1 0
2
W (r ) dr
onde λ2 é a variância de longo de prazo de {∆ yt } e γ 0 = Var (∆ yt ) .
,
Capítulo 10 – Raízes unitárias e cointegração
22
− Recorde-se que um teste é consistente contra um conjunto de alternativas se e só se a probabilidade de rejeitar a hipótese nula, quando ela é falsa, e quando o verdadeiro PGD é qualquer uma das alternativas, tende para 1, quando n → +∞ . Vai provar-se que o teste DF- ϕ é consistente contra qualquer processo I (0) com valor esperado nulo. Com efeito, suponha-se que { yt } é I (0) com valor esperado nulo, e que o coeficiente de autocorrelação de 1.ª ordem é menor do que um. Como
ϕ=
E ( yt yt −1 ) γ 1 = < 1, E ( yt2−1 ) γ 0
e { yt } é estacionário e ergódico, vem
ϕˆ =
n
(1 / n) (1 / n)
t =1 n
yt yt −1
t =1
2 t −1
p
→
y
γ1 < 1. γ0
Então, plim {n(ϕˆ − 1)} = −∞ . Assim, a probabilidade de rejeitar a hipótese nula nas condições enunciadas tende para 1, quando n → +∞ . O rácio-t habitual (que corresponde à hipótese nula) tem, também, uma distribuição limite não degenerada, que não é a distribuição normal estandardizada. Para distinguir este teste de Dickey-Fuller do teste clássico, vai utilizar-se a expressão “rácio- τ ”, em vez de “rácio-t”. Assim, tem-se
τ=
ϕˆ − 1 sϕˆ
n
n
(∆yt ) yt −1 t =1
=
n
y2 t =1 t −1
t =1
s
yt2−1
n t =1
= s
(∆yt ) yt −1 n t =1
2 t −1
y
=
(1 / n)
n t =1
(∆yt ) yt −1
2
s (1 / n )
n t =1
,
2 t −1
y
onde:
s
sϕˆ =
n
y2 t =1 t −1 n
s=
t =1
é o erro padrão de ϕˆ ;
( yt − ϕˆ yt −1 )2 é o erro padrão da regressão. n −1
Facilmente de prova que s 2 é estimador consistente de γ 0 , mesmo no caso em que ϕ = 1 (quando ϕ < 1 , sabe-se, do capítulo 9, que s 2 é estimador consistente da variância de ε t ). Com efeito, seja
1 1 n n 2 ˆ y y − = {∆yt − (ϕˆ − 1) yt −1}2 ( ) ϕ − 1 t t n − 1 t =1 n − 1 t =1 1 n 2 1 n {n(ϕˆ − 1)} (∆y ) y = (∆yt ) 2 − = 1 t n −1 n −1 n t =1 t t −1 1 1 n + {n(ϕˆ − 1)}2 2 t =1 yt2−1. n −1 n
s2 =
As três parcelas obtidas têm o seguinte comportamento assintótico: quanto à primeira, tende em probabilidade para E{(∆yt ) 2 } = γ 0 , uma vez que o processo {∆yt } é iid
Capítulo 10 – Raízes unitárias e cointegração
23
(estacionário e ergódico); como n(ϕˆ − 1) converge em distribuição para uma variável aleatória, e o mesmo acontece com
1 n
n t =1
(∆yt ) yt −1 ,
a segunda parcela converge em probabilidade para 0; o mesmo argumento se aplica à terceira parcela. Então, s 2 converge em probabilidade para γ 0 . Pode, agora, concluir-se que d
τ→
(1 / 2)γ 0{W (1)2 − 1}
γ0 γ0
1 0
=
(1 / 2){W (1)2 − 1}
2
W (r ) dr
1 0
2
W (r ) dr
= DFτ ,
ou (10.6)
τ=
ϕˆ − 1 sϕˆ
d
→ DFτ .
Esta distribuição limite também não envolve os parâmetros perturbadores atrás referidos. O teste que corresponde a utilizar o rácio- τ chama-se teste DF- τ . Este teste segue os mesmos passos do teste clássico do rácio-t. Contudo, a distribuição do rácio- τ não é assintoticamente normal estandardizada; os valores críticos e os valores-p são obtidos em tabelas próprias (ver anexo 10A). A mecânica do teste é a seguinte: 1) Estima-se o parâmetro ϕ pelo método MQ e determina-se o valor observado do rácio- τ dado por (10.6). Este valor é comparado com o valor crítico fornecido pela tabela resultante da distribuição de DFτ (ver tabelas 10A.2 ou 10A.4 do anexo 10A) [ou o respectivo valor-p é comparado com o nível de significância do teste]; 2) A hipótese nula é rejeitada quando o valor observado do rácio- τ é inferior ao valor crítico [ou respectivo valor-p é inferior ao nível de significância]. Facilmente se verifica que o teste DF- τ é consistente contra qualquer processo a verificar yt = ϕ yt −1 + ε t , 0 < ϕ < 1 e {ε t } é um ruído branco independente. Como se trata de um MRL-RPD, o rácio-t é dado por tϕˆ =
n (ϕˆ − 1) ^
.
Var (ϕˆ ) Como o denominador converge em probabilidade para a respectiva variância assintótica, e como o numerador tende para − ∞ (porque ϕˆ tende em probabilidade para ϕ < 1 ). Então, a probabilidade de rejeitar a hipótese nula, H 0 : ϕ = 1 , tende para 1, quando n cresce. O teste DF- τ pode ser apresentado de outra maneira. De facto, subtraindo yt −1 a ambos os membros de yt = ϕ yt −1 + ε t , obtém-se o modelo reparametrizado ∆yt = θ yt −1 + ε t , onde θ = ϕ − 1 . Então, o teste pode ser reformulado da seguinte maneira:
Capítulo 10 – Raízes unitárias e cointegração
24
H 0 : θ = 0 contra H1 : θ < 0 . Com esta formalização, tem-se (10.7)
τ=
θˆ sθˆ
d
→ DFτ ,
onde θˆ é o estimador MQ de θ = ϕ − 1 , e sθˆ é o respectivo erro padrão. Obviamente, os rácios- τ dados por (10.6) e (10.7) são numericamente iguais. Com esta forma, a mecânica do teste é a seguinte: 1) Estima-se o parâmetro θ pelo método MQ e determina-se o valor observado do rácio- τ dado por (10.7). Este valor é comparado com o valor crítico fornecido pela tabela resultante da distribuição de DFτ (ver tabelas 10A.2 e 10A.4 do anexo 10A) [ou o respectivo valor-p é comparado com o nível de significância do teste]; 2) A hipótese nula é rejeitada quando o valor observado do rácio- τ é inferior ao valor crítico [ou respectivo valor-p é inferior ao nível de significância]. Basear a estatística-teste no estimador MQ de ϕ não é a única forma de obter um teste de raízes unitárias. Para a amostra ( y0 , y1 , y2 , , yn ) , pode propor-se
SB =
n
(1 / n2 )
t =0
yt2
n
(∆yt ) 2 t =1
(1 / n)
,
conhecida pela designação de estatística de Sargan-Bhargava. Verifica-se imediatamente que SB é igual ao inverso da estatística de Durbin-Watson multiplicada por n,
SB =
n . DW
Se { yt } é um passeio aleatório sem deriva, vai provar-se que d
SB →
1 0
W (r )2 dr .
Com efeito, notando que 1 n2
n
y2 = t =0 t
1 n2
n
y2 + t =1 t −1
yn2 n2
e que yn2 n 2 tende em probabilidade para 0, verifica-se que [propriedade a) do teorema 10.2] d 1 1 n 2 y → γ 0 W (r ) 2 dr , t 2 t = 0 0 n uma vez que γ 0 = λ2 . Como E{(∆yt ) 2} = γ 0 é o limite em probabilidade do denominador de SB, obtém-se o resultado pretendido. Pode, também, verificar-se que SB tende em probabilidade para 0, sob a hipótese alternativa de o processo { yt } ser I (0) com E{(∆yt ) 2 } ≠ 0 . Com efeito, basta notar que
Capítulo 10 – Raízes unitárias e cointegração
25
E ( yt2 ) . n SB → E{(∆yt ) 2} p
Um inconveniente dos testes baseados num processo AR(1) sem termo independente ou constante é a ausência de invariância em relação à adição de uma constante à série de observações. Se o teste é feito para uma série em logaritmos, uma modificação da unidade de medida (por exemplo, passar de euros para milhares de euros) resulta numa adição de uma constante a cada observação, o que altera o valor da estatística-teste. Para evitar o inconveniente referido, considere-se o modelo (10.8)
yt = α 0 + zt , com zt = ϕ zt −1 + ε t ,
de modo que {ε t } seja um ruído branco independente. Sob a hipótese nula, H 0 : ϕ = 1 , {zt } é um passeio aleatório sem deriva [processo I (1) ]. Como yt = α 0 + z0 + ε1 + ε 2 + + ε t , também { yt } é um processo I (1) sem deriva, em que o valor inicial é y0 = α 0 + z0 . Sob a hipótese alternativa, H1 : ϕ < 1 , { yt } é um processo AR(1) estacionário com valor esperado igual a α 0 . Assim, a classe de processos I (0) abrangidos por (10.8) é mais ampla do que aquele que corresponde ao modelo yt = ϕ yt −1 + ε t . A variável zt pode ser eliminada de (10.8). Com efeito, subtraindo ordenadamente yt = α 0 + zt de ϕ yt −1 = α 0ϕ + ϕ zt −1 , obtém-se (10.9)
yt = α + ϕ yt −1 + ε t ,
onde α = α 0 (1 − ϕ ) . Como α = 0 , quando ϕ = 1 , a hipótese nula de que o processo é um passeio aleatório sem deriva [processo I (1) ] corresponde a considerar que a hipótese nula conjunta seja H 0 : ϕ = 1 ∧ α = 0 , em termos dos coeficientes de regressão de (10.9). Sem a restrição α = 0 , { yt } pode ser um passeio aleatório com deriva. Mais adiante vão estudar-se testes para este caso. Por enquanto, vai continuar-se com a situação em que a hipótese nula diz respeito a um passeio aleatório sem deriva. Seja ϕˆc o estimador MQ de ϕ em (10.9), e τ c é o rácio- τ para a hipótese nula, ϕ = 1 [o teste da hipótese nula conjunta é raramente feito em econometria]. Deve ficar claro que o valor de α 0 não afecta o valor de ϕˆc , ou o seu erro padrão, pois adicionar uma constante às observações apenas altera a estimativa do termo independente. Assim, as distribuições (exacta ou limite) da estatística n(ϕˆc − 1) do teste DF- ϕc , e do rácio- τ respectivo, τ c , do teste DF- τ c , não dependem do valor de α 0 , qualquer que seja ϕ . Pode demonstrar-se que (10.10)
d
n(ϕˆc − 1) → DFϕc ,
onde (1 / 2) {W c (1)}2 − {W c (0)}2 − 1 c
DFϕ =
1 0
{W c (r )}2 dr
,
Capítulo 10 – Raízes unitárias e cointegração
26
e que (10.11)
τc =
ϕˆc − 1 sϕˆc
d
→ DFτc ,
onde sϕˆ c é o erro padrão associado a ϕˆc , e
(1 / 2) {W c (1)}2 − {W c (0)}2 − 1 .
c
DFτ =
1 0
2
{W (r )} dr c
Facilmente se verifica que o valor inicial, y0 , não afecta ϕˆc e τ c , quando ϕ = 1 . Com efeito, basta notar ytc não depende de y0 . O mesmo não se verifica quando ϕ < 1 , porque o efeito da variação de y0 sobre yt depende de t. Neste caso, também pode fazer-se a reparametrização ∆yt = α + θ yt −1 + ε t , onde θ = ϕ − 1 , e testar H 0 : θ = 0 contra H1 : θ < 0 . Os testes DF- ϕc e DF- τ c seguem a mesma mecânica dos testes DF- ϕ e DF- τ , respectivamente (as tabelas encontram-se no anexo 10A: para o primeiro, ver a tabela 10A.1; para o segundo, ver as tabelas 10A.1 e 10A.4). Os resultados (10.10) e (10.11) permitem fazer testes DF de um passeio aleatório sem deriva, no caso de existir termo independente [em (10.9)]. A demonstração destes resultados é a seguinte: a) Começa-se por provar que n
ϕˆc − 1 =
t =1 n
(∆yt ) ytc−1
( ytc−1 ) 2 t =1
,
onde ytc−1 = yt −1 − y e y = ( y0 + y1 + y2 + + yn −1 ) / n , para t = 1, 2, , n . Com efeito, notando que ytc−1 é o resíduo MQ da regressão de yt −1 sobre 1 (constante), e que ϕˆc é numericamente igual ao estimador MQ do coeficiente da regressão de yt sobre ytc−1 (sem constante) [ver anexo 2A, subsecção “Regressão por blocos”, alínea c)], vem n
ϕˆc =
t =1 n
yt ytc−1
( ytc−1 )2 t =1
n
ou ϕˆc − 1 =
t =1
( yt − ytc−1 ) ytc−1 n
( ytc−1 ) 2 t =1
.
Como n t =1
ytc−1 = 0 ,
prova-se o resultando pretendido, notando que n t =1
( yt − ytc−1 ) ytc−1 = = = =
n t =1 n t =1 n t =1 n t =1
( yt − yt −1 + y ) ytc−1 ( yt − yt −1 ) ytc−1 + y ( yt − yt −1 ) ytc−1 (∆yt ) ytc−1.
n t =1
ytc−1
Capítulo 10 – Raízes unitárias e cointegração
27
b) Suponha-se que { yt } é um processo I (1) sem deriva. Então, verifica-se imediatamente, atendendo aos resultados d) e c) do teorema 10.2, que
λ2 d
n(ϕˆc − 1) →
2
{W c (1)}2 − {W c (0)}2 − 1
2
λ
0
γ0 2
2
{W (r )} dr c
.
c) Quando { yt } é um passeio aleatório sem deriva, tem-se γ 0 = λ2 , e, portanto, d
n(ϕˆc − 1) →
1 {W c (1)}2 − {W c (0)}2 − 1 2 1 0
2
{W (r )} dr c
,
o que prova o resultado (10.10). d) Seja s o erro padrão da equação de regressão (10.9). Vai provar-se que s 2 é estimador consistente de γ 0 = Var(∆yt ) , sob a hipótese nula de que { yt } é um processo I (1) sem deriva [ {∆yt } é um processo I (0) com valor esperado nulo a verificar as condições da definição 10.3]. Seja (αˆ , ϕˆc ) o estimador MQ de (α , ϕ ) . Começa-se por provar que αˆ tende em probabilidade para 0. Com efeito, 1 n 1 = n 1 = n
αˆ =
1 n {∆yt − (ϕˆc − 1) yt −1} n t =1 1 n n y ∆yt − (ϕˆc − 1) t =1 n t =1 t −1 1 1 1 n n ∆yt − {n(ϕˆc − 1)} yt −1 . t =1 n n n t =1 n
t =1
( yt − ϕˆc yt −1 ) =
A primeira parcela do segundo membro da última igualdade converge em probabilidade para 0, porque {∆yt } é estacionário e ergódico, e E (∆yt ) = 0 . Sabendo que 1 1 n n
n
d
y →λ t =1 t −1
1 0
W (r )dr ,
e como n(ϕˆc − 1) tende em distribuição para uma variável aleatória, a segunda parcela do segundo membro da mesma igualdade tembém converge em probabilidade para 0. Fica, assim, provado que plim(αˆ ) = 0 . Seja
1 1 n n {(∆yt − αˆ ) − (ϕˆc − 1) yt −1}2 ( y − αˆ − ϕˆc yt −1 )2 = n − 2 t =1 t n − 2 t =1 1 n 2 1 n {n(ϕˆc − 1)} (∆y − αˆ ) yt −1 = (∆yt − αˆ ) 2 − t = 1 n−2 n−2 n t =1 t 1 1 n + {n(ϕˆc − 1)}2 2 t =1 yt2−1. n−2 n
s2 =
Capítulo 10 – Raízes unitárias e cointegração
28
Como plim(αˆ ) = 0 , a primeira parcela do segundo membro da última igualdade tende em probabilidade para γ 0 = Var(∆yt ) . Quanto à segunda parcela, tem-se 1 2 {n(ϕˆc − 1)} n−2 n
n t =1
(∆yt − αˆ ) yt −1 =
1 2 {n(ϕˆc − 1)} n−2 n
−
2 n {n(ϕˆc − 1)}αˆ n−2
n t =1
(∆yt ) yt −1
1 1 n n
n t =1
yt −1 ,
o que permite concluir, sem dificuldade, que tende em probabilidade para 0. A terceira parcela também converge em probabilidade para 0. e) Finalmente, vai demonstrar-se o resultado (10.11). Começa-se por notar que
τc =
ϕˆc − 1
=
sϕˆ c
ϕˆc − 1
,
s m 22
onde m 22 é o elemento (2,2) da matriz ( X T X )−1 . Neste caso, tem-se
1
m 22 =
n
( ytc−1 ) 2 t =1
.
Assim, atendendo à expressão de ϕˆc − 1 [obtida em a)], vem n
n
τc =
(∆yt ) ytc−1 t =1
t =1
n
( ytc−1 ) 2 =
s
( ytc−1 )2 t =1
n
(1 / n)
t =1 2
s (1 / n )
(∆yt ) ytc−1 n t =1
.
2 c t −1
(y )
Como { yt } é um passeio aleatório sem deriva, tem-se γ 0 = λ2 = σ ε2 . Então, recorrendo mais uma vez às propriedades d) e c) do teorema 10.2, obtém-se
γ0
τc → 2 d
{W c (1)}2 − {W c (0)}2 −
γ0 γ0
1 0
γ0 2
=
1 {W c (1)}2 − {W c (0)}2 − 1 2 1
2
{W (r )} dr c
0
,
2
{W (r )} dr c
ficando provado (10.11).
Exemplo 10.1 – Seja ltced o logaritmo da taxa mensal de câmbio de referência Euro/USD. Como se mostra na figura 10.2, com dados mensais de Janeiro de 1999 a Dezembro de 2005, esta variável evidencia uma tendência estocástica. Contudo, o cronograma das respectivas primeiras diferenças (ver figura 10.4) aponta para que ∆ltced seja estacionária. Para suportar empiricamente que ltced é I (1) , vai fazer-se o teste de Dickey-Fuller. Para tornar este teste invariante em relação à escolha das unidades, vai considerar-se a equação de regressão na forma (10.9), ou seja, ltcedt = α + ϕ ltcedt −1 + ε t . Estimando esta equação pelo método MQ, obtém-se
Capítulo 10 – Raízes unitárias e cointegração
29
ltcedt = 0.00139 + 0.981184 ltcedt −1 + εˆt . Assim, tem-se ϕˆc = 0.981184 . O respectivo erro padrão é igual a 0.022682. 0.08
0.06
0.04
0.02
0
-0.02
-0.04
-0.06 Fev-99 Ago-99 Fev-00 Ago-00 Fev-01 Ago-01 Fev-02 Ago-02 Fev-03 Ago-03 Fev-04 Ago-04 Fev-05 Ago-05 Variação do logaritmo da taxa de câmbio de referência Euro/USD
Fig. 10.4 – Cronograma da variação da logaritmo da taxa de câmbio de referência Euro/USD. Os valores observados das estatísticas-teste são, respectivamente, os seguintes: n(ϕˆc − 1) = 83 × (0.981184 − 1) = −1.56171 ; τ c =
0.981184 − 1 = −0.82954 . 0.022682
O valor crítico (assintótico) a 5%, dado pela tabela 10A.1, é –14.1, isto é,
P( DFϕc < −14.1) = 0.05 . Como se dispõe de 83 observações, o valor crítico está entre –13.3 e –13.7. Como o valor observado da estatística-teste é –1.56171, a evidência é claramente favorável à hipótese nula: a variável ltced é I (1) . O valor crítico (assintótico) a 5%, dado pela tabela 10A.2, é –2.86, isto é, P( DFτc < −2.86) = 0.05 . Como se dispõe de 83 observações, o cálculo directo permite obter –2.89, para o valor crítico, e 0.886, para o valor-p. De novo, a evidência é favorável a que a variável ltced seja I (1) . ∇ Em Economia, muitas séries temporais têm tendência determinística linear. Para fazer testes DF aplicáveis a estas séries, deve generalizar-se, mais uma vez, o modelo, fazendo (10.12)
yt = α 0 + δ 0 t + zt , com zt = ϕ zt −1 + ε t ,
Capítulo 10 – Raízes unitárias e cointegração
30
em que {ε t } seja um ruído branco independente. Sob a hipótese nula, H 0 : ϕ = 1 , {zt } é, obviamente, um passeio aleatório sem deriva [processo I (1) ]. Pode escrever-se yt = α 0 + δ 0 t + z0 + ε1 + ε 2 + = y0 + δ 0 t + (ε1 + ε 2 +
+ εt
+ ε t ),
onde y0 = α 0 + z0 . Então, { yt } é um passeio aleatório com deriva, se δ 0 ≠ 0 , e sem deriva, se δ 0 = 0 . Sob a hipótese alternativa, H1 : ϕ < 1 , como { yt } é a soma de uma tendência linear com um processo AR(1) estacionário com valor esperado nulo, conclui-se que o processo { yt } é estacionário em tendência. Tem-se E ( yt ) = α 0 + δ 0 t . A variável zt pode ser eliminada de (10.12). Com efeito, subtraindo ordenadamente yt = α 0 + δ 0 t + zt de ϕ yt −1 = α 0ϕ + δ 0ϕ (t − 1) + ϕ zt −1 , obtém-se (10.13)
yt = α + δ t + ϕ yt −1 + ε t ,
onde α = α 0 (1 − ϕ ) + δ 0 ϕ e δ = δ 0 (1 − ϕ ) . O cálculo directo de E ( yt ) a partir de (10.13) permite obter α (1 − ϕ ) − δ ϕ δ + E ( yt ) = t. 2 1−ϕ (1 − ϕ ) Como δ = 0 , quando ϕ = 1 , a hipótese nula de que o processo é um passeio aleatório com ou sem deriva é equivalente à hipótese nula conjunta H 0 : ϕ = 1 ∧ δ = 0 , em termos dos coeficientes de regressão de (10.13). Na prática, estes testes de raízes apenas consideram o caso H 0 : ϕ = 1 . Seja ϕˆct o estimador MQ de ϕ em (10.13), e τ ct é o rácio- τ para a hipótese nula, ϕ = 1 . Para fazer o teste DF- ϕct , a estatística é n(ϕˆct − 1) . Pode demonstrar-se que (10.14)
d
n(ϕˆct − 1) → DFϕct ,
onde (1 / 2) {W nt (1)}2 − {W nt (0)}2 − 1 ct
DFϕ =
1 0
2
{W (r )} dr nt
.
Quanto ao teste DF- τ ct , tem-se (10.15)
τ ct =
ϕˆct − 1 sϕˆ ct
d
→ DFτct ,
onde sϕˆ ct é o erro padrão de ϕˆct , e
(1 / 2) {W nt (1)}2 − {W nt (0)}2 − 1 .
ct
DFτ =
1 0
2
{W (r )} dr nt
Pode fazer-se a reparametrização ∆yt = α + δ t + θ yt −1 + ε t , onde θ = ϕ − 1 , e testar H 0 : θ = 0 contra H1 : θ < 0 .
Capítulo 10 – Raízes unitárias e cointegração
31
Os testes DF- ϕct e DF- τ ct seguem a mesma mecânica dos testes DF- ϕ e DF- τ , respectivamente (as tabelas encontram-se no anexo 10A: para o primeiro, ver a tabela 10A.1; para o segundo, ver as tabelas 10A.1 e 10A.4). Os resultados (10.14) e (10.15) permitem fazer testes DF de um passeio aleatório com ou sem deriva, no caso de existir termo independente e tendência linear [em (10.13)]. A demonstração de (10.14) é a seguinte [fica ao cuidado do leitor provar (10.15), seguindo os passos d) e e) da demonstração de (10.11) ]: a) Vai provar-se que n
ϕˆct − 1 =
t =1 n
(∆yt ) ytnt−1
( ytnt−1 )2 t =1
,
onde ytnt−1 = yt −1 − αˆ 0 − δˆ0 t e (αˆ 0 , δˆ0 ) é o estimador MQ dos coeficientes da regressão de yt −1 sobre 1 e t, para t = 1, 2, , n . Com efeito, notando que ϕˆct é numericamente igual ao estimador MQ do coeficiente da regressão de yt sobre ytct−1 (sem constante e sem tendência) [ver anexo 2A, subsecção “Regressão por blocos”, alínea c)], vem n
ϕˆct =
t =1 n
yt ytnt−1
( ytnt−1 ) 2 t =1
n
ou ϕˆct − 1 =
t =1
( yt − ytnt−1 ) ytnt−1 n
( ytnt−1 )2 t =1
.
Como (devido às equações normais) n t =1
n
ytnt−1 = 0 e
t =1
t ytnt−1 = 0 ,
obtém-se n t =1
( yt − ytnt−1 ) ytnt−1 = = = =
n t =1 n t =1 n t =1 n t =1
( yt − yt −1 + αˆ 0 + δˆ0 t ) ytnt−1 ( yt − yt −1 ) ytnt−1 + αˆ 0
n t =1
ytnt−1 + δˆ0
n t =1
t ytnt−1
( yt − yt −1 ) ytnt−1 (∆yt ) ytnt−1 ,
o que prova o resultado pretendido. b) Fazendo yt = α 0 + δ 0 t + zt , e supondo que {zt } é um processo I (1) sem deriva, vai verificar-se que
λ2 d
n(ϕˆct − 1) →
2
{W nt (1)}2 − {W nt (0)}2 −
λ2
1 0
{W nt (r )}2 dr
Com efeito, seja
n(ϕˆct − 1) =
(1 / n) (1 / n 2 )
n
(∆yt ) ytnt−1
t =1 n
( ytnt−1 )2 t =1
.
γ0 2
.
Capítulo 10 – Raízes unitárias e cointegração
32
A partir de yt = α 0 + δ 0 t + zt , tem-se ∆yt = δ 0 + ∆ zt . Seja ztnt−1 o resíduo MQ da hipotética regressão de zt −1 (não observável) sobre 1 e t ( t = 1, 2, , n ). Como zt = yt − α 0 − δ 0 t , vem ztnt−1 = ytnt−1 , uma vez que a diferença entre yt e zt é a tendência linear. Por construção, tem-se n nt t =1 t −1
z
=0.
Então,
n(ϕˆct − 1) =
(1 / n)
n t =1
(1 / n 2 )
(δ 0 + ∆zt ) ztnt−1 n
( ztnt−1 )2 t =1
=
(1 / n) (1 / n 2 )
n
(∆zt ) ztnt−1
t =1 n
( ztnt−1 ) 2 t =1
.
O resultado pretendido vem directamente das alíneas f) e e) do teorema 10.2. c) Quando { yt } é um passeio aleatório, com ou sem deriva, obtém-se imediatamente o resultado (10.14), porque γ 0 = λ2 . Podem fazer-se os seguintes comentários: 1) Os valores de ϕˆct e de τ ct são invariantes em relação a (α 0 , δ 0 ) , qualquer que seja o valor ϕ ; adicionar α 0 + δ 0 t à série temporal modifica apenas as estimativas de α e de δ . As distribuições (exacta ou limite) das estatísticas n(ϕˆct − 1) e τ ct não dependem do valor de (α 0 , δ 0 ) , para qualquer ϕ . 2) Como as estatísticas-teste são invariantes com os valcores de δ 0 , os resultados (10.14) e (10.15) são aplicáveis, mesmo que δ 0 = 0 . Assim, ϕˆct e τ ct podem ser utilizados quando a hipótese nula diz respeito a um passeio aleatório sem deriva. Contudo, se houver razões para não considerar uma tendência linear, deve usar-se ϕˆc e τ c , porque, geralmente, a potência dos testes contra alternativas de processos estacionários é maior. No caso de ser credível a existência de tendência linear, deve recorrer-se a ϕˆct e τ ct . O teste DF pode ser generalizado para dinâmicas mais complicadas, e, em particular, quando o modelo é um processo é AR ( p ) , (10.16)
yt = ϕ1 yt −1 + ϕ 2 yt − 2 +
+ ϕ p yt − p + ε t ⇔ ϕ ( L) yt = ε t ,
onde {ε t } seja um ruído branco independente, a verificar E (ε t2 ) = σ ε2 , e
ϕ ( L) = 1 − ϕ1L − ϕ 2 L2 −
− ϕ p Lp .
A inclusão de mais desfasamentos no processo tem por objectivo eliminar a autocorrelação que possa existir na variável residual; quanto maior for o comprimento do desfasamento, mais observações iniciais se perdem, o que pode ter sérias consequências na potência do teste; mas se o comprimento do desfasamento é insuficente, a dimensão do teste será incorrecta, mesmo assintoticamente, porque a validade dos valores críticos baseia-se no facto do modelo ser considerado dinamicamente completo.
Capítulo 10 – Raízes unitárias e cointegração
33
Qualquer processo AR ( p ) pode ser reparametrizado, obtendo-se o seguinte modelo equivalente, utilizando a decomposição já conhecida ϕ ( L) = ϕ (1) L + ξ ( L)(1 − L) , onde: − ϕ (1) = 1 − φ com φ = ϕ1 + ϕ2 + + ϕ p ; − ξ ( L) = 1 − ξ1L − ξ 2 L2 − − ξ s = −(ϕ s +1 + ϕ s + 2 +
− ξ p −1Lp −1 ; + ϕ p ) , para s = 1, 2,
, p −1 .
Com efeito, a partir de ϕ ( L) yt = ε t tem-se {(1 − φ ) L + ξ ( L)∆} yt = ε t ou
yt −1 − φ yt −1 + (1 − ξ1L − ξ 2 L2 −
− ξ p −1Lp −1 )∆yt = ε t .
Então, yt −1 − φ yt −1 + ∆yt − ξ1∆yt −1 − ξ 2∆yt − 2 −
− ξ p −1∆yt − p +1 = ε t ,
e, portanto, (10.17)
yt = φ yt −1 + ξ1∆yt −1 + ξ 2 ∆yt − 2 + = φ yt −1 +
+ ξ p −1∆yt − p +1 + ε t
p −1 s =1
ξ s ∆yt − s + ε t .
O modelo, na forma (10.17), chama-se auto-regressão aumentada porque se adiciona ao processo yt = φ yt −1 + ε t , as primeiras diferenças de y com desfasamentos até à ordem p − 1 . Pode, também, escrever-se (10.18)
∆yt = θ yt −1 + ξ1∆yt −1 + ξ 2∆yt − 2 + = θ yt −1 +
+ ξ p −1∆yt − p +1 + ε t
p −1 s =1
ξ s ∆yt − s + ε t ,
em que θ = φ − 1 = ϕ1 + ϕ2 + + ϕ p − 1 . Por exemplo, para p = 2 é fácil verificar a equivalência entre yt = ϕ1 yt −1 + ϕ2 yt − 2 + ε t e yt = φ yt −1 + ξ1∆yt −1 + ε t , onde φ = ϕ1 + ϕ2 e ξ1 = −ϕ2 . Com efeito, tem-se yt = ϕ1 yt −1 + ϕ 2 yt − 2 + ϕ 2 yt −1 − ϕ2 yt −1 + ε t = (ϕ1 + ϕ2 ) yt −1 − ϕ2 ∆yt −1 + ε t . Quando p = 3 , estabelece-se a equivalência entre yt = ϕ1 yt −1 + ϕ2 yt − 2 + ϕ3 yt − 3 + ε t e yt = φ yt −1 + ξ1∆yt −1 + ξ 2 ∆yt − 2 + ε t , onde φ = ϕ1 + ϕ2 + ϕ3 , ξ1 = −(ϕ2 + ϕ3 ) e ξ 2 = −ϕ3 . De facto, yt = ϕ1 yt −1 + ϕ2 yt − 2 + ϕ3 yt − 3 + (ϕ2 yt −1 − ϕ2 yt −1 ) + (ϕ3 yt −1 − ϕ3 yt −1 ) + (ϕ3 yt − 2 − ϕ3 yt − 2 ) + ε t = (ϕ1 + ϕ2 + ϕ3 ) yt −1 − (ϕ2 + ϕ3 )∆yt −1 − ϕ3∆ yt − 2 + ε t . Retome-se o modelo (10.17). Quando φ = 1 , tem-se (10.19)
∆yt = ξ1∆yt −1 + ξ 2 ∆yt − 2 +
+ ξ p −1∆yt − p +1 + ε t ⇔ ξ ( L)∆yt = ε t .
Capítulo 10 – Raízes unitárias e cointegração
34
Suponha-se que {∆yt } , dado por (10.19), é um processo AR ( p − 1) estacionário com valor esperado nulo, ou seja, as p − 1 raízes da equação ξ ( z ) = 0 estão no exterior do círculo unitário. Fazendo ψ ( L) = ξ ( L) −1 , tem-se ∆yt = ξ ( L)−1ε t = ψ ( L)ε t . Nestas condições, no processo { yt } , dado por (10.16), uma das raízes da equação ϕ ( z ) = 0 é unitária, e as restantes p − 1 estão no exterior do círculo unitário. Assim, { yt } é um processo ARIMA( p − 1,1, 0) . Se φ > 1 , uma das raízes de ϕ ( z ) = 0 encontra-se no interior do círculo unitário. Com efeito, basta notar que ϕ (z ) é uma função contínua, ϕ (0) = 1 > 0 e ϕ (1) = 1 − φ < 0 . Logo, há uma raiz entre 0 e 1. Se o PGD é I (1) ou I (0) , então φ não pode ser superior a 1 [se { yt } é I (1) , φ = 1 ; se { yt } é I (0) , φ < 1 ]. No teste de raízes unitárias, a hipótese nula corresponde ao processo { yt } quando é I (1) , sendo, portanto, um processo AR ( p ) com uma raiz unitária ou um processo ARIMA( p − 1,1, 0) [ {∆yt } é um processo AR ( p − 1) estacionário com valor esperado nulo]. A hipótese alternativa diz respeito ao processo { yt } quando é I (0) , ou seja, um processo AR ( p ) estacionário com valor esperado nulo. Em resumo, tem-se H 0 : φ = 1 contra H1 : φ < 1 , que se designa por teste ADF (augmented Dickey-Fuller). Se se utilizar (10.18), o teste continua a ser H 0 : θ = 0 contra H1 : θ < 0 . A seguir, vai determinar-se a distribuição limite do estimador MQ do parâmetro φ do modelo (10.17), supondo que a hipótese nula é verdadeira. Numericamente, o estimador MQ pode ser obtido a partir de (10.16), somando os estimadores MQ de ϕ1 , ϕ2 ,..., ϕ p . Comparando as duas formas do modelo, sob a hipótese nula, constata-se o seguinte: em (10.16), os p regressores, ( yt −1 , yt − 2 , , yt − p ) , são variáveis I (1) sem deriva; com (10.17), o regressor yt −1 é I (1) , e os restantes, (∆yt −1 , ∆yt − 2 , , ∆yt − ( p −1) ) , são I (0) com valor esperado nulo. A formulação (10.16) encobre um facto importante, a ser explorado mais adiante, que é posto em evidência por (10.17): cada um dos p − 1 regressores I (0) da auto-regressão aumentada é uma combinação linear de yt −1 , yt − 2 ,..., yt − p . Para simplificar os cálculos, vai considerar-se o caso p = 2 , ou seja, (10.20)
yt = φ yt −1 + ξ1∆yt −1 + ε t . Este modelo pode ser apresentado da seguinte maneira: yt = xt • β + ε t ,
onde xt • = [ yt −1 ∆yt −1 ] e β = Supondo que a amostra é ( y−1 , y0 , y1 , ções ( t = 1, 2, , n ). Se
φ . ξ1
, yn ) , a estimação é feita com n observa-
Capítulo 10 – Raízes unitárias e cointegração
35
φˆ ξˆ1
βˆ =
é o estimador MQ de β , o erro de amostragem é −1
βˆ − β =
n
n T t =1 t • t
x ε ,
xT x t =1 t • t •
em que n t =1
n
xT x = X T X = t =1 t • t •
n t =1
n
yt2−1
yt −1 (∆yt −1 )
t =1 n
(∆yt −1 ) yt −1
t =1
(∆yt −1 )
n t =1
n
e
xT ε = t =1 t • t
2
n t =1
yt −1ε t
.
(∆yt −1 )ε t
Tal como se fez anexo 3E, procura-se uma matriz não singular, Γn , quadrada de ordem 2, de tal modo que Γn ( βˆ − β ) tenha, sob a hipótese nula ( φ = 1 ), distribuição limite não degenerada. Tem-se −1
−1
Γn ( βˆ − β ) = Γn
n
n
n
x ε = Γn−1
x x
Γn−1
T t =1 t • t •
T t =1 t • t
T t =1 t • t •
x x
Γn−1
n T t =1 t • t
x ε
= Qn−1V• n ,
onde n T t =1 t • t •
Qn = Γn−1
Γn−1 e V• n = Γn−1
x x
n T t =1 t • t
x ε .
Como vai ver-se, a distribuição limite não degenerada obtém-se quando Γn =
n
0
0
n
,
e, portanto, n(φˆ − 1)
Γn ( βˆ − β ) =
n (ξˆ1 − ξ1 )
.
Logo,
Qn =
1 n2 1 1 n n
n t =1 n t =1
1 1 n n
yt2−1
(∆yt −1 ) yt −1
1 n
n t =1 n t =1
yt −1 (∆yt −1 ) e V• n =
(∆yt −1 )
2
1 n 1 n
n t =1
yt −1ε t .
n t =1
(∆yt −1 )ε t
Vai examinar-se os elementos destas duas matrizes, e determinar as respectivas distribuições limite (para φ = 1 ): − Elemento (1,1) de Qn . Como { yt } é I (1) sem deriva, tem-se 1 n2
n
d
y 2 → λ2 t =1 t −1
1 0
W (r ) 2 dr ,
Capítulo 10 – Raízes unitárias e cointegração
36
devido à propriedade a) do teorema 10.2. − Elemento (2,2) de Qn . Como {∆yt } é um processo AR(1) estacionário com valor esperado nulo, verifica a estacionaridade ergódica, e, portanto,
1 n
p
n
(∆yt −1 ) 2 → γ 0 = Var (∆yt ) . t =1
− Elementos não diagonais de Qn . Estes elementos são iguais ao produto de 1 por 1 n (∆y ) y , n t =1 t −1 t −1
n
que é a média amostral do produto de uma variável I (0) com valor esperado nulo por uma variável I (1) sem deriva. Vai provar-se que 1 n
d
n
(∆yt −1 ) yt −1 → t =1
λ2 2
γ0
W (1) 2 +
2
.
Com efeito, esta distribuição limite é a mesma de
1 n
n t =1
(∆yt ) yt .
Como (∆yt ) yt = (∆yt ) yt −1 + (∆yt )2 , vem 1 n
n t =1
(∆yt ) yt =
1 n
d
→
n t =1
λ2 2
(∆yt ) yt −1 +
W (1)2 −
γ0
1 n
n t =1
+ γ0 =
2
(∆yt ) 2
λ2 2
W (1) 2 +
γ0 2
,
atendendo à propriedade b) do teorema 10.2, e notando que
1 n
p
n
(∆yt )2 → γ 0 . t =1
Então,
1 1 nn
p
n
(∆yt −1 ) yt −1 → 0 . t =1
− Conclusão: d
Qn → Q =
λ2
1 0
W (r )2 dr 0 0
.
γ0
− Primeiro elemento de V• n . Usando a decomposição de Beveridge-Nelson, pode demonstrar-se que
1 n
d 1 y ε → v1 = σ ε2ψ (1){W (1) 2 − 1} , − t t 1 t =1 2 n
supondo que { yt } é um processo I (1) sem deriva, pelo que {∆yt } é um processo I (0) , com valor esperado nulo (a satisfazer as condições da definição 10.3). Tem-se: ∆yt = ψ ( L)ε t [representação MA(∞) de {∆yt } ].
Capítulo 10 – Raízes unitárias e cointegração
37
No caso presente, tem-se ∆yt = ξ1∆yt −1 + ε t , sob a hipótese nula, pelo que
ψ ( L) = (1 − ξ1L) −1 e ψ (1) =
1 . 1 − ξ1
Com efeito, de acordo com (10.3), ψ ( L) = ψ (1) + δ ( L)(1 − L) . Então, ∆yt = ψ ( L)ε t = {ψ (1) + δ ( L)(1 − L)}ε t = ψ (1)ε t + ηt − ηt −1 ou yt = yt −1 + ψ (1)ε t + ηt − ηt −1 , onde ηt = δ ( L)ε t . Daqui decorre que yt = ψ (1)(ε1 + ε 2 + onde ωt = ε1 + ε 2 +
1 n
n t =1
+ ε t ) + ηt + ( y0 − η0 ) = ψ (1) ωt + ηt + ( y0 − η0 ) ,
+ ε t . Donde
yt −1ε t = ψ (1)
1 n
n t =1
ωt −1ε t +
1 n
n t =1
ηt −1ε t + ( y0 − η0 )
1 n
n
ε .
t =1 t
Quanto à primeira parcela do segundo membro desta igualdade pode concluir-se o seguinte: como {ωt } é um passeio aleatório e ε t = ∆ωt , e como λ2 = γ 0 = σ ε2 , devido à propriedade b) do teorema 10.2, tem-se 1 n
d
n
ω ∆ωt → t =1 t −1
σ ε2 2
{W (1)2 − 1} .
O resultado pretendido fica provado se se verificar que as outras duas parcelas convergem em probabilidade para 0. De facto, como ηt −1 é função de (ε t −1 , ε t − 2 , ) , é independente de ε t ; logo, E (ηt −1ε t ) = 0 ; pelo teorema da ergodicidade, vem
1 n
p
n
η ε →0 . t =1 t −1 t
Quanto à terceira parcela, conclui-se imediatamente que
1 n −
n
p
ε →0. t =1 t
Segundo elemento de V• n . Começa-se por demonstrar que {(∆yt −1 )ε t } é uma diferença-martingala estacionária e ergódica, supondo que {∆yt } é um processo I (0) , com valor esperado nulo, a satisfazer as condições da definição 10.3 [o processo {∆yt } dado por (10.19) é um caso particular]. Com efeito, como {ε t } e {∆yt −1} são conjuntamente estacionários e ergódicos, o mesmo acontece com {(∆yt −1 )ε t } . Para provar que este processo é uma diferença-martingala, deve verificar-se que E{(∆yt −1 )ε t | (∆yt − 2 )ε t −1 , (∆yt − 3 )ε t − 2 , } = 0 . Como (ε t −1 , ε t − 2 , ) tem mais informação do que {(∆yt − 2 )ε t −1 , (∆yt − 3 )ε t − 2 , } , vem E{(∆yt −1 )ε t | (∆yt − 2 )ε t −1 , (∆yt − 3 )ε t − 2 , } = E [E{(∆yt −1 )ε t | ε t −1 , ε t − 2 , } | (∆yt − 2 )ε t −1 , (∆yt − 3 )ε t − 2 , = E [∆yt −1 E{ε t | ε t −1, ε t − 2 , } | (∆yt − 2 )ε t −1, (∆yt − 3 )ε t − 2 , = 0, Uma vez que ∆yt −1 é função de (ε t −1 , ε t − 2 , ) .
] ]
.
Capítulo 10 – Raízes unitárias e cointegração
38
Como ∆yt −1 e ε t são independentes, tem-se E{(∆yt − 2 )2 ε t2 } = E{(∆yt − 2 )2 }E (ε t2 ) = γ 0 σ ε2 . Então, aplicando o TLC de Billingsley, obtém-se 1 n
d
n
(∆yt −1 )ε t → v2 ~ N (0, γ 0 σ ε2 ) . t =1
− Conclusão: 1 2 σ ψ (1){W (1) 2 − 1} = 2 ε . 2 v2 ~ N (0, γ 0 σ ε )
v1
d
V• n → V =
v2
Utilizando os resultados anteriores, tem-se n(φˆ − 1)
Γn ( βˆ − β ) =
d
n (ξˆ1 − ξ1 )
λ2
−1
→Q V =
1 0
W (r ) 2 dr
−1
0
λ2
=
1 0
W (r ) 2 dr
0
v1
γ 0−1
v2
−1
v1
.
−1 0 2
γ v Portanto, d
n(φˆ − 1) →
σ ε2ψ (1) (1 / 2){W (1)2 − 1} , 1 2 λ2 W (r ) dr 0
ou (10.21)
2 d λ2 ˆ − 1) → (1 / 2){W (1) − 1} = DF , ( n φ φ 1 σ ε2ψ (1) W (r ) 2 dr 0
onde DFφ é a mesma variável aleatória obtida em (10.5) [por razões óbvias de notação, escreve-se, agora, DFφ , em vez de DFϕ ]. Conclui-se, também, que (10.22)
2
σ n (ξˆ1 − ξ1 ) → N 0, ε , d
γ0
ou seja, obtém-se a distribuição assintótica clássica do estimador MQ do coeficiente da variável I (0) com valor esperado nulo, ∆yt −1 . A estatística-teste (10.21) envolve parâmetros perturbadores, devido ao factor
λ2 . σ ε2ψ (1) Contudo, como λ2 = σ ε2ψ (1) 2 [a variância de longo prazo de {∆yt } ], tem-se, sob a hipótese nula,
Capítulo 10 – Raízes unitárias e cointegração
39
λ2 1 . = ψ (1) = 2 1 − ξ1 σ ε ψ (1) Substituindo ξ1 pelo respectivo estimador MQ, vem (10.23)
n(φˆ − 1) d → DFφ . 1 − ξˆ1
Assim, a correcção de n(φˆ − 1) é feita por meio do estimador MQ do coeficiente de ∆yt −1 , na auto-regressão aumentada. Deste modo, a estatística-teste (10.23), que já não depende dos parâmetros perturbadores, chama-se estatística ADF- φ . O teste respectivo designa-se por teste ADF- φ . O rácio- τ , para φ = 1 , é dado por
τ=
φˆ − 1 sφˆ
=
φˆ − 1 s m11
=
n(φˆ − 1) s q11 n
,
−1 onde m11 é o elemento (1,1) de ( X T X )−1 , q11 n é o elemento (1,1) de Qn , s é o erro padrão da regressão, e
sφˆ = s m11 = s
q11 n é o erro padrão de φˆ . n2
Atendendo à expressão de Q −1 , a (10.21), a que s 2 é um estimador consistente de σ ε2 , e às propriedades a) e b) do teorema 10.2, pode verificar-se que (10.24)
τ=
φˆ − 1 sφˆ
d
→ DFτ .
Com efeito,
τ=
n(φˆ − 1) s q11 n
2 σ ε ψ (1) (1 / 2){W (1) − 1} λ → 1 λ2 W (r )2 dr 2
d
2
1 0
W (r ) 2 dr
σε
0
=
σ ε ψ (1) (1 / 2){W (1) 2 − 1} (1 / 2){W (1) 2 − 1} = , 1 1 λ 2 2 0
W (r ) dr
0
W (r ) dr
uma vez que σ ε ψ (1) = λ . Assim, não é necessário corrigir o rácio- τ , em consequência do facto de ∆yt −1 ser incluído na auto-regressão aumentada. A estatística-teste (10.24) chama-se estatística ADF- τ . O teste respectivo designa-se por teste ADF- τ . Os resultados (10.23) e (10.24) podem ser generalizados para qualquer processo na forma (10.19). Assim:
Capítulo 10 – Raízes unitárias e cointegração
40
Teorema 10.3 – Testes ADF de uma raiz unitária (sem termo independente) Suponha-se que { yt } é um processo ARIMA( p − 1,1, 0) , pelo que {∆yt } é um processo AR ( p − 1) estacionário com valor esperado nulo. Seja (φˆ, ξˆ1 , ξˆ2 , , ξˆp −1 ) o estimador MQ dos coeficientes da auto-regressão aumentada, (10.17). Tem-se (10.25)
d n(φˆ − 1) → DFφ (estatística ADF- φ ), 1 − ξˆ1 − ξˆ2 − − ξˆp −1
(10.26)
τ=
φˆ − 1 sφˆ
d
→ DFτ (estatística ADF- τ ),
onde sφˆ é o erro padrão de φˆ . A generalização óbvia de (10.22) é a seguinte: (10.27)
d
n (ξˆ − ξ ) → N ( p −1) (0, σ ε2 Ω −1 ) ,
onde
ξˆ1
ξ1 ξ=
ξ2 ξ p −1
, ξˆ =
ξˆ2 ξˆp −1
, Ω=
γ0
γ1
γ p−2
γ1
γ0
γ p −3
γ p − 2 γ p −3
γ0
e γ s ( s = 0,1, 2, , p − 2 ) é a autocovariância de ordem s de {∆yt } . Atendendo aos resultados obtidos na secção 9.5 relativamente à estimação MQ de processos auto-regressivos estacionários,verifica-se facilmente que esta distribuição assintótica referida em (10.27) é a mesma que se obteria se se estimasse (10.19) pelo método MQ. As hipóteses que envolvem apenas coeficientes dos regressores I (0) com valor esperado nulo, (ξ1 , ξ 2 , , ξ p −1 ) , podem ser testadas com os habituais rácios t e F (assintoticamente válidos). O teorema 10.3 pressupõe que a ordem de auto-regressão para ∆yt , p − 1 , é conhecida. Quando esta é desconhecida, deve propor-se um valor para p. Em muitas situações, quando os dados são anuais, é razoável admitir que bastam dois ou três desfasamentos; para dados mensais, sugere-se a utilização de 12 desfasamentos. No entanto, não existem regras absolutas para esta escolha. Numa primeira aproximação, pode utilizar-se o teste de Breusch-Godfrey para verificar se no modelo (10.19), ∆yt = ξ1∆yt −1 + ξ 2 ∆yt − 2 + + ξ p −1∆yt − ( p −1) + ε t (supondo φ = 1 ), sucessivamente com p = 1, 2, 3, , se detecta autocorrelação. O problema da estimação de p também pode ser abordado de uma forma semelhante à que foi estudada na secção na 9.6. As diferenças são as seguintes: no presente caso, o PGD é um processo estacionário nas primeiras diferenças, e não em níveis; o modelo é uma auto-regressão aumentada em que φ é livremente estimado.
Capítulo 10 – Raízes unitárias e cointegração
41
Vão apresentar-se três resultados para grandes amostras sobre a escolha da estimativa de p, pˆ , que permitem manter conclusões do teorema 10.3. Estes resultados são aplicáveis a uma classe mais geral de processos do que aquela que corresponde a este teorema: {∆yt } pode ser um processo ARMA( p, q ) estacionário e invertível, com valor esperado nulo (com a hipótese adicional de que existem os quartos momentos de ε t ). Assim, se q > 0 , a ordem da auto-regressão de ∆yt é infinita; se q = 0 , é finita. O primeiro resultado é que o teorema 10.3 continua a verificar-se quando pˆ cresce com a dimensão da amostra a uma taxa apropriada: (1) [Said e Dickey (1984)] Suponha-se que pˆ satisfaz (10.28)
pˆ → +∞ , mas
pˆ 1/ 3
n
→ 0 (quando n → +∞ ).
[isto é, pˆ tende para infinito, mas a uma taxa mais lenta do que n1 / 3 ] Então, as duas estatísticas, ADF- φ e ADF- τ , baseadas na auto-regressão aumentada com desfasamentos até à ordem pˆ nas primeiras diferenças, têm as mesmas distribuições limite referidas no teorema 10.3. Contudo, este resultado não fornece uma regra prática para seleccionar o comprimento do desfasamento, pˆ , já que existe uma infinidade de regras que satisfazem as condições (10.28). É, então, natural adoptar uma das regras indicadas na secção 9.5: a regra sequencial “do geral para o particular” baseada em rácios-t; os critérios de informação obtidos a partir de somas de quadrados de resíduos e na dimensão da amostra. Recapitulando, os critérios de informação fazem pˆ igual a valor de s que minimiza C ( n) SQR s , ln + ( s + 1) n n onde SQR s é a soma dos quadrados dos resíduos MQ da auto-regressão aumentada, yt = φ yt −1 + ξ1∆yt −1 + ξ 2 ∆yt − 2 +
+ ξ s ∆yt − s + ε t .
Para o critério de informação de Akaike (AIC) tem-se C (n) = 2 ; no caso do critério de informação Bayesiano (BIC), faz-se C (n) = ln(n) . Em qualquer dos casos, pˆ é seleccionado a partir dos valores de s = 0,1, 2, , p ∗ , onde p ∗ é fixado num valor que a priori se sabe ser maior ou igual que o verdadeiro p. O valor de pˆ escolhido é função das observações (não apenas da dimensão da amostra), e, portanto, é uma variável aleatória. Note-se que: quando q > 0 , o valor de p ∗ não pode ser igual ou superior à verdadeira ordem de auto-regressão (que é infinita); mas, pode fazer-se com que cresça com a dimensão da amostra; escreve-se p∗ (n) . Os outros dois resultados são os seguintes: (2) [Ng e Perron (1995)] Suponha-se que pˆ é seleccionado pela regra sequencial “do geral para o particular” baseada em rácios-t, em que p∗ (n) satisfaz as condições (10.28) e p ∗ (n) > c n g , para algum c > 0 e 0 < g < 1 / 3 . Então, as duas estatísticas, ADF- φ e ADF- τ , têm as mesmas distribuições limite do teorema 10.3.
Capítulo 10 – Raízes unitárias e cointegração
42
(3) [Ng e Perron (1995)] Suponha-se que pˆ é seleccionado pelo critério AIC ou pelo critério BIC, em que p ∗ (n) satisfaz as condições (10.28). Então, as duas estatísticas, ADF- φ e ADF- τ , têm as mesmas distribuições limite do teorema 10.3. As distribuições para pequenas amostras dependem da regra escolhida e da escolha do limite superior p∗ (n) [existe uma infinidade de escolhas válidas desta função]. Por exemplo, p ∗ (n) = int(n1 / 4 ) [a parte inteira de n1 / 4 ] satisfaz as condições do resultado (2). O mesmo acontece com p∗ (n) = int(100 n3 / 10 ) . Note-se que é importante que se utilize o mesmo p ∗ (n) para decidir qual a ordem da auto-regressão aumentada. Estudos de simulação [Schwert (1989)] sugerem que a escolha de p ∗ (n) , para qualquer das regras referidas nos resultados (2) e (3), seja n p (n) = int 12 100 ∗
1/ 4
.
O período amostral para seleccionar pˆ é t = p∗ (n) + 2, p ∗ (n) + 3, , n . O primeiro t é p∗ (n) + 2 porque p ∗ (n) + 1 observações são necessárias para calcular p ∗ (n) primeiras diferenças na auto-regressão aumentada. Como apenas n − p∗ (n) − 1 são utilizadas para estimar a auto-regressão yt = φ yt −1 + ξ1∆yt −1 + ξ 2 ∆yt − 2 + + ξ s ∆yt − s + ε t , para s = 1, 2, , p∗ (n) , a função objectivo dos critérios de informação passa a ser ln
SQR s C{n − p∗ (n) − 1} + ( s + 1 ) . n − p ∗ (n) − 1 n − p∗ ( n) − 1
Tal como nos testes DF, podem modificar-se os testes ADF quando se soma uma constante à série das observações. Considere-se o modelo (10.29)
yt = α 0 + zt , com zt = ϕ1 zt −1 + ϕ2 zt − 2 +
+ ϕ p zt − p + ε t ⇔ ϕ ( L) zt = ε t ,
onde {ε t } é um ruído branco independente. Multiplicando ambos os membros da igualdade yt = α 0 + zt por ϕ ( L) , obtém-se ϕ ( L) yt = ϕ (1)α 0 + ϕ ( L) zt ⇔ ϕ ( L) yt = α 0 (1 − φ ) + ε t , onde φ = ϕ1 + ϕ2 + + ϕ p . Utilizando a decomposição ϕ ( L) = (1 − φ ) L + ξ ( L)∆ , obtém-se, sem dificuldade, (10.30)
yt = α + φ yt −1 + ξ1∆yt −1 + ξ 2∆yt − 2 +
+ ξ p −1∆yt − p +1 + ε t ,
em que α = α 0 (1 − φ ) . Fica ao cuidado do leitor, obter (10.30) a partir de (10.17), substituindo yt por yt − α 0 . Embora a hipótese nula seja H 0 : φ = 1 ∧ α = 0 [que corresponde a que o processo { yt } seja I (1) ], os testes de raízes unitárias consideram apenas a restrição φ = 1 . Logo, continua a ter-se o teste ADF H 0 : φ = 1 contra H1 : φ < 1 .
Em vez de (10.30), pode fazer-se (10.31)
∆yt = α + θ yt −1 + ξ1∆yt −1 + ξ 2 ∆yt − 2 +
+ ξ p −1∆yt − p +1 + ε t ,
onde θ = φ − 1 . Se se utilizar (10.31), o teste ADF passa a ser
Capítulo 10 – Raízes unitárias e cointegração
43
H 0 : θ = 0 contra H1 : θ < 0 .
Para simplificar os cálculos, vai considerar-se p = 2 : (10.32)
yt = α + φ yt −1 + ξ1∆yt −1 + ε t .
Este modelo pode assumir a forma yt = xt • β + ε t ,
onde
α ∆yt −1 ] e β = φ . ξ1
xt • = [ 1 yt −1
Com a amostra ( y−1 , y0 , y1 , observações), obtendo-se
, yn ) , a estimação MQ é feita para t = 1, 2,
, n (n
αˆ βˆ = φˆc . ξˆ1 Sem dificuldade se conclui que (φˆc , ξˆ1 ) é numericamente igual à estimação MQ dos coeficientes da regressão de yt sobre ytc−1 e (∆yt −1 )c , onde ytc−1 = yt −1 − y [com y = ( y0 + y1 + y2 +
+ yn −1 ) / n ]
é o resíduo MQ da regressão de yt −1 sobre 1, e
(∆yt −1 )c = ∆yt −1 − ∆y [com ∆y = (∆y0 + ∆y1 + ∆y2 +
+ ∆yn −1 ) / n ]
é o resíduo MQ da regressão de ∆yt −1 sobre 1. Fazendo φ φˆ , βˆc = c e xtc• = [ ytc−1 (∆yt −1 )c ], βc = ξ1 ξˆ 1
o erro de amostragem é
βˆc − β c =
−1
n
n
( xtc• )T xtc• t =1
t =1
( xtc• )T ε t ,
onde n n t =1
(x ) x = c T t•
c t•
t =1
( ytc−1 ) 2
n
(∆yt −1 )c ytc−1 t =1
n c t =1 t −1 n
y (∆yt −1 )c
(∆yt −1 )c2 t =1
n n
e
t =1
(x ) εt = c T t•
t =1
ytc−1ε t
n
(∆yt −1 )c ε t t =1
Então,
Γn ( βˆc − β c ) =
n(φˆc − 1) = Γn−1 n (ξˆ − ξ ) 1
1
−1
n t =1
(x ) x c T t•
c t•
−1 n
Γ
Γn−1
n t =1
( xtc• )T ε t = Qn−1V• n ,
.
Capítulo 10 – Raízes unitárias e cointegração
44
onde n
Qn = Γn−1
t =1
n
( xtc• )T xtc• Γn−1 e V• n = Γn−1
t =1
( xtc• )T ε t ,
ou
Qn =
1 n2 1 1 n n
n t =1 n t =1
1 1 nn 1 n
( ytc−1 )2
(∆yt −1 )c y
c t −1
n t =1 n t =1
ytc−1 (∆yt −1 )c
e V• n =
2 t −1 c
(∆y )
1 n
1 n
n t =1
ytc−1ε t
n
(∆yt −1 )c ε t t =1
.
Assim (para φ = 1 ): − Elemento (1,1) de Qn . Como { yt } é I (1) sem deriva, tem-se 1 n2
d
n
( ytc−1 ) 2 → λ2 t =1
1 0
{W c (r )}2 dr ,
devido à propriedade c) do teorema 10.2. − Elemento (2,2) de Qn . Como (∆yt −1 )c = ∆yt −1 − ∆y , vem
(∆yt −1 )c2 = (∆yt −1 ) 2 − 2 ∆y (∆yt −1 ) + (∆y )2 , e 1 n
n t =1
(∆yt −1 )c2 =
1 n
=
1 n
n t =1
(∆yt −1 ) 2 − 2 ∆y
n
(∆yt −1 ) 2 − t =1
1 n
n t =1
∆yt −1 + (∆y )2 2
1 n
n
∆yt −1 . t =1
Como E (∆yt ) = 0 , E{(∆yt ) 2} = γ 0 e {∆yt } é um processo AR(1) estacionário (verifica-se a estacionaridade ergódica), tem-se
1 n
p
n
(∆yt −1 )c2 → γ 0 . t =1
− Elementos não diagonais de Qn . Facilmente se verifica que 1 1 n n
n t =1
(∆yt −1 )c ytc−1 =
1 1 n n
n t =1
1 1 n n
(∆yt −1 ) yt −1 −
Como se sabe, 1 n
(∆yt −1 ) yt −1 → t =1
1 1 n n
1 n Então,
d
n
n
d
n
y →λ t =1 t −1 p
∆yt −1 → 0 . t =1
λ2 2 1 0
W (1) 2 +
W (r )dr ,
γ0 2
,
n t =1
yt −1
1 n
n t =1
∆yt −1 .
Capítulo 10 – Raízes unitárias e cointegração 1 1 n n
45 p
n
(∆yt −1 )c ytc−1 → 0 . t =1
− Conclusão: 1
λ2 {W c (r )}2 dr 0
d
Qn → Q =
0
0
.
γ0
− Primeiro elemento de V• n . Como ytc−1 = yt −1 − y , a decomposição de Beveridge-Nelson permite escrever yt −1 = ψ (1) ωt −1 + ηt −1 + ( y0 − η0 ) , onde ωt −1 = ε1 + ε 2 + + ε t −1 , e como y=
1 n
n
1 n
yt −1 =
t =1
n t =1
{ψ (1) ωt −1 + ηt −1 + ( y0 − η0 )}
= ψ (1)
1 n
1 n η + ( y0 − η0 ) n t =1 t −1 = ψ (1) ω + η + ( y0 − η0 ) ,
1 n
ωt −1 e η =
n
ωt −1 +
t =1
onde
ω=
n t =1
1 n
n
ηt −1 .
t =1
Então, ytc−1 = yt −1 − y = ψ (1) (ωt −1 − ω ) + (ηt −1 − η ) = ψ (1) ωtc−1 + ηtc−1 . Logo,
1 n
n t =1
ytc−1ε t = ψ (1)
1 n
n t =1
ωtc−1ε t +
1 n
n
ηtc−1ε t .
t =1
Como ηt −1 é independente de ε t , a segunda parcela do segundo termo tende em probabilidade para 0. Notando que ε t = ∆ωt e que λ2 = γ 0 = σ ε2 , a propriedade d) do teorema 10.2 permite concluir que 1 n
d
n
ωc ε → t =1 t −1 t
σ ε2 2
[{W
c
(1)}2 − {W c (0)}2 − 1 ].
Então,
1 n
d
n
y c ε → v1 = σ ε2ψ (1) t =1 t −1 t
1 [{W c (1)}2 − {W c (0)}2 − 1 ]. 2
− Segundo elemento de V• n . Fica ao cuidado do leitor verificar que 1 n
d
n
(∆yt −1 )c ε t → v2 ~ N (0, γ 0 σ ε2 ) . t =1
− Conclusão: d
V• n → V =
v1 v2
=
σ ε2ψ (1)
1 [{W c (1)}2 − {W c (0)}2 − 1 ] . 2 v2 ~ N (0, γ 0 σ ε2 )
Utilizando os resultados anteriores, tem-se
Capítulo 10 – Raízes unitárias e cointegração n(φˆc − 1)
Γn ( βˆc − β c ) =
n (ξˆ1 − ξ1 )
d
46 1
−1
→Q V =
λ2 {W c (r )}2 dr
−1
0 1
=
0
v1
γ 0−1
v2
0
λ2 {W c (r )}2 dr 0
−1
v1
.
−1 0 2
γ v Portanto, d
n(φˆc − 1) →
σ ε2ψ (1) (1 / 2) [{W c (1)}2 − {W c (0)}2 − 1 ] , 1 c 2 2 λ2 λ {W (r )} dr 0
ou 2 2 c c d λ2 ˆ − 1) → (1 / 2) [ {W (1)} − {W (0)} − 1 ] = DF c , φ ( n φ 1 σ ε2ψ (1) c λ2 {W c (r )}2 dr
(10.33)
0
onde DFφc é a mesma variável aleatória obtida em (10.10) [por razões óbvias de notação, escreve-se DFφc em vez de DFϕc ]. Eliminando os parâmetros perturbadores, vem
n(φˆc − 1) d → DFφc , ˆ 1 − ξ1
(10.34)
em que a estatística-teste chama-se estatística ADF- φc . Quanto ao rácio- τ c , para φ = 1 , tem-se (10.35)
τc =
φˆc − 1 sφˆ
d
→ DFτc ,
c
onde sφˆ é o erro padrão de φˆc e DFτc é a mesma variável aleatória indicada em (10.11). c Os resultados (10.34) e (10.35) podem ser generalizados para qualquer p.
Teorema 10.4 – Testes ADF de uma raiz unitária (com termo independente) Suponha-se que { yt } é um processo ARIMA( p − 1,1, 0) , pelo que {∆yt } é um processo AR ( p − 1) estacionário com valor esperado nulo. Seja (αˆ , φˆc , ξˆ1 , ξˆ2 , , ξˆp −1 ) o estimador MQ dos coeficientes da auto-regressão aumentada com termo independente, (10.30). Então: (10.36)
d n(φˆc − 1) → DFφc (estatística ADF- φc ), 1 − ξˆ1 − ξˆ2 − − ξˆp −1
(10.37)
τc =
φˆc − 1 sφˆ
d
→ DFτc (estatística ADF- τ c ),
c
onde sφˆ é o erro padrão de φˆc . c
Capítulo 10 – Raízes unitárias e cointegração
47
Comentários: 1) Os testes estatísticos são invariantes com a adição de uma constante à série de observações. 2) A extensão de Said-Dickey-Ng-Perron continua aplicável: se {∆yt } é um processo ARMA( p, q ) estacionário e invertível (pelo que ∆yt pode ser escrito como um possível processo auto-regressivo infinito), então as estatísticas ADF- φc e ADF- τ c têm as distribuições limite indicadas no teorema 10.4, desde que pˆ seja escolhido com as regras atrás referidas. Podem desenvolver-se os testes ADF na presença de uma tendência linear: (10.38)
yt = α 0 + δ 0t + zt , com zt = ϕ1 zt −1 + ϕ2 zt − 2 +
+ ϕ p zt − p + ε t ⇔ ϕ ( L) zt = ε t ,
onde {ε t } é um ruído branco independente. Multiplicando ambos os membros da igualdade yt = α 0 + δ 0t + zt por ϕ (L) , obtém-se ϕ ( L) yt = ϕ (1)α 0 + δ 0ϕ ( L) t + ϕ ( L) zt ⇔ ϕ ( L) yt = α 0 (1 − φ ) + δ 0ϕ ( L) t + ε t , onde φ = ϕ1 + ϕ2 + + ϕ p . Utilizando a decomposição ϕ ( L) = (1 − φ ) L + ξ ( L)∆ , resulta, sem dificuldade, que (10.39)
yt = α + δ t + φ yt −1 + ξ1∆yt −1 + ξ 2 ∆yt − 2 +
+ ξ p −1∆yt − p +1 + ε t ,
onde α = α 0 (1 − φ ) + δ 0 (φ − ξ1 − ξ 2 − − ξ p −1 ) e δ = δ 0 (1 − φ ) . Fica ao cuidado do leitor verificar que (10.39) reulta directamente de (10.17), substituindo yt por yt − α 0 − δ 0 t . Como δ = 0 , quando φ = 1 , a hipótese nula de o processo { yt } ser I (1) , com ou sem deriva, implica φ = 1 e δ = 0 em (10.39). Contudo, os testes de raízes unitárias incidem apenas na restrição φ = 1 . Assim, o teste ADF é H 0 : φ = 1 contra H1 : φ < 1 . Em vez de (10.39), pode ter-se (10.40)
∆yt = α + δ t + θ yt −1 + ξ1∆yt −1 + ξ 2 ∆yt − 2 +
+ ξ p −1∆yt − p +1 + ε t ,
onde θ = φ − 1 . Se se utilizar (10.40), o teste ADF passa a ser H 0 : θ = 0 contra H1 : θ < 0 . Os resultados gerais para efectuar estes testes ADF são dados pelo teorema seguinte:
Teorema 10.5 – Testes ADF de uma raiz unitária (com tendência linear) Seja { yt } a soma de uma tendência linear com um processo ARIMA( p − 1,1, 0) , pelo que {∆yt } é um processo AR ( p − 1) estacionário cujo valor esperado pode, ou não, ser nulo. Seja (αˆ , δˆ, φˆct , ξˆ1 , ξˆ2 , , ξˆp −1 ) o estimador MQ dos coeficientes da auto-regressão aumentada com tendência linear, (10.39). Então: (10.41)
d n(φˆct − 1) → DFφct (estatística ADF- φct ), 1 − ξˆ1 − ξˆ2 − − ξˆp −1
Capítulo 10 – Raízes unitárias e cointegração
48
onde DFφct é a mesma variável aleatória obtida em (10.14) [por razões óbvias de notação, escreve-se DFφct em vez de DFϕct ]; (10.42)
τ ct =
φˆct − 1 sφˆ
d
→ DFτct (estatística ADF- τ ct ),
ct
onde sφˆ é o erro padrão de φˆct e DFτct é a variável aleatória indicada em (10.15). ct
Comentários: 1) Os testes estatísticos são invariantes com os parâmetros da tendência, (α 0 , δ 0 ) . 2) A extensão de Said-Dickey-Ng-Perron continua aplicável: se {∆yt } é um processo ARMA( p, q ) estacionário e invertível com valor esperado possivelmente não nulo, então as estatísticas ADF- φct e ADF- τ ct têm as distribuições limite indicadas no teorema 10.5, desde que pˆ seja escolhido com as regras já conhecidas. 3) O mesmo comentário que se fez a propósito da escolha do teste DF com ou sem tendência linear é aplicável ao testes ADF. Se houver razões para não considerar uma tendência linear, devem usar-se as estatísticas ADF- φc e ADF- τ c , porque, geralmente, a potência dos testes é maior se se não incluir a tendência na auto-regressão aumentada. No caso de ser razoável admitir a existência de uma tendência linear, deve recorrer-se às estatísticas ADF- φct e ADF- τ ct , incluindo a tendência na auto-regressão aumentada. 4) As tabelas dos valores críticos para efectuar os testes ADF são, de acordo com os teoremas 10.3, 10.4 e 10.5, as mesmas que se utilizam os testes DF, respectivamente (ver anexo 10.A). Exemplo 10.2 – Seja lpib o logaritmo do PIB português. Como se mostra na figura 10.1, com dados anuais de 1865 a 2001, o logaritmo do PIB evidencia uma tendência determinística linear e, eventualmente, uma tendência estocástica. O cronograma da taxa de variação do PIB parece confirmar esta possibilidade, uma vez que ∆lpib é, aparentemente, estacionário (ver figura 10.5). Para fazer o teste ADF vai considerar-se a seguinte auto-regressão aumentada: lpibt = α + δ t + φ lpibt −1 + ξ1 ∆lpibt −1 + ε t . Estimando esta equação pelo método MQ, obtém-se lpibt = 0.116619 + 0.0006775 t + 0.986205 lpibt −1 − 0.150456 ∆lpibt −1 + εˆt . Assim, tem-se φˆct = 0.986205 , e o respectivo erro padrão é igual a 0.012235. Os valores observados das estatísticas-teste são, respectivamente, os seguintes:
n(φˆct − 1) 135 × (0.986205 − 1) 0.986205 − 1 = −1.61879 ; τ c = = = −1.1275 . ˆ 1 − (−0.150456) 0.012235 1 − ξ1 O valor crítico (assintótico) a 5%, dado pela tabela 10A.1, é –21.7, isto é,
P( DFφct < −21.7) = 0.05 .
Capítulo 10 – Raízes unitárias e cointegração
49
0.2
0.15
0.1
0.05
0
-0.05
-0.1
-0.15 1865
1875
1885
1895
1905
1915
1925
1935
1945
1955
1965
1975
1985
1995
Taxa de variação do PIB
Fig. 10.5 – Cronograma da taxa de variação do PIB português Como se dispõe de 135 observações, o valor crítico está entre –20.6 e –21.3. Como o valor observado da estatística-teste é –1.61879, a evidência aponta claramente para a hipótese nula: a variável lpib é I (1) . O valor crítico (assintótico) a 5%, dado pela tabela 10.2, é –3.41, isto é, P( DFτct < −3.41) = 0.05 . Como se dispõe de 135 observações, o cálculo directo permite obter –3.438, para o valor crítico, e 0.949, para o valor-p. A evidência, ainda, é favorável para a hipótese nula. ∇ Os vários processos I (1) considerados nesta secção são casos particulares do seguinte modelo (conjunto de PGDs): (10.43)
yt = ct + zt , zt = φ zt −1 + ut ,
onde ct é a componente determinística, zt é a componente estocástica e {ut } é um processo I (0) com valor esperado nulo. Sob a hipótese nula, o processo {zt } é uma tendência estocástica ( φ = 1 ). Os casos particulares são os seguintes: 1) No modelo yt = ϕ yt −1 + ε t , tem-se ct = 0 , yt = zt , φ = ϕ e ut = ε t [o processo I (0) é um ruído branco independente]. 2) O modelo (10.8) corresponde a ct = α 0 , φ = ϕ e ut = ε t [o processo I (0) é um ruído branco independente]. Daqui resulta (10.9). 3) No modelo (10.12), tem-se ct = α 0 + δ 0 t , φ = ϕ e ut = ε t [o processo I (0) é um ruído branco independente], obtendo-se (10.13). 4) Com (10.16) obtém-se ct = 0 , yt = zt e ut = ξ1∆yt −1 + ξ 2 ∆yt − 2 + + ξ p −1∆yt − ( p −1) + ε t [o processo I (0) é um processo AR ( p − 1) estacionário com valor esperado nulo]. Daqui resulta (10.17).
Capítulo 10 – Raízes unitárias e cointegração
50
5) No modelo (10.29), tem-se ct = α 0 e ut = ξ1∆zt −1 + ξ 2 ∆zt − 2 + + ξ p −1∆zt − ( p −1) + ε t [o processo I (0) é um processo AR ( p − 1) estacionário com valor esperado nulo]. Obtém-se, então, (10.30). 6) Para obter o modelo dado por (10.39), faz-se ct = α 0 + δ 0 t e deve considerar-se o mesmo processo I (0) referido em 5): ut = ξ1∆zt −1 + ξ 2 ∆zt − 2 + + ξ p −1∆zt − ( p −1) + ε t . 7) Nos casos 4), 5) e 6), {ut } pode ser um processo ARMA( p, q ) estacionário e invertível, com valor esperado nulo [ver as extensões de Said-Dickey-Ng-Perron]. No caso de pequenas amostras, os testes DF e ADF mostram tendência para não rejeitar facilmente a hipótese nula, o que é sintoma de que estes testes são pouco potentes. Na literatura, estão disponíveis outros testes de raízes unitárias [ver Maddala e Kim (1998)]. São de destacar o teste de Phillips (1987) – que se aplica ao caso 4) com a extensão prevista em 7) –, e o teste de Phillips-Perron (1988), que é uma generalização do teste anterior de modo a cobrir os casos 5) e 6) com as extensões referidas em 7). Estes testes baseiam-se na estimação MQ do coeficiente de yt −1 de uma equação AR(1), e não de uma auto-regressão aumentada, em que a variância de longo prazo de {∆yt } é estimada com os respectivos resíduos. Suponha-se que { yt } é um processo I (1) , pelo que pode existir autocorrelação em ∆yt . Não obstante, vai estimar-se a equação AR(1) sem termo independente, yt = φ yt −1 + ε t . As estatísticas de Perron-Phillips são as seguintes: 2 2 1 n sφˆ ˆ2 ˆ Ζφ = n(φ − 1) − (λ − γˆ0 ) , 2 s2
Ζτ =
s 1 nsφˆ ˆ2 τ− (λ − γˆ0 ) , 2 sλˆ λˆ
onde φˆ é o estimador MQ de φ , sφˆ é o erro padrão de φˆ , s é o erro padrão da regressão, λˆ2 é um estimador consistende de λ 2 , γˆ0 é um estimador consistente de γ 0 , e τ é o rácio- τ para a hipótese nula φ = 1 . Como n
φˆ − 1 =
t =1
(∆yt ) yt −1 n
y2 t =1 t −1
s
e sφˆ =
,
n
y2 t =1 t −1
vem n
Ζφ = n
(∆yt ) yt −1 t =1 n
y2 t =1 t −1
n2
1 − 2
n
y2 t =1 t −1
(λˆ2 − γˆ0 ) =
(1 / n)
n t =1
(∆yt ) yt −1 − (1 / 2)(λˆ2 − γˆ0 )
(1 / n 2 )
n
y2 t =1 t −1
Atendendo às propriedades a) e b) do teorema 10.2, tem-se
λ2 d
Ζφ → 2
2
W (1) −
γ0
λ2
γ
2 − + 0 2 2 2 = (1 / 2){W (1) − 1} = DF . φ 1 1 W (r ) 2 dr λ2 W (r ) 2 dr 0
0
.
Capítulo 10 – Raízes unitárias e cointegração
51
Verifica-se facilmente que
Ζτ =
1 1 nsφˆ ˆ2 s s (λ − γˆ0 ) = τ − τ− ˆ ˆ ˆ 2 ˆ 2 sλ λ λ λ
n n t =1
yt2−1
(λˆ2 − γˆ0 ) =
s (1 / 2)(λˆ2 − γˆ0 ) τ− . n 2 2 λˆ ˆ λ (1 / n ) t =1 yt −1
Como λ2 = γ 0 = σ ε2 , e atendendo à propriedade a) do teorema 10.2, obtém-se d
Ζτ →
(1 / 2)(λ2 − γ 0 ) σε DFτ − = DFτ . 1 λ 2 2 λ λ W (r ) dr 0
Os testes de Phillips não gozam de boas propriedades em pequenas amostras. No entanto, existe uma nova geração de testes de raízes unitárias com distorsões de dimensão razoavelmente reduzidas e potência aceitável. São de referir o teste ADF-GLS de Elliott, Rothenberg e Stock (1996), e os testes-M de Perron e Ng (1996). 10.4 - Cointegração: estudo preliminar A utilização de variáveis não estacionárias [e, em particular, I (1) ] em modelos de regressão pode ter consequências absurdas, porque, em geral, elas tendem afastar-se quando n → +∞ (esta questão vai se aprofundada na secção 10.7, quando se estudar o problema das regressões espúrias). Contudo, a teoria económica sugere que, em certos casos, um determinado conjunto de variáveis (duas ou mais) podem estar ligadas por meio de uma relação de equilíbrio de longo prazo, isto é, por uma relação que se mantém, em média, durante um longo período. Mesmo que no curto prazo se verifiquem desequilíbrios, no longo prazo, as variáveis tenderão a mover-se para uma situação de equilíbrio, ou seja, existem forças que actuam de forma a restabelecer o equilíbrio. Uma via que tem permitido estudar este tipo de situações é a análise da cointegração. Nos casos mais simples, a noção de cointegração corresponde a considerar duas ou mais variáveis I (1) , e procurar uma combinação linear delas que seja I (0) . Cada variável, considerada individualmente, é I (1) , mas existe uma relação equilíbrio de longo prazo que associa as variáveis, e que é representado pela combinação linear. A cointegração garante que as variáveis I (1) , que aparentemente estariam dispersas, estão associadas numa combinação linear. A questão fundamental da análise da cointegração é que, embora as variáveis em questão tendam a crescer ou a decrescer no tempo de uma forma não estacionária, elas podem “andar ou seguir em conjunto”. Na figura 10.6 apresenta-se o cronograma das observações anuais para o período de 1960 a 2005, para Portugal, do logaritmo do PIB e do logaritmo da despesa de consumo privado final, a preços de 2000. Ambas as séries têm tendência linear determinística e tendência estocástica. Estas variáveis I (1) são cointegradas? A mera apreciação da figura sugere que sim, uma vez que, aparentemente, as duas trajectórias são “paralelas”. Esta questão vai ser esclarecida na secção 10.7.
Capítulo 10 – Raízes unitárias e cointegração
52
5.0
4.5
4.0
3.5
3.0
2.5
2.0 1960
1965
1970
1975
1980
1985
Log Consum o Privado
1990
1995
2000
2005
Log PIB
Fig. 10.6 – Logaritmo do consumo privado e logaritmo do PIB em Portugal. Fonte: Annual macro-economic (AMECO) database.
Exemplo 10.3 – Admita-se que
yt = λ xt + ε t1 xt = xt −1 + ε t 2 , onde ε t1 e ε t 2 são ruídos brancos não correlacionados. Conclui-se imediatamente que xt ~ I (1) , uma vez que ∆xt = ε t 2 . Como
∆yt = λ ∆ xt + ∆ε t1 = λ ε t 2 + ∆ε t1 , verifica-se, também, que yt ~ I (1) . Contudo, existe uma combinação linear das variáveis yt e xt que é I (0) . Com efeito, tem-se ε t1 = yt − λ xt ~ I (0) . ∇
Exemplo 10.4 – Seja r 6 t a taxa de juro dos títulos do tesouro a 6 meses (no final do trimestre t, anualizada), e r 3t a respectiva taxa de juro a 3 meses. Sabe-se que cada uma destas variáveis é I (1) , e que o spread entre as duas taxas de juro, sprt = r 6 t − r 3t , é I (0) . Então, as duas variáveis são cointegradas porque sprt ~ I (0) é combinação linear de r 6 t e r 3t . Esta cointegração tem uma interpretação económica simples. Se r 6 t e r 3t não fossem cointegradas, a diferença entre as duas taxas de juro tenderia a ser muito grande, e a não se aproximarem. Por exemplo, suponha-se que o spread crescia durante muitos períodos, o que tornava o investimento em títulos do tesouro a 6 meses muito mais atraente do que a 3 meses. Então, os investidores renunciavam aos títulos a 3 meses a favor dos títulos a 6 meses, fazendo subir o preço destes, e baixando o preço daqueles. Como as taxas de juro têm uma relação inversa com o preço dos títulos, diminuía r6 e aumentava r3, até que o spread fosse reduzido. Deste modo, não é de esperar que se mantenham grandes diferenças entre r6 e r3: o spread tem tendência para regressar ao seu valor médio (em princípio ligeiramente positivo, porque o retorno dos investidores a mais longo prazo é superior ao dos investidores a mais curto prazo).
Capítulo 10 – Raízes unitárias e cointegração
53
Pode, também, argumentar-se que existe uma relação de longo prazo entre as duas taxas de juro. Com efeito, seja µ = E ( sprt ) . Então, pode escrever-se
r 6t = r 3t + µ + ε t , onde {ε t } é um ruído branco. A relação de equilíbrio é dada por r 6e = r 3e + µ , que ocorre quando ε t = 0 ; pode haver erros de equilíbrio temporários, mas existem forças no sistema que “puxam” r6 e r3 para a situação de equilíbrio. ∇ Podem referir-se muitas outras situações de cointegração de variáveis econó-
micas: a) Davidson, Hendry, Sbra e Yeo (1978) sugerem que as variáveis macroeconómicas consumo e rendimento são I (1) . Contudo, a longo prazo, o consumo tende a ser, aproximadamente, uma proporção constante do rendimento, pelo que é razoável admitir que a diferença entre o logaritmo do consumo e o logaritmo do rendimento é um processo estacionário. b) A teoria da paridade dos poderes de compra (PPP) permite interpretações que conduzem a processos cointegrados. Um caso interessante refere-se aos preços dos bens em dois países diferentes. Sejam Pt1 e Pt 2 os níveis gerais de preços nos países 1 e 2, respectivamente; Pt1 é contabilizado em unidades monetárias do país 1, e Pt 2 , em unidades monetárias do país 2. Abstraindo dos custos de transporte, a teoria PPP sugere que os preços efectivos devem ser semelhantes nos dois países: Pt1 = St Pt 2 , onde St é a taxa de câmbio. Fazendo pt1 = log( Pt1 ) , pt 2 = log( Pt 2 ) e st = log( St ) , resulta pt1 = st + pt 2 . Na prática, existem erros que impedem a PPP de ser verificar exactamente. Pode, então, escrever-se ut = pt1 − st − pt 2 . A teoria PPP sugere que a variável ut é estacionária, embora pt1 , pt 2 e st possam ser I (1) . c) Sejam f t e st os logaritmos dos preços forward e spot de uma moeda estrangeira, respectivamente. A hipótese da eficiência dos mercados sugere que f t = E ( st +1 ) , ou seja, o preço forward é o valor de expectativa, no período t, do preço spot no período t + 1 . A hipótese das expectivas racionais estabelece que os erros das expectivas são estacionários com valor esperado nulo: ut +1 = st +1 − E ( st +1 ) ~ I (0) e E (ut +1 ) = 0 . Então, resulta que ut +1 = st +1 − f t ~ I (0) . Se st +1 e f t são I (1) , existe uma combinação linear destas variáveis que é I (0) . d) Sabendo que as variávies PNB, dívida pública e défice orçamental são I (1) , e que os governos tendem a garantir que a dívida pública e o défice orçamental sejam aproximadamente proporcionais ao PNB, é de esperar que os logaritmos destas três variáveis sejam cointegrados. e) A existência de uma função procura de moeda estável implica que o logaritmo do stock real de moeda, o logaritmo do rendimento real e taxa de juro nominal são cointegradas. f) Podem, ainda, referir-se os seguintes pares de variáveis cointegradas: salários e preços; taxas de juro de curto e longo prazo; taxa de juro nominal e taxa de inflação; cotações da acções e dividendos; produção e vendas; existências e vendas.
Capítulo 10 – Raízes unitárias e cointegração
54
Nesta secção vai fazer-se um estudo preliminar da cointegração, considerando apenas dois processos I (1) . Considere-se um processo { yt } , e suponha-se que yt = ct + zt , onde ct é a componente determinística, e zt é a componente estocástica. Por exemplo, a componente determinística pode ser apenas uma constante ( ct = α 0 ), ser composta por uma tendência linear ( ct = α 0 + δ 0 t ) ou ser mais complexa (incluir “dummies” sazonais ou outras variáveis não estocásticas). Quando yt ~ I (1) , {zt } é uma tendência estocástica; quando yt ~ I (0) , {zt } é um processo estacionário com valor esperado nulo. Podem estabelecer-se algumas propriedades sobre combinações lineares de processos I (0) e I (1) . Sendo a e b constantes diferentes de zero, tem-se: 1)
xt ~ I (d )
2)
yt ~ I (0) ∧ xt ~ I (0)
a yt + b xt ~ I (0) ;
3)
yt ~ I (1) ∧ xt ~ I (0)
a yt + b xt ~ I (1) [o processo I (1) é dominante];
a + b xt ~ I (d ) , onde d = 0,1 ;
4) Em geral, yt ~ I (1) ∧ xt ~ I (1)
a yt + b xt ~ I (1) .
A excepção a esta última regra é o caso especial de cointegração:
Definição 10.5 – Cointegração de dois processos I (1) Considerem-se dois processos I (1) , { yt } e {xt } . Se existir um vector a=
a1 a2
≠0
tal que (10.44)
ut = a1 yt + a2 xt ~ I (0)
então { yt } e {xt } dizem-se cointegrados, escrevendo-se ( yt , xt ) ~ CI , e o vector a chama-se vector de cointegração. Se, por exemplo, a1 = 1 e a2 = −λ , tem-se
u t = y t − λ xt e a =
1
−λ
.
Alternativamente, podia-se fazer a1 = −γ e a2 = 1 , e obtinha-se
ut = −γ yt + xt e a =
−γ 1
.
Conclui-se, assim, que o vector a não é único; contudo, se se fixar em 1 uma das suas componentes, o vector de cointegração é único. No que se segue, vai supor-se que a1 = 1 , e, portanto, ut = yt − λ xt . Nestas condições, pode dizer-se que λ ≠ 0 é o parâmetro de cointegração.
Capítulo 10 – Raízes unitárias e cointegração
55
Vai analisar-se a questão da existência de uma componente determinística na expressão de ut . Como yt ~ I (1) , pode escrever-se yt = ct1 + zt1 , onde ct1 é a componente determinística e zt1 é a tendência estocástica; do mesmo modo, xt ~ I (1) permite fazer xt = ct 2 + zt 2 , onde ct 2 é a componente determinística e zt 2 é a tendência estocástica. Facilmente se verifica que zt1 − λ zt 2 ~ I (0) . Como
ut = yt − λ xt = (ct1 + zt1 ) − λ (ct 2 + zt 2 ) = zt1 − λ zt 2 + ct , onde ct = ct1 − λ ct 2 , verifica-se que a cointegração das tendências estocásticas não elimina a componente determinística. No caso particular em que ct1 = α1 + δ1 t e ct 2 = α 2 + δ 2 t , conclui-se que δ1 é a deriva de yt [ δ1 = E (∆yt ) ] e que δ 2 é a deriva de xt [ δ 2 = E (∆ xt ) ]. Neste caso,
ut = yt − λ xt = (α1 + δ1 t + zt1 ) − λ (α 2 + δ 2 t + zt 2 ) = {(α1 − λα 2 ) + (δ1 − λδ 2 ) t } + ( zt1 − λ zt 2 )
,
verifica-se que a cointegração das tendências estocásticas não elimina a tendência linear. Por exemplo, admita-se que { yt } e {xt } são passeios aleatórios com deriva,
yt = α1 + yt −1 + ε t1 e xt = α 2 + xt −1 + ε t 2 , ou
yt = y0 + α1 t +
t s =1
ε s1 e xt = x0 + α 2 t +
t s =1
ε s2 .
Então,
ut = yt − λ xt = y0 + α1 t + =
t s =1
ε s1 − λ
t s =1
ε s1 − λ x0 + α 2 t +
t s =1
t s =1
ε s2
ε s 2 + {( y0 − λ x0 ) + (α1 − λ α 2 ) t }.
A cointegração tenta revelar a existência de um equilíbrio de longo prazo para o qual converge o sistema económico em estudo. Se, por exemplo, a teoria económica sugere a relação de equilíbrio entre yt e xt , yt = λ xt , então ut pode ser interpretado como o erro de equilíbrio (o desvio relativamente ao equilíbrio). O ideal seria ter-se ut = 0 . Uma relação (equação) de cointegração traduz estatisticamente uma relação de equilíbrio de longo prazo. Com efeito, se ut ~ I (0) , o erro de equilíbrio tem as seguintes características: a) Não apresenta qualquer comportamento sistemático, ao longo do tempo, para se desviar da sua componente determinística; b) Mantém-se sempre dentro de certos limites (porque a sua variância é constante); c) É assintoticamente não correlacionado (porque é estacionário e ergódico); d) Tem tendência para regressar, com regularidade, à sua média, isto é, tem um comportamento mean reversing. Por exemplo, suponha-se que os processos { yt } e {xt } são passeios aleatórios sem deriva: yt = yt −1 + ε t1 e xt = xt −1 + ε t 2 . Admitindo, para simplificar, que os valores
Capítulo 10 – Raízes unitárias e cointegração
56
iniciais são nulos ( y0 = x0 = 0 ), tem-se que E ( yt ) = 0 e E ( xt ) = 0 . Nestas condições, o modo de evolução destes processos não é mean reversing (não regressam com regularidade aos seus valores médios que, neste caso, são os valores iniciais nulos). Se, no entanto, ut = yt − xt ~ I (0) ( λ = 1 e ct = 0 ), o processo {ut } tem valor esperado nulo e evolui de tal modo que regressa, com alguma regularidade, ao valor nulo.
10.5 - Sistemas cointegrados Os processos (escalares) I (0) lineares definidos na secção 10.2 (ver definição 10.3) podem ser generalizados para processos vectoriais.
Definição 10.6 – Processo m-dimensional I (0) linear Seja { y•t } um processo estocástico vectorial, onde y•t é um vector aleatório m × 1 . O processo { y•t } é um processo I (0) linear, y•t ~ I (0) , se e só se y•t = c•t + w•t , em que c•t é a componente vectorial determinística, e o processo {w•t } verifica as seguintes condições: a) w•t = Ψ ( L)ε •t , onde Ψ ( L) = I m + Ψ1L + Ψ2 L2 + , Ψs ( s = 1, 2, ) é uma matriz de tipo m × m , e {ε •t } é um ruído branco independente [com E (ε •t ) = 0 e Cov(ε •t ) = Σε (matriz definida positiva)]; b) {Ψs } é somável de 1.ª ordem [cada sucessão {ψ ijs } , onde ψ ijs é o elemento genérico s de Ψs , é somável de 1.ª ordem, isto é, verifica-se a condição Σ +∞ s = 0 s | ψ ij | < +∞ ]; c) Ψ (1) = I m + Ψ1 + Ψ2 + ≠ O (matriz nula m × m ): pelo menos um dos elementos da matriz Ψ (1) não é nulo. Como {Ψs } é somável de 1.ª ordem, também é absolutamente somável. Pode, então, concluir-se que {w•t } é um processo VMA (∞) , com valor esperado nulo, estacionário e ergódico. Facilmente se conclui (ver secções 9.4 e 9.7) que a matriz das covariâncias de longo prazo de {w•t } é dada por (10.45)
Ψ (1) Σε Ψ (1)T .
A definição 10.6 garante que qualquer componente do vector w•t é integrada de ordem inferior a 1. Contudo, como Σ ε é definida positiva e Ψ (1) ≠ O , pelo menos um dos elementos diagonais da matriz das covariâncias de longo prazo é positivo, o que implica que pelo menos uma das componentes do vector w•t é, individualmente, I (0) . Não se exige que Ψ (1) seja não singular. Com efeito, é mesmo desejável, para a teoria da cointegração, haver a possibilidade de Ψ (1) ser singular. Assim, (10.45) pode, também, ser singular.
Exemplo 10.5 – Considere-se o seguinte processo VMA(1) bivariado:
w1t = ε1t − ε1,t −1 + λ ε 2,t −1 w2t = ε 2t ,
Capítulo 10 – Raízes unitárias e cointegração
57
ou w•t = ε •t + Ψ1ε •,t −1 , onde w•t =
w1t w2t
, ε •t =
ε1t −1 λ e Ψ1 = . ε 2t 0 0
A condição b) da definição 10.6 é obviamente verificada, porque o processo é de 1.ª ordem. Como
Ψ (1) = I 2 + Ψ1 =
0 λ 0 1
≠O,
fica garantida a condição c). Se λ ≠ 0 , w1t ~ I (0) e w2t ~ I (0) ; se λ = 0 , w1t ~ I (−1) e w2t ~ I (0) .
∇ Definição 10.7 - Processo m-dimensional I (d ) linear O processo m-dimensional { y•t } é um processo linear integrado de ordem d (inteiro e positivo) se e só se {∆d y•t } é um processo I (0) linear. Escreve-se y•t ~ I (d ) . Em particular, y•t ~ I (1) se e só se ∆y•t ~ I (0) . Seja {w•t } um processo I (0) linear, com valor esperado nulo. O processo { y•t } é um processo m-dimensional I (1) linear associado com {w•t } se e só se (10.46)
∆y•t = c•t + w•t ,
onde c•t é a componente determinística. Assim, E (∆y•t ) = c•t . Esta associação entre os processos I (0) e I (1) , pode ser generalizada para qualquer processo I (d ) . De facto, se {w•t } é um processo I (0) linear, com valor esperado nulo, o processo { y•t } é um processo m-dimensional I (d ) linear associado com {w•t } se e só se ∆ d y•t = c•t + w•t . No que se segue vai explorar-se o caso d = 1 . Como nem todas as componentes de w•t são, individualmente, I (0) , algumas componentes de y•t podem não ser I (1) . Contudo, está garantido que nenhuma componente de y•t tem ordem de integração superior a 1, e pelo menos uma é I (1) . Atendendo a que w•t = Ψ ( L)ε •t , vem (10.47)
∆ y•t = c•t + Ψ ( L)ε •t ,
que é a representação VMA de um processo vectorial I (1) . Fazendo
C•t = em níveis, pode escrever-se (10.48)
y•t = y•0 + C•t + W•t ,
t
c
s =1 • s
e W•t =
t s =1
w• s ,
Capítulo 10 – Raízes unitárias e cointegração
58
onde y•0 é um vector de constantes, ou é um vector aleatório independente de ε •t , qualquer que seja t. Por exemplo, se c•t = α , tem-se y•t = y• 0 + α t + W•t
Exemplo 10.6 – Um processo I (1) associado ao processo I (0) , com valor esperado nulo, considerado no exemplo 10.5, é o seguinte:
∆y1t = α1 + ε1t − ε1,t −1 + λ ε 2,t −1 ∆y2t = α 2 + ε 2t . Fazendo
∆y•t = α + ε •t + Ψ1ε •,t −1 = α + Ψ ( L)ε •t , onde
∆y•t =
∆y1t ∆y2t
,α=
α1 −1 λ 1 0 1− L λL e Ψ ( L) = , + L= α2 0 1 0 0 0 1
tem-se a respectiva representação VMA. Em níveis, tem-se
y1t = y10 + α1t + (ε1t − ε10 ) + λ (ε 20 + ε 21 + y2t = y20 + α 2t + (ε 21 + ε 22 +
+ ε 2,t −1 )
+ ε 2t ).
Conclui-se imediatamente que y2t ~ I (1) . Quando λ ≠ 0 , y1t ~ I (1) . Se λ = 0 , o processo { y1t } é estacionário em tendência porque y1t = ( y10 − ε10 ) + α1t + ε1t , ou seja, y1t ~ I (0) . Para λ = 0 , facilmente se verifica que y1t + y2t ~ I (1) , provando que a variância de longo prazo de { y1t + y2t } é positiva. Com efeito, notando que
∆y1t + ∆y2t = α1 + α 2 + ε1t − ε1,t −1 + ε 2t , e que as variâncias de longo prazo de ε1t − ε1,t −1 e de ε 2t são, respectivamente, 0 e σ ε22 , obtém-se a conclusão pretendida. ∇ Vai fazer-se a decomposição de Beveridge-Nelson de (10.48). Com efeito, a versão multivariada de (10.3) é (10.49)
Ψ ( L) = Ψ (1) + (1 − L) D ( L) ,
onde
D( L) =
+∞
i =0
Di Li = D0 + D1L + D2 L2 +
e Di = −(Ψi +1 + Ψi + 2 + é uma matriz quadrada de ordem m.
) (i = 0,1, 2, )
Capítulo 10 – Raízes unitárias e cointegração
59
Então,
w•t = Ψ ( L)ε •t = {Ψ (1) + (1 − L) D( L)}ε •t = Ψ (1)ε •t + D( L)ε •t − D( L)ε •,t −1 = Ψ (1)ε •t + η•t − η•,t −1 , onde η•t = D ( L)ε •t . Como Ψ (L) é somável de 1.ª ordem, D(L) é absolutamente somável, e {η•t } é estacionário em covariância. Substituindo a expressão de w•t em (10.48), obtém-se a respectiva decomposição de Beveridge-Nelson: (10.50)
y•t = C•t + Ψ (1) ω•t + η•t + ( y• 0 − η• 0 ) ,
onde ω•t = ε •1 + ε • 2 + + ε •t . Assim, o processo { y•t } decompõe-se em quatro parcelas: a componente determinística, C•t ; a tendência estocástica, Ψ (1) ω•t ; o processo estacionário, η•t ; a condição inicial, y•0 − η• 0 . Por construção, η• 0 é um vector aleatório, pelo que o valor inicial também é aleatório.
Exemplo 10.7 – Retomando o exemplo 10.6, tem-se D( L) = −Ψ1 , e, portanto,
η•t = −Ψ1ε •t =
1 −λ 0 0
ε1t ε − λ ε 2t . = 1t ε 2t 0
A tendência estocástica bidimensional é dada por
Ψ (1) ω•t =
0 λ 0 1
t
ε
s =1 1s t
ε s =1 2 s
=
t
λ
s =1 t
ε 2s
ε s =1 2 s
,
verificando-se que as suas duas componentes são geradas pela mesma tendência estocástica, Σts =1ε 2 s . ∇ Para preparar a definição de cointegração, seja { y•t } é um processo I (1) linear. Este processo não é I (0) porque possui uma tendência estocástica, Ψ (1) ω•t . Esta tendência pode desaparecer, considerando uma adequada combinação linear dos elementos de y•t . Pré-multiplicando ambos os membros de (10.50) por aT , onde a é um vector m × 1 de constantes ai ( i = 1, 2, , m ), tem-se aT y•t = aT C•t + aT Ψ (1) ω•t + aTη•t + aT ( y• 0 − η• 0 ) .
Se a satisfaz a condição (10.51)
aT Ψ (1) = 0 ,
onde 0 é o vector nulo 1 × m , a tendência estocástica é eliminada, obtendo-se (10.52)
aT y•t = aT C•t + aTη•t + aT ( y• 0 − η• 0 ) .
Capítulo 10 – Raízes unitárias e cointegração
60
Em rigor, não está garantido que o processo {aT y•t } é I (0) [é estacionário em torno da componente determinística], porque a condição inicial, aT ( y•0 − η• 0 ) , pode estar correlacionada com os valores subsequentes de aTη•t . O processo {aT y•t } será I (0) se, por exemplo, o valor inicial, y•0 , for tal que aT ( y•0 − η•0 ) = 0 . Para mostrar que o processo {aT y•t } pode não ser I (0) , considere-se, por exemplo, a seguinte situação simples: η•t = ε •t − ε •,t −1 , c•t = 0 (para qualquer t) e y•0 = 0 . Em primeiro lugar, vai verificar-se que 2Σ ε
(t = 0)
Cov(η•t ,η• 0 ) = − Σε
(t = 1)
O
(t > 1).
Com efeito, notando que
Cov(η•t ,η• 0 ) = E (η•tη•T0 ) = E{(ε •t − ε •,t −1 )(ε •0 − ε •, −1 )T } , tem-se: − Para t = 0 : E{(ε • 0 − ε •, −1 )(ε • 0 − ε •, −1 )T } = E (ε • 0ε •T0 ) + E (ε •, −1ε •T, −1 ) = 2Σε ; − Para t = 1 : E{(ε •1 − ε • 0 )(ε • 0 − ε •, −1 )T } = − E (ε •0ε •T0 ) = −Σε ; − Para t > 1 : E{(ε •t − ε •,t −1 )(ε • 0 − ε •, −1 )T } = O . A seguir, vai provar-se que 0 Var (a y•t ) = 6a Σε a T
T
(t = 0) (t = 1)
4aT Σε a (t > 1). De facto, como aT y•t = aT (ε •t − ε •,t −1 − ε • 0 + ε •, −1 ) , e
Var (aT y•t ) = aT E{(ε •t − ε •,t −1 − ε •0 + ε •, −1 )(ε •t − ε •,t −1 − ε • 0 + ε •, −1 )T } a , vem: − Para t = 0 :
ε • 0 − ε •, −1 − ε • 0 + ε •, −1 = 0
Var (aT y•t ) = 0 ;
− Para t = 1 :
E{(ε •1 − 2ε •0 + ε •, −1 )(ε •1 − 2ε • 0 + ε •, −1 )T } = 6Σε −
Var (aT y•t ) = 6aT Σε a ;
Para t > 1 :
E{(ε •t − ε •,t −1 − ε • 0 + ε •, −1 )(ε •t − ε •,t −1 − ε •0 + ε •, −1 )T } = 4Σε Contudo, verifica-se que {a T y•t } é I (0) para t = 2, 3,
Var (aT y•t ) = 4aT Σε a . .
Capítulo 10 – Raízes unitárias e cointegração
61
Definição 10.8 – Cointegração de um processo m-dimensional I (1) linear Seja { y•t } um processo I (1) linear. O processo { y•t } é cointegrado se e só se existe um vector m × 1 , a ≠ 0 , tal que {aT y•t } é I (0) , para uma escolha adequada do valor inicial, y•0 . Escreve-se y•t ~ CI . O vector a chama-se vector de cointegração.
Esta definição não implica, necessariamente, que a teoria da cointegração exija que y•0 seja escolhido da forma indicada. Como se viu, η•t e η• 0 podem estar correlacionados, o que implica que {aT y•t } não é I (0) . Contudo, como η•t = D( L)ε •t , e D( L) é absolutamente somável, η•t e η• 0 tornam-se assintoticamente independentes (quando t cresce). Neste sentido, o processo {aT y•t } é assintoticamente I (0) (assintoticamente estacionário em torno da componente determinística). Esta estacionaridade assintótica é tudo o que é preciso para a estimação e inferência com processos I (1) cointegrados. É possível generalizar a definição de cointegração para qualquer processo I (d ) linear: o processo I (d ) linear, { y•t } , é cointegrado de ordem (d , b) , com d ≥ b e b > 0 , se e só se existe um vector m × 1 , a ≠ 0 , tal que {aT y•t } é I (d − b) , para uma escolha adequada do valor inicial, y•0 . Escreve-se y•t ~ CI(d , b) . O vector a chama-se vector de cointegração. Verifica-se, assim, que se um processo I (d ) linear dá lugar a uma combinação linear com ordem de integração menor, então aquelas variáveis dizem-se cointegradas. O caso mais interessante é aquele em que d = b = 1 (ver definição 10.8): escreve-se yt • ~ CI(1,1) . Retomando o caso CI(1,1), vão apresentar-se alguns conceitos relacionados com o de cointegração: − A característica da cointegração (rank cointegration) é o número de vectores de cointegração linearmente independentes. O espaço da cointegração é o espaço gerado pelos vectores de cointegração (conjunto de todas as combinações lineares dos vectores de cointegração linearmente independentes). Como se sabe, o vector m × 1 , a ≠ 0 , é vector de cointegração se e só se aT Ψ (1) = 0 . Então, a característica da cointegração é h se e só se (10.53)
r{Ψ (1)} = m − h .
Assim, a característica da cointegração, h, é igual a m − r{Ψ (1)} . − Suponha-se, sem perda de generalidade, que o primeiro elemento de a é diferente de 0. Diz-se, então, que y1t (o primeiro elemento de y•t ) é cointegrado com y•( t2 ) (os restantes m − 1 elementos de y•t ), ou que y1t é parte de uma relação de cointegração. Facilmente se verifica que as m − 1 variáveis que compõem y•( t2 ) não são cointegradas quando não existe um vector b ≠ 0 , (m − 1) × 1 , tal que aT Ψ (1) = 0 , com aT = [ 0 bT ] T . Assim, y•( t2 ) não é cointegrado se e só se as últimas m − 1 linhas de Ψ (1) são linearmente independentes. − As considerações anteriores podem ser generalizadas para o caso de um subvector de y•t . Assim, seja y (1) y•t = •( 2t ) , y•t
Capítulo 10 – Raízes unitárias e cointegração
62
onde os subvectores y•(1t ) e y•(t2) têm, respectivamente, m1 e m2 elementos. Os subvectores respectivos de a são a•1 (com m1 elementos) e a• 2 (com m2 elementos). Supondo que a•1 ≠ 0 , diz-se que y•(1t ) é cointegrado com y•(t2) . Então, pode concluir-se que o vector y•(t2) não é cointegrado quando não existe um vector b ≠ 0 , com m2 elementos, tal que aT Ψ (1) = 0 , com aT = [ 0 bT ] T . Logo, y•(t2) não é cointegrado se e só se as últimas m2 linhas de Ψ (1) são linearmente independentes. − A componente determinística não é eliminada de (10.52), a menos que se verifique (10.54)
aT C•t = 0 .
Neste caso, (10.55)
aT y•t = aTη•t + aT ( y• 0 − η• 0 ) .
é estacionário [e não apenas I (0) ], para uma escolha adequada de y•0 . Como em muitas aplicações há um vector de cointegração que elimina a tendência estocástica e a componente determinística, pode, em geral, supor-se que se verificam as condições (10.51) e (10.54). A condição (10.54) implica que a componente determinística é combinação linear das colunas de Ψ (1) , pelo que (10.56)
r ( [ C•t Ψ (1)] ) = m − h .
Deste modo, pode supor-se, em geral, que se verifica (10.53) e (10.56) quando a característica de cointegração é igual a h. Por exemplo, quando c•t = α , tem-se C•t = α t , e a condição (10.54) reduz-se a aT α = 0 . Neste caso, α é combinação linear das colunas de Ψ (1) , pelo que a característica da matriz m × (m + 1) , [ α Ψ (1) ], é igual a m − h . Quando um vector de cointegração elimina a tendência estocástica, mas não elimina a componente determinística, diz-se que se tem cointegração estocástica. Exemplo 10.8 – Retome-se o exemplo 10.5. Como
Ψ (1) =
0 λ 0 1
,
verifica-se que r{Ψ (1)} = 1 , pelo que a característica da cointegração é h = 1 . Para determinar os vectores de cointegração utiliza-se (10.51), ou seja,
[ a1
a2 ]
0 λ 0 1
= [ 0 0 ].
Como a1 λ + a2 = 0 , resulta que
a= qualquer que seja a1 ≠ 0 . Tem-se
a1 1 , = a1 − a1 λ −λ
Capítulo 10 – Raízes unitárias e cointegração
[α
Ψ (1) ] =
63
α1 0 λ . α2 0 1
A hipótese de que o vector de cointegração também elimina a tendência determinística é dada por a1α1 − a1 λ α 2 = 0 ou α1 = λ α 2 , o implica que a característica da matriz [ α Ψ (1) ] é igual a 1. ∇ A seguir, analisam-se algumas implicações da definição de cointegração (definição 10.8): − Supondo que a característica da cointegração é h, seja A a matriz m × h que agrupa os h vectores de cointegração linearmente independentes. Se B é uma matriz quadrada de ordem h, não singular, conclui-se que as h colunas de AB são, ainda, vectores de cointegração linearmente independentes. Basta notar que multiplicar A por uma matriz não singular, B, o produto tem a mesma característica do que A. − Num processo I (1) m-dimensional, a característica da cointegração é sempre inferior a m. Se fosse igual a m, ter-se-ía r{Ψ (1)} = 0 , e Ψ (1) seria a matriz nula, o que contradizia a condição c) da definição 10.6. − A matriz das covariâncias de longo prazo de ∆y•t é dada por Ψ (1) Σε Ψ (1)T [ver (10.45)], que é definida positiva se e só se Ψ (1) é não singular. Então, atendendo a (10.53), y•t não é cointegrado se e só se a matriz das covariâncias de longo prazo de ∆y•t é definida positiva. Como a variância de longo prazo de cada elemento de ∆y•t é positiva se a matriz das covariâncias de longo prazo de ∆y•t é definida positiva, segue-se que cada elemento de y•t é, individualmente, I (1) , se y•t não é cointegrado. O mesmo acontece com qualquer subvector de y•t . Por exemplo, seja y•( t2 ) o subvector formado pelos últimos m − 1 elementos de y•t . A matriz das covariâncias de longo prazo de y•( t2 ) é dada por Ψ2 (1) Σε Ψ2 (1)T , onde Ψ2 (1) é formado pelas últimas m − 1 linhas de Ψ (1) . Tal matriz é definida positiva se e só se as linhas de Ψ2 (1) são linearmente independentes [ y•( t2 ) não é cointegrado]. Em particular, cada elemento de y•( t2 ) é, individualmente, I (1) se y•( t2 ) não é cointegrado. − Se y•t é I (1) , e se o seu primeiro elemento, y1t , é I (0) , então a característica da cointegração é, pelo menos, igual a 1. Com efeito, basta notar que
[1
0
0]
y1t y2 t
= y1t ~ I (0)
ymt − Suponha-se que y1t é cointegrado com y•( t2 ) . Vai provar-se que: se h = 1 , y•( t2 ) não é cointegrado; se h > 1 , y•( t2 ) é cointegrado. Com efeito, a cointegração de y1t com y•( t2 ) implica que existe um vector de cointegração, a, cujo primeiro elemento não é 0. Se h = 1 , então não existe vector (m − 1) × 1 , b ≠ 0 , tal que a∗ = [ 0 bT ] T é um vector de cointegração, porque a e a∗ são linearmente independentes. Se h > 1 , pode encontrar-se um vector a∗ com a forma referida.
Capítulo 10 – Raízes unitárias e cointegração
64
− Se ∆y•t é estacionário (sem deriva) [ y•t é diferença-estacionário], pode pensar-se que se pode modelar o seu comportamento por meio de um processo VAR ( p ) estacionário, Φ( L)∆y•t = ε •t , onde Φ( L) é um polinómio em L, de grau p, com coeficientes matriciais (ver secção 9.4), tal que as raízes de | Φ( z ) |= 0 estão no exterior do círculo unitário. Nestas condições, y•t não pode ser cointegrado. Com efeito, se Φ( L) satisfaz a condição de estacionaridade, vem Ψ ( L) = Φ ( L) −1 = I m + Ψ1L + Ψ2 L2 +
,
e a sucessão de matrizes {Ψs } é somável de 1.ª ordem. Então, ∆y•t = Φ ( L)−1ε •t é um processo VMA(∞) a satisfazer as condições a) e b) da definição 10.6. Além disso, | Ψ (1) | = | Φ (1)−1 | = | Φ(1) |−1 ≠ 0 . Então, Ψ (1) é não singular, e a matriz das covariâncias de longo prazo de ∆y•t é definida positiva. No exemplo 10.7 apresentou-se um processo I (1) bidimensional em que as duas componentes da tendência estocástica são geradas pela mesma tendência estocástica. Este resultado pode ser generalizado para qualquer processo I (1) m-dimensional linear cointegrado. Retome-se a decomposição de Beveridge-Nelson (10.50), y•t = C•t + Ψ (1) ω•t + η•t + ( y• 0 − η• 0 ) ,
onde ω•t = ε •1 + ε •2 + + ε •t . Considere-se o seguinte resultado algébrico: − Se C é uma matriz quadrada de ordem m, com característica m − h , então existe uma matriz G, quadrada de ordem m e não singular, e uma matriz F, de tipo m × (m − h) com r ( F ) = m − h , tais que C G = [ F O ], onde O é a matriz nula m × h . Vai provar-se que a tendência estocástica, Ψ (1) ω•t , pode escrever-se na forma F v•t , onde F é uma matriz m × (m − h) tal que r ( F ) = m − h , e v•t é um passeio aleatório ( m − h )-dimensional com Cov(∆v•t ) definida positiva. Com efeito, seja Ψ (1) ω•t = Ψ (1) GG −1ω•t e v•t o subvector de G −1ω•t correspondente aos seus primeiros m − h elementos. Então,
Ψ (1) ω•t = Ψ (1) G
v•t , v•∗t
onde v•∗t abrange os últimos h elementos de G −1ω•t . Invocando o resultado algébrico referido, e fazendo C = Ψ (1) , tem-se
Ψ (1) ω•t = [ F
O]
Portanto, tem-se (10.57)
y•t = C•t + F v•t + η•t + ( y•0 − η•0 ) ,
v•t = F v•t . v•∗t
Capítulo 10 – Raízes unitárias e cointegração
65
o que mostra que { y•t } , processo I (1) , onde a característica da cointegração é igual a h, tem m − h tendências estocásticas comuns. Trata-se da representação com tendências comuns de um processo I (1) [Stock e Watson (1988)]. 10.6 - Representações alternativas de sistemas cointegrados
Além da representação com tendências comuns, existem outras representações úteis dos processos vectoriais I (1) cointegrados: a representação triangular de Phillips (1991); a representação VAR; a representação VMCE [mecanismo de correcção do erro vectorial; Davidson, Hendry, Sbra e Yeo (1978)]. Representação triangular de Phillips
Esta representação é adequada para estimar os vectores de cointegração. Embora seja válida para qualquer h (característica da cointegração), começa-se por supor que h = 1 . Seja a um vector de cointegração, e suponha-se, sem perda de generalidade, que o primeiro elemento de a é diferente de 0. Fazendo y•t =
y1t y•(t2)
,
onde y•( t2 ) é o subvector de y•t com m − 1 elementos, conclui-se que y1t é cointegrado com y•( t2 ) . Quando se multiplica um vector de cointegração por um escalar obtém-se outro vector de cointegração. Normalizando a de modo que o primeiro elemento seja igual a 1, vem a1 a 1 a= 2 = , −λ am onde λ é um vector (m − 1) × 1 . A partir de (10.52), tem-se y1t − λT y•( t2 ) = [1 − λT ] C•t + [1 − λT ]η•t + [1 − λT ]( y• 0 − η• 0 ) ,
ou (10.58)
y1t = β 0 + β T z•t + λT y•(t2) + ut ,
onde: − β 0 = [1 − λT ]( y•0 − η•0 ) = ( y10 − η10 ) − λT ( y•( 02 ) − η•(02) ) [termo independente]; − β T z•t = [1 − λT ] C•t [componente determinística]; − ut = [1 − λT ]η•t = η1t − λTη•(t2) [variável residual; ut é estacionário, porque η•t é estacionário];
Capítulo 10 – Raízes unitárias e cointegração
66
− Nestas expressões distingue-se o primeiro elemento dos vectores y•0 , η• 0 e η•t , dos respectivos m − 1 elementos; − z•t é o vector dos regressores correspondentes à componente determinística; − β é o vector dos respectivos coeficientes de regressão; − Os m − 1 coeficientes de regressão das variáveis incluídas no vector y•( t2 ) constituem o vector λ . A equação (10.58) chama-se regressão de cointegração (ou relação de cointegração). A relação entre y1t e a componente sistemática de (10.58), β 0 + β T z•t + λT y•(t2 ) , pode ser interpretada como a relação de equilíbrio de longo prazo entre y1t e y•( t2 ) (esta relação corresponde a fazer ut = 0 ). Pode escrever-se y1et = β 0 + β T z•t + λT y•(t2) ,
e notar que a variável residual ut é o erro de equilíbrio. Pode analisar-se com mais pormenor a componente determinística. Por exemplo, se c•t = α , e, portanto, C•t = α t , tem-se
β T z•t = [1 − λT ]α t = (α1 − λTα • 2 ) t = β1 t , onde β1 = α1 − λTα • 2 e zt = t . Neste caso, a regressão de cointegração é a seguinte: y1t = β 0 + β1 t + λT y•(t2 ) + ut .
Se c•t = α + δ t , vem C•t = α +
δ 2
t+
δ 2
t2 ,
e, portanto,
β T z•t = [1 − λT ] α + = α1 +
δ1 2
δ 2
− λT α • 2 +
t+
δ •2 2
δ 2
t2 t+
δ1 2
− λT
δ •2 2
t 2 = β1 t + β 2 t 2 ,
onde
β1 = α1 +
δ1 2
− λT α • 2 +
δ •2 2
, β2 =
δ1 2
− λT
δ •2 2
, z1t = t e z2t = t 2 .
Neste caso, a regressão de cointegração é dada por yt1 = β 0 + β1 t + β 2 t 2 + λT y•( t2 ) + ut . Se o vector de cointegração elimina a tendência estocástica e a componente determinística, (10.58) reduz-se a (10.59)
y1t = β 0 + λT y•( t2) + ut .
Capítulo 10 – Raízes unitárias e cointegração
67
A representação triangular de Phillips do processo { y•t } cointegrado é o sistema de m equações formado pela equação (10.58) e pelas últimas m − 1 equações de (10.46) [considerando (10.47)], (10.60)
∆y•(t2) = c•(t2 ) + w•(t2) = c•( t2 ) + Ψ2 ( L)ε •t ,
Ψ2 ( L) é formada pelas últimas m − 1 linhas de Ψ (L) . Por exemplo, quando c•t = α , vem ∆y•(t2) = α • 2 + w•(t2) = α • 2 + Ψ2 ( L)ε •t . Como h = 1 , o vector y•( t2 ) não é cointegrado. Em particular, cada elemento de y•( t2 ) é, individualmente, I (1) . Quando h > 1 , é possível seleccionar h vectores de cointegração linearmente independentes, a•1 , a• 2 ,..., a• h , tais que A = [ a•1 a• 2
a• h ] =
Ih −Λ
,
onde Λ é uma matriz (m − h) × h . A partição respectiva de y•t é dada por y•t =
y•(1t ) y•(t2)
,
onde y•(1t ) é um vector h × 1 , e y•( t2 ) , (m − h) × 1 . Como AT Ψ (1) = O , pré-multiplicando ambos os membros de (10.50) por AT , obtém-se um sistema de h regressões de cointegração, y•(1t ) = AT ( y• 0 − η• 0 ) + AT C•t + ΛT y•(t2) + ATη•t , ou (10.61)
y•(1t ) = β • 0 + ΒT z•t + ΛT y•(t2) + u•t ,
onde: − β •0 = AT ( y• 0 − η• 0 ) [vector dos termos independentes]; − ΒT z•t = AT C•t [vector das componentes determinísticas]; − u•t = ATη•t [vector das variáveis residuais; u•t é estacionário, porque η•t é estacionário]. Quando a matriz A dos vectores de cointegração elimina também a componente determinística, obtém-se (10.62)
y•(1t ) = β • 0 + ΛT y•(t2) + u•t .
Para obter a representação triangular do processo { y•t } cointegrado, junta-se ao sistema de h equações (10.61) [ou (10.62)] as últimas m − h equações de (10.46) [considerando (10.47)], (10.63)
∆y•(t2) = c•(t2 ) + w•(t2) = c•( t2 ) + Ψ2 ( L)ε •t ,
Capítulo 10 – Raízes unitárias e cointegração
68
onde Ψ2 ( L) é formada pelas últimas m − h linhas de Ψ (L) . Deve notar-se que o vector das variáveis residuais da representação triangular é dado por u•t Ψ1∗ ( L) ∗ = Ψ ( L ) = ε ε •t , •t w•(t2) Ψ2 ( L)
uma vez que u•t = ATη•t = AT D( L) ε •t = Ψ1∗ ( L) ε •t e w•(t2) = Ψ2 ( L)ε •t ,
fazendo AT D( L) = [ I h − ΛT ] D( L) = Ψ1∗ ( L) . Facilmente se prova que y•( t2 ) não é cointegrado. Com efeito, basta verificar que a matriz Ψ2 (1) , de tipo (m − h) × m , tem característica igual a m − h (as linhas são linearmente independentes). Suponha-se que as linhas são linearmente dependentes, isto é, existe um vector b ≠ 0 , com m − h componentes, tal que bT Ψ2 (1) = 0 . A característica da cointegração seria pelo menos h + 1 , uma vez que o vector m-dimensional a=
0
b
seria um vector de cointegração. De facto, ter-se-ía aT y•t = bT y•( t2) . Exemplo 10.9 – No processo bivariado considerado nos exemplos 10.6, 10.7 e 10.8 a característica da cointegração é igual a 1. O vector de cointegração, cuja primeira componente é igual a 1, é dado por [ 1 − λ ] T . Tem-se ε1t − λ ε 2t ut = [ 1 − λ ]η•t = [ 1 − λ ] = ε1t − λ ε 2t , 0
β 0 = [ 1 − λ ]( y•0 − η•0 ) = [ 1 − λ ]
y10 − (ε10 − λ ε 20 ) y20 − 0
= ( y10 − λ y20 ) − (ε10 − λ ε 20 ) ,
e
β T z• t = [ 1 − λ ]
α1 t = (α1 − λα 2 ) t = β1 t , α2
onde β1 = α1 − λα 2 . A representação triangular é a seguinte:
y1t = β 0 + β1 t + λ y2t + (ε1t − λ ε 2t )
∆y2t = α 2 + ε 2t . Como
ut ε − λ ε 2t 1 −λ = 1t = w2t ε 2t 0 1
ε1t , ε 2t
Capítulo 10 – Raízes unitárias e cointegração
69
verifica-se que, mesmo que as componentes do vector ε •t não estejam correlacionados, ut = ε1t − λ ε 2t está correlacionado com w2t = ε 2t . Facilmente se obtém a representação VMA (ver exemplo 10.6) a partir da representação triangular. Com efeito, calculando as primeiras diferenças da primeira equação desta representação (a regressão de cointegração), tem-se
∆y1t = β1 + λ ∆y2t + ε1t − λ ε 2t − ε1,t −1 + λ ε 2,t −1 = β1 + λ (∆y2t −ε 2t ) + ε1t − ε1,t −1 + λ ε 2,t −1 = β1 + λα 2 + ε1t − ε1,t −1 + λ ε 2,t −1 = α1 + ε1t − ε1,t −1 + λ ε 2,t −1. Daqui resulta ∆y1t = α1 + ε1t − ε1,t −1 + λ ε 2,t −1 ∆y 2 t = α 2 + ε 2 t ,
obtendo-se a representação VMA do processo. ∇ VAR e cointegração
Quando se considerou o caso estacionário, concluiu-se que, em muitas situações, é conveniente modelar um processo vectorial por meio de um VAR finito (ver secção 9.4 do capítulo 9). Sabe-se, também, que nenhum processo vectorial I (1) cointegrado pode ser representado por um VAR finito nas primeiras diferenças. Contudo, alguns processos cointegrados podem admitir uma representação VAR finita em níveis. Com efeito, considere-se que o processo m-dimensional { y•t } é I (1) . Utilizando a decomposição de Beveridge-Nelson (10.50), tem-se (10.64)
y•t = d •t + v•t ,
onde d •t = ( y•0 − η• 0 ) + C•t e v•t = Ψ (1) ω•t + η•t ,
onde se separa a componente estocástica da componente determinística (e da condição inicial). Obviamente, o processo {v•t } é I (1) . Suponha-se que o processo {v•t } se pode representar por um VAR ( p ) , ou seja, Φ( L)v•t = ε •t , onde Φ( L) = I m − Φ1L − Φ 2 L2 − − Φ p Lp e {ε •t } é um ruído branco. Fazendo Φ( L) y•t = Φ ( L)d•t + ε •t , pode eliminar-se v•t de (10.64), obtendo-se (10.65)
y•t = d•∗t + Φ1 y•,t −1 + Φ 2 y•,t − 2 +
+ Φ p y•,t − p + ε •t ,
onde d •∗t = Φ( L)d •t . Por exemplo, se c•t = α , tem-se d •t = ( y• 0 − η• 0 ) + α t , e d •∗t = Φ ( L){( y• 0 − η• 0 ) + α t} = Φ(1)( y•0 − η•0 ) + ( I m − Φ1L − Φ 2 L2 − = Φ(1)( y•0 − η•0 ) + (Φ1 + 2Φ 2 +
− Φ p Lp )α t
+ pΦ p )α + Φ (1)α t ,
Capítulo 10 – Raízes unitárias e cointegração
70
e (10.65) assume a forma y•t = θ• 0 + θ•1 t + Φ1 y•,t −1 + Φ 2 y•,t − 2 +
+ Φ p y•,t − p + ε •t ,
onde θ• 0 = Φ(1)( y• 0 − η• 0 ) + (Φ1 + 2Φ 2 + + pΦ p )α e θ•1 = Φ(1)α . Em que condições se pode garantir que o processo VAR ( p ) em níveis, dado por (10.65), é um processo I (1) cointegrado? Para isso, vai obter-se a representação VMA, ∆v•t = Ψ ( L)ε •t (em primeiras diferenças), a partir da representação VAR, Φ( L)v•t = ε •t (em níveis), e verificar se o filtro Ψ ( L) satisfaz a definição de processo cointegrado. Com efeito, pré-multiplicando ambos os membros da igualdade Φ( L)v•t = ε •t por 1 − L , vem (1 − L)Φ( L)v•t = (1 − L)ε •t . Notando que 1 − L = ∆ e que (1 − L)Φ ( L) = Φ ( L)(1 − L) , obtém-se Φ( L)∆v•t = (1 − L)ε •t . Como Φ 0 = I m , existe Φ( L)−1 , e, portanto, ∆v•t = Φ ( L) −1 (1 − L)ε •t = Ψ ( L)ε •t , onde Ψ ( L) = Φ ( L) −1 (1 − L) . Que condições deve verificar Φ( L) para que Ψ ( L) seja somável de 1.ª ordem e para que a característica de Ψ (1) seja m − h ? É fácil obter uma condição necessária. Considerando Φ( L)Ψ ( L) = (1 − L) I m , e fazendo L = 1 , obtém-se Φ(1)Ψ (1) = O . Como a característica de Ψ (1) é m − h quando a característica da cointegração de v•t é h, a característica de Φ (1) é pelo menos h. Para estabelecer uma condição necessária e suficiente, sejam U ( L) e V ( L) dois polinómios matriciais em L com todas as raízes no exterior do círculo unitário, e seja 1− L
M ( L) =
(1 − L) I m − h O
O
Ih
=
0
0
0
0
1− L 0
0
0
0
1
0
0
0
0
1
.
Pode demonstrar-se que: uma condição necessária e suficiente para que {v•t } , a verificar Φ( L)v•t = ε •t , seja um processo I (1) cointegrado com característica h é que Φ( L) possa ser factorizado da seguinte maneira: Φ( L) = U ( L) M ( L)V ( L) . Deste modo, todas as raízes de | Φ( z ) | = 0 encontram-se na fronteira ou no exterior do círculo unitário, e aquelas que estão na fronteira são raízes unitárias ( z = 1 ). Não é suficiente que Φ( L) tenha m − h raízes unitárias (e as restantes no exterior do círculo unitário) [ver exemplo 10.10; neste exemplo, Φ( z ) tem duas raízes unitárias e uma raiz no exterior do círculo unitário, mas o processo não é I (1) ]; as m − h raízes unitárias têm que obedecer à forma como é feita a factorização, ou seja, Φ( z ) = U ( z ) M ( z )V ( z ) . Fazendo z = 1 nesta factorização, obtém-se Φ(1) = U (1) M (1)V (1) . Como as raízes de U ( z ) e de V ( z ) se encontram no exterior do círculo unitário, U (1) e V (1) são não singulares, e a característica de Φ (1) é igual à característica de M (1) (ou seja, h). Assim, r{Φ(1)} = h .
Capítulo 10 – Raízes unitárias e cointegração
71
Nestas condições, sabe-se da álgebra das matrizes que existem duas matrizes de tipo m × h , A e G, a verificar r ( A) = r (G ) = h , e tais que Φ(1) = GAT . A escolha das matrizes A e G não é única; se F é uma matriz quadrada de ordem h, não singular, então G ( F T )−1 e AF também verificam a igualdade anterior. Substituindo Φ(1) por GAT em Φ(1)Ψ (1) = O , obtém-se GAT Ψ (1) = O . Como r (G ) = h , vem AT Ψ (1) = O . Então, as h colunas de A são vectores de cointegração. Como se viu, Ψ ( L) = Φ ( L) −1 (1 − L) . Contudo, é possível obter Ψ ( L) explorando a factorização anterior de Φ( L) . De facto, como U ( L) M ( L)V ( L)v•t = ε •t , e notando que U ( L)−1 é absolutamente somável, vem M ( L)V ( L)v•t = U ( L) −1ε •t . Fazendo
M ( L) =
I m−h
O
O
(1 − L) I h
,
tem-se M ( L) M ( L)V ( L)v•t = M ( L)U ( L)−1ε •t . Notando que M ( L) M ( L) = (1 − L) I m e que (1 − L)V ( L) = V ( L)(1 − L) , resulta V ( L)∆v•t = M ( L)U ( L) −1ε •t . Como V ( L) −1 é absolutamente somável, obtém-se ∆v•t = Ψ ( L)ε •t , onde Ψ ( L) = V ( L) −1 M ( L)U ( L)−1 . Note-se, ainda, que: − A condição de factorização Φ( L) = U ( L) M ( L)V ( L) garante que o filtro Ψ ( L) é absolutamente somável, e que o {∆v•t } é I (0) . Assim, como Φ( L)∆v•t = (1 − L)ε •t , o processo {∆v•t } pode, também, representar-se por um VAR ( p ) ; − A definição de v•t , dada em (10.64), permite concluir que ∆v•t = Ψ (1)ε •t + η•t − η•,t −1 = {Ψ (1) + D( L)(1 − L)}ε •t , e que Ψ ( L) = Ψ (1) + D( L)(1 − L) . Exemplo 10.10 – Considere-se o seguinte processo VAR(2) trivariado:
y1t = 2 y1,t −1 − y1,t − 2 + ε1t y2t = ϕ y2,t −1 + ε 2t y3t = ε 3t . Notando que a primeira equação é equivalente a ∆2 y1t = ε t1 , facilmente se verifica que o processo é I (2) . Com efeito, basta obter a representação VMA de ∆2 y•t , onde
y1t y•t = y2t . y3t Assim, ∆2 y1t = ε1t ∆2 y2t = (1 − ϕ L)−1 ∆2ε 2t ∆2 y3t = ∆2ε 3t ,
Capítulo 10 – Raízes unitárias e cointegração
72
ou
∆2 y1t = ε1t ∆2 y2t = ε 2t + (ϕ − 2)ε 2,t −1 + (ϕ 2 − 2ϕ + 1)ε 2,t − 2 + ∆2 y3t = ε 3t − 2ε 3,t −1 + ε 3,t − 2 . Então,
∆2 y1t ∆2 y•t = ∆2 y2t = ε •t + Ψ1ε •,t −1 + Ψ2ε •,t − 2 +
,
∆2 y3t onde
ε1t
0
0
0
0
0
0
0
0 , Ψ2 = 0 ϕ 2 − 2ϕ + 1 0 ,...
ε •t = ε 2t , Ψ1 = 0 ϕ − 2 ε 3t
0
−2
0
0
1
Como
y1t − 2 y1,t −1 + y1,t − 2 = ε1t y2t − ϕ y2,t −1 = ε 2t y3t = ε 3t , tem-se 1 0 0
2 0 0
−1 0 0
Φ( L) = 0 1 0 − 0 ϕ 0 L − 0 0 0 1
0 0 0
0
0 0 L2 . 0 0
Considerando
1 − 2z + z2 Φ( z ) =
0 0
0
0
1−ϕ z 0 , 0
1
podem obter-se as raízes da equação | Φ( z ) | = 0 . Como | Φ( z ) | = (1 − 2 z + z 2 )(1 − ϕ z ) = 0 , vem z1 = z2 = 1 (duas raízes unitárias) e z3 = 1 ϕ (uma raiz no exterior do círculo unitário). ∇ O modelo com mecanismo de correcção do erro vectorial (VMCE)
O procedimento utilizado no caso unidimensional para obter a auto-regressão aumentada (10.17) pode ser aplicado ao processo VAR. Com efeito, seja Φ( L)v•t = ε •t e
Capítulo 10 – Raízes unitárias e cointegração
73
a decomposição Φ(1) L + H ( L)(1 − L) , onde Η ( L) = I m − Η1L − Η 2 L2 − − Η p −1Lp −1 e Η s = −(Φ s +1 + Φ s + 2 + + Φ p ) , para s = 1, 2, , p − 1 . Facilmente se obtém (10.66)
v•t = Θv•,t −1 + Η1∆v•,t −1 + Η 2∆v•,t − 2 +
+ Η p −1∆v•,t − p +1 + ε •t ,
onde Θ = Φ1 + Φ 2 + + Φ p . Como Θ − I m = −Φ (1) , e subtraindo v•,t −1 a ambos os membros de (10.66), vem ∆v•t = −Φ (1)v•,t −1 + Η1∆v•,t −1 + Η 2∆v•,t − 2 +
(10.67)
= −GAT v•,t −1 + Η1∆v•,t −1 + Η 2 ∆v•,t − 2 +
+ Η p −1∆v•,t − p +1 + ε •t + Η p −1∆v•,t − p +1 + ε •t .
Como y•t = d•t + v•t , e atendendo a (10.67), vem ∆y•t − ∆d •t = −GAT ( y•,t −1 − d•,t −1 ) + Η1 (∆y•,t −1 − ∆d •,t −1 ) + Η 2 (∆y•,t − 2 − ∆d •,t − 2 ) +
+ Η p −1 (∆y•,t − p +1 − ∆d •,t − p +1 ) + ε •t ,
ou
∆y•t = d•∗t − GAT y•,t −1 + Η1∆y•,t −1 + Η 2 ∆y•,t − 2 +
+ Η p −1∆y•,t − p +1 + ε •t ,
onde d •∗t = GAT d•,t −1 + ∆d •t − Η1∆d •,t −1 − Η 2∆d •,t − 2 −
− Η p −1∆d •,t − p +1
= Φ (1)d•,t −1 + Η ( L)∆d •t = Φ ( L)d•t . Como AT y•,t −1 = [ I h − ΛT ]
y•(1,t)−1 y•( ,2t)−1
= y•(1,t)−1 − ΛT y•( ,2t)−1 ,
obtém-se (10.68)
∆y•t = d •∗t − G{ y•(1,t)−1 − ΛT y•(,2t)−1} + Η1∆y•,t −1 + Η 2 ∆y•,t − 2 +
+ Η p −1∆y•,t − p +1 + ε •t ,
onde AT y•,t −1 = y•(1,t)−1 − ΛT y•( ,2t)−1 é estacionário em torno da componente determinística (com uma escolha adequada do valor inicial y• 0 ), uma vez que as colunas da matriz A são vectores de cointegração. A representação vectorial (10.68) constitui o modelo com mecanismo de correcção do erro (VMCE). É a presença do termo de correcção do erro,
− G{ y•(1,t)−1 − ΛT y•(,2t)−1} , que garante a cointegração do processo (o processo VAR nas primeiras diferenças não é cointegrado). O modelo VMCE envolve h relações de cointegração, pois inclui h combinações lineares das variáveis em níveis. Quando c•t = α , (10.68) reduz-se a (10.69)
∆y•t = θ• 0 + θ•1 t − G{ y•(1,t)−1 − ΛT y•(,2t)−1} + Η1∆y•,t −1 + Η 2 ∆y•,t − 2 +
+ Η p −1∆y•,t − p +1 + ε •t ,
Capítulo 10 – Raízes unitárias e cointegração
74
onde θ• 0 = Φ(1)( y• 0 − η• 0 ) + (Φ1 + 2Φ 2 + + pΦ p )α e θ•1 = Φ(1)α . Se não existem tendências temporais lineares determinísticas nas relações de cointegração ( AT α = 0 ), então θ•1 = Φ (1)α = GAT α = 0 . Neste caso, as representações VAR e VMCE não envolvem tendências temporais determinísticas, apesar da sua possível existência nos elementos de y•t . A representação (10.68) pode apresentar-se de outro modo. Com efeito, atendendo à definição de d •t [ver (10.64)], tem-se
d•∗t = GAT d•,t −1 + Η ( L)c•t , onde
AT d•,t −1 = AT ( y• 0 − η• 0 ) + AT C•,t −1 = β • 0 + ΒT z•,t −1 . Então, (10.70)
∆y•t = Η ( L)c•t − G{ y•(1,t)−1 − ( β • 0 + ΒT z•,t −1 + ΛT y•(,2t)−1 )} + Η1∆y•,t −1 + Η 2 ∆y•,t − 2 +
+ Η p −1∆y•,t − p +1 + ε •t .
Nesta representação, o termo de correcção do erro é dado por
− G{ y•(1,t)−1 − ( β •0 + ΒT z•,t −1 + ΛT y•( ,2t)−1 )} . Quando c•t = α , (10.70) reduz-se a (10.71)
∆y•t = Η (1)α − G y•(1,t)−1 − {β• 0 + β•1 (t − 1) + ΛT y•( ,2t)−1} + Η1∆y•,t −1 + Η 2 ∆y•,t − 2 +
+ Η p −1∆y•,t − p +1 + ε •t .
onde ΒT z•,t −1 = AT C•,t −1 = [ I h − ΛT ]
α •1 α•2
(t − 1) = (α •1 − ΛTα • 2 )(t − 1) = β •1 (t − 1) ,
com β•1 = α •1 − ΛT α • 2 . As considerações feitas nesta subsecção e na subsecção precedente permitem concluir que o mesmo processo I (0) pode ter representações VAR, VMA e VMCE. Este resultado é conhecido pela designação de teorema da representação de Granger. Exemplo 10.11 – Retome-se o exemplo 10.9, onde se apresentou a representação triangular do processo do exemplo 10.6. Agora, vão deduzir-se as representações VAR e VMCE a partir da mesma representação VMA (ver exemplos 10.5 e 10.6). Com o filtro Ψ (L) obtido no exemplo 10.6 é fácil verificar que Ψ ( L) = Φ ( L) −1 (1 − L) , para
Φ( L) = I 2 − Φ1L =
1 0 0 1
−
0 λ 0 1
L=
1 ´−λ L 0 1− L
.
Com efeito, basta fazer o produto Φ( L)Ψ ( L) , e obter (1 − L) I 2 . A representação VAR é dada por y•t = θ • 0 + θ •1 t + Φ1 y•,t −1 + ε •t ,
Capítulo 10 – Raízes unitárias e cointegração
75
ou
y1t θ θ 0 λ = 10 + 11 t + y2 t θ 20 θ 21 0 1
y1,t −1 ε + 1t , y2,t −1 ε 2t
onde
θ •0 =
θ10 = Φ(1)( y• 0 − η• 0 ) + Φ1α θ 20 =
1 −λ 0
y10 − η10 0 λ + y20 − η 20 0 1
0
( y − η ) − ( y20 − η20 )λ + α 2λ α1 = 10 10 , α2 α2
e
θ•1 =
θ11 1 −λ = Φ (1)α = θ 21 0 0
α1 α − α 2λ . = 1 α2 0
Pode, então, escrever-se y1t = {( y10 − η10 ) − ( y20 − η20 )λ + α 2λ} + (α1 − α 2λ ) t + λ y2,t −1 + ε1t y2t = α 2 + y2,t −1 + ε 2t . Para obter a representação VMCE (10.69), seja, por exemplo, Φ(1) = GAT , com
G=
1 1 e A= . 0 −λ
Neste caso, tem-se ∆y•t = θ•0 + θ•1 t − G ( y1,t −1 − λ y2,t −1 ) + ε •t , ou
∆y1t ε θ θ 1 = 10 + 11 t − ( y1,t −1 − λ y2,t −1 ) + 1t . ∆y2t ε 2t θ 20 θ 21 0 Pode, então, escrever-se ∆y1t = {( y10 − η10 ) − ( y20 − η20 )λ + α 2λ} + (α1 − α 2λ ) t − ( y1,t −1 − λ y2,t −1 ) + ε1t ∆y2t = α 2 + ε 2t . A tendência determinística desaparece se α1 = α 2 λ , isto é, se o vector de cointegração também elimina aquela tendência. Notando que Η (1) = I m , a representação VMCE (10.71) é dada por ∆y•t = α − G y1,t −1 − {β 0 + β1 (t − 1) + λ y2,t −1} + ε •t , ou
Capítulo 10 – Raízes unitárias e cointegração ∆y1t ∆y2t
=
α1 1 − α2 0
76
y1,t −1 − {β 0 + β1 (t − 1) + λ y2,t −1} +
ε1t . ε 2t
Logo, ∆y1t = α1 − y1,t −1 − {β 0 + β1 (t − 1) + λ y2,t −1} + ε1t ∆y2t = α 2 + ε 2t . Quando se escolhe G=
λ 0
e A=
1λ −1
,
tem-se, respectivamente, ∆y1t = {( y10 − η10 ) − ( y20 − η 20 )λ + α 2λ} + (α1 − α 2λ ) t − λ{(1 λ ) y1,t −1 − y2,t −1} + ε1t ∆y2t = α 2 + ε 2t . e ∆y1t = α1 − λ (1 λ ) y1,t −1 − {β 0 + β1 (t − 1) + y2,t −1} + ε1t ∆y2t = α 2 + ε 2t . ∇ Para ilustrar a importância do teorema da representação de Granger, considere-se que o vector y•t bidimensional, formado pelas variáveis y1t e y2t , é I (1) e cointegrado. Suponha-se que a relação de cointegração é y1t = η0 + η1 t + λ y2t + ut , e, portanto, o erro de equilíbrio é dado por ut = y1t − λ y2t − (η0 + η1t ) ~ I (0) . Admita-se que o modelo de curto prazo que relaciona as duas variáveis é, por exemplo, um modelo ARMAX(2,2,0), estável em torno de uma tendência linear, y1t = ϕ0 + δ t + ϕ1 y1,t −1 + ϕ2 y1,t − 2 + β 0 y2t + β1 y2,t −1 + β 2 y2,t − 2 + ε t ,
onde {ε t } é um ruído branco independente, e o polinómio ϕ ( L) = 1 − ϕ1L − ϕ2 L2 é invertível (em particular, tem-se ϕ1 + ϕ2 < 1 ). Facilmente se conclui que este modelo é equivalente a um modelo MCE. Com efeito, fazendo y1et = y1t = y1,t −1 = y1,t − 2 , y2t = y2,t −1 = y2,t − 2 e ε t = 0 , obtém-se a relação de equilíbrio de longo prazo, y1et = η0 + η1 t + λ y2t ,
onde
η0 =
ϕ0 δ β + β1 + β 2 , η1 = e λ= 0 . 1 − ϕ1 − ϕ2 1 − ϕ1 − ϕ2 1 − ϕ1 − ϕ2
Utilizando a técnica apresentada no capítulo 9 sobre a reparamatrização de um modelo ARMAX estável de forma a explicitar o termo de correcção do erro, obtém-se
Capítulo 10 – Raízes unitárias e cointegração
77
∆y1t = δ − ϕ (1)( y1,t −1 − y1e,t −1 ) − ϕ2∆y1,t −1 + β 0 ∆y2t − β 2∆y2,t −1 + ε t , em que ϕ (1) = 1 − ϕ1 − ϕ 2 . Então, pode concluir-se que este modelo reparametrizado, onde se explicita o termo de correcção do erro, − ϕ (1)( y1,t −1 − y1e,t −1 ) , é equivalente ao modelo ARMAX(2,2,0) inicial. Inversamente, como um modelo ARMAX(2,2,0), estável em torno de uma tendência linear, é um modelo MCE, então, as variáveis envolvidas no modelo são cointegradas [admitindo que estas variáveis são I (1) ]. Como no modelo MCE o regressando e os regressores são I (0) (em particular, o erro de equilíbrio, y1,t −1 − y1e,t −1 = ut −1 ), os métodos de inferência usuais são válidos, não obstante a variável ut não ser observável (ver adiante, como fazer a estimação deste modelo). O modelo envolvendo apenas primeiras diferenças das variáveis está mal especificado, pois, omitindo incorrectamente o termo de correcção do erro, é removida qualquer informação sobre a relação de longo prazo. No caso em que o vector y•t bidimensional, formado pelas variáveis y1t e y2t , é I (1) , mas não é cointegrado, é importante fazer o seguinte comentário: não é lícito estimar uma relação do tipo y1t = η0 + η1 t + λ y2t + ut , uma vez que se trata de uma regressão absurda ou espúria (ver adiante). Contudo, pode considerar-se outro modelo, um modelo dinâmico com as primeiras diferenças. Este modelo poderia ser, por exemplo, ∆y1t = α 0 + α1 ∆y1,t −1 + γ 0 ∆y2t + γ 1∆y2,t −1 + ut , onde E (ut | ∆y1,t −1, ∆y2t , ∆y2,t −1 , ) = 0 . A este modelo podem aplicar-se os resultados estatísticos assintóticos habituais. O inconveniente deste procedimento é que se perde a possibilidade de obter relações, em níveis, entre as variáveis. 10.7 - Testes de cointegração
Nesta secção vai abordar-se a questão da determinação da característica da cointegração. Dos vários métodos conhecidos da literatura [ver Maddala e Kim (1998)], apenas vai estudar-se o teste de Engle-Granger (1987), com extensões feitas por Phillips e Ouliaris (1990). Neste teste, a hipótese nula é que h = 0 (não há cointegração) e a hipótese alternativa é que h ≥ 1 (há cointegração). Regressões espúrias
O teste de Engle-Granger baseia-se, como vai ver-se, na estimação MQ da equação de regressão (10.58), y1t = β 0 + β T z•t + λT y•(t2 ) + ut , se existe componente determinística, ou na estimação MQ da equação de regressão (10.59), y1t = β 0 + λT y•(t2 ) + ut , se não existe componente determinística. Estas equações são as regressões de cointegração se h = 1 e se y1t é cointegrado com y•(t2 ) (se y1t é parte de uma relação de cointegração). Sob a hipótese nula, as equações (10.58) ou (10.59) não representam uma relação de cointegração. Considerando, por exemplo, (10.58), seja ( βˆ0 , βˆ , λˆ ) o estimador MQ de ( β 0 , β , λ ) . Facilmente se conclui que λˆ não é estimador consistente de qualquer
Capítulo 10 – Raízes unitárias e cointegração
78
parâmetro da população (do processo). Por exemplo, mesmo que y1t não esteja correlacionado com y•(t2 ) [ ∆y1t e ∆y•( 2s ) são independentes, quaisquer que sejam t e s], as estatísticas t e F associadas com o estimador MQ crescem com a dimensão da amostra, dando a falsa impressão de que existe uma relação estreita entre y1t e y•(t2 ) . Este fenómeno, conhecido pela designação de regressão espúria (spurious regression) ou regressão absurda (nonsense regression), foi estudado pela primeira vez por Granger e Newbold (1974), a partir de experiências de simulação de Monte Carlo. Phillips (1986) deduziu alguns resultados teóricos sobre as distribuições assintóticas das estatísticas-teste no caso de regressões espúrias. Para ilustrar uma situação de regressão espúria, considere-se que {xt } e { yt } são dois passeios aleatórios, xt = xt −1 + ε 1t
yt = yt −1 + ε 2t , onde {ε1t } e {ε 2t } são ruídos brancos independentes. Suponha-se também que os dois passeios aleatórios, {xt } e { yt } , são independentes. Que acontece se os parâmetros da equação de regressão, yt = β 0 + β1 xt + ut , forem estimados pelo método MQ? Em situações deste tipo espera-se que plim(βˆ1 ) = 0 e, ainda mais importante, quando se testa H 0 : β1 = 0 contra H1 : β1 ≠ 0 , a 5%, espera-se que o rácio-t para βˆ1 seja não significativo 95% das vezes. No entanto, Granger e Newbold (1974) mostraram, por meio de métodos de simulação, que a hipótese nula é rejeitada mais vezes do que se espera e, regra geral, o coeficiente de determinação é elevado [deve referir-se também a experiência de Davidson e McKinnon (1993)]. Note-se que, sob H 0 , o modelo yt = β 0 + β1 xt + ut se reduz a yt = β 0 + ut . Então, como { yt } é um passeio aleatório sem deriva, tem-se t
yt = y0 +
ε ,
s =1 2 s
e, portanto, tem-se β 0 = 0 (se y0 = 0 ) e
ut =
t s =1
ε 2s .
Deste modo, conclui-se que {ut } é também um passeio aleatório, o que viola claramente as hipóteses habituais do modelo de regressão. Em consequência disto, Phillips (1986) provou que a probabilidade de rejeição da hipótese H 0 : β1 = 0 , utilizando o respectivo rácio-t, tende para 1 quando n tende para + ∞ . Assim, no limite, existe sempre uma relação “significativa” entre yt e xt . Além disso, mostrou que o rácio-t dividido por n converge para uma distribuição não degenerada e que a estatística de Durbin-Watson tende para zero. A possibilidade de regressões espúrias com variáveis I (1) é muito importante, o que tem levado muitos economistas a reexaminar várias regressões nas quais os rácios-t são muito grandes e os coeficientes de determinação estão muito próximo de 1. Assim, devem ter-se cuidados especiais com os dados económicos temporais, nomeadamente testar previamente a existência de raízes unitárias.
Capítulo 10 – Raízes unitárias e cointegração
79
O teste de Engle-Granger
No exemplo 10.4 (das taxas de juro) a equação de regressão é da forma (10.59), em que o vector y•t tem apenas duas variáveis. Neste caso, tem-se y1t = β 0 + λ y2t + ut , onde y1t = r 6t (taxa de juro a 6 meses dos títulos de tesouro), y2t = r 3t (taxa de juro a 3 meses dos títulos de tesouro) e β 0 = µ (valor esperado do spread). Neste exemplo, em vez de estimar o valor de λ , recorre-se ao raciocínio económico para conhecer aquele valor (que, neste caso, é igual a 1). Quando se conhece o valor do parâmetro λ é muito simples fazer o teste de cointegração das variáveis y1t e y2t ; basta aplicar um teste de raízes unitárias à variável y1t − λ y2t (para simplificar, supõe-se que β 0 = 0 ). Testar a cointegração é mais complicado quando se desconhece o potencial parâmetro de cointegração (ou, mais geralmente, quando se desconhecem os potenciais vectores de cointegração). O teste mais popular, que está intimamente relacionado com os testes de Dickey-Fuller, foi proposto por Engle e Granger (1987). No caso em que a característica da cointegração pode ser, quando muito, igual a 1, o teste a efectuar é o seguinte: H 0 : h = 0 (não há cointegração) contra H1 : h = 1 (há cointegração).
O teste, também, pode ser apresentado da seguinte maneira: H 0 : ut ~ I (1) (não há cointegração) contra H1 : ut ~ I (0) (há cointegração).
Se ut fosse observável, o teste de cointegração reduzir-se-ía a um simples teste de raízes unitárias sobre a variável ut . Contudo, ut não é observável porque λ é desconhecido. Embora, sob a hipótese nula, as equações (10.58) ou (10.59) correspondam a regressões espúrias, estas equações fornecem um instrumento útil para testar H 0 , porque os respectivos resíduos MQ podem ter uma tendência estocástica, se y•t não é cointegrado, ou serem estacionários, no caso contrário. Para fixar ideias, suponha-se que a equação de regressão é (10.58). Neste caso, os resíduos MQ são dados por , uˆt = y1t − βˆ0 − βˆ T z•t − λˆT y•(t2) , e o teste de cointegração é um teste de raízes unitárias da variável uˆt . Se as variáveis y jt não são cointegradas, tem-se uma regressão espúria (não há relação de equilíbrio a longo prazo), e a variável uˆt deve ter uma raiz unitária. Uma vez que os resíduos uˆt dependem de ( βˆ0 , βˆ , λˆ ) , estimador dos parâmetros de uma regressão espúria sob a hipótese nula, as distribuições assintóticas dependem da dimensão m do processo, e não são as mesmas dos testes de raízes unitárias. Assim, o teste de cointegração de Engle-Granger (teste EG) é adaptado dos testes ADF, utilizando valores críticos mais exigentes [ver anexo 10A], uma vez que se utiliza uˆt em vez de ut . Em resumo, a mecânica do teste EG é a seguinte: 1) Considerar a equação de regressão y1t = β 0 + β T z•t + λT y•(t2 ) + ut , e estimar os respectivos coeficientes pelo método MQ. 2) Fazer o teste ADF relativamente à variável uˆt , utilizando a equação de regressão [ver (10.31)]
Capítulo 10 – Raízes unitárias e cointegração (10.72)
a) b)
c)
d)
∆uˆt = θ uˆt −1 + ξ1 ∆uˆt −1 + ξ 2 ∆uˆt − 2 +
80 + ξ p ∆uˆt − p + vt .
Comentários: Não há necessidade de considerar uma constante em (10.72) porque, se (10.58) já inclui uma constante, a média amostral dos resíduos é nula. Não há necessidade de incluir a componente determinística considerada em (10.58) [em particular, a tendência linear], porque as variáveis y jt envolvidas em (10.58) incluem, implícita ou explicitamente, aquela componente determinística. O valor de p em (10.72) cresce com a dimensão n da amostra, mas a uma taxa mais lenta do que n1 / 3 . Assim, quando n → +∞ , tem-se p → +∞ , mas p n1 / 3 → 0 (em probabilidade, porque p pode ser considerado uma variável aleatória). O caso em que a característica da cointegração é superior a 1 não vai ser tratado.
Para dispor dos valores críticos para fazer o teste EG, há considerar os três casos seguintes: 1) E (∆y•( t2 ) ) = 0 e E (∆y1t ) = 0 : nenhuma componente do processo I (1) tem componente determinística. Considera-se a equação de regressão (10.59), y1t = β 0 + λT y•(t2 ) + ut , e os valores críticos encontram-se na tabela 10A.3(a) [Phillips e Ouliaris (1990)]. Designando por g o número de regressores excluindo o termo independente, tem-se g = m − 1. 2) E (∆y•(t2) ) ≠ 0 , mas E (∆y1t ) pode ser nulo ou não: alguns dos m − 1 regressores I (1) incluídos em y•( t2 ) têm deriva. Neste caso, continua a ter-se a equação de regressão (10.59), y1t = β 0 + λT y•(t2 ) + ut . Começa-se por notar que a tendência linear de vários regressores pode ser considerada apenas num deles. Com efeito, suponha-se que, por exemplo, (10.59) se resume a y1t = β 0 + λ2 y2t + λ3 y3t + ut , e que as variáveis y2t e y3t têm deriva. Como E (∆y2t ) = δ 2 e E (∆y3t ) = δ 3 , tem-se y2t = δ 2t + vt 2 e y3t = δ 3t + vt 3 , onde v2t e v3t são variáveis I (1) sem deriva. Então, y1t = β 0 + λ2 (δ 2 t + vt 2 ) + λ3 (δ 3 t + vt 3 ) + ut = β 0 + {(λ2δ 2 + λ3δ 3 ) t + λ2vt 2 } + λ3vt 3 + ut .
Em geral, (10.59) pode ser concebida como tendo m − 2 regressores I (1) sem deriva e um regressor I (1) com deriva. Como as tendências lineares dominam as tendências estocásticas, o regressor I (1) com tendência comporta-se, no caso de grandes amostras, como se fosse uma tendência linear determinística. Então, os resíduos MQ da equação de regressão (10.59) e os resíduos MQ da regressão de y1t sobre 1, t e m − 2 regressores I (1) sem deriva são “assintoticamente os mesmos”: a distribuição limite de uma estatística baseada naqueles resíduos é igual à distribuição da mesma estatística baseada nestes resíduos. Para efectuar o teste EG, determinam-se os resíduos MQ da regressão (10.59). Os valores críticos encontram-se na tabela 10A.3(b), onde o número de regressores, excluindo o termo independente, é g = m − 1 . Por exemplo, para m − 1 = 3 , o valor crítico a 5% é –4.16.
Capítulo 10 – Raízes unitárias e cointegração
81
3) E (∆y•( t2 ) ) = 0 e E (∆y1t ) ≠ 0 . Como y1t tem deriva, e y•( t2 ) não tem, é necessário incluir o tempo como regressor para remover a tendência linear dos resíduos MQ. Neste caso, considera-se a equação de regressão (10.58) com β T z•t = β1 t , ou seja, y1t = β 0 + β1 t + λT y•( t2) + ut .
Para efectuar o teste, determinam-se os resíduos MQ desta regressão. A discussão do caso 2) permite concluir que os valores críticos são, também, os da tabela 10A.3(b), mas onde o número de regressores, sem o termo independente, é g = m : m − 1 regressores I (1) e o tempo. Por exemplo, para m − 1 = 3 , o valor crítico a 5% é –4.49.
a)
b)
c)
d)
Podem fazer-se os seguintes comentários: Se se utiliza a equação y1t = β 0 + β1 t + λT y•( t2) + ut , então a deriva de y1t , dada por E (∆y1t ) , afecta apenas o coeficiente de t, fazendo com que os valores numéricos dos resíduos MQ sejam invariantes em relação a E (∆y1t ) . Isto significa que o procedimento do caso 3 (incluir o tempo como regressor) pode ser aplicado ao caso 1 [onde E (∆y1t ) = 0 ]. Deste modo, com a inclusão do regressor t, o valor crítico apropriado para o caso 1 é dado pela tabela 10A.3(b), com g = m . O procedimento referido em a) é válido para o caso 2, porque, se o tempo é incluído como regressor, a equação de regressão pode ser considerada como se estivesse a fazer a regressão de y1t sobre 1, m − 1 regressores I (1) sem deriva, e o tempo [que combina as derivas dos regressores I (1) ]. Esta regressão é abrangida pelo caso 3). Assim, o valor crítico apropriado, ainda, é dado pela tabela 10A.3(b), com g = m . As considerações feitas em a) e b) permitem concluir o seguinte: quando o tempo é considerado como regressor, podem ser usados os mesmos valores críticos, independentemente da localização das derivas. A possível desvantagem está na reduzida potência do teste com pequenas amostras. Para efectuar os testes EG, pode, em alternativa, utilizar-se os valores referidos na tabela 10A.4 [MacKinnon (1991)].
Exemplo 10.12 – Como se afirmou a propósito da figura 10.6, parece que o logaritmo do consumo privado e o logaritmo do PIB em Portugal, a preços de 2000, são cointegrados. Pode, por exemplo, conjecturar-se que a diferença entre o logaritmo do PIB e o logaritmo do consumo privado é estacionário, o equivale a dizer que o vector de cointegração seria ( 1, − 1 ). Contudo, o cronograma desta diferença está longe de ter o comportamento sugerido (ver figura 10.7). Para fazer o teste de cointegração, começa-se por testar se as variáveis lpibt (logaritmo do PIB) e lconst (logaritmo do consumo privado) são I (1) . Em relação à primeira variável, faz-se a regressão de lpibt sobre 1, t, lpibt −1 e ∆lpibt , obtendo-se φˆ = 0.915877 (estimativa do coeficiente de lpibt −1 ), com erro padrão igual a 0.045414. O respectivo rácio- τ é –1.85238, a que corresponde um valor-p (corrigido para pequenas amostras) igual 0.705. A evidência obtida é favorável a que lpibt seja I (1) . No que respeita à outra variável, a conclusão é semelhante. Com efeito, fazendo a regressão de lconst sobre 1, t, lconst −1 e ∆lconst , obtendo-se φˆ = 0.899966 (estimativa do coefi-
Capítulo 10 – Raízes unitárias e cointegração
82
ciente de lconst −1 ), com erro padrão igual a 0.049098. O rácio- τ é –2.03743, com valor-p (corrigido para pequenas amostras) igual 0.609. 0.55 0.50 0.45 0.40 0.35 0.30 0.25 0.20 1960
1965
1970
1975
1980
1985
1990
1995
2000
2005
Log PIB menos Log Consumo Privado
Fig. 10.7 – Cronograma da diferença ente logaritmo do PIB e o logaritmo do consumo privado.
A equação de regressão que permite obter os resíduos MQ para fazer o teste EG é a seguinte: lconst = β 0 + β1 t + λ lpibt + ut . A respectiva estimação MQ fornece os seguintes resultados: lconst = 0.23399 + 0.00205756 t + 0.836615 lpibt + uˆt .
O teste ADF sobre os resíduos MQ vai basear-se na seguinte regressão: ∆uˆt = θ uˆt −1 + ξ1 ∆uˆt −1 + vt . Obtém-se ∆uˆt = −0.259757 uˆt −1 + 0.261273 ∆uˆt −1 + vˆt , em que o erro padrão associado à estimativa do coeficiente de uˆt −1 é 0.097838. O rácioτ é –2.65497, a que corresponde o valor-p (corrigido para pequenas amostras) igual 0.502. Note-se que o valor crítico fornecido pela tabela 10A.3(b) é –3.80 (o valor crítico corrigido para pequenas amostras é –4.002792). Desta forma, não se pode rejeitar hipótese de que a equação de regressão lconst = β 0 + β1 t + λ lpibt + ut é espúria. ∇ 10.8 - Inferência sobre os vectores de cointegração
Na secção anterior, foi examinada a questão que consiste em saber se um processo I (1) é cointegrado. Na presente secção, supõe-se que o processo é cointegrado, que a característica da cointegração é conhecida e que se dispõe da respectiva represen-
Capítulo 10 – Raízes unitárias e cointegração
83
tação triangular. O objectivo é estimar os vectores de cointegração a partir desta representação, e fazer inferência sobre estes vectores. O estudo vai incidir sobre o caso em que a característica da cointegração é igual a 1 ( h = 1 ). Neste caso, a representação triangular é a seguinte: (10.73)
y1t = β 0 + β T z•t + λT y•(t2) + ut
∆y•(t2) = c•(t2 ) + w•(t2) ,
com
ut w•(t2)
= Ψ ∗ ( L) ε • t ,
onde y•(t2 ) não é cointegrado. A primeira equação de (10.73) é a regressão de cointegração. Nestas condições, existe um único vector λ , (m − 1) -dimensional, tal que: ~ ~ a) Quando λ = λ , y1t − λ T y•(t2) é igual à soma de um processo estacionário, ut , com uma variável aleatória invariante com o tempo, β 0 , e com uma componente determinística que varia no tempo, β T z•t ; ~ ~ b) Quando λ ≠ λ , y1t − λ T y•(t2) tem uma tendência estocástica. Usando o método MQ para estimar os coeficientes da regressão de cointegração, obtém-se o estimador ( βˆ0 , βˆ , λˆ ) . Como este estimador minimiza a respectiva soma dos quadrados dos resíduos é de esperar que se tem um estimador consistente. Com efeito, pode provar-se que λˆ é estimador superconsistente de λ , em que o erro de amostragem converge para 0 a uma taxa mais rápida do que n (a taxa conhecida do caso estacionário). Este resultado foi provado por Phillips e Durlauf (1986) e Stock (1987), quando E ( y•(t2) ) = c•(t2 ) = 0 , e por Hansen (1992), quando E ( y•(t2) ) = c•( t2 ) ≠ 0 . A velocidade de convergência é n, para E ( y•(t2) ) = 0 , e n3 / 2 , para E ( y•(t2) ) ≠ 0 . Estes resultados foram provados supondo que β 0 é constante. É de esperar a mesma conclusão, quando β 0 é uma variável aleatória. De facto, apesar de β 0 + ut não ser estacionário, mesmo que ut o seja, β 0 e ut são assintoticamente independentes (quando t → +∞ ), e, portanto, β0 + ut é assintoticamente estacionário. Basta esta conclusão para obter os resultados assintóticos necessários para a inferência estatística sobre λ . Também pode demonstrar-se que R 2 converge para 1. O estimador MQ de λ obtido a partir da regressão de cointegração [a primeira equação de (10.73)] designa-se por estimador MQ “estático” (MQE). Como este estimador é consistente, os resíduos MQ convergem para um processo estacionário com valor esperado nulo. Portanto, se um teste univariado de raízes unitárias, como o teste ADF, é aplicado aos resíduos, o teste rejeita, para grandes amostras, a hipótese nula de que o processo é I (1) . É esta a razão pela qual o teste EG, estudado na secção anterior, é consistente contra a cointegração. As considerações anteriores permitem estabelecer um facto notável: apesar de haver regressores I (1) , não cointegrados, na relação de cointegração, os estimadores MQ dos respectivos coeficientes são consistentes. Este facto está em claro contraste com o caso de regressores estacionários. Para apreciar este contraste, recorde-se que, se os regressores em y•(t2 ) são estacionários, a consistência do estimador MQ de λ exige que não haja regressores endógenos ( ut e y•(t2 ) não estão correlacionados); caso contrário, são necessárias variáveis instrumentais para y•(t2 ) . Se y1t é cointegrado com y•(t2 ) ,
Capítulo 10 – Raízes unitárias e cointegração
84
mas y•(t2 ) não é cointegrado, o estimador MQ de λ é sempre consistente, mesmo que existam regressores endógenos (não existe o problema do enviesamento da endogeneidade ou da simultaneidade). Note-se que: se y•(t2 ) é cointegrado, h ≥ 2 , a primeira equação de (10.73) – que tem m − 1 regressores em y•(t2 ) – não é uma relação de cointegração; neste caso, a relação de cointegração deve ter m − h regressores em y•(t2 ) [para mais promenores, ver Hamilton (1994) e Watson (1994)]. Para ilustrar que, no caso da estimação MQ dos coeficentes de uma relação de cointegração, a endogeneidade dos regressores não põe em causa a consistência dos estimadores, considere-se o seguinte modelo:
λ1 yt − xt = u1t , (1 − ρ1 L) u1t = ε1t , yt − λ2 xt = u2t , (1 − ρ 2 L) u2t = ε 2t , onde {ε1t } e {ε 2t } são ruídos brancos e, por exemplo, ρ1 = 1 e 0 < ρ 2 < 1 . Facilmente se verifica que as variáveis yt e xt são ambas I (1) . Com efeito, basta notar que u1t ~ I (1) e u2t ~ I (0) , e que yt = xt =
1
λ1λ2 − 1 1
λ1λ2 − 1
(λ2u1t − u2t ) (u1t − λ1u2t ) .
Contudo, as variáveis yt e xt são cointegradas (o parâmetro de cointegração é λ2 ); a relação de cointegração é yt = λ2 xt + u2t ; o erro de equilíbrio é u2t = yt − λ2 xt . Como u2t = ρ 2 u2,t −1 + ε 2t e u2,t −1 = yt −1 − λ2 xt −1 , tem-se u2t = ρ 2 ( yt −1 − λ2 xt −1 ) + ε 2t .
Assim, na regressão de cointegração, yt = λ2 xt + u2t , o regressor xt é endógeno porque está correlacionado com a variável residual, ρ 2 ( yt −1 − λ2 xt −1 ) + ε 2t (facilmente se verifica que xt está correlacionado com as duas parcelas da variável residual). Contudo, como xt é I (1) e as duas parcelas de ρ 2 ( yt −1 − λ2 xt −1 ) + ε 2t são I (0) [a primeira parcela é I (0) porque as variáveis são cointegradas], a variável residual é assintoticamente negligenciável em relação a xt . Em pequenas amostras o enviesamento do estimador MQE pode ser grande [ver Banerjee et al. (1986) e Stock (1987)]. Outro inconveniente do estimador MQE é que a distribuição assintótica das estatísticas t depende dos parâmetros perturbadores [os coeficientes do filtro Ψ ∗ ( L) ], pelo que é difícil fazer inferência estatística. Para esclarecer qual é origem da correlação entre a variável residual, ut , e os regressores I (1) , y•(t2 ) , vai considerar-se a versão bivariada de (10.73), supondo, para simplificar que c•t = 0 , β 0 = 0 e Ψ ∗ ( L) = Ψ0∗ [ (ut , w2t ) não tem autocorrelação]: (10.74)
y1t = λ y2t + ut
∆y2t = w2t ,
com
ut w2t
= Ψ0∗ ε •t .
Neste modelo, pode existir correlação entre y2t e ut . Com efeito, seja
Capítulo 10 – Raízes unitárias e cointegração
85 + ∆y2t , ut ) .
Cov( y2t , ut ) = Cov( y20 + ∆y21 + ∆y22 +
Atendendo a que Cov( y20 , ut ) = 0 , ∆y2t = w2t e (ut , w2t ) é iid, vem Cov( y2t , ut ) = Cov( w21 + w22 +
+ w2t , ut ) = Cov( w2t , ut ) .
Como as matrizes Ψ0∗ e Σε não são necessariamente diagonais, w2t e ut podem estar contemporaneamente correlacionados. Para isolar esta possível correlação, considere-se a projecção linear MQ de ut sobre 1 e w2t , Cov( w2t , ut ) Cov( w2t , ut ) w . E ∗ (ut | 1, w2t ) = E (ut ) − E ( w2t ) + Var ( w2t ) Var ( w2t ) 2t Notando que E (ut ) = 0 e E ( w2t ) = 0 , tem-se E ∗ (ut | 1, w2t ) =
Cov( w2t , ut ) E ( w2t ut ) w2t = w = γ w2t , Var ( w2t ) E ( w22t ) 2t
onde
γ=
E ( w2t ut ) . E ( w22t )
O erro da projecção linear MQ é, então, vt = ut − E ∗ (ut | 1, w2t ) = ut − γ w2t .
Facilmente se verifica que E (vt ) = 0 e que Cov(vt , w2t ) = Cov(vt , ∆y2t ) = 0 . Fazendo ut = γ w2t + vt = γ ∆y2t + vt na relação de cointegração, obtém-se (10.75)
y1t = λ y2t + γ ∆y2t + vt ,
que se designa por regressão de cointegração aumentada (ou relação de cointegração aumentada). Vai demonstrar-se que os regressores desta equação são estritamente exógenos. Começa-se por ∆y2t . Por construção, Cov(vt , ∆y2t ) = 0 . Falta provar que, para quaisquer t ≠ s , Cov(vt , ∆y2 s ) = 0 . De facto, Cov(vt , ∆y2 s ) = Cov(vt , w2 s ) = Cov(ut − γ w2t , w2 s ) = Cov(ut , w2 s ) − γ Cov( w2t , w2 s ) = 0 , porque (ut , w2t ) é iid. Assim, ∆y2t é estritamente exógeno. Seja Cov(vt , y2 s ) = Cov(vt , y20 + ∆y21 + ∆y22 +
+ ∆y2 s ) .
Como Cov(vt , y20 ) = 0 e Cov(vt , ∆y2 s ) = 0 (para qualquer s), vem Cov(vt , y2 s ) = Cov(vt , ∆y21 + ∆y22 +
+ ∆y2 s ) = 0 ,
concluindo-se que y2t também é estritamente exógeno. A exogeneidade estrita dos regressores em (10.75) depende crucialmente da condição Ψ ∗ ( L) = Ψ0∗ , porque garante que (ut , w2t ) não tem autocorrelação. Seja (λˆ, γˆ ) o estimador MQ de (λ , γ ) [note-se que λˆ não é o mesmo do que no caso MQE]. A equação (10.75) é muito semelhante à auto-regressão aumentada (10.20): em cada uma
Capítulo 10 – Raízes unitárias e cointegração
86
das equações, um dos regressores é I (0) com valor esperado nulo, e o outro é I (1) sem componente determinística. Na auto-regressão aumentada, a matriz “ X T X ”, adequadamente normalizada por n e por n , é assintoticamente diagonal, pelo que a existência de regressores I (0) pode ser ignorada para determinar a distribuição limite do estimador MQ do coeficiente do regressor I (1) . O mesmo se passa com a regressão de cointegração aumentada, e o mesmo argumento que explora a diagonalidade assintótica de “ X T X ” (devidamente normalizada) mostra que o rácio-t clássico para testar a hipótese λ = λ0 é assintoticamente equivalente a 1 t∗ = n
(10.76)
n t =1
y2t vt
σ v2
n
n2
t =1
y
,
2 2t
onde σ v2 = Var (vt ) . Assim, a diferença entre o rácio-t clássico e t ∗ converge em probabilidade para 0, pelo que têm a mesma distribuição limite. Na auto-regressão aumentada utilizada no teste ADF, a distribuição limite da estatística ADF- τ é a respectiva distribuição de Dickey-Fuller (a distribuição DFτ ). No entanto, a distribuição assintótica de t ∗ (e, portanto, do rácio-t clássico) é N (0,1) . Como vai ver-se, este resultado decorre de o regressor I (1) , y2t , ser estritamente exógeno. Suponha-se, de momento, que (ut , w2t ) seguem uma distribuição normal bidimensional ( y2 s e ut , além de não estarem correlacionados, são independentes). Então, a distribuição de vt condicionada por ( y21, y22 , , y2 n ) é igual à respectiva distribuição não condicionada, que é N (0, σ v2 ) . Logo, a distribuição do numerador de t ∗ , condicionada por ( y21, y22 , , y2 n ) , é N 0,
σ v2 n
2
n t =1
y22t .
Como o desvio padrão desta distribuição normal é igual ao denominador de t ∗ , tem-se (t ∗ | y21 , y22 ,
, y2 n ) ~ N (0,1) ,
e, portanto, t ∗ ~ N (0,1) . Quando (ut , w2t ) não é normal bidimensional, pode provar-se [Hamilton (1994), Watson (1994) e Park e Phillips (1988)] que a distribuição limite de t ∗ ainda é normal estandardizada, d
t ∗ → N (0, 1) . Note-se que o processo I (1) bivariado considerado para obter este resultado é especial sob vários aspectos: a) não há autocorrelação em (ut , w2t ) ; b) o regressor I (1) , y2t , é um escalar; c) y2t não tem componente determinística; d) β 0 = 0 . Quando não se verifica Ψ ∗ (L) = Ψ0∗ , existe autocorrelação em (ut , w2t ) [a condição a) é relaxada]. O regressor I (1) , y2t , deixa de ser estritamente exógeno [embora se tenha Cov(vt , ∆y2t ) = 0 , já não se verifica Cov(vt , ∆y2 s ) = 0 , para t ≠ s ]. Para remo-
Capítulo 10 – Raízes unitárias e cointegração
87
ver esta correlação, considere-se a projecção linear MQ de ut sobre os valores presente, passados e futuros de w2 . Como ∆y2t = w2t , tem-se (10.77)
ut = γ ( L)∆y2t + vt e γ ( L) =
+∞
j = −∞
γ jL j ,
onde, por construção, E (vt ) = 0 e Cov(vt , ∆y2 s ) = 0 , para quaisquer t e s [obviamente, vt não é o mesmo que em (10.75)]. O filtro bilateral γ (L) pode ser de ordem infinita, mas suponha-se – por agora – que γ j = 0 para | j | > p . Assim, (10.78)
ut = γ 0 ∆y2t + γ −1 ∆y2,t +1 +
+ γ − p ∆y2,t + p + γ 1 ∆y2,t −1 +
+ γ p ∆y2,t − p + vt .
A regressão de cointegração aumentada é, então, (10.79)
y1t = λ y2t + γ 0 ∆y2t + γ −1 ∆y2,t +1 +
+ γ 1 ∆y2,t −1 +
+ γ − p ∆y2,t + p
+ γ p ∆y2,t − p + vt ,
onde se consideram não só os regressores de (10.75), mas os leads and lags de ∆y2t . Como Cov(vt , ∆y2 s ) = 0 , quaisquer que sejam t e s, os regressores ∆y2 s são estritamente exógenos, o mesmo acontecendo com y2t . Considerando (10.79), o estimador MQ de λ designa-se por estimador MQ “dinâmico” (MQD), para o distinguir do estimador MQE. O estimador MQD também se chama estimador leads and lags. Em (10.79) existem 2 + 2 p regressores: o primeiro é I (1) sem componente determinística; os outros são I (0) com valor esperado nulo. Com a normalização adequada da matriz “ X T X ” (por n e por n ), esta matriz é assintoticamente diagonal por blocos, e o regressor I (1) é assintoticamente não correlacionado com os regressores com os 2 p + 1 regressores I (0) ; estes regressores podem ser ignorados na determinação da distribuição limite do estimador MQD de λ ; continua a considerar-se a estatística t ∗ , (10.76), para testar a hipótese λ = λ0 ( t ∗ é assintoticamente equivalente ao rácio-t clássico). Neste caso, contudo, a distribuição assintótica de (10.76) não se obtém da mesma maneira que no caso de não autocorrelação de (ut , w2t ) , porque vt pode ser autocorrelacionado; a projecção linear MQ atrás referida, embora eliminando a correlação entre ∆y2 s e vt , quaisquer que sejam t e s, não remove a autocorrelação de vt . Este dificuldade (e a possível existência de heterocedasticidade condicionada) pode ser ultrapassada calculando o respectivo erro padrão robusto de Newey-West. Para obter a distribuição assintótica, seja V a matriz das autocovariâncias de n sucessivos valores vt , ωv2 a variância de longo prazo de vt e
Y2 =
y21 y22
.
y2 n Suponha-se, de momento, que (ut , w2t ) tem distribuição normal bidimensional. Como y2t é estritamente exógeno, a distribuição do numerador de t ∗ , condicionada por
Capítulo 10 – Raízes unitárias e cointegração
88
Y2 , é normal com valor esperado nulo e variância condicionada (1 n 2 )Y2TV Y2 . A raiz quadrada desta expressão deveria substituir o denominador de (10.76) para se obter a distribuição normal estandardizada. Contudo, no caso de grandes amostras, é possível obter a distribuição limite pretendida, substituindo em (10.76) a variância de vt , σ v2 , pela sua variância de longo prazo, ωv2 . Assim, seja (10.80)
1 t′ = n
n t =1
y2t vt
ωv2
n
n2
t =1
y
1 =n
2 2t
n t =1
ωv2 n2
y2t vt
.
T 2 2
Y Y
Pode provar-se que a distribuição limite do denominador de (10.80) é normal com valor esperado nulo e desvio padrão igual ao denominador [Phillips (1988)]. Então, (10.81)
t′ =
σv ∗ d t → N (0,1) . ωv
Como o rácio-t clássico, tλˆ , e t ∗ são assintoticamente equivalentes, vem (10.82)
d s tλˆ → N (0, 1) , ωˆ v
onde s é o erro padrão clássico da regressão (10.79) [s é estimador consistente de σ v ] e ωˆ v é estimador consistente de ωv . A expressão (10.82) corresponde a modificar o erro padrão clássico de λˆ , sλˆ , substituindo-o por
sλ′ˆ =
ωˆ v s
sλˆ .
Assim, (10.82) pode escrever-se da seguinte maneira: (10.83)
λˆ sλ′ˆ
d
→ N (0, 1) .
Os argumentos anteriores são apenas válidos para λ , o coeficiente do regressor I (1) . Os rácios-t correspondentes aos estimadores dos outros coeficientes de (10.79) não são necessariamente N (0,1) , para grandes amostras. Facilmente se obtém um estimador consistente de ωv2 . Os passos são os seguintes: a) Calcular os resíduos MQ da regressão (10.79): vˆt ; b) Considerar o processo AR ( ) de vˆt : vˆt = ω1vˆt −1 + ω2 vˆt − 2 + + ω vˆt − + et ; c) Calcular os estimadores MQ dos ωi ( i = 1, 2, , ), ωˆ i , e os respectivos resíduos, eˆt ; d) O estimador de ωv2 é dado por
ωˆ v2 =
σˆ e2 (1 − ωˆ1 − ωˆ 2 −
− ωˆ )
2
onde σˆ e2 =
1 n−
n 2 t = +1 t
eˆ .
Capítulo 10 – Raízes unitárias e cointegração
89
Considere-se o caso geral de um processo m-dimensional cointegrado com componente determinística, supondo que h = 1 . Facilmente se estende a análise para h > 1 . A representação triangular é (10.73), e a regressão de cointegração aumentada é (10.84)
y1t = β 0 + β T z•t + λT y•(t2) + γ •T0 ∆y•(t2 ) + γ •T, −1∆y•(,2t)+1 + + γ •T1∆y•( ,2t)−1 +
+ γ •T, − p ∆y•(,2t)+ p
+ γ •Tp ∆y•(,2t)− p + vt ,
onde γ • j ( j = 0,1, 2, , p,−1,−2, ,− p ) são os coeficientes da projecção linear MQ de ut sobre os valores presentes, passados e futuros de ∆y•(t2 ) . O estimador MQD do vector λ é o respectivo estimador MQ em (10.84). Os resultados obtidos para o caso bivariado ainda continuam válidos para o caso geral. Em particular: o estimador MQD de λ é superconsistente; as estatísticas t e de Wald, com as normalizações adequadas, seguem as distribuições limite clássicas; as normalizações obtêm-se multiplicado o rácio-t por s ωˆ v , e multiplicando a estatística de Wald pelo quadrado de s ωˆ v ; estes procedimentos não são válidos para testar hipóteses que envolvem β 0 , β ou γ • j [ver Saikkonen (1991) e Stock e Watson (1993)]. Se o filtro bilateral γ (L) é infinito, vt inclui o resto da truncagem, +∞
γ
T j = p +1 • , − j
∆y•(,2t)+ j +
+∞
γ ∆y•(,2t)− j .
T j = p +1 • j
Todos os resultados se mantêm, desde que p em (10.84) cresça com n a uma taxa mais lenta do que n1 / 3 [ver Saikkonen (1991)]. Finalmente, vão apresentar-se alguns métodos de estimação do modelo com MCE. Para facilitar a exposição, vai retomar-se o exemplo utilizado para ilustrar a importância do teorema da representação de Granger (ver final da secção 10.6), ou seja,
∆y1t = δ − ϕ (1)( y1,t −1 − y1e,t −1 ) − ϕ2∆y1,t −1 + β 0 ∆y2t − β 2∆y2,t −1 + ε t . Um método de estimação – o método num só passo – resulta imediatamente desta equação, utilizando a respectiva forma de Barsden (ver capítulo 9), ∆y1t = ϕ0 + δ t − ϕ (1) y1,t −1 + β (1) y2,t −1 − ϕ2∆y1,t −1 + β 0∆y2t − β 2 ∆y2,t −1 + ε t , em que β (1) = β 0 + β1 + β 2 . Deduz-se imediatamente que o parâmetro de cointegração, λ , pode ser estimado facilmente a partir da relação λ = β (1) / ϕ (1) . Assim, para estimar os multiplicadores de longo prazo (os parâmetros do vector de cointegração), as variáveis em níveis têm que ser incluídas na equação de regressão desfasadas de um período. Contudo, o método de estimação mais popular é o método em dois passos de Engle-Granger, que separa a estimação do vector de cointegração da estimação do modelo MCE. Os dois passos são os seguintes: 1) Estimar pelo método MQE ou MQD a equação de regressão y1t = η0 + η1 t + λ y2t + ut , de modo a obter os resíduos: uˆt = y1t − (ηˆ0 + ηˆ1t + λˆ y2t ) . 2) Substituir, no termo de correcção do erro, y1,t −1 − y1e,t −1 por uˆt −1 , e estimar os restantes parâmetros pelo método MQ. Esta substituição não levanta problemas dada a superconsistência do estimador MQ de λ no primeiro passo. O modelo MCE a estimar é ∆y1t = δ − ϕ (1) uˆt −1 − ϕ2∆y1,t −1 + β 0 ∆y2t − β 2∆y2,t −1 + ε t .
Capítulo 10 – Raízes unitárias e cointegração
90
Capítulo 10 – Raízes unitárias e cointegração
PALAVRAS-CHAVE Auto-regressão aumentada Característica de cointegração Cointegração Componente determinística Componente estocástica Comportamento altamente persistente Decomposição de Beveridge-Nelson Deriva Erro de equilíbrio Espaço de cointegração Estimador leads and lags Estimador MQ “dinâmico” Estimador MQ “estático” Estimador superconsistente Inferência sobre vectores de cointegração Mecanismo de correcção do erro Método em dois passos de Engle-Granger Movimento Browniano Parâmetro de cointegração Parâmetro perturbador Passeio aleatório Processo ARMA integrado Processo auto-regressivo Processo de inovação Processo de Wiener Processo diferença-estacionário Processo estacionário em tendência Processo integrado Processo integrado linear Processos cointegrados Raiz unitária
Regressão de cointegração aumentada Regressão espúria Relação de equilíbrio de longo prazo Representação triangular de Phillips Representação VAR Tendência determinística Tendência estocástica Tendência linear Tendência quadrática Teorema da representação de Granger Teorema do limite central funcional Teste ADF Teste ADF- φ Teste ADF- φc Teste ADF- φct Teste ADF- τ Teste ADF- τ c Teste ADF- τ ct Teste de Breusch-Godfrey Teste de cointegração Teste de Engle-Granger Teste de raízes unitárias Teste DF- ϕ Teste DF- ϕc Teste DF- ϕct Teste DF- τ Teste DF- τ c Teste DF- τ ct Teste de Phillips Teste de Phillips-Perron Vector de cointegração
91
Capítulo 10 – Raízes unitárias e cointegração
92
PERGUNTAS DE REVISÃO 1. 2.
3.
4. 5.
6. 7. 8. 9.
10.
11.
12.
13.
Considere o modelo yt = α + β t + ϕ yt −1 + ε t , onde | ϕ | < 1 e {ε t } é um ruído branco. A variável yt é estacionária? A variável yt é I (0) ? Justifique. Considere o processo estocástico { yt } , supondo que yt = ct + wt , onde ct é a componente determinística e wt é a componente estocástica. Indique as condições para { yt } ser um processo integrado de ordem 0. Seja ∆2 yt = ct + wt , onde ct é a componente determinística e wt é a componente estocástica. Suponha que {wt } é estritamente estacionário com valor esperado nulo, e a respectiva variância de longo prazo é positiva. Como classifica o processo { yt } ? Suponha que { yt } é um passeio aleatório sem deriva. Determine a variância de longo prazo de ∆yt . Seja ∆2 yt = ct + wt , onde ct é a componente determinística e wt é a componente estocástica. Que condições deve impôr ao processo {wt } para que o processo { yt } seja I (2) ? Considere o passeio aleatório yt = yt −1 + ε t , onde ε t é um ruído branco. Supondo que ε t ~ N (0, σ 2 ) , determine a distribuição de yt . Considere o passeio aleatório yt = α + yt −1 + ε t onde ε t é um ruído branco. Supondo que y0 = 0 e ε t ~ N (0, σ 2 ) , determine a distribuição de yt . Considere um passeio aleatório sem deriva: yt = yt −1 + ε t , onde ε t é um ruído branco. Calcule o valor esperado de yt + h condicionado por yt . Considere que a variável yt é um passeio aleatório. Considere os seguintes casos: sem constante; com constante; com constante e tendência. Qual a relação que pode estabelecer entre Var ( yt ) e Var ( yt −1 ) ? Considere o modelo yt = α + β t + ϕ yt −1 + u t , onde | ϕ |< 1 e {ut : t = 1,2, } é processo de médias móveis de 2.ª ordem. Classifique o processo { yt } do ponto de vista da ordem de integração. Considere o modelo yt = α + β t + ϕ yt −1 + u t , onde | ϕ |< 1 , u t = ρ ut −1 + ε t e ε t é um ruído branco. Supondo que a autocorrelação é positiva, classifique, em função de ρ , o processo { yt } do ponto de vista da ordem de integração. Considere o modelo yt = α + ϕ yt −1 + ε t , onde ϕ > 0 e ε t é um ruído branco. Indique a condição a que deve obedecer o parâmetro ϕ para que a variável yt não seja integrada. Considere a decomposição de Beveridge-Nelson do processo { yt } : yt = Ct + ψ (1) ωt + η t + ( y0 − η 0 ) , onde
ωt = 14.
t s =1
εs .
Descreva as componentes desta decomposição. Suponha que yt ~ I (1) linear e que ∆yt = ct + wt , onde ct é a componente determinística e wt = ψ ( L)ε t é a componente estocástica. Prove que
Capítulo 10 – Raízes unitárias e cointegração
93
wt = ψ (1)ε t + η t − η t −1 , 15.
16.
17.
18. 19.
20. 21. 22.
23. 24. 25.
em que η t = δ ( L)ε t . Suponha que yt ~ I (1) e xt ~ I (1) , e considere o modelo yt = α + β xt + ut . Quais das seguintes afirmações são verdadeiras: a) este modelo corresponde a uma regressão espúria, excepto se ut ~ I (0) ; b) este modelo traduz uma relação de equilíbrio de longo prazo se ut ~ I (0) . Quais das seguintes afirmações são verdadeiras: a) um ruído branco e um passeio aleatório são I (0) ; b) um passeio aleatório necessita de ter tendência determinística para ser I (1) ; c) um processo MA(q) é I (1) para valores de q a partir de certa ordem. Quais das seguintes afirmações são verdadeiras: a) um passeio aleatório, qualquer que seja a sua componente determinística, é sempre I (1) ; b) qualquer processo AR(1) é I (0) ou I (1) ; c) um processo MA(2) nunca pode ser I (1) . Considere o processo yt = xt + ut , onde {xt } é ARMA( p, q ) estacionário. Indique uma situação em que { yt } é I (1) . Considere o processo yt = α + δ t + ϕ1 yt −1 + ϕ2 yt − 2 + ϕ3 yt − 3 + ϕ4 yt − 4 + ε t . Escreva a respectiva equação de auto-regressão aumentada, e indique a estatística-teste para fazer o respectivo teste ADF- φ . Suponha que o processo m-dimensional { y•t } é I (1) linear. Indique a representação VMA do processo {∆y•t } . Considere que cada uma das variáveis xt , yt e zt é I (1) . Apresente a definição de cointegração destas três variáveis. Considere as seguintes variáveis: yt , xt e zt . Apresente a respectiva definição de cointegração, supondo que normalizava o coeficiente de yt e que a componente determinística é formada por uma constante e uma tendência linear. Suponha que yt ~ I (1) e que xt ~ I (1) . Seja a combinação linear a yt + b xt . Que pode concluir? Suponha que as variáveis yt e xt são I (1) e cointegradas. Prove que as variáveis yt e xt −1 também são cointegradas. Suponha que as variáveis yt , xt e zt são I (1) e cointegradas. Admita que o modelo de curto prazo que relaciona as três variáveis é o seguinte: yt = ϕ 0 + ϕ1 yt −1 + δ t + β 0 xt + β1 xt −1 + γ 0 z t + γ 1 z t −1 + ε t ,
26.
onde ε t é um ruído branco. Determine um vector de cointegração. Suponha que as variáveis yt , xt e zt são I (1) e cointegradas. Admita também que o modelo de curto prazo que relaciona as três variáveis é o seguinte: yt = ϕ 0 + ϕ1 yt −1 + ϕ 2 yt − 2 + δ 1 t + δ 2t 2 + β 0 xt + β1 xt −1 + γ 0 z t + γ 1 zt −1 + γ 2 z t − 2 + ε t ,
27.
onde ε t é um ruído branco. Determine um vector de cointegração. Considere que cada uma das variáveis xt , yt e zt é I (1) . Indique as condições para que o vector φ de tipo 3×1 , com componentes φ1 , φ2 e φ3 , seja um vector de cointegração.
Capítulo 10 – Raízes unitárias e cointegração 28. 29. 30. 31.
32.
33.
94
Considere três variáveis, xt , yt e zt . Apresente as condições que permitem afirmar que estas variáveis são cointegradas, do tipo CI(1,1). Considere três variáveis, xt , yt e zt . Apresente as condições que permitem afirmar que estas variáveis são cointegradas, do tipo CI(2,2). Considere três variáveis, xt , yt e zt . Apresente as condições que permitem afirmar que estas variáveis são cointegradas, do tipo CI(2,1). Sejam as variáveis pt (logaritmo do nível de preços interno), pt∗ (logaritmo do nível de preços externo) e et (logaritmo da taxa de câmbio). De acordo com a teoria da paridade dos poderes de compra (PPP) existe uma combinação linear destas variáveis que é estacionária. Como se poderia testar esta afirmação? Seja { y•t } um processo estocástico vectorial, onde y•t é um vector aleatório m × 1 . Suponha que y•t = α + w•t , onde {w•t } é um processo I (0) linear com valor esperado nulo. Sabe-se que w•t = Ψ ( L)ε •t , onde Ψ ( L) = I m + Ψ1L + Ψ2 L2 + , Ψs ( s = 1, 2, ) é matriz m × m , e {ε •t } é um ruído branco independente. Defina característica da cointegração e relacione-a com a característica da matriz Ψ (1) . Considere o modelo ARMAX(2,1,0), yt = ϕ 0 + ϕ1 yt −1 + ϕ 2 yt − 2 + β 0 xt + β1 xt −1 + ε t ,
34.
em que {ε t } é um ruído branco independente, e o polinómio ϕ (L) é invertível. Supondo que o modelo especifica de forma adequada a dinâmica de curto prazo entre as variáveis y e x, pode afirmar-se que o modelo incorpora a respectiva informação de longo prazo. Porquê? Considere o seguinte modelo:
λ1 yt − xt = ut1 , (1 − ρ1 L) ut1 = ε t1 , yt − λ2 xt = ut 2 , (1 − ρ 2 L) ut 2 = ε t 2 ,
35.
36. 37. 38.
onde {ε t1} e {ε t 2 } são ruídos brancos, ρ1 = 1 e 0 < ρ 2 ≤ 1 . Discuta, em função dos valores que pode assumir ρ 2 , a cointegração entre yt e xt . Suponha que as variáveis yt , xt e zt são cointegradas. Admita que a relação de equilíbrio de longo prazo é yt = β1 + λ2 xt + λ3 z t + ut . Proponha uma regressão de cointegração aumentada que permita estimar os parâmetros de cointegração de modo a ser possível fazer inferência estatística com as distribuições habituais (normal, χ 2 , F). No teste de cointegração AEG os resíduos do respectivo teste ADF referem-se a que equação de regressão? Descreva a mecânica do teste AEG. Suponha que y•t ~ I (1) linear e cointegrado, em que o vector y•t tem duas componentes e c•t = α . Admita que a relação de curto prazo é dada por y1t = ϕ 0 + ϕ1 y1,t −1 + ϕ 2 y1,t − 2 + β 0 y2t + β1 y 2,t −1 + vt . Apresente a respectiva representação triangular de Phillips.
Capítulo 10 – Raízes unitárias e cointegração 39.
40.
95
Suponha que y•t ~ I (1) linear e cointegrado, em que o vector y•t tem quatro componentes e c•t = α + δ t . Admita que a característica da cointegração é igual a dois. Apresente a respectiva representação triangular de Phillips. Enuncie o teorema da representação de Granger.
Anexos
[2A] Álgebra e geometria dos mínimos quadrados
2A.1
Álgebra dos mínimos quadrados
Nas secções 2.3 (estimação dos coeficientes de regressão pelo método dos mínimos quadrados), 2.4 (propriedades dos resíduos dos mínimos quadrados), 2.5 (propriedades do estimador dos mínimos quadrados dos coeficientes de regressão), 2.6 (estimador não enviesado da variância das variáveis residuais), 2.7 (coeficiente de determinação) e 2.8 (estimação com restrições lineares sobre os coeficientes de regressão) estudaram-se os aspectos essenciais da álgebra dos mínimos quadrados. Na presente secção vão abordar-se alguns tópicos adicionais desta álgebra.
Obtenção do estimador MQ com a técnica «soma e subtrai» Considerando a expressão de �
� dada por (2.14), tem-se
� =� ⇹ �
=
= atendendo a que �
=
�.
�� � ⇹ �� ⇹ � ⇹ � ⇹� � �
877
�� �
��
�
878
-se
Anexo 2A
Álgebra e geometria dos mínimos quadrados
Subtraindo e somando
� = �
=
⇹
⇹� �
{ ⇹ � �
uma vez que ⇹ Finalmente, vem
� =
�
{ ⇹ �
�
�⇹
�⇹
⇹
�
�
�⇹ �⇹
, e notando que
�⇹
� }
�
}
� � � �
��
��
=
{ ⇹ �
�{ �⇹�
�
�⇹
�
�⇹
�⇹
} .
�⇹
�⇹ =
� �
{ �⇹�
}
⇹� �
, obtém-
�⇹
⇹
�⇹
}�
A expressão a minimizar, em relação a �, é, portanto, a soma de duas parcelas, a primeira das quais não depende de �. Basta, então, minimizar a segunda parcela, que é uma forma quadrática definida positiva com matriz . Consequentemente, o valor de � que minimiza a forma quadrática é aquele que a anula, o que acontece apenas se �⇹� �⇹ = �; ou seja, o minimizante é = � �⇹ . Facilmente se mostra que ̂ ̂ = � ⇹ � � ⇹ � [a soma dos quadrados dos �� � ⇹ ��, ou seja, resíduos MQ] é o mínimo absoluto de � �� = � ⇹
∀ �∶� ⇹
Com efeito,
�� � ⇹
�� ≥ � ⇹
�� � ⇹ ��} {� ⇹
{� ⇹
=� ⇹
=� ⇹
uma vez que positiva.
≥� ⇹
� ⇹
� � � ⇹ ��} � � ⇹ � � �� ⇹ �� � � ⇹ � � � ⇹ �� � � ⇹
� � ⇹
� ⇹
� ⇹ ��
��
��
� � � ⇹ ��
� = � (equações normais), e que � ⇹ ��
� ⇹ ��
� ⇹ �� é definida
Regressão por blocos Tal como se fez no final da secção 2.5, a relação = , onde • � • � é a matriz é a matriz
�
= ;
× ×
dos primeiros dos últimos
=
�
regressores;
regressores;
pode apresentar-se na forma
879
Álgebra dos mínimos quadrados •
e
•
são os respectivos vectores dos coeficientes de regressão.
Assim, tem-se
Como = �
e
=
�⇹
, para estimar
=
=
•
e
•
•
=
•
�
pelo método MQ faz-se e
=
�
onde:
=
é uma matriz quadrada de ordem
=
é uma matriz de tipo
=
é uma matriz de tipo
=
é uma matriz quadrada de ordem
Para inverter a matriz
× ×
;
; ; .
por blocos, convém recordar a respectiva técnica de cálculo.
Inversão de matrizes por blocos Se
=
tem-se ⇹
onde
=�
=
⇹
⇹
⇹
=
⇹
⇹
�
�⇹ e
⇹
⇹
=�
�
⇹
�
⇹
⇹
⇹
⇹
⇹
⇹
⇹
⇹
⇹
⇹
(2A.1)
�
�⇹ .
Aplicando este resultado, tem-se
�
⇹
�
=
⇹
=
�
880
Anexo 2A
Álgebra e geometria dos mínimos quadrados
onde:
=�
=⇹
⇹
=⇹
⇹
=�
⇹
⇹
⇹
⇹
�⇹ ;
ou ou
�⇹ , onde
=⇹
⇹
.
= ⇹
�⇹
ou
= ⇹�
�⇹
ou
�⇹ , onde
Tem-se, então,
=
Portanto,
;
= ⇹� =�
Donde
⇹
�⇹ ;
Facilmente se verifica que:
=�
=⇹
=
•
=
• •
⇹
�
• •
As equações normais,
=
=
•
⇹
⇹
Além da regressão referida,
=
•
�
•
=⇹
�
=
�
�⇹
�
�⇹
�
�⇹
�⇹
�
�⇹
=�
�⇹ ;
;
�⇹ . �⇹
�
�
�
=
�
�
�⇹
=�
;
�
�
(2A.2)
�
, os respectivos erros de amostragem são • •
�⇹
=�
�
�⇹
=�
�
, podem escrever-se do seguinte modo: • •
�
•
�
� ̂ � onde ̂ =
considerem-se mais as seguintes:
=
⇹
�⇹
⇹
e
=
e
⇹
•
Notando que
=⇹
�
�
=
•
= ⇹
e
•
�
=
=
= ⇹
� e
= �
�⇹
�
881
Álgebra dos mínimos quadrados
(1) (2) (3) (4) (5) (6)
=
=
=
=
� = �
� = �
� � , onde � =
′ •
� � , onde � =
′ •
é o vector dos resíduos; é o vector dos resíduos;
� � , onde � =
∗ •
∗ •
� � , onde � =
é a matriz dos resíduos destas
regressões;
é a matriz dos resíduos destas
regressões;
� ̂ ;
� ̂ .
A regressão (1) permite obter as observações do regressando expurgadas da influência de (estes valores são os respectivos resíduos, � ). Tem-se ′ •
=�
�⇹
�
A regressão (2) tem o mesmo objectivo, mas eliminando o efeito de respectivos são � ). Vem ′ •
=�
�⇹
�
As regressões (3) visam determinar ( é uma matriz × ). Obtém-se
«purificado» da influência de
As regressões (4) permitem calcular uma matriz × ). Tem-se
corrigido do efeito de
=�
=�
�⇹
�⇹
(os resíduos
, isto é, �
� , ou seja, � (
�
Em (5) faz-se a regressão com os resíduos obtidos em (1) e (3). Obtém-se ∗ •
=� �
� �⇹ �
� �
O mesmo se passa na regressão (6) com os resíduos calculados em (2) e (4): ∗ •
=� �
� �⇹ �
� �
é
882
Anexo 2A
Álgebra e geometria dos mínimos quadrados
Podem provar-se os seguintes resultados: a)
∗ •
=
•
e
Com efeito,
∗ •
=
.
•
� �⇹ �
=� �
∗ •
Da mesma forma se demonstra que b)
� =� ∗ •
̂ = ̂ e ̂ = ̂.
Com efeito, sabe-se que ̂ = � ⇹ � [devido às equações normais], vem
̂ =
⇹
uma vez que c)
•
∗ •
� �⇹ �
=� �
•
=
=
•
⇹
=
⇹
•
.
∗ •
. Como
�
�⇹ �
•
=
⇹
= � ⇹ �
�
�⇹ �
=�
•
•
•
⇹
�⇹
�
•
= ̂ �
∗ •
•
. Da mesma forma se demonstra que ̂ = ̂ .
•
e
� �⇹ �
=� �
� �⇹ �
=� �
•
Com efeito,
•
⇹
=
�⇹
Pode, então, concluir-se que
.
� =� �
=� �
� �⇹
� �⇹ �
resulta, também, da regressão de
•
Do mesmo modo se prova a segunda igualdade.
�
sobre � .
Na secção 2.10, a propósito da dedução do resultado (2.80), demonstrou-se que
onde = . Como ̂ =
̂ ⇹
̂ =� ⇹
̂ ⇹ ̂ =� ⇹ ̂
̂ = �. uma vez que Pode provar-se que
�� � ⇹
̂
Com efeito, seja
� ⇹
� { �
=� ⇹ =
�⇹ �
}⇹ � ⇹
� { � �
⇹
�
⇹
�
�
�
� ⇹
}⇹
�
��
� [ver (2.63)], resulta que
��
̂ �
̂ = ̂
̂ ⇹ ̂
}⇹ � ⇹
�= ̂ � � ⇹
̂ =� ⇹
̂ ⇹ ̂
�⇹
� { �
�⇹
{ �
(2A.3)
�⇹
}⇹ � ⇹
�
Interpretações geométricas do método dos mínimos quadrados
onde = { � �⇹ a (2.60). Como ⇹ Então,
2A.2
� é o vector dos multiplicadores de Lagrange relativo
}⇹ � ⇹
̂
�
883
� ⇹
= � [condições de 1.ª ordem de (2.60)], vem �=⇹
̂ = ̂
̂ ⇹ ̂
�
ou
̂ =⇹
�⇹
̂ = ̂
�
̂ �
Interpretações geométricas do método dos mínimos quadrados
Na secção 2.3 foi apresentada uma interpretação do método dos mínimos quadrados para o MRL simples com termo independente, = � � . Esta interpretação é feita no espaço ℜ das variáveis, considerando a «nuvem» de pontos � � �, para = �� �� … � (ver figuras 2.2 e 2.3). Esta abordagem do método MQ poderia ser facilmente generalizada para qualquer MRL com termo independente, considerando os vectores � � � … � � do espaço ℜ das variáveis ( = �� �� … � ). A estimação pelo método dos mínimos quadrados é passível de outra interpretação geométrica muito sugestiva. Esta interpretação é feita no espaço ℜ das observações, considera o vector e as colunas da matriz ( • � • � … � • ) como vectores daquele espaço.
Interpretação geométrica no espaço das observações Considerando as colunas da matriz como vectores do espaço ℜ , todas as combinações lineares destas colunas geram um subespaço , de dimensão , chamado espaço das colunas da matriz . Como = � , o vector das observações do regressando não pertence a , isto é, não é combinação linear das colunas da matriz ,
≠
•
�
•
�⋯�
•
�
Na figura 2A.1 supõe-se = �, e, portanto, o subespaço é um plano (trata-se do plano gerado pelos vectores • e • , ou seja, é o conjunto de todas as combinações lineares destes vectores). A estimação pelo método dos mínimos quadrados implica a determinação de um vector ̂ = pertencente ao subespaço , que se aproxime «o mais possível» do vector . A cada vector ̂ assim obtido corresponde um vector de resíduos ̂ , tal que = ̂ � ̂ . Assim, é a soma de dois vectores, um dos quais, ̂ = , pertence a . Pretende escolher-se de modo que o «erro» cometido seja mínimo, isto é, de forma que o vector ̂ esteja o mais «perto» possível do vector . Tal acontece escolhendo
884
Anexo 2A
Álgebra e geometria dos mínimos quadrados
Y
Xb
Figura 2A.1 — Interpretação geométrica no espaço das observações.
de forma que o vector ̂ seja ortogonal ao subespaço (na situação representada na figura 2A.1 o vector ̂ é perpendicular ao plano atrás referido). Verifica-se, então, que ̂ é a projecção ortogonal de no espaço das colunas de . Como ̂ = , a matriz da projecção (simétrica, idempotente) é . Obviamente, ̂ ̂ ̂ = e = , porquanto as colunas de e o vector pertencem a . Como ̂ = , = ⇹ , = e ̂ ̂ = �, a matriz (simétrica, idempotente) é a matriz de projecção de no complemento ortogonal, ⊥ , do espaço ̂ = ̂ , pois ̂ pertence a ⊥ . . Manifestamente tem-se Pode, então, concluir-se que o espaço ℜ é a soma directa dos subespaços e ⊥: ⊥ ℜ = ⊕ . Deste modo, qualquer vector ⇯ ℜ é igual à soma de dois vectores ortogonais, um pertencente a , e o outro a ⊥ :
= ̂ � ̂�
̂
̂ = ��
Diz-se, então, que cada um daqueles dois subespaços é o complemento ortogonal do outro. ̂ = �, facilmente se conclui que ⊥ é o núcleo da projecção dada Notando que por . Assim, também se pode interpretar aquela soma directa da seguinte maneira: A projecção dada por
divide o espaço ℜ em dois subespaços ortogonais:
={ ̂ ∶ ̂ = � ⇯ ℜ }; ̂ ̂ ̂ ={ ∶ = �� ⇯ ℜ }.
— O contradomínio da projecção,
— O núcleo da projecção,
⊥
Do mesmo modo, pode deduzir-se sem dificuldade que ̂ = �). Então, ℜ = dada por (basta notar que ⊕ -se da seguinte maneira:
⊥
é o núcleo da projecção pode, ainda, interpretar-
Interpretações geométricas do método dos mínimos quadrados
A projecção dada por
divide o espaço ℜ em dois subespaços ortogonais:
={ ̂ ∶ ̂ = � ̂ = �� ̂ ⇯ ℜ }. ={ ̂ ∶
— O contradomínio da projecção, — O núcleo da projecção,
⊥
⇯ ℜ };
885
[2B] Variáveis centradas
Considere-se o MRLC com termo independente. Dada uma amostra de dimensão , {� � � � … � � ∶ = �� �� … � }, tem-se
=
�
�⋯�
�
Neste caso, a matriz dos regressores é
� = �� �� … � ��
(2B.1)
�
=
⋯ • onde = [ � � ⋯ � ] e = é a matriz de tipo × � ⇹ �� das • observações dos regressores (genuínos). Somando ordenadamente as igualdades (2B.1), e dividindo por , tem-se =
onde
=
�
=
� =
�
�⋯� �
=
(2B.2)
� � �
=
�…�
=
���
⇹ � � = �� �� … � ��
�
são, respectivamente, a média das observações do regressando, as médias das observações dos regressores, e a média das variáveis residuais. Subtraindo ordenadamente cada uma das igualdades (2B.1), de (2B.2), obtém-se
⇹ =
Fazendo
=
⇹ �
�
⇹ =
��⋯� ⇹
�…�
�
⇹
=
887
⇹
�
=
⇹
� = �� �� … � ��
888
Anexo 2B
tem-se
=
Variáveis centradas
�⋯�
ou, com a notação matricial,
=
onde: é o vector
�
� = �� �� … � �� �
(2B.3)
�
× � das observações centradas do regressando,
;
é a matriz de tipo × � ⇹ �� das observações centradas dos regressores, = �� … � ; é o vector � ⇹ �� × � dos coeficientes de regressão, é o vector
, para
� = �� … � �;
× � das variáveis residuais centradas,
.
Obteve-se, assim, um conjunto de igualdades em variáveis centradas, pois «centraram-se» as observações das variáveis em torno das respectivas médias. A relação = � pode ser obtido da respectiva relação em variáveis originais, = � , pré-multiplicando ambos os membros desta igualdade pela matriz de centragem, � = ⇹ � (2B.4) ou
�⇹ =
⇹
=
conclui-se facilmente que
�
�
�
�⇹
�
⋮
�
⇹
= =
⇹
⋮
⇹
Assim, notando que
�
[ �
�
⋯
⇹
⋯
⇹
� �
⋮
⋯ �⇹ ] = [�
⇔
=
�
�
]�
= �
�
�
Verifica-se sem dificuldade que a matriz é simétrica, idempotente e semidefinida positiva [a característica é ⇹ �: � � = tr� � = ⇹ �]. Assim, representa uma projecção
889
Variáveis centradas
ortogonal que permite projectar qualquer vector de ℜ no complemento ortogonal do subespaço gerado pelo vector . Facilmente se conclui que Cov� | � = Cov� � = ≠ . Então, o vector aleatório é degenerado, e existe uma relação linear entre as variáveis residuais : � ⋯ � = �. Apesar disso, propõe-se
= como estimador de
⋮
�⇹
=�
. O estimador a propor para
= ⇹�
(2B.5)
�⇹
=� é
�⋯�
(2B.6)
��
motivado pela igualdade referente às médias, (2B.2). Vai demonstrar-se que
�
=
isto é, os estimadores (2B.5) e (2B.6), no contexto das variáveis centradas, fornecem os mesmos resultados que o estimador de , já conhecido do MRLC (variáveis originais). Com efeito, considere-se a matriz em variáveis originais,
=
=
�
Fazendo
=
⋮
=
�
�
obtém-se
=
�
Invertendo esta matriz por blocos, obtém-se
�
⇹
�
=
��� � � ⇹�
�
⇹
⇹
�⇹
�⇹
⇹
�
�
⇹
⇹
�⇹
�⇹
�
890
Anexo 2B
Variáveis centradas
Notando que
=
obtém-se
= ��� � �
�⇹ =
�
⇹ ��� � �
⇹�
�⇹
= �⇹
⇹
�
�
o que mostra que � �⇹ pode ser calculado a partir de � meira linha e a primeira coluna. Seja
=
=
Como
=
obtém-se
=
=�
�⇹
=
��� � �
�
⇹
�⇹
⇹�
ou
=
�
�
�⇹
=
�⇹
�⇹
�
�⇹ , eliminando a pri-
⇹
�
�
�
Então,
�⇹
�⇹
�
⇹ ��� � =
�
⇹
⇹
=
�
�
�⇹
⇹
�⇹
� =
�
�
Assim, fica provado que se podem obter os estimadores � … � utilizando variáveis centradas, com uma fórmula semelhante à que se havia deduzido com variáveis originais, passando-se depois ao cálculo de , por diferença. Pode, também, verificar-se que os resíduos MQ são os mesmos, quer se trabalhe com variáveis originais, quer com variáveis centradas. Com efeito, a partir de
obtém-se
=
�
�⋯� =
�
� ̂ �⋯�
� = �� �� … � �� �
(2B.7)
891
Variáveis centradas
uma vez que a média dos resíduos MQ é nula. Donde,
Como Cov� | � =
=
� ̂
�⋯�
�⇹ , facilmente se obtém
�
Var� | � =
{��� � �
Cov� | � =
Cov� �
�
| �=⇹ �
� = �� �� … � ��
(2B.8)
�⇹
(2B.9)
�
�⇹ � �⇹
}�
(2B.10) (2B.11)
�
Evidentemente, o estimador não enviesado de continua a ser . Antes de prosseguir, convém considerar as matrizes que permitem o cálculo de e . Como se sabe, estas são, respectivamente, , de elemento genérico , de elemento genérico , de elemento genérico , de elemento genérico
� � = �� �� … � �;
=⇸=
=⇸=
� = �� �� … � �;
=⇸=
� = �� … � �.
� � = �� … � �;
=⇸=
Não é difícil estabelecer as relações entre os elementos destas matrizes em variáveis centradas e em variáveis originais. Tem-se:
= = Fazendo
� = �� … � �;
⇹
� � = �� … � ; ≠ �;
⇹
=
⇹
=�=
=
⇹
� = �� … � �. e
= � = � � , também se tem
.
Seja o modelo de regressão linear simples,
=
⇸
⇸
=
=
= ⇹
� � ,
Var� | � =
=
,
,
=
�
�
. Tem-se:
892
Anexo 2B
�
Var� | � = Cov� �
=
⇸
,
� ,
| �=⇹
=
̂
⇹�
Variáveis centradas
.
Estes resultados devem ser interpretados de forma conveniente. Por exemplo, a fórmula da variância (condicionada) do estimador MQ de mostra que a precisão da estimação é tanto maior quanto maior for a precisão das variáveis residuais (medida por ), e quanto maior for a dispersão das observações do regressor (medida por ). Pode relacionar-se o coeficiente de correlação amostral entre as observações do regressando e do regressor com a estimativa MQ de . Tem-se
=
Prova-se, também, que
�
=
�
�
̂ =
=
�
(2B.12)
�� ⇹
��
(2B.13)
ou seja, a soma dos quadrados dos resíduos MQ é tanto menor quanto maior for o coeficiente de correlação, em valor absoluto, entre os e os . Com efeito, notando que ̂ = , e atendendo à propriedade 2.10 dos resíduos MQ e a (2B.12), obtém-se
�
=
̂ =�
=
� � ⇹�
=
�̂ � =
⇹
=
⇹
=
�� ⇹
��
No caso do modelo = � � � (MRLC com termo independente e dois regressores), têm-se os seguintes resultados:
= =
= ⇹
Var� | � = Var� | � =
⇹
⇹�
�
⇹�
�
⇹
⇹
; ;
;
⇹�
�
⇹�
�
= =
�� ⇹
�
�� ⇹
�
; ;
893
Variáveis centradas
Cov� �
| �=
Var� | � =
Cov� �
| �=
Cov� �
| �=
�
=
⇹�
̂
�
�
�
=
=
⇹
⇹�
⇹�
�
⇹�
Var� | � � �
⇹ � ⇹ �
⇹ ⇹� ⇹ ⇹�
⇹ �� ⇹
=
� �
� �
� �
Cov� �
�
;
= | ��
Var� | �;
= ⇹{ Var� | � � = ⇹{ Cov� �
Cov� �
| ��
| �};
Var� | �};
,
onde é o coeficiente de correlação (amostral) entre as observações dos dois regressores. É possível apresentar interpretações muito sugestivas das fórmulas anteriores. Por exemplo, a fórmula da variância condicionada de põe em evidência que a precisão da estimação de é tanto maior quanto maior for a precisão das variáveis residuais (medida por ), quanto maior for a dispersão das observações do respectivo regressor (medida por ), e quanto menor for o grau de associação linear entre os dois regressores (medido por ). Fica ao cuidado do leitor verificar que
�
=
̂ =�
=
� � ⇹�
=
�̂ � =
⇹�
�
��
(2B.14)
[2C] Coeficientes de correlação
Considere-se o MRLC com termo independente. Dada uma amostra de dimensão , {� � � � … � � ∶ = �� �� … � }, pode construir-se a matriz das correlações amostrais (simples) entre as observações dos regressores, e o vector das correlações amostrais (simples) entre as observações de cada regressor e as observações do regressando. Assim, � ⋯ � ⋯ � ⋯ = ; = � (2C.1) ⋮ ⋮ ⋮ ⋮ ⋮ ⋯ � onde:
=
�
= =
�
� �
� =
�
�
=
�
=
�
=
=
�
⇹ ��
⇹ �
�
⇹ �
�
�
⇹ ��
⇹ � =
⇹ � =
�
⇹ �
=
�
⇹ �
⇹ �
=
√
=
� = �� … � �;
=
�
=
� � = �� … � ; ≠ �;
=
� = �� … � �;
�
=
�
⇹ � =
�
Considere-se também a matriz diagonal dos desvios padrão das observações dos regressores, = diag{ � … � }. 895
896
Anexo 2C
Coeficientes de correlação
É possível apresentar o vector dos estimadores MQ com variáveis centradas (ver anexo 2B), em função dos desvios padrão amostrais, e , e dos coeficientes de correlação amostrais, e . Com efeito, notando que = e = , tem-se, respectivamente, = e = � Então,
Vejam-se dois casos particulares: 1) No caso do MRLC simples,
2) Considerando o MRLC,
=
⇹
= =
=
�
=
�
�
�
, tem-se [ver (2.22)]
�
⇹
�
�⇹
(2C.2)
⇹
�
=
�
, vem
⇹
�
�⇹
Estas fórmulas mostram bem que, por exemplo, o estimador depende não só da dispersão dos e dos , e da respectiva correlação, mas também de todas as outras correlações amostrais que se podem estabelecer entre as observações das variáveis do modelo. Os estimadores MQ dos coeficientes de regressão são passíveis de uma outra interpretação muito sugestiva. Para facilitar a exposição considere-se ainda o MRLC,
=
�
�
�
e os seguintes ajustamentos (em variáveis centradas): 1) 2) 3) 4) 5)
=
=
=
=
=
�
� � ;
�
� ̂ ;
� � ;
� � ;
� � .
O ajustamento (1) corresponde ao modelo dado, e os estimadores MQ dos coeficientes de regressão são (ver anexo 2B):
=
⇹
⇹�
�
�
=
⇹
⇹�
�
�
897
Coeficientes de correlação
Os ajustamentos (2) e (3) dizem respeito às regressões simples, e tem-se (ver anexo 2B):
=
=
�
=
=
�
=
=
�
=
=
�
Os resíduos MQ são, respectivamente, � e � . Por exemplo, � pode ser interpretado como o valor de depois de eliminada a influência de . Os ajustamentos (4) e (5) referem-se a duas regressões auxiliares simples (de cada regressor sobre o outro), obtendo-se:
Os resíduos MQ são, respectivamente, � e � . Por exemplo, � pode ser interpretado como o valor de depois de eliminada a influência de . Sem dificuldade se estabelecem as seguintes relações:
=
⇹
�⇹
e
=
⇹
�⇹
�
Por exemplo, a interpretação da fórmula de pode ser feita do seguinte modo: o estimador do coeficiente de no modelo dado é baseado no estimador do coeficiente da regressão simples sobre , corrigido da presença de . Se e não estão correlacionados tem-se =�( = = �) e = . Interpretação semelhante se pode fazer para . De forma sugestiva pode escrever-se = ⋅ para significar que este estimador é expurgado da influência de . Da mesma forma, se tem = ⋅ . Chamando a e estimadores de ordem 1, e a e , estimadores de ordem 0, as fórmulas ⋅ ⋅ anteriores estabelecem as relações entre estes dois tipos de estimadores. A hierarquia entre estimadores MQ, agora estabelecida, pode ser estendida aos coeficientes de correlação entre as observações de cada regressor, e as observações do regressando. Para facilitar a exposição, considere-se inicialmente o mesmo MRLC com dois regressores (genuínos), = � � � . Neste caso, têm-se dois coeficientes de correlação simples, e . Por exemplo, mede o grau de associação linear entre e . Contudo, devido à presença de (que está correlacionado com e com ), não mede correctamente a correlação pretendida. Então, para se ter a correlação correcta entre e é necessário remover a associação linear existente entre e ,e entre e . Assim, deve considerar-se o coeficiente de correlação entre os resíduos � e � , ou coeficiente de correlação parcial entre e . Este coeficiente de correlação
898
Anexo 2C
Coeficientes de correlação
vai representar-se da seguinte maneira:
� �
=
⋅
�
�� � �
�� � �
�
Assim, enquanto o coeficiente de correlação simples, , mede o grau de associação linear entre e , sob a influência de , o coeficiente de correlação parcial, ⋅ , mede a correlação entre as mesmas variáveis, expurgada daquela influência. Atendendo às relações já estabelecidas, sem dificuldade obtêm-se as seguintes igualdades: � � � =� � ⇹ �� ⇹ � =
� Então,
�
=
=
⇹
=
� � � =
=
� � � =
=
⋅
=
⋅
=
De forma semelhante, tem-se
Também se pode demonstrar que ⋅
=
�
⇹
⇹
�� ⇹
�=
�� ⇹
�⇹
�⇹
� � ⇹ ��
�
��
�=
⇹
�⇹
⇹
�⇹
⋅
=
�
�� ⇹
��
�� ⇹
��
�
�
� � ⇹ ��
�
onde = � e = � são os rácios- de e , respectivamente, e ⇹ � é o número de graus de liberdade. É vantajoso designar os coeficientes de correlação simples por coeficientes de correlação parciais de ordem 0, e os coeficientes de correlação parciais propriamente ditos por coeficientes de correlação parciais de ordem 1. As considerações precedentes podem generalizar-se para situações em que existem três ou mais regressores genuínos. Por exemplo, no caso do MRLC,
=
�
�
�
�
�
Coeficientes de correlação
899
têm-se os seguintes coeficientes de correlação parciais:
�
⋅
⋅
�
� �
(3 de ordem 0); ⋅
⋅
�
�
⋅
�
⋅
⋅
�
⋅
�
(6 de ordem 1);
⋅
(3 de ordem 2).
Por exemplo: ⋅ mede o grau de associação linear entre e , depois de eliminado o efeito de ; ⋅ mede a correlação entre e , corrigida a influência de e . Por convenção, o coeficiente de determinação, , pode ser considerado como o quadrado do coeficiente de correlação parcial de ordem 3. Pode, então, escrever-se = ⋅ . Se o modelo tiver ⇹ � regressores (genuínos), têm-se as seguintes contagens: Ordem
Número
�
⇹�
�
⇹
� � ⋮
⋮
⋮
⋮
⇹�
�
⇹� onde
⇹
� ⇹ ��
⇹
� ⇹ ��
⇹
� ⇹ �� � ⇹ ⇹ ��
⇹�
� ⇹ ��� � � ⇹ � ⇹ �� é o número respectivo de combinações. O coeficiente de correlação parcial de ordem ⇹ � é a raiz quadrada do coeficiente de determinação, = ⋅ …. A ordem de um coeficiente de correlação parcial é facilmente determinada contando o número de índices depois do ponto. Assim, por exemplo, ⋅ é de ordem 3. O seu cálculo pode ainda ser feito utilizando a seguinte fórmula: ⇹
⋅
=
=
� � ⇹ ��
�
onde: é o rácio- de na regressão com termo independente, de sobre , e ; ⇹ � é o número de graus de liberdade correspondente a esta regressão. Em geral, tem-se ⋅…
=
� gl
�
,
(2C.3)
900
Anexo 2C
Coeficientes de correlação
onde é rácio- respectivo e gl é o correspondente número de graus de liberdade. O cálculo dos coeficientes de correlação parciais pode fazer-se utilizando directamente os resíduos MQ. Com efeito, suponha-se, sem perda de generalidade, que pretende determinar-se o coeficiente de correlação parcial de ordem ⇹ � entre e , eliminando o efeito de � … � � ⇹ . Os ajustamentos a fazer são os seguintes (comparar com o anexo 2A): (1)
=
(2) (3)
•
(4) onde:
•
′ •
=
=
� =
∗
�
•
� � ,
� �
� ̂,
� �• ,
�• � � ,
O ajustamento (1) considera todos os regressores até à ordem , separando o regressor dos primeiros ⇹ � regressores [as observações do regressor formam o vector • ; as observações dos primeiros ⇹ � regressores estão agrupadas na matriz , de tipo × � ⇹ ��; • e são os estimadores MQ dos coeficientes de regressão respectivos]. O ajustamento (2) permite obter as observações do regressando expurgadas da influência de (estes valores são os respectivos resíduos, � ). No ajustamento (3) determinam-se as observações do regressor da influência de (estas observações são os resíduos � • ).
«purificadas»
No ajustamento (4) faz-se a regressão dos resíduos obtidos no ajustamento (2) sobre os resíduos obtidos no ajustamento (3). Tem-se: ⋅ …� ⇹
=
�• �•
�• �
� � �
�
•
=
�
•
•
(2C.4)
onde = ⇹ � � . O teorema de Frisch-Waugh-Lovell (apresentado no final da secção 2.5) permite interpretar, de outra maneira, os coeficientes de correlação parciais. Considere-se, para simplificar a exposição, o MRLC com três regressores (genuínos),
=
�
�
�
�
�
Facilmente se conclui que , e (os quadrados dos coeficientes de correlação simples) medem, respectivamente, a proporção da variação de explicada por cada
901
Coeficientes de correlação
isoladamente � = �� �� ��; o coeficiente de determinação, = ⋅ , permite conhecer a proporção da variação de explicada, conjuntamente, por todos os � = �� �� ��. Os outros coeficientes de correlação parciais (de ordem 1 e 2) também podem ser interpretados de forma semelhante. Por exemplo: ⋅ mede a proporção da variação de explicada por , supondo que já tinha sido incluído no modelo; ⋅ calcula a proporção da variação de explicada por , supondo que e já tinham sido incluídos no modelo. Verifica-se assim que as correlações parciais podem dar um contributo para a decisão de inclusão, ou não, no modelo de mais regressores. Por exemplo, suponha-se que = ��9� e ⋅ = ����. Nesta situação, isolado apresenta uma forte correlação com , mas a inclusão de , depois de , pouca ajuda na explicação da variação de . Deste modo, pode desempenhar o papel que isoladamente poderia desempenhar . Uma situação típica ocorre quando os coeficientes de correlação simples (de ordem 0) são grandes, mas os coeficientes de correlação parciais (de ordem 1) são pequenos. Por exemplo, = ��97, = ��9�, ⋅ = ���� e ⋅ = ����. Neste caso, cada regressor pode desempenhar o papel do outro. Os dois exemplos anteriores podem, eventualmente, sugerir a ideia de que os coeficientes de correlação simples (de ordem 0) nunca são inferiores aos coeficientes de correlação parciais (de ordem 1). Contudo, observando, por exemplo, as fórmulas que relacionam estes coeficientes no modelo = � � � , facilmente se verifica = ���� e ⋅ = ����. Deste que não é verdade. Com efeito, é bem possível ter-se modo, explica isoladamente 25% da variação de , mas passa a explicar 45% da mesma variação, quando já tinha sido previamente considerado. O coeficiente de determinação, = ⋅ … , pode obter-se exclusivamente a partir dos coeficientes de correlação simples. ⇹ ⇹ Com efeito, notando que = e = , tem-se
̂
=
Como
�
⇹
conclui-se, então, que
=
̂
�
=
⇹
= ��
�
�
��
�
�
⋮
⋯
⋯
⋮
=
⇹
�
� ⋮
⋯ �� ⇹
�
�
⋮
=
�
(2C.5)
902
Anexo 2C
Coeficientes de correlação
Por exemplo, no caso do modelo
=
�
�
=
�
⇹�
�
, tem-se
�
�⇹
O coeficiente de determinação, = ⋅ … , pode também relacionar-se com os coeficientes de correlação parciais. Vai começar-se por considerar novamente o modelo = � � � . Seja:
�� ⇹ �� ⇹ �� ⇹
⋅
�
⋅
[VR considerando
�
[VR considerando
��� ⇹
�
e
];
];
[VR considerando
, depois da inclusão de
�� ⇹
⋅
].
Facilmente se conclui que
ou
�
⋅
�⇹
Então,
�⇹
⋅ …
= �� ⇹
= �� ⇹
⋅ ⋅
Em geral, tem-se
= �� ⇹
��� ⇹
�
��� ⇹
⋅
�� ⇹
��
=
�
⋅
��� ⇹
⋅
��� ⇹
⋅
�
��
� ⋯ �� ⇹
⋅ …� ⇹
��
(2C.6)
As fórmulas apresentadas permitem também concluir que o quadrado de qualquer coeficiente de correlação parcial é inferior ou igual a .
[2D] Estimadores de máxima verosimilhança
Seja
•
um vector �×
de variáveis aleatórias cuja função densidade pertence à família P�� =
� ∶ �� ⇯ �� �
�
• | ��
indexada pelo vector �� ⇯ � ⊂ ℜ ; � é o respectivo espaço-parâmetro. Considere-se o modelo formado pelo conjunto de processos estocásticos , { • } (processo estocástico para cada �� ⇯ �). A forma funcional de é conhecida, e é a mesma qualquer que seja , uma vez que se trata de um processo identicamente distribuído. O modelo é paramétrico porque o vector �� tem um número finito de componentes. Para o verdadeiro valor do vector dos parâmetros, �, a densidade � • | �� corresponde ao PGD que gerou os dados (o verdadeiro PGD). Diz-se que o modelo está correctamente especificado se � ⇯ �. Suponha-se que se tem uma amostra, { • � • � … � • }, de dimensão , onde • é a -ésima observação. Como o processo é independente, a função densidade da amostra é dada por � � � • | ��� =
Como esta distribuição está completamente especificada, a estimação dos parâmetros pode ser feita com o método da máxima verosimilhança. A ideia básica deste método de estimação é a de escolher estimativas para os parâmetros que maximizam a probabilidade de obter a amostra concretamente observada. Considerando a densidade da amostra como função de �� (e não como função da amostra), obtém-se a função de verosimilhança,
��� |
•�
•� … �
•�
903
=�
=
�
�
• | ���
(2D.1)
904
Anexo 2D
Estimadores de máxima verosimilhança
Para simplificar a escrita, podem utilizar-se os símbolos ��� | ⋅� ou para representar a função de verosimilhança. O método da máxima verosimilhança consiste em escolher um valor de �� que maximiza (2D.1).
Definição 2D.1 (Estimador de máxima verosimilhança (MV)) Diz-se que �̂ é estimador MV de � se e só se �̂ é o valor de �� que maximiza a função de verosimilhança. Suponha-se que ��� | ⋅� > �. Como a transformação logarítmica é monótona, maximizar a função de verosimilhança é equivalente a maximizar o respectivo logaritmo,
ln{ ��� |
•�
•� … �
=�
• �}
=
�
ln{ �
(2D.2)
• | ��}�
Em muitos casos, a maximização de (2D.2) implica a resolução das equações de verosimilhança ⇮ ln{ ��� | ⋅�} = �� (2D.3)
Exemplo 2D.1
Seja o processo escalar
�� =
e
�
| �� � � =
�
√�� � O logaritmo da função de verosimilhança é ln{ � � � � |
�
�…�
,{
�
�
}, onde
∼
� � � � �. Então,
�
exp �⇹
�
⇹ �� �� � �
� � � �} = ⇹ ln���� ⇹ ln� � � ⇹ = � � � �
⇹ �� �
Construindo as respectivas equações de verosimilhança, verifica-se sem dificuldade que o estimador MV de � � � é � ̂ � ̂ �, onde
̂=
=
�
�
=
e
̂ =
�
�
=
�
⇹ ̂� �
Em muitas aplicações, nomeadamente no caso do MRLCN, o vector em dois blocos, • � • =
•
é decomposto
pretendendo examinar-se como • influencia a distribuição de condicionada por É habitual chamar a regressando, e a • , vector dos regressores.
•.
905
Estimadores de máxima verosimilhança
Seja � | • ; �� a densidade de condicionada por ginal de • . Então, � � • | �� � = � | • ; �� �
•, •|
e �
•|
� a densidade mar-
�
(para simplificar, as três densidades é a distribuição conjunta de • = • representaram-se com o mesmo símbolo ). Supondo que � e não estão funcionalmente relacionados, o logaritmo da função de verosimilhança é
ln{ ���� � | ⋅�} = � =�
= =
ln{ � �
ln{ � |
�
• | ��
� �}
� • ; ��} � �
=
ln{ �
� • | �} �
(2D.4)
A primeira parcela é o logaritmo da função de verosimilhança condicionada. O estimador MV condicionado de � corresponde à maximização desta parcela, ignorando a segunda. A segunda parcela de (2D.4) é o logaritmo da função de verosimilhança marginal. Como não depende de �� , o estimador MV condicionado de � é numericamente igual ao respectivo estimador MV conjunto. Suponha-se, agora, que � e estão funcionalmente relacionados. Por exemplo,
�=
e
=
�
Neste caso, os estimadores MV de �, conjunto e condicionado, não são numericamente iguais, uma vez que o segundo não considera a informação incluída na verosimilhança marginal. Pode demonstrar-se que o estimador condicionado de � é menos eficiente do que o estimador de � quando se estima conjuntamente � e . Em muitas aplicações, a perda de eficiência é inevitável porque não se conhece a forma paramétrica de � • | � �. Recordam-se algumas propriedades dos estimadores MV: a) Invariância. Se �̂ é estimador MV de �, e se = ���, onde biunívoca, então ̂ = ���̂ é estimador MV de = ���.
é uma aplicação
b) Eficiência. Se �̂ é estimador eficiente de �, então: �̂ é solução única das equações de verosimilhança, ⇮ ln{ ��� | ⋅�} = �; �̂ é estimador MV.
c) Consistência. Verificadas certas condições de regularidade, os estimadores MV são consistentes.
d) Normalidade assintótica. Verificadas certas condições de regularidade, os estimadores MV são assintoticamente normais.
906
Anexo 2D
Estimadores de máxima verosimilhança
Podem fazer-se os seguintes comentários: 1) As demonstrações das propriedades a), c) e d) vão ser apresentadas, num contexto mais geral, no capítulo 8. 2) A invariância dos estimadores MV implica, em geral, que estes estimadores são enviesados. 3) A propriedade b) ensina que qualquer estimador eficiente (na óptica do teorema de Fréchet-Cramér-Rao; ver anexo 2E) é necessariamente estimador MV. Contudo, há estimadores MV que não são eficientes (basta considerar um estimador MV enviesado). 4) As propriedades c) e d) podem ser enunciadas de uma forma mais rigorosa: Verificadas certas condições de regularidade, existe solução, �̂ , das equações de verosimilhança, ⇮ ln{ ��� | ⋅�} = �. Esta solução é estimador consistente de �, e tal que
√ ��̂ ⇹ �� →
� �
�� ���⇹ �
onde ��� é a matriz de informação de Fisher (ver anexo 2E).
5) As propriedades c) e d) garantem que, em certas condições, os estimadores MV são CAN (consistentes e assintoticamente normais; ver, no capítulo 3, a subsecção «Estimadores consistentes e assintoticamente normais» da secção 3.1). 6) O enunciado referido em 4) corresponde a afirmar que, nas condições de regularidade aludidas, os estimadores MV são assintoticamente eficientes. Trata-se, portanto, de estimadores BAN (best asymptotically normal).
[2E] Estatísticas suficientes. Estimadores UMVU. Desigualdade de Fréchet-Crámer-Rao
Considerem-se os estimadores MQ, e , de e , respectivamente. É possível provar que estes estimadores são (conjuntamente) estatísticas suficientes para e . Começa por recordar-se o conceito de estatística suficiente, e o critério de factorização de Neyman-Pearson.
Definição 2E.1 (Estatística suficiente) Seja = � � … � � um vector aleatório com função densidade dada por � | ��, onde � é o vector × � dos parâmetros da distribuição. O vector aleatório × �, � �, é uma estatística suficiente para � se e só se a distribuição de , condicionada por � �, não depende de �. Pode, então, enunciar-se o critério de factorização.
Teorema 2E.1 (Critério de factorização)
A estatística � � é suficiente para � se e só se a função de verosimilhança ��� | � se pode factorizar-se como ��� | � = � � {�� | � �}� (2E.1) onde
não depende de �� , e
só depende de através de � �. 907
908
Anexo 2E
Estatísticas suficientes. Estimadores UMVU. Desigualdade FCR
No caso do MRLCN, considera-se o vector formado pelas sando, e a respectiva função densidade condicionada por ,
� = ��� �⇹ � exp �⇹
� | ; �
� � ⇹ �
observações do regres-
� � ⇹
�� �
Pode provar-se que � | � = � � � é estatística suficiente para � = � � = = � �]. Com efeito, notando que
� ⇹
�� � ⇹
�� = � ⇹
� ⇹
⇹
�� � ⇹
�
= { ̂ � � ⇹ ��} { ̂ � � ⇹ ��} = ̂
ou
�
�� � ⇹
̂ �� ̂
�� = � ⇹ �
� � ⇹ ��
��
⇹
� ⇹ �� � � ⇹ ��
� [tem-se
� ⇹ ���
� ⇹ �� �
a função de verosimilhança pode escrever-se da seguinte maneira:
� �� � | � � = ����⇹ � � � �⇹ � exp �⇹
� {� ⇹ � � �
Verifica-se, assim, que se tem a factorização,
onde e
� �� � | � � =
� | �
� � ⇹ ��
� ⇹ ��}� �
� �� � | � � ��
� | � = ����⇹ � � � �� � | � � � = � � �⇹ � exp �⇹
� {� ⇹ � � �
� � ⇹ ��
� ⇹ ��}� �
Deste modo, não depende dos parâmetros, e depende de através de e . Como se sabe, uma das vantagens em dispor de uma estatística suficiente conjunta para � = � � �, como é o caso de � | � = � � �, é que ela retira dos dados, fixada a matriz , toda a informação relevante sobre os parâmetros. Outra vantagem resulta da circunstância de e serem também estimadores não enviesados de e , respectivamente. Nestas condições, pode verificar-se que � � � é o estimador de � = � � � mais eficiente na classe dos estimadores não enviesados. Começa por apresentar-se, em termos gerais, a definição de estimador UMVU e o enunciado do teorema de Rao-Blackwell.
Estatísticas suficientes. Estimadores UMVU. Desigualdade FCR
909
Definição 2E.2 (Estimador não enviesado com variância uniformemente mínima) Considere-se o vector aleatório = � � … � � com função densidade dada por � | ��, onde � é o vector ×� dos parâmetros da distribuição. Seja U� a classe dos estimadores não enviesados de �. O estimador �̂ ⇯ U� é não enviesado com variância uniformemente mínima [sigla em inglês: UMVU (Uniformly Minimum-Variance Unbiased)] se e só se Cov���̂ ⇹ Cov��∗ � é semidefinida negativa, ∀�∗ ⇯ U� � Esta condição significa que o estimador �̂ é o mais eficiente na classe dos estimadores não enviesados de � (� é o espaço-parâmetro). Recorde-se, a seguir, o enunciado do teorema de Rao-Blackwell.
Teorema 2E.2 (Rao-Blackwell)
Seja � � uma estatística suficiente para �, e �∗ um estimador não enviesado de �. Então, o estimador baseado em � �,
�̂ = �{̂ � �} = {�∗ | � �}�
é ainda um estimador não enviesado de �, e tal que
Cov���̂ ⇹ Cov��∗ � é semidefinida negativa.
Esta condição significa que o estimador não enviesado �̂ é mais eficiente do que o estimador não enviesado �∗ . Assim, se se tomar um estimador de �, não enviesado, o teorema de Rao-Blackwell permite obter um estimador «melhor» (mais eficiente), desde que seja baseado naquela estatística suficiente. Diz-se, então, que �̂ se obtém por Rao-Blackwellização de �∗ . Deve ficar claro que este teorema não resolve inteiramente a questão da obtenção de um estimador UMVU para �, mas aponta o caminho. Com efeito, estabelece, de forma clara, que se existir um estimador UMVU, ele tem de procurar-se na classe dos estimadores não enviesados baseados numa estatística suficiente. Se esta classe tem um único elemento, trata-se evidentemente do estimador UMVU. De facto, é isso que acontece quando o estimador se baseia numa estatística suficiente completa. Antes de prosseguir, vai apresentar-se este conceito, e o enunciado do teorema que permite obter o estimador UMVU.
910
Anexo 2E
Estatísticas suficientes. Estimadores UMVU. Desigualdade FCR
Para definir estatística suficiente completa é indispensável definir previamente o conceito de família de distribuições completa.
Definição 2E.3 (Família de distribuições completa) Seja = � � … � � um vector aleatório com função densidade dada por � | ��, onde � é o vector × � dos parâmetros da distribuição. A família F�� = { � | ��� ∶ �� ⇯ �} é completa se e só se, qualquer que seja � �, se verifica a condição ∀�� ⇯ � ∶ { � �} = � ⇒ { � � = �} = ��
A condição { � � = �} = �� ∀�� ⇯ �, significa que � � = � excepto, quando muito, para valores de pertencentes a um conjunto com probabilidade zero, e para qualquer �� ⇯ �.
Definição 2E.4 (Estatística suficiente completa) Considere-se a estatística suficiente � � (vector aleatório × �) com função densidade dada por �{ � � | �}, onde � é o vector ×� dos parâmetros da distribuição. A estatística � � é completa se e só se a família G�� = �{ � � | �}� ∶ �� ⇯ ��
é completa, isto é, qualquer que seja { � �}, verifica-se a condição
∀�� ⇯ � ∶ � { � �}� = � ⇒ � { � �} = �� = ��
A importância deste conceito para a determinação do estimador UMVU é de fácil compreensão. Se a estatística � � é suficiente completa, e se �∗ é um qualquer estimador não enviesado de �, seja �̂ o estimador obtido por Rao-Blackwellização de �∗ ,
�̂ = �{̂ � �} = {�∗ | � �}�
Se houver outro estimador não enviesado baseado em � �, � = �{ � �}, conclui-se que ou
�{̂ � �}� =
⌢
{�{ � �}} = �� ⌢
⌢ �{̂ � �} ⇹ �{ � �}� = �� ∀�� ⇯ ��
Então, por � � ser uma estatística suficiente completa, tem-se ⌢ �{̂ � �} = �{ � �}� = �� ∀�� ⇯ ��
⌢
Estatísticas suficientes. Estimadores UMVU. Desigualdade FCR
isto é,
911
⌢ �{̂ � �} = �{ � �}�
excepto, quando muito, num conjunto com probabilidade zero, e para qualquer �� ⇯ �. ⌢ Neste caso, os estimadores �̂ e � não se distinguem. Se não se conhece uma estatística suficiente completa, e se se opera com uma estatística suficiente não completa, podem existir vários estimadores não enviesados baseados nessa estatística, e não há procedimento geral que permita conhecer o estimador mais eficiente. Das considerações precedentes, pode enunciar-se o seguinte teorema:
Teorema 2E.3 (Lehmann-Scheffé)
Se existir uma estatística suficiente completa para �, � �, e pelo menos um estimador não enviesado, �∗ , então existe um e um só estimador UMVU,
�̂ = �{̂ � �} = {�∗ | � �}�
Este estimador é o único estimador não enviesado que é função de � �.
No caso do MRLCN, pode provar-se que � � � é uma estatística suficiente completa para � = � � �. Como e são, respectivamente, estimadores não enviesados de e , pode facilmente concluir-se que � � � é também estimador UMVU de � = � � �. Este resultado é de natureza diferente da do teorema de Gauss-Markov. De facto, este teorema não exige a hipótese REX.6, mas, por outro lado, garante que é o estimador mais eficiente na classe dos estimadores lineares e não enviesados (estimador BLUE). Se se considerar a hipótese REX.6, o resultado que se baseia no teorema de Lehmann-Scheffé garante que é o estimador mais eficiente na classe dos estimadores não enviesados (dispensa a linearidade dos estimadores). A eficiência dos estimadores e também pode ser investigada considerando a conhecida desigualdade de Fréchet-Cramér-Rao. Começa-se por apresentar o teorema respectivo, e os seus pressupostos. Seja = � � … � � um vector aleatório com função densidade definida por � | ��, onde � é o vector × � dos parâmetros da distribuição. Designa-se por vector score, ou simplesmente score, o gradiente do logaritmo da função de verosimilhança,
��� | � = ⇮ ln{ ��� | �}�
(2E.2)
Assim, o score é o vector das derivadas parciais do logaritmo da função de verosimilhança, ln{ ��� | �} ��� | � = � = �� �� … � �� ��
912
Anexo 2E
Estatísticas suficientes. Estimadores UMVU. Desigualdade FCR
para qualquer valor hipotético de �. Como
��� | � = ⇮ ln{ ��� | �} =
� ⇮ ��� | �� ��� | �
cada componente do score pode ser interpretado como a taxa de variação da função verosimilhança em relação a �� :
��� | � � � �� ��� | �
��� | � =
Considerando o score como um vector aleatório (em ), pode calcular-se o respectivo valor esperado de cada componente (se existir),
{ ��� | �} = �
��� | � � | ���
ℜ
� = �� �� … � ��
Como � | ��� ≡ ��� | �, tem-se ⇮ � | ��� = ��� | � � | ��� , ou seja,
� | ��� � = ��� | � � | ��� ��
Como
�
ℜ
� | ���
= ��
qualquer que seja �� , e admitindo a condição de regularidade segundo a qual se podem permutar as operações de derivação e de integração, obtém-se
� Então,
ℜ
� | ��� ��
=
� �� ℜ
� | ���
{ ��� | �} = ��
= ��
Diz-se que a função de verosimilhança, ��� | �, é regular se e só se o valor esperado do score, calculado em � (verdadeiro valor do parâmetro), é nulo. Assim, vem
{ �� | �} = ��
Pode, então, enunciar-se o teorema de Fréchet-Cramér-Rao.
Estatísticas suficientes. Estimadores UMVU. Desigualdade FCR
913
Teorema 2E.4 (Fréchet-Cramér-Rao)
Seja = � � … � � um vector aleatório com função densidade dada por � | ��, onde � é o vector × � dos parâmetros da distribuição. Suponha-se que a respectiva função de verosimilhança, ��� | �, é regular. Considere-se a matriz de informação (de Fisher), (2E.3)
��� = { �� | � �� | � } = ⇹ {⇮ �� | �}�
onde o score é calculado em � (verdadeiro valor do parâmetro). Seja �̂ um estimador não enviesado de � tal que Cov���̂ é a respectiva matriz das covariâncias. Então, a matriz Cov���̂ ⇹ ���⇹ é semidefinida positiva. Se Cov���̂ = ���⇹ , então �̂ é UMVU.
Note-se que o elemento genérico da matriz de informação é
ln{ �� | �} ��
ln{ �� | �} ��
=⇹
ln{ �� | �} �� ��
� � = �� �� … � ��
não sendo difícil concluir que a matriz de informação é a matriz das covariâncias do score. O teorema de Fréchet-Crámer-Rao estabelece que a inversa desta matriz é o «limite inferior» do conjunto das matrizes das covariâncias dos estimadores não enviesados de �. Quando uma destas matrizes atinge aquele «limite inferior», fica garantido que o respectivo estimador é UMVU. Por estas razões, é habitual chamar desigualdade de Fréchet-Crámer-Rao à seguinte propriedade: Cov���̂ ⇹ ���⇹ é semidefinida positiva.
(2E.4)
A matriz ���⇹ chama-se limite inferior de Fréchet-Crámer-Rao (LIFCR). Estas considerações são mais fáceis de entender quando � é um escalar. Com efeito, neste caso, a desigualdade de Fréchet-Crámer-Rao resume-se a estabelecer que
� Var���̂ ≥ � ���
onde
��� = Var
ln{ �� | �} =⇹ ��
ln{ �� | �} � ��
Como Cov���̂ = ���⇹ é uma condição suficiente para que �̂ seja UMVU, um estimador pode ser UMVU sem que a respectiva matriz das covariâncias atinja o limite inferior de
914
Anexo 2E
Estatísticas suficientes. Estimadores UMVU. Desigualdade FCR
Fréchet-Crámer-Rao. Neste caso, aquela propriedade do estimador deve ser provada com outros argumentos, nomeadamente mostrando que o estimador é baseado numa estatística suficiente completa (ver teorema de Rao-Blackwell). Considerando o MRLCN, vai provar-se um resultado indispensável para se poder aplicar o teorema de Fréchet-Cramér-Rao aos estimadores MQ: dado , os estimadores MQ, e , são independentes. Com efeito, condicionados por , ⇹ = � �⇹ é uma forma linear em , e ̂ ̂ = (propriedade 2.4 dos resíduos MQ) é uma forma quadrática em , em que é simétrica e idempotente. Então, como | ∼ � � ��� �, e atendendo à propriedade 5) das distribuições de vectores aleatórios (ver secção 2.10), ⇹ e ̂ ̂ são independentes (dado ). Daqui resulta que, dado , e são, também, independentes. Notando que (ver demonstração na secção 2.10) Var� | � =
e que e são independentes (dado do vector � � �� × �, �̂ = � � �, é
� � ⇹
), a matriz das covariâncias condicionadas por
�
Cov��̂ | � =
�
�⇹
�
(2E.5)
�
� ⇹
Vai verificar-se que a função de verosimilhança é regular, ou seja, que o valor esperado do score, calculado em � = � � �, é nulo. Com efeito, como vem
ln{ � �� � | � �} = ⇹
�⇮ � ln{ � � �⇮ � ln{ � �
�
ln (��� ⇹
| � �}| � = | � �}| � =
�
� ⇹
ln ( � � ⇹
� ⇹ �
�
�
� � ⇹ � �
� � ⇹ �
�� � ⇹
���
= �� � � ⇹
�
= ��
uma vez que = ⇹ , � | � = � e � | �= . O caminho mais simples para obter a matriz de informação consiste em utilizar a igualdade ��� = ⇹ {⇮ �� | � �}, ou seja, recorrendo ao cálculo das segundas derivadas de ln{ � �� � | � �}, fazendo � = e � = . Assim, tem-se:
⇮ � ln{ � �
| � �} = ⇹
�
;
915
Estatísticas suficientes. Estimadores UMVU. Desigualdade FCR
⇮ � ln{ � � ⇮
Donde,
� �
� �
| � �} =
ln � �
⇹
�
| � �=⇹
�
�=
�
ou
�
�
� ⇹
�
� ⇹
� �
�
⇹
�=
�
�
�
�
� � ⇹
� ⇹
��
� ⇹
�
� ⇹ �
�
�;
� � ⇹
�
�
�
� Então, o limite inferior de Fréchet-Cramér-Rao é dado por � �
�⇹
�
�⇹ =
�
�
�
(2E.6)
�
Verifica-se, assim, que a matriz das covariâncias condicionadas de atinge o LIFCR, o que mostra, por outra via, que é UMVU para . Contudo, a variância condicionada de é superior ao respectivo LIFCR. No entanto, como se sabe, este estimador é UMVU para , devido ao teorema de Lehmann-Scheffé (não há outro estimador não enviesado de com variância menor). Alternativamente, a matriz de informação pode ser obtida utilizando a igualdade ��� = { �� | � � �� | � � }, embora os cálculos sejam mais laboriosos. Com efeito, sabe-se que
�� | � � = Então, �� | � � �� | � � é igual a
�
⇹
�
� � � �
� ⇹
� ⇹
�
�
� � � �
� ⇹
�
� �
� � �
�
�
�
916
Anexo 2E
Estatísticas suficientes. Estimadores UMVU. Desigualdade FCR
Pode, então, calcular-se o valor esperado condicionado de cada bloco desta matriz. Verifica-se, sem dificuldade, que
� Relativamente ao bloco (1,2), tem-se
⇹
�
�
uma vez que �
�
� �
�
�
�=�
�
Então, { �
| �=�
e
� | ��
� � = �
{ �
�
=
⋮
a verificar
�
|
| �= � | � �
� | } = �, podendo concluir-se que ⇹
�
�
� �
Quanto ao bloco (2,2), começa-se por notar que
e que
∼
⇹
�
� �
� �
= � =� =
�
�
�
�
�⋯�
�
⇹
�
�⋯�
�⋯�
�⋯� �
� �
���
� �
�
�|
�⋯�
�⋯� ⋮
�⋯�
�, tem-se
| �=�× �
� � �
� �⋯�
�
�
= �� ≠ �
= ��
�
�
�
�| }� �
�⋯�
�
=
=⇹
| � = �. Seja
Como as variáveis residuais são
�
�
=
��
917
Estatísticas suficientes. Estimadores UMVU. Desigualdade FCR
Como
�
vem
�
⇹
�
�
e
| �=� � � �
� �
� =
Pode, então, obter-se a matriz � � �. Considere-se a distribuição conjunta de
� �
| �=
�
⇹
e de
� �
� ≠ �� �
�
� � ⇹ �� �
=
�
�
. Seja
| �� = � | ; �� � | ��
onde se utilizou o símbolo para representar as funções densidade conjunta, condicionada e marginal. Fazendo � = � � �, tem-se
��� | � � =
��� | � � � � | ��
onde ��� | � � é a função de verosimilhança conjunta de e , ��� | � � é a função de verosimilhança de condicionada por , e � � | � é a função de verosimilhança marginal de . Então, ln{ ��� | � �} = ln{ ��� | � �} � ln{ � � | �}�
Admitindo que � não é função de (e, inversamente), facilmente se conclui que maximizar ln{ ��� | � �} em relação a �� dá o mesmo resultado que maximizar ln{ ��� | � �} em relação a �� . Tem-se � �
� �
� �=
�
�
⇹ �⇮ � ln{ � | �}�
�
[2F] Considerações gerais sobre teste de hipóteses paramétricas
Como o próprio nome sugere, o teste de uma hipótese paramétrica serve para decidir, com base na informação fornecida pelos dados, se se rejeita, ou não, a hipótese. Seja = � � … � � um vector aleatório com distribuição na família F�� = { � | ��� ∶ �� ⇯ �}�
em que �� é o vector × � que percorre o espaço-parâmetro, � ⊂ ℜ : �� ⇯ �. Supondo que � é o vector × � dos parâmetros desconhecidos, qualquer hipótese paramétrica — conjectura sobre � — estabelece no espaço-parâmetro � uma partição
� ∑ � = �� � ∐ � = ∅�
onde ∶ � ⇯ � é a hipótese a testar e ∶ � ⇯ � é a hipótese que corresponde ao conjunto das alternativas. A hipótese chama-se hipótese nula, designação tradicional, que corresponde, geralmente, ao satus quo; a hipótese é designada por hipótese alternativa. Quando numa das hipóteses (nula ou alternativa) o respectivo subconjunto de � (� ou � ) só tem um elemento, diz-se que a respectiva hipótese é simples; caso contrário, é composta. O teste de hipóteses pode, então, ser apresentado da seguinte maneira:
∶ � ⇯ � contra
∶ �⇯� �
(2F.1)
O resultado do teste consiste na rejeição, ou não, de , sendo esta decisão tomada com base numa amostra. Naturalmente, a não rejeição (a rejeição) de implica a rejeição (a não rejeição) de . 919
920
Anexo 2F
Considerações gerais sobre teste de hipóteses paramétricas
Seja Z ⊂ ℜ o espaço-amostra, isto é, o conjunto de todos os vectores particulares retirados da população. Um teste de hipóteses deve basear-se no comportamento probabilístico de no espaço-amostra, e estabelecer um critério para determinar quais os valores concretos de que levam à rejeição da hipótese nula (e, consequentemente, à não rejeição da hipótese alternativa).
Definição 2F.1 (Teste de hipóteses) Um teste de hipóteses é uma regra que permite especificar um subconjunto do espaço-amostra, ⊂ Z, tal que: se ⇯ se ⇰
O conjunto
rejeita-se
(não se rejeita
não se rejeita
(rejeita-se
);
).
chama-se região crítica ou região de rejeição.
É habitual designar o complementar do conjunto , , por região de não rejeição. Pode, então, afirmar-se que um teste é uma regra que permite introduzir uma partição do espaço-amostra nas duas regiões referidas, ou seja,
∑
= Z�
∐
= ∅�
Como a região crítica é um subconjunto de ℜ , pode ser complicado concluir se uma determinada amostra particular pertence, ou não, à região crítica. No entanto, em muitos casos de interesse prático, consegue evitar-se esta dificuldade recorrendo a uma estatística � �, designada por estatística-teste. Trabalha-se, então, no espaço-amostra T ⊂ ℜ, relativo à estatística � �, ou seja, com o conjunto de todos os seus valores particulares. Nestas circunstâncias, um teste de hipóteses estabelece uma regra que permite determinar um conjunto ⊂ T tal que: se � � ⇯ , rejeita-se (não se rejeita continuam a ); se � � ⇰ , não se rejeita (rejeita-se ). Os conjuntos e chamar-se, respectivamente, região de rejeição e região de não rejeição. Em resumo, os ingredientes de um teste de hipóteses são: A hipótese nula, rio.
, que é defendida até a evidência estatística mostrar o contrá-
A hipótese alternativa,
, que é adoptada se a hipótese nula for rejeitada.
Uma estatística-teste, � �. Uma região crítica,
.
921
Considerações gerais sobre teste de hipóteses paramétricas
Sendo o teste de hipóteses uma modalidade da inferência estatística, ou inferência incerta, não é demais recordar que todo o caminho que vai do particular (amostra) para o geral (população) pode conduzir a erros. No teste de hipóteses, devem considerar-se dois tipos de erros.
Definição 2F.2 (Erros de 1.ª e de 2.ª espécies) Ao proceder ao teste de contra podem cometer-se dois tipos de erros: O erro de 1.ª espécie ou de rejeição, que consiste em rejeitar verdadeira;
, quando
O erro de 2.ª espécie ou de não rejeição, que consiste em não rejeitar é falsa.
é
, quando
Os erros de 1.ª e de 2.ª espécies estão esquematizados no quadro seguinte: Teste de hipóteses — erros de 1.ª e 2.ª espécies Decisão tomada
verdadeira
falsa
Rejeitar
Erro de 1.ª espécie
Decisão correcta
Não rejeitar
Decisão correcta
Erro de 2.ª espécie
O aspecto fundamental da teoria do teste de hipóteses prende-se com a possibilidade de controlar cada um dos tipos de erro. Tenha-se, no entanto, presente que, depois de tomada uma decisão, apenas se pode cometer um dos tipos de erro (se se rejeitar , nunca ocorre o erro de 2.ª espécie; se não se rejeitar , nunca acontece o erro de 1.ª espécie). Na impossibilidade de «minimizar» simultaneamente os dois tipos de erros, tornase necessário definir uma abordagem que permita considerá-los de alguma forma. Das várias alternativas possíveis, assume particular relevância a abordagem de Neyman-Pearson que consiste no seguinte: em primeiro lugar, fixar um limite superior para a possibilidade de ocorrer o erro de 1.ª espécie; em segundo lugar, dado aquele limite superior, reduzir o mais possível o erro de 2.ª espécie. A abordagem de Neyman-Pearson pode ser formalizada em termos mais rigorosos, introduzindo os conceitos de dimensão do teste, e de função potência do teste. Estes dois conceitos baseiam-se nas probabilidades de cometer os dois tipos de erros referidos, mas deve notar-se que tais probabilidades dependem do particular �� considerado em � e � , respectivamente.
922
Anexo 2F
Considerações gerais sobre teste de hipóteses paramétricas
Definição 2F.3 (Dimensão do teste) O teste associado com a região crítica { � �⇯
sup { � � ⇯
espaco
tem dimensão
|�� } ≤
� �⇯�
(�
� e ����� < �, sendo desejável que a probabilidade do erro de 1.ª espécie seja pequena, uma vez que se adopta o seguinte ponto de vista: a possibilidade de rejeitar incorrectamente a hipótese nula é considerada grave, pois esta hipótese corresponde à posição que deve ser defendida, salvo se evidência estatística convincente apontar no sentido contrário (a favor da hipótese alternativa). Na grande maioria das aplicações práticas, os valores habituais fixados para são 0.1, 0.05 ou 0.01. Evidentemente que o valor fixado para depende da importância que se dá ao facto de rejeitar a hipótese nula, quando esta é verdadeira. Uma ilustração deste ponto de vista pode ser feita com o seguinte princípio da Justiça: «uma pessoa é inocente até se provar que é culpada». Este princípio dá lugar ao seguinte teste: : «a pessoa é inocente» contra : «a pessoa é culpada». Os erros que podem ocorrer são os seguintes: erro de 1.ª espécie, «a pessoa é condenada, mas está inocente»; erro de 2.ª espécie, «a pessoa é absolvida, mas é culpada». Naturalmente, de acordo com o princípio enunciado, a aplicação da Justiça deve procurar reduzir a possibilidade de ocorrer o erro de 1.ª espécie, pois entende-se que é mais grave condenar inocentes do que absolver criminosos. Para certos sistemas judiciais pode considerar-se que = ��� é demasiado elevado, optando-se por = ����; noutros sistemas judiciais pode admitir-se que = ���� é um valor razoável. Facilmente se conclui que existe uma infinidade de testes de dimensão , ou seja, há uma infinidade de testes cujas regiões críticas são compatíveis com aquela dimensão. Estando controlada a probabilidade do erro de 1.ª espécie, é precisamente a existência de erros de 2.ª espécie que serve de guia na escolha da região crítica óptima (se existir). De facto, afigura-se natural que seja considerada região crítica óptima, aquela que minimiza de algum modo a probabilidade de cometer o erro de 2.ª espécie, isto é, aquela que tem maior potência ou capacidade para rejeitar a hipótese nula, quando falsa, em favor da hipótese alternativa. Para formalizar esta ideia vai apresentar-se a seguinte definição:
Definição 2F.5 (Teste uniformemente mais potente (UMP)) Ao testar a hipótese nula ∶ � ⇯ � contra a hipótese alternativa ∶ � ⇯ � , consideram-se dois testes com a mesma dimensão , mas com regiões críticas e ∗,
924
Anexo 2F
Considerações gerais sobre teste de hipóteses paramétricas
respectivamente. As correspondentes funções potências são
����� = { � � ⇯ �∗ ���� = { � � ⇯
Diz-se que o teste com a região crítica com região crítica ∗ se e só se
| �}� para �� ⇯ � � ∗ | �� } para �� ⇯ � �
é uniformemente mais potente do que o teste
� ∀�� ⇯ � � ����� ≥ �∗ ����
(2F.4)
Se o teste com região crítica é uniformemente mais potente do que qualquer outro teste de dimensão , diz-se que é o teste uniformemente mais potente. Em geral, quando não existem testes UMP — ou a sua determinação é muito difícil —, utiliza-se um procedimento que faz largo apelo à intuição, permitindo obter, muitas vezes, resultados interessantes. Trata-se do critério ou princípio da razão de verosimilhanças (RV) [ver capítulo 8]. Este princípio compara o máximo da função de verosimilhança restringido à hipótese nula, max ��� | � = ̂ �� �� � �⇯�
com o máximo da função de verosimilhança sem restrições,
Seja
max ��� | � = ̂ ���� � �⇯�
� �=
̂ ���
̂ �� �
≥ ��
Note-se que é função de , uma vez que ao minimizar a função de verosimilhança, quer em � quer em � , os parâmetros são substituídos pelos respectivos estimadores de máxima verosimilhança (que são funções de ). O teste RV baseia-se na seguinte ideia: se ∶ � ⇯ � é verdadeira, então � � deve ser «pequeno»; a hipótese nula é rejeitada se � � ≥ , onde é uma constante convenientemente escolhida. A questão resume-se, então, a determinar esta constante. Em alguns casos, dá-se a feliz circunstância de existir uma correspondência entre a estatística � � e uma estatística � �, com distribuição conhecida, facto que permite obter, no domínio desta estatística, uma região crítica equivalente,
� �≥
⇔ � �⇯
�
925
Considerações gerais sobre teste de hipóteses paramétricas
Então, fixada a dimensão do teste, , a igualdade
{ � �≥
| �� ⇯ � } = �
possibilita a determinação do valor de . Em Econometria, quando � é um escalar, é habitual fazer testes em que a hipótese nula é simples, ∶ � = � , e a hipótese alternativa é composta, podendo o teste assumir uma das seguintes três formas: a) b) c)
∶ � = � contra
∶�>� ;
∶ � = � contra
∶�≠� .
∶ � = � contra
∶� � , com = � ∗ � �∞� [teste de tipo a)]. Verifica--se, sem dificuldade, que o valor máximo da dimensão do teste a que corresponde a não rejeição da hipótese nula é dado pela seguinte probabilidade: obs
= { � �>
obs
|
}�
Com efeito, considerar esta probabilidade para dimensão do teste equivale a dizer que o valor crítico que define o limiar da região de rejeição é o valor observado da estatísticateste. Daqui, decorre que: A hipótese nula não é rejeitada para esta dimensão do teste, ou para qualquer outra inferior; A hipótese nula é rejeitada quando a dimensão do teste considerada é superior àquela probabilidade. Pode, então, concluir-se o seguinte: Valores pequenos de obs constituem evidência estatística contra a hipótese nula. Por exemplo, se obs = �����, só com testes de dimensão igual ou inferior a 0.001 é que não se rejeita . Valores grandes de obs fornecem evidência estatística a favor de . Por exemplo, quando obs = ��7, todos os testes de dimensão igual ou inferior a 0.7 não rejeitam a hipótese nula.
927
Considerações gerais sobre teste de hipóteses paramétricas
De uma maneira geral, pode afirmar-se que quanto menor for patibilidade dos dados com .
obs
menor é a com-
Reportar o valor de obs é mais informativo do que apresentar a mera conclusão de rejeição, ou não, da hipótese nula. O teste pode ser feito escolhendo um qualquer valor adequado para a dimensão do teste, seja , e proceder do seguinte modo: a hipótese nula é rejeitada se não é rejeitada. obs < ; caso contrário,
As conclusões para os outros três tipos de teste são semelhantes, variando apenas o modo de calcular obs . Assim, tem-se: a)
b)
∶ � = � contra
∶ � < � , com obs
∗
= �⇹∞�
= { � �
obs
|
e
}
∗
}�
�∑�
{ � �
|
d) � = {� } e � = {� ∶ � ≠ � } ⊂ ℜ , com obs
= { � �>
obs |
=�
∗
obs
|
|
}�
� �∞�: }�
As considerações anteriores permitem apresentar a seguinte definição:
Definição 2F.6 (Valor-p) Suponha-se que se pretende fazer um teste de hipóteses em que o valor observado da estatística-teste, � �, é obs . Seja � � a região crítica associada a cada dimensão do teste, ⇯ ��� ��. Admitindo que a hipótese nula, , é verdadeira, o valor- é dado por obs
= inf{ ∶
obs
⇯
� �}�
ou seja, o valor- é a menor dimensão do teste para a qual se pode rejeitar
(2F.5)
.
928
Anexo 2F
Considerações gerais sobre teste de hipóteses paramétricas
Em termos informais, pode então afirmar-se o seguinte: fixada uma estatística-teste, � �, o valor- , obs , mede a probabilidade de obter qualquer valor tão ou mais desfavorável para do que obs . Deste modo, o valor- mede a evidência contra a hipótese nula: quanto menor é o valor- , mais forte é a evidência contra . Como se viu, a propósito dos testes de tipo a), b) e c), em que � é um escalar, os valores assumidos pela estatística-teste que são tão ou mais desfavoráveis para a hipótese nula, dependem da forma da hipótese alternativa (unilateral à direita, unilateral à esquerda ou bilateral). Por exemplo, quando se calcula o valor- , no caso em que a hipótese alternativa é composta e bilateral é necessário ter presente que, nesta situação, o conjunto dos valores assumidos pela estatística-teste, tão ou mais desfavoráveis para a hipótese nula, são os que se situam nas duas caudas da sua distribuição. Pode apenas reportar-se o valor- sem fixar limiares de rejeição de , e deixar ao cuidado do investigador decidir se há muita ou pouca evidência contra a hipótese. Contudo, muitas vezes, é conveniente comparar o valor- com certos limiares ou níveis de significância habituais (0.1, 0.05, 0.01). Por exemplo, podem estabelecer-se as seguintes regras práticas: valor-p obs
≤ ����
���� ≤ ���� ≤ obs
Note-se que:
evidência contra H0 obs obs
> ����
muito forte
≤ ���� ≤ ����
forte fraca pouca ou nenhuma
Um valor- grande não pode ser interpretado como evidência forte a favor de . De facto, um valor- elevado pode ocorrer por duas razões: a) é verdadeira; b) é falsa, mas o teste tem potência fraca. Quando, por exemplo, ���� < obs ≤ ����, há autores que dizem que a evidência contra não é significativa ao nível de 0.01, mas é significativa ao nível de 0.05. Outros autores optam por dizer que a hipótese é de rejeitar ao nível de 0.05 mas não é de rejeitar ao nível de 0.01; muitas vezes, fixa-se antecipadamente o nível (� < < �) e rejeita-se quando sai obs < .
[2G] O modelo de regressão linear clássico generalizado (Aitken)
O modelo de regressão linear clássico pode ser generalizado, abandonando as hipóteses REX.3 (homocedasticidade condicionada) e REX.4 (ausência de autocorrelação). Assim, admite-se que: Var� | X � = Cov� �
(heterocedasticidade condicionada);
| X � ≠ � (autocorrelação).
Quando se dispõe de uma amostra, {� � � � … � � ∶ = �� �� … � }, a matriz das covariâncias condicionadas, Cov� | � = � | �, deixa de ser . O abandono daquelas hipóteses (REX.3 e REX.4) significa que cada elemento de Cov� | � é, em geral, função de . Se existir heterocedasticidade condicionada, os elementos da diagonal principal não são todos iguais; se existir autocorrelação, existem elementos não diagonais diferentes de zero. Tem-se, então, Cov�
(2G.1)
| � = �� ��
que se supõe definida positiva. Para simplificar a notação, utiliza-se o símbolo
�=
⋮
⋮ 929
⋯ ⋯
⋯
⋮
�
930
Anexo 2G
O modelo de regressão linear clássico generalizado (Aitken)
Usando-se � em vez de �� �, deve estar sempre presente que cada função de : = � �. Note-se que
= Var� | � = = Cov� �
é, em geral,
� = �� �� … � �
| �
� � = �� �� … � ; ≠ ��
Muitas vezes, supõe-se que � é conhecida a menos de uma constante multiplicativa. Assim, faz-se � = �, onde > � (que pode ser desconhecido) e � é uma matriz conhecida e definida positiva. Neste caso, tem-se
= onde são os
= Var� | � =
= Cov� �
� = �� �� … � �
| �=
� � = �� �� … � ; ≠ ��
é o elemento genérico da matriz �. Os parâmetros desconhecidos do modelo ( = �� �� … � ) e . Note-se, também, que Cov� | � = �� ��
Como � é definida positiva, não existem relações lineares entre as variáveis residuais. Se, pelo contrário, algum fosse combinação linear dos outros, a matriz � seria singular e, portanto, semidefinida positiva. Por exemplo, seja = �, e suponha-se que = . Então,
�=
=
�
�
| �
�
| �
e a matriz � é semidefinida positiva, pois
�
�
�
| �
| �
� = ��
=
�
�
O modelo de regressão, a verificar as hipóteses REX.1, REX.2, REX.5 e � conhecida e definida positiva, designa-se por modelo de regressão linear clássico generalizado (MRLCG) ou modelo de Aitken. Considere-se o estimador MQ de , no contexto deste modelo,
=�
e analisem-se as suas propriedades exactas. Facilmente se verifica que: O estimador , condicionado por
�⇹
�
, é linear em .
O modelo de regressão linear clássico generalizado (Aitken)
O estimador é não enviesado, � | � = � � = . O erro de amostragem continua a ser ⇹
=�
A matriz das covariâncias de , condicionada por Cov� | � = �
�⇹
.
�⇹
, é dada por (2G.2)
�⇹ �
� �
Com efeito, basta notar que Cov� | � = �.
931
Como vai ver-se, o estimador não é BLUE (não é o estimador mais eficiente na classe dos estimadores lineares não enviesados; não se verifica o teorema de Gauss-Markov). Mesmo que se considere a hipótese REX.6 (normalidade das variáveis residuais), os resultados (2.69), (2.73), (2.76), (2.79) e (2.80) não são verdadeiros. Em particular: o rácio- não segue uma distribuição ; o rácio-� não segue uma distribuição . Para obter um estimador BLUE para , vai começar-se por demonstrar que é possível transformar a relação = � [onde Cov� | � = �] em ∗ = ∗ � ∗ , onde Cov� ∗ | ∗ � = . Como � é simétrica e definida positiva, pode determinar-se uma matriz , quadrada de ordem , não singular, tal que �⇹ = . Existem muitas matrizes que permitem esta decomposição, pouco importando qual delas é que vai ser escolhida. Uma via possível consiste em calcular os valores próprios de � e a matriz ortonormal dos respectivos vectores próprios. Representando por > � ( = �� �� … � ) cada valor próprio, a respectiva matriz diagonal é dada por
=
� ⋮ �
�
⋮ �
⋯ ⋯ ⋯
� � ⋮
ou
= Diag{ �
�…�
A correspondente matriz ortonormal dos vectores próprios é, então,
=
•
•
⋯
onde, como se sabe, = = [logo, = Como a matriz diagonaliza �, obtém-se
�
=
ou
�=
•
⇹
].
�
�
}�
932
Anexo 2G
Atendendo a que
O modelo de regressão linear clássico generalizado (Aitken) �
=
Então,
, onde
�
�
�=
�⇹ =
⇹ �
⇹ �
�
=
�
⇹
�⇹ �
�
⇹1/2 ⇹1/2 , 2 � … � ⇹1/2 } 1
dada por
ou
�
, vem
�
⇔�=
onde = ⇹ � , com | | ≠ �, e ⇹ � = Diag{ Considere-se a transformação de = �
=
1/2 1/2 1/2 } 1 , 2 �…�
= Diag{
�
=
∗
∗
�
.
∗�
onde ∗ = , ∗= e ∗= (a matriz depende de ). Vai verificar-se que a nova relação verifica as seguintes propriedades do MRLC:
�
∗|
∗�
= �.
Com efeito, basta notar que
�
∗|
∗�
= �
∗|
�= �
= Cov�
∗|
� = Cov�
uma vez que não há mais informação em Cov�
∗|
∗�
∗
.
=
| �=
�
do que em
| � = �� .
De facto, tem-se Cov�
∗|
∗�
=
Cov�
| �
porque não há mais informação em Quando � =
�
∗�
= .
�, tem-se Cov�
∗|
∗�
= � .
=
∗
⇹ ∗�
∗
∗
∗
=
�⇹
=�
⇹
�⇹
�
,e�=
⇹
�
=
�⇹ .
�
é não singular.
Nestas condições, utilizando a transformação mador MQ de , obtendo-se
=�
=
do que em
∗
Com efeito, basta notar que � � = e
∗
| �
∗
� =�
Então, pode definir-se o seguinte estimador:
∗
pode determinar-se o esti-
�⇹
�⇹
�⇹
�
Definição 2G.1 (Estimador MQ generalizado de ) O estimador MQ generalizado de (estimador MQG) é dado por espaco
�
=�
�⇹
�⇹
�⇹
�
(2G.3)
933
O modelo de regressão linear clássico generalizado (Aitken)
Note-se que ∗ = � , isto é, o estimador MQ de , considerando ∗ = ∗ � ∗ , é igual ao estimador MQG de , quando se considera = � . Portanto, minimizar � �� = � � � ∗ ⇹ ∗ � � ∗ ⇹ ∗ � equivale a minimizar
� �� = � ⇹
O erro de amostragem do estimador
Quando � =
�
⇹
=�
�
� � �⇹ � ⇹
é dado por
�⇹
�, facilmente se verifica que
�⇹
�⇹
=�
�⇹
�⇹
Cov� � | � = �
�⇹
�⇹ = �
�
���
�⇹
� �
Sem dificuldade se conclui que � , estimador MQG de , é BLUE. A respectiva matriz das covariâncias, condicionada por , é dada por
Com efeito, basta notar que
Cov� � | � = �
�⇹
�⇹
�⇹ Cov� | ��⇹
onde Cov� | � = �. Também se demonstra, sem dificuldade, que ̂� = Como
Cov� ̂� | � =
�
�⇹
Cov� � | �
=
é BLUE para , é imediato concluir que Cov� | � ⇹ Cov� � | � = �
�⇹
�
�
�
�⇹
�⇹ �
é BLUE para
�⇹
�⇹
�⇹ ⇹ �
� �
(2G.4)
�⇹ �
� �⇹
=
�⇹
e
é semidefinida positiva. Quando se considera � = �, facilmente se conclui que o estimador não enviesado de , utilizando a relação transformada, é ∗ = ̂ ∗ ̂ ∗ �� ⇹ � onde ̂ ∗ é o respectivo vector ̂ , onde ̂ = ⇹ dos resíduos MQ, ̂ ∗ = ∗ ⇹ ∗ ∗ . Como ̂ ∗ = � ⇹ �� = � [não confundir com ⇹ ], o estimador não enviesado de pode escrever-se da seguinte maneira: ̂ �⇹ ̂ � � = ⇹ Donde,
� � �| � = Cov
��
�⇹
�⇹ �
934
Anexo 2G
O modelo de regressão linear clássico generalizado (Aitken)
Sabe-se que no MRLC sem termo independente a soma dos resíduos MQ é, em geral, diferente de zero. Supondo que o MRLCG tem termo independente facilmente se verifica que a matriz ∗ não tem uma coluna com todos os elementos iguais a 1. Com efeito, se • = então ∗• = ≠ . Não se pode, portanto, concluir que
̂ ∗ = ��
� = ̂∗ =
̂ = � ⇹ ̂ = �. No entanto, como ∗ ̂ ∗ = �, tem-se � ∗• � ̂ ∗ = Apresenta-se a seguir uma lista de resultados sobre o modelo em estudo: Da propriedade 1.10 dos resíduos MQ decorre
�
∗
= ̂ ∗ ̂ ∗ � ̂ ∗ ̂ ∗ , pelo que
= ̂ �⇹ ̂ � ̂ �⇹ ̂ �
�⇹
Então, pode definir-se
∗
̂ �⇹ ̂ ̂ �⇹ ̂ = � �⇹ �⇹
=�⇹
A hipótese semelhante a REX.6 para o MRLCG é a seguinte:
|
∼
� �
A função de verosimilhança é, então,
��� ���
� � � | � � = ����⇹ � |�|⇹ � exp �⇹ � ⇹ �
Quando � =
�, vem
�� �⇹ � ⇹
� ⇹ � � �� � | � � = ��� � �⇹ � |�| exp �⇹ � ⇹ � �
Os respectivos estimadores MV são
̂� =
e
�
̂� =
̂ �⇹ ̂
O resultado homólogo a (2.69) é dado por
̂ �⇹ ̂
=
O resultado homólogo a (2.73) é �
⇹
� ⇹ �
∗
�
∼
∼ � ⇹ ��
�
� ⇹ ��
� �� �
� � �⇹ � ⇹
� �� �
935
O modelo de regressão linear clássico generalizado (Aitken)
onde
∗
é o -ésimo elemento da diagonal principal da matriz
Quando � =
onde, agora,
�, vem
⇹
�
∗
�
∗
�⇹
.
∼ � ⇹ ��
é o -ésimo elemento da diagonal principal da matriz
�⇹
.
Como o estimador BLUE de = é ̂� = � , o resultado homólogo a (2.79) é o seguinte: � ̂ � ⇹ � { � �⇹ �⇹ }⇹ � ̂� ⇹ � ∼ � �� Quando � =
�, tem-se
� ̂� ⇹ � { �
�⇹
�
}⇹ � ̂� ⇹ �
�⇹
∼ � � ⇹ ��
Considere-se = � , e suponha-se que se dispõe de observações adicionais dos regressores, agrupadas na matriz de tipo × . Tem-se:
�
=
Cov�
| �
| �
Cov
—
� =
∼
| �
�=� �
��
��� � ��
� = �∗ �
�
�∗
�∗
�
É possível demonstrar que
̂ =
�
e
).
⇹ � (não enviesamento).
� = �, onde � =
⇹
�
a verificar as duas condições seguintes:
(linearidade em , condicionado por
� �| �
onde ̂ =
�
� = ��
=
Seja � um qualquer previsor de —
| �
Cov� �
Assim,
�
é BLUP para
.
�
� �∗ �⇹ ̂ �
936
Anexo 2G
Fazendo
=
O modelo de regressão linear clássico generalizado (Aitken)
⇹ ̂ , tem-se � | �
� = � ⇹ �∗ � ⇹ �∗ � �
� = � e Cov� | �
⇹ �∗ �⇹
O resultado homólogo a (2.118) é, então,
�
Quando
⇹ ̂ � �⇹ �
Cov tem-se Cov� | � Donde,
� = � ⇹ �∗ �⇹ �∗ � � �
Quando = �, obtém-se
⇹ ̂
� √�
� ��
��
⇹ ̂ �
�
�
⇹ ̂ �∼
�∗
⇹ � ∗ �⇹
⇹ ̂ � �⇹ �
�⇹ �
�
=
� = �, e
�⇹
��
�
�∗
� �⇹
⇹ �∗ � ⇹
� �
� �⇹ �
∼ � � ⇹ ��
∼ � ⇹ ��
� = �, onde
⇹ � ∗ �⇹
� �
[3A] Exemplos sobre ruídos brancos e diferença-martingalas
Exemplo de ruído branco que não é independente Seja
uma variável aleatória com distribuição uniforme no intervalo �� � ���,
∼
���� ��
���
956
Anexo 3C
Heterocedasticidade condicionada com padrão conhecido
Então, Cov�
| �=
�
�
�=
⋮
⋮
�
�
�
�
⋯
⋯ ⋱
⋯
�
� ⋮
�
Neste caso, existem três parâmetros desconhecidos: os coeficientes de regressão, e , e o parâmetro > �. Tirando partido desta situação particular, é possível obter um modelo homocedástico, dividindo ambos os membros por ,
=
Facilmente se verifica que
�
�
Var
= �
Pode, então, utilizar-se o método MQ para estimar os coeficientes e , fazendo a regressão MQ de � sobre 1 e �� . A hipótese estabelecida sobre as variâncias condicionadas das variáveis residuais é muito forte, e nada garante que seja razoável. Com efeito, Cov� | � = � é conhecida a menos de uma constante multiplicativa (� é matriz diagonal em que os elementos da diagonal principal são os quadrados das observações da variável explicativa). Afirmar que se conhece a matriz � (a menos de uma constante multiplicativa) pressupõe que se conhece o padrão de heterocedasticidade condicionada (a forma como depende de • ), e que se conhecem os valores de eventuais parâmetros envolvidos naquele padrão. Por exemplo, se = • � (3C.9) onde • é um vector � × , função de � é dada por
� = Cov�
| �=
•,
e
é um vector × � de parâmetros, a matriz
•
� ⋮ �
�
•
⋮ �
⋯ ⋯ ⋯
� � ⋮
•
�
Esta matriz é conhecida quando se conhece o padrão de heterocedasticidade condicionada (dado pela relação funcional = • ), e se conhece o vector . Nestas condições, pode-se utilizar o estimador MQP dado por (3C.2), sendo válidos todos os resultados obtidos até agora.
Heterocedasticidade condicionada com padrão conhecido
957
Para ilustrar esta situação suponha-se que = � � � , e que = � ln� � � ln� �. Tem-se: = �; = �; = ln� �; = ln� �. Quando é desconhecido (embora seja conhecido o padrão de heterocedasticidade condicionada), obviamente que a matriz � também é desconhecida. Neste caso, não se pode utilizar (3C.2) para estimar os coeficientes de regressão ; é necessário determinar, previamente, um estimador consistente do vector . Como � | • � = • , considere-se � = ⇹ � | • �, ou seja, a equação de regressão = • ���
=
Naturalmente que �� | • � = �, e como • é função de • , conclui-se que • e � são ortogonais, � • � � = �. Então, supondo que a matriz = � • • � existe e tem inversa, o estimador MQ de seria um estimador CAN, se fosse observável. Contudo, como tal não é possível, não pode ser esta a via para estimar . Contudo, considerando os resíduos MQ, ̂ = ⇹ • , relativos ao modelo original, = • � ( é estimador consistente de , com ou sem heterocedasticidade condicionada), pode provar-se que um estimador consistente de , ̂ , utilizando a regressão
̂ =
� �′ �
•
é o respectivo estimador MQ, desde que se estabeleçam as seguintes hipóteses: 1) A matriz
= �
•
•�
existe e tem inversa;
2) Existem os momentos �
Com efeito, seja
�
�=
�.
ℓ
�
•
•
=
⇹
�
�
=
�
=
�
•
o estimador MQ de , quando se considera = • � � . Como este estimador não é operacional, porque não é observável, seja
�
̂=
�
•
•
=
⇹
�
o estimador MQ de , quando se toma a regressão ̂ = Facilmente se verifica que
e que
̂⇹ �=
�
�
plim ( ̂ ⇹ � � =
•
= ⇹
•
⇹
plim
� �
̂
• •
�
� �′ .
�
=
•�
̂ ⇹
� �
�
=
•�
̂ ⇹
� �
958
Anexo 3C
Como ̂ =
�
�
=
•�
⇹
•�
̂ ⇹
Heterocedasticidade condicionada com padrão conhecido
⇹ �e ̂ =
�=
�
�
•
=
�
= ⇹�
⇹�
�
•�
⇹�
•�
�
� ⇹ ��
�
⇹ �, vem
•�
•
⇹ ��� ⇹ �
•
•
=
⇹ ��� ⇹ �
•�
•
⇹ �
•�
=
⇹ �
•
•�
⇹ ��
Vai provar-se que as duas somas do segundo membro desta igualdade convergem em probabilidade para zero. Quanto à primeira soma, tem-se
�
plim uma vez que
�
•
•�
�
= { �
e plim � ⇹ � = �. Cada parcela de
�
é um vector da forma
=
� ⇹ �
•
•�
•�
• �}
= {
⇹ �
•�
•
⇹ �=�
⇹
�
�⋯��
��
⇹
��
⇹
• �}
=
�
⇹ �
•
� ⋯
•�
� |
•
•
� ⇹ �
⋮ onde
•|
•
plim � ⇹ � = ��
•
•
=
⇹ ��
�
⇹
��
⇹
�⋯��
⇹
� �
�
Assim, cada elemento daquele vector é uma soma, onde cada parcela é da forma
Então, cada elemento do vector
�
� ⇹ �� ⇹ �
�
=
•�
⇹ �
é uma soma, onde cada parcela é da forma
� � ⇹ �� ⇹ � �
�
ℓ
•
=
•�
�
⇹ �
ℓ
��
ou seja, é o produto de � ⇹ �� ⇹ � pela média amostral de
ℓ
.
Heterocedasticidade condicionada com padrão conhecido
959
Como plim� � = e, por hipótese, existem os momentos � ℓ �, o limite em probabilidade daqueles produtos é nulo. Fica, assim, demonstrado que plim( ̂ � = plim( � � = �
Note-se que na regressão ̂ = • � �′ , a respectiva variável residual, �′ , pode ser condicionalmente heterocedástica, o que não tem inconveniente (assintoticamente), pois apenas é necessário dispor de um estimador consistente de . O estimador dos mínimos quadrados ponderados (MQP), uma vez estimado da maneira indicada, é dado por
̂� = �
onde
�̂ ⇹
•
�
�̂ =
̂
� ⋮
�
̂� = �
=
⋯
̂
•
⋮
ou, ainda,
�̂ ⇹
�⇹
� ̂
•
�
⋯
�
� ⋮
⋯ •
⇹
(3C.10)
�
̂
•
�
�
� ̂
=
(3C.11)
�
•
em que ̂ = • ̂ . Pode, então, concluir-se que este estimador é consistente: plim( ̂ � � = �
(3C.12)
Verificadas certas condições, pode demonstrar-se que: a) Os vectores aleatórios √ � Então, isto é, Assim,
b) Tem-se
�
�
⇹ � e √ � ̂ � ⇹ � são assintoticamente equivalentes.
√ � ̂� ⇹ � →
� �
∗
�� �
(3C.13)
�⇹ �
e ̂ � têm a mesma distribuição assintótica. Cov � ̂ � � = � plim
�
∗
�̂ ⇹
�⇹ = = plim
� •
�
•
•
�⇹
⇹
� �
(3C.14)
960
Anexo 3C
Heterocedasticidade condicionada com padrão conhecido
Então, um estimador consistente de (3C.14) é dado por
� � ̂ �� = � Cov
⇹
�̂ ⇹
�
=
�
=
� ̂
•
⇹
•
Em resumo, dado o modelo = • � , onde � | • � = respectivos coeficientes de regressão é feita do seguinte modo:
(3C.15)
�
, a estimação dos
•
1) Estimar com o método dos mínimos quadrados de modo a obter os respectivos resíduos MQ, ̂ = ⇹ • . 2) Fazer a regressão MQ de ̂ sobre
•,
de modo a obter o estimador ̂ .
3) Reestimar com o método dos mínimos quadrados ponderados, utilizando o peso � • ̂ �⇹ � para a observação .
Diz-se que um estimador CAN é assintoticamente mais eficiente que outro estimador (para o mesmo parâmetro) se a diferença entre as matrizes das covariâncias assintóticas do segundo e do primeiro é semidefinida positiva. Nas condições descritas, dispõe-se de dois estimadores consistentes e assintoticamente normais: o estimador MQP ( ̂ � ou � ) e o estimador MQ (b). Pode verificar-se, sem dificuldade, que ̂ � é assintoticamente mais eficiente que , ou seja, Cov � � ⇹ Cov � ̂ � � =
⇹
⇹
é semidefinida positiva. Com efeito, de acordo com (3C.14), sabe-se
�
Cov � ̂ � � =
•
•
•
⇹
onde � = diag{ } e = � | • � = • . Notando que, qualquer que seja �, � �⇹ nida positiva (ver anexo 2G), conclui-se que plim
⇹
�
ou plim
�
plim ⇹
� plim
� �
plim
�
�
⇹
�
= plim
plim
⇹
�
⇹
�⇹ �⇹ ⇹ �
� � �
•
•
•
⇹
⇹ plim ⇹
� �⇹ é semidefi-
�⇹ �
�
⇹
⇹ Cov � ̂ � ��
⇹
�
961
Heterocedasticidade condicionada com padrão conhecido
também é semidefinida positiva. Assim, basta provar que ⇹
�
plim
plim
�
plim
�
o que se reduz a demonstrar que
�
plim
�
Com efeito, seja
= �
•
•�
= { �
•|
•
• �}
Como { • } é , e como • é função de a respectiva média amostral,
�
�
=
�
•,
•
⇹
�
= �
= { � |
•�
tem-se que {
•
•�
= Cov � ��
=
�
• •
•}
•
= � •}
•
•
• ��
também é
. Então,
� �
converge em probabilidade para . Fica, assim, provado que Cov � � ⇹ Cov � ̂ � � é semidefinida positiva. A superioridade assintótica de ̂ � , relativamente a , baseia-se na pressuposto de que a dimensão da amostra é suficientemente grande, e que a forma funcional de � • � está correctamente especificada. Caso contrário, não fica garantido que o estimador MQP dê melhores resultados que o estimador MQ. Como os elementos de • podem ser funções não lineares de • , a forma linear em , definida em (3C.9), abrange uma grande variedade de situações. No entanto, pode ser interessante considerar outras formas funcionais, como
= exp{
•
(3C.16)
}�
que tem a vantagem de garantir que exp{ • } > �. Neste caso, a heterocedasticidade condicionada designa-se por heterocedasticidade multiplicativa, uma vez que
exp{
•
} = exp{
} × exp{
} × ⋯ × exp{
}�
Continua a utilizar-se o estimador (3C.11), com ̂ = exp{ • ̂ }, mas prevalece a questão de determinar um estimador consistente de . Pode demonstrar-se que os passos para estimar no modelo = • � , onde � | • � = exp{ • }, são os seguintes:
1) Estimar com o método dos mínimos quadrados de modo a obter os respectivos resíduos MQ, ̂ = ⇹ • .
962
Anexo 3C
2) Como ln � � =
Heterocedasticidade condicionada com padrão conhecido •
, considere-se a equação de regressão
= ln � ̂ �
e
de modo a obter o estimador ̂ .
=
•
= ln � ̂ � ⇹ ln � � = ln � ̂ � ��
�
, onde
Pode provar-se que:
a) As variáveis residuais têm valor esperado não nulo, são heterocedásticas e estão autocorrelacionadas; b) c)
e
∗
= ln � � � são assintoticamente equivalentes;
� � = ⇹���7��; Var� ∗ � = ��9��8; Cov� ∗ � ∗ � = � ( ≠ ); ∗
d) plim( ̂ � =
⇹ ���7��; plim( ̂ ℓ � =
ℓ
(ℓ = �� �� … � ).
3) Reestimar com o método dos mínimos quadrados ponderados, utilizando o peso �exp{ • ̂ }�⇹ � para a observação .
[3D] Complementos sobre autocorrelação
3D.1
Propriedades do estimador MQ na presença de autocorrelação, no caso de regressores estritamente exógenos
Quando se está na presença de um MRLC, provou-se que as hipóteses REX.1, REX.2 e REX.5 implicam que o estimador MQ de , , é não enviesado (propriedade 2.11), mesmo que exista heterocedasticidade condicionada e autocorrelação. No entanto, como o teorema de Gauss-Markov exige homocedasticidade condicionada e ausência de autocorrelação, o estimador não é BLUE. Além disso, os erros padrão e os testes estatísticos clássicos deixam de ser válidos, mesmo assintoticamente. Por exemplo, considere-se o modelo
=
�
�
�
a verificar REX.1, REX.2, REX.3 e REX.5 (mas não REX.4; pode haver autocorrelação). Notando que
= =
�
=
�
�
�
= =
⇹ ��
�
⇹ �
�
⇹ �
⇹ �
=
��
VT
�
=
�
=
�
VT
⇹ �
⇹ �
963
=
=
�
�
=
�
�
=
⇹ ��
VT
�
VT
⇹ �
�
�
�
�
964
Anexo 3D
onde VT = � = � Var� | � =
= =
�
VT VT
� �
⇹ � , facilmente se verifica que
�
Var �
VT =
�
VT
Complementos sobre autocorrelação
=
�
⇹ �
|
⇹ � Var( | � � � �
�
�
=
�
⇹
=
�
⇹ ��
⇹
=
�
⇹
=
�
⇹ ��
⇹ � Cov( �
⇹
⇹
⇹ � Cov( �
⇹
| �
| ��
A primeira parcela desta expressão é a variância habitual de , isto é, quando não há autocorrelação. Quando { } segue um processo AR(1), = � | | < ��, é imediato que ⇹ � Var� | � =
�
�
�
�
⇹
�
⇹ ��
� � � �� � � � � = VT VT
⇹ ��
VT
VT
=
=
⇹
⇹ ��
porque não depende de , e Cov� � ⇹ � = . Quando se utiliza a variância habitual, ignorando a autocorrelação, o estimador desta variância é claramente enviesado porque não se considera a segunda parcela. Como no caso mais comum esta parcela é positiva ( > � e a série temporal { } é positivamente autocorrelacionada), as estimativas da variância habitual subestimam a verdadeira variância de . O enviesamento é tanto maior quanto maior for > � ou quanto mais acentuada for a autocorrelação de { }. Suponha-se, agora, que { } segue um processo MA(1), = � � � � ⇹ . Notando que Var� � = � �� � � �, Cov� � ⇹ � = � �, Cov� � ⇹ � = � � = �� �� …�, e que não depende de , vem Var� | � =
� ��
⇹
⇹ ��
Em termos gerais, no modelo de regressão linear com regressores estritamente exógenos e autocorrelação tem-se, e não Cov� | � =
3D.2
Cov� | � = �
�⇹
�⇹ .
�
� �
�⇹ �
Testes de autocorrelação no caso de regressores estritamente exógenos
Suponha-se que se pretende testar se as variáveis residuais seguem um processo AR(1): = ⇹ � � , onde � é um ruído branco. O teste a efectuar é o seguinte:
∶
= � contra
∶
> � (caso habitual).
Testes de autocorrelação no caso de regressores estritamente exógenos
965
A mecânica do teste, conhecido pela designação de teste do , é a seguinte: 1) Obter os resíduos MQ, ̂ , do modelo de regressão proposto.
2) Fazer a regressão de ̂ sobre ̂ ⇹ , de modo a obter ̂ . O respectivo rácio- tem distribuição limite normal estandardizada, ̂
→ ��� ���
supondo a hipótese nula verdadeira. 3) Utilizar a estatística ̂
para efectuar o teste, reportando o respectivo valor- .
Este tipo de procedimento pode ser utilizado para testar outros tipos de autocorrelação, nomeadamente para os processos auto-regressivos de ordem dois ou superior, usando-se um teste do �. Outra forma de detectar autocorrelação do tipo AR(1) é dada pelo teste de Durbin-Watson, que é talvez o teste mais conhecido, e, historicamente, o mais utilizado. A estatística-teste � � ̂ ⇹ ̂⇹� = � (3D.1) = � ̂⇹ =
onde se consideram os resíduos MQ do modelo proposto. Pode fazer-se uma interpretação intuitiva dos valores assumidos por esta estatística, notando que a média dos resíduos MQ é nula. Se os resíduos estão positivamente autocorrelacionados, verifica-se que cada resíduo tende a manter o sinal do resíduo anterior. Há vários resíduos seguidos com sinal positivo, e vários resíduos seguidos com valor negativo, e, portanto, as diferenças entre dois valores sucessivos tendem a ser pequenas e significativamente menores que os valores dos próprios resíduos. Então, tende, também, a assumir um valor pequeno. Se a autocorrelação dos resíduos é negativa, então cada resíduo tende a ter o sinal contrário do resíduo anterior. As diferenças sucessivas tendem a ser grandes, e maiores que os valores dos próprios resíduos. O valor tende, também, a ser grande. Pode demonstrar-se que plim( � = ��� ⇹ �� (3D.2) e, portanto, � < plim( � < �. Pode afirmar-se que: varia aproximadamente entre 0 e 4; quando não há autocorrelação, é aproximadamente igual a 2. Heuristicamente pode estabelecer-se o seguinte:
< � indica que existe autocorrelação positiva;
> � indica que existe autocorrelação negativa;
966
Anexo 3D
Complementos sobre autocorrelação
≈ � indica que não há autocorrelação.
Como se pode demonstrar que a distribuição de depende da matriz dos regressores, não se pode construir uma tabela para os valores críticos de . No entanto, Durbin e Watson consideraram duas outras estatísticas, e , que enquadram , ≤ ≤ , e cujas distribuições não dependem de . Existem tabelas [ver Johnston e DiNardo (1997)] para os respectivos valores críticos, ∗ e ∗ , que dependem apenas de (número de observações) e de (número de regressores). A mecânica do teste para o caso ∶ > � (autocorrelação positiva) é a seguinte: 1) Se < ∗ , rejeita-se a hipótese nula de ausência de autocorrelação a favor da hipótese alternativa.
2) Se 3) Se
∗
>
0 . Como a transformação logarítmica é monótona, maximizar a função de verosimilhança é equivalente a maximizar o respectivo logaritmo, n ~ ~ (2D.2) ln{L(θ | w1• , w2• , K , wn • )} = ∑t =1 ln{ f ( wt • | θ )} . Em muitos casos, a maximização de (2D.2) implica a resolução das equações de verosimilhança ~ (2D.3) ∇ ln{L(θ | ⋅)} = 0 .
Exemplo 2E.1 – Seja o processo escalar iid, {wt } , onde wt ~ N ( µ~, σ~ 2 ) . Então, ~ ~ µ θ = ~2 , σ e
f ( wt | µ~, σ~ 2 ) =
( w − µ~ ) 2 exp− t ~ 2 . 2σ 2π σ~ 2 1
O logaritmo da função de verosimilhança é
n n 1 ln{L( µ~, σ~ 2 | w1 , w2 , K , wn )} = − ln(2π ) − ln(σ~ 2 ) − ~ 2 2 2 2σ
∑
n
t =1
( wt − µ~ ) 2 .
Construindo as respectivas equações de verosimilhança, verifica-se sem dificuldade que o estimador MV de ( µ , σ 2 ) é ( µˆ , σˆ 2 ) , onde
µˆ = w =
1 n 1 n w e σˆ 2 = ∑t =1 ( wt − µˆ ) 2 . ∑ t =1 t n n
∇
Em muitas aplicações, nomeadamente no caso do MRLCN, o vector wt • é decomposto em dois blocos, wt • = [ yt xt • ] , pretendendo examinar-se como xt • influencia a distribuição de yt condicionada por xt • . É habitual chamar a yt regressando, e a xt • , vector dos regressores. Seja f ( yt | xt • ;θ ) a densidade de yt condicionada por xt • , e f ( xt • |ψ ) a densidade marginal de xt • . Então, f ( yt , xt • | θ ,ψ ) = f ( yt | xt • ;θ ) f ( xt • |ψ )
Anexo 2D – Estimadores de máxima verosimilhança
3
é a distribuição conjunta de wt • = [ yt xt • ] (para simplificar, as três densidades representaram-se com o mesmo símbolo f). Supondo que θ e ψ não estão funcionalmente relacionados, o logaritmo da função de verosimilhança é n ~ ~ ln{L(θ ,ψ~ | ⋅)} = ∑t =1 ln{ f ( yt , xt • | θ ,ψ~ )} (2D.4) ~ n n = ∑t =1 ln{ f ( yt | xt • ;θ )} + ∑t =1 ln{ f ( xt • | ψ~ )}.
A primeira parcela é o logaritmo da função de verosimilhança condicionada. O estimador MV condicionado de θ corresponde à maximização desta parcela, ignorando a segunda. A segunda parcela de (2D.4) é o logaritmo da função de verosimilhança marginal. ~ Como não depende de θ , o estimador MV condicionado de θ é numericamente igual ao respectivo estimador MV conjunto. Suponha-se, agora, que θ e ψ estão funcionalmente relacionados. Por exemplo, α β θ = eψ = . β γ
Neste caso, os estimadores MV de θ , conjunto e condicionado, não são numericamente iguais, uma vez que o segundo não considera a informação incluída na verosimilhança marginal. Pode demonstrar-se que o estimador condicionado de θ é menos eficiente do que o estimador de θ quando se estima conjuntamente θ e ψ . Em muitas aplicações, a perda de eficiência é inevitável porque não se conhece a forma paramétrica de f ( xt • |ψ~ ) . Recordam-se algumas propriedades dos estimadores MV: a) Invariância. Se θˆ é estimador MV de θ , e se λ = τ (θ ) , onde τ é uma aplicação biunívoca, então λˆ = τ (θˆ) é estimador MV de λ = τ (θ ) . b) Eficiência. Se θˆ é estimador eficiente de θ , então: θˆ é solução única das equações ~ de verosimilhança, ∇ ln{L(θ | ⋅)} = 0 ; θˆ é estimador MV. c) Consistência. Verificadas certas condições de regularidade, os estimadores MV são consistentes. d) Normalidade assintótica. Verificadas certas condições de regularidade, os estimadores MV são assintoticamente normais.
1) 2) 3)
4)
Podem fazer-se os seguintes comentários: As demonstrações das propriedades a), c) e d) vão ser apresentadas, num contexto mais geral, no capítulo 8. A invariância dos estimadores MV implica, em geral, que estes estimadores são enviesados. A propriedade b) ensina que qualquer estimador eficiente (na óptica do teorema de Fréchet-Cramér-Rao; ver anexo 2E) é necessariamente estimador MV. Contudo, há estimadores MV que não são eficientes (basta considerar um estimador MV enviesado). As propriedades c) e d) podem ser enunciadas de uma forma mais rigorosa:
Anexo 2D – Estimadores de máxima verosimilhança
4
− Verificadas certas condições de regularidade, existe solução, θˆ , das equações de ~ verosimilhança, ∇ ln{L(θ | ⋅)} = 0 . Esta solução é estimador consistente de θ , e tal que n (θˆ − θ ) → N ( p ) 0, I (θ ) −1 , d
onde I (θ ) é a matriz de informação de Fisher (ver anexo 2E). 5) As propriedades c) e d) garantem que, em certas condições, os estimadores MV são CAN (consistentes e assintoticamente normais; ver, no capítulo 3, a subsecção “Estimadores consistentes e assintoticamente normais” da secção 3.1). 6) O enunciado referido em 4) corresponde a afirmar que, nas condições de regularidade aludidas, os estimadores MV são assintoticamente eficientes. Trata-se, portanto, de estimadores BAN (best asymptotically normal).
ANEXO 2E ESTATÍSTICAS SUFICIENTES. ESTIMADORES UMVU. DESIGUALDADE DE FRÉCHET-CRÁMER-RAO Considerem-se os estimadores MQ, b e s 2 , de β e σ 2 , respectivamente. É possível provar que estes estimadores são (conjuntamente) estatísticas suficientes para β e σ 2 . Começa por recordar-se o conceito de estatística suficiente, e o critério de factorização de Neyman-Pearson. Definição 2E.1 – Estatística suficiente Seja z = ( z1 , K , z n ) um vector aleatório com função densidade dada por f ( z | θ ) , onde θ é o vector m × 1 dos parâmetros da distribuição. O vector aleatório p × 1 , τ (z ) , é uma estatística suficiente para θ se e só se a distribuição de z, condicionada por τ (z ) , não depende de θ .
Pode, então, enunciar-se o critério de factorização. Teorema 2E.1 (Critério de factorização) ~ A estatística τ (z ) é suficiente para θ se e só se a função de verosimilhança L(θ | z ) se pode factorizar-se como ~ ~ L(θ | z ) = L1 ( z ) L2{θ | τ ( z )} , (2E.1) ~ onde L1 não depende de θ , e L2 só depende de z através de τ (z ) .
No caso do MRLCN, considera-se o vector Y formado pelas n observações do regressando, e a respectiva função densidade condicionada por X, 1 (Y − Xβ )T (Y − Xβ ) . f (Y | X ; β , σ 2 ) = (2πσ 2 ) −n / 2 exp− 2 2σ
Pode provar-se que τ (Y | X ) = (b, s 2 ) é estatística suficiente para θ = ( β , σ 2 ) [tem-se m = p = k + 1 ]. Com efeito, notando que ~ ~ ~ ~ (Y − Xβ )T (Y − Xβ ) = (Y − Xb + Xb − Xβ )T (Y − Xb + Xb − Xβ ) ~ ~ = {Uˆ + X (b − β )}T {Uˆ + X (b − β )} ~ ~ ~ = Uˆ TUˆ + 2Uˆ T X (b − β ) + (b − β )T X T X (b − β ),
Anexo 2E – Estatísticas suficientes. Estimadores UMVU. Desigualdade FCR
2
~ ~ ~ ~ (Y − Xβ )T (Y − Xβ ) = (n − k ) s 2 + (b − β )T X T X (b − β ) ,
ou
a função de verosimilhança pode escrever-se da seguinte maneira:
1 ~ ~ ~ L( β , σ~ 2 | Y , X ) = (2π ) − n / 2 (σ~ 2 ) − n / 2 exp− {(n − k ) s 2 + (b − β )T X T X (b − β )} . 2σ~ 2 Verifica-se, assim, que se tem a factorização, ~ ~ L( β , σ~ 2 | Y , X ) = L1 (Y | X ) L2 ( β , σ~ 2 | b, s 2 , X ) ,
onde e
L1 (Y | X ) = (2π ) − n / 2 ,
1 ~ ~ ~ L2 ( β , σ~ 2 | b, s 2 , X ) = (σ~ 2 ) − n / 2 exp− {(n − k ) s 2 + (b − β )T X T X (b − β )} . 2σ~ 2 Deste modo, L1 não depende dos parâmetros, e L2 depende de Y através de b e 2
s . Como se sabe, uma das vantagens em dispor de uma estatística suficiente conjunta para θ = ( β , σ 2 ) , como é o caso de τ (Y | X ) = (b, s 2 ) , é que ela retira dos dados, fixada a matriz X, toda a informação relevante sobre os parâmetros. Outra vantagem resulta da circunstância de b e s 2 serem também estimadores não enviesados de β e σ 2 , respectivamente. Nestas condições, pode verificar-se que (b, s 2 ) é o estimador de θ = ( β , σ 2 ) mais eficiente na classe dos estimadores não enviesados. Começa por apresentar-se, em termos gerais, a definição de estimador UMVU e o enunciado do teorema de Rao-Blackwell. Definição 2E.2 – Estimador não enviesado com variância uniformemente mínima Considere-se o vector aleatório z = ( z1 , K , z n ) com função densidade dada por f ( z | θ ) , onde θ é o vector m × 1 dos parâmetros da distribuição. Seja Uθ a classe dos estimadores não enviesados de θ . O estimador θˆ ∈ Uθ
é não enviesado com variância uniformemente mínima [sigla em inglês: UMVU (Uniformly Minimum-Variance Unbiased)] se e só se Cov(θˆ) − Cov(θ ∗ ) é semidefinida negativa, ∀θ ∗ ∈ Uθ .
Esta condição significa que o estimador θˆ é o mais eficiente na classe dos estimadores não enviesados de θ ( Θ é o espaço-parâmetro). Recorde-se, a seguir, o enunciado do teorema de Rao-Blackwell.
Anexo 2E – Estatísticas suficientes. Estimadores UMVU. Desigualdade FCR
3
Teorema 2E.2 (Rao-Blackwell) Seja τ (z ) uma estatística suficiente para θ , e θ ∗ um estimador não enviesado de θ . Então, o estimador baseado em τ (z ) ,
θˆ = θˆ{τ ( z )} = E{θ ∗ | τ ( z )} ,
é ainda um estimador não enviesado de θ , e tal que
Cov(θˆ) − Cov(θ ∗ ) é semidefinida negativa.
Esta condição significa que o estimador não enviesado θˆ é mais eficiente do que o estimador não enviesado θ ∗ . Assim, se se tomar um estimador de θ , não enviesado, o teorema de Rao-Blackwell permite obter um estimador “melhor” (mais eficiente), desde que seja baseado naquela estatística suficiente. Diz-se, então, que θˆ se obtém por Rao-Blackwellização de θ ∗ . Deve ficar claro que este teorema não resolve inteiramente a questão da obtenção de um estimador UMVU para θ , mas aponta o caminho. Com efeito, estabelece, de forma clara, que se existir um estimador UMVU, ele tem de procurar-se na classe dos estimadores não enviesados baseados numa estatística suficiente. Se esta classe tem um único elemento, trata-se evidentemente do estimador UMVU. De facto, é isso que acontece quando o estimador se baseia numa estatística suficiente completa. Antes de prosseguir, vai apresentar-se este conceito, e o enunciado do teorema que permite obter o estimador UMVU. Para definir estatística suficiente completa é indispensável definir previamente o conceito de família de distribuições completa. Definição 2E.3 – Família de distribuições completa Seja z = ( z1 , K , z n ) um vector aleatório com função densidade dada por f ( z | θ ) , onde ~ ~ θ é o vector m × 1 dos parâmetros da distribuição. A família Fθ~ = { f ( z | θ ) : θ ∈ Θ} é completa se e só se, qualquer que seja ψ (z ) , se verifica a condição ~ ∀θ ∈ Θ : E{ψ ( z )} = 0 ⇒ P{ψ ( z ) = 0} = 1 .
~ A condição P{ψ ( z ) = 0} = 1, ∀θ ∈ Θ , significa que ψ (z ) = 0 excepto, quando muito, para valores de z pertencentes a um conjunto com probabilidade zero, e para ~ qualquer θ ∈ Θ . Definição 2E.4 – Estatística suficiente completa Considere-se a estatística suficiente τ (z ) (vector aleatório p × 1 ) com função densidade dada por g{τ ( z ) | θ } , onde θ é o vector m × 1 dos parâmetros da distribuição. A estatística τ (z ) é completa se e só se a família ~ ~ Gθ~ = g{τ ( z ) | θ } : θ ∈ Θ
Anexo 2E – Estatísticas suficientes. Estimadores UMVU. Desigualdade FCR
4
é completa, isto é, qualquer que seja ψ {τ ( z )} , verifica-se a condição ~ ∀θ ∈ Θ : E (ψ {τ ( z )}) = 0 ⇒ P(ψ {τ ( z )} = 0) = 1 . A importância deste conceito para a determinação do estimador UMVU é de fácil compreensão. Se a estatística τ (z ) é suficiente completa, e se θ ∗ é um qualquer estimador não enviesado de θ , seja θˆ o estimador obtido por Rao-Blackwellização de θ∗, θˆ = θˆ{τ ( z )} = E{θ ∗ | τ ( z )} . ) ) Se houver outro estimador não enviesado baseado em τ (z ) , θ = θ {τ ( z )} , conclui-se que ) E θˆ{τ ( z )} = E θ {τ ( z )} = θ , ou ) ~ E θˆ{τ ( z )} − θ {τ ( z )} = 0, ∀θ ∈ Θ .
Então, por τ (z ) ser uma estatística suficiente completa, tem-se ) ~ P θˆ{τ ( z )} = θ {τ ( z )} = 1, ∀θ ∈ Θ ,
isto é,
θˆ{τ ( z )} = θ {τ ( z )} , )
~ excepto, quando muito, num conjunto com probabilidade zero, e para qualquer θ ∈ Θ . ) Neste caso, os estimadores θˆ e θ não se distinguem. Se não se conhece uma estatística suficiente completa, e se se opera com uma estatística suficiente não completa, podem existir vários estimadores não enviesados baseados nessa estatística, e não há procedimento geral que permita conhecer o estimador mais eficiente. Das considerações precedentes, pode enunciar-se o seguinte teorema:
Teorema 2E.3 (Lehmann-Scheffé) Se existir uma estatística suficiente completa para θ , τ (z ) , e pelo menos um estimador não enviesado, θ ∗ , então existe um e um só estimador UMVU,
θˆ = θˆ{τ ( z )} = E{θ ∗ | τ ( z )} .
Este estimador é o único estimador não enviesado que é função de τ (z ) . No caso do MRLCN, pode provar-se que (b, s 2 ) é uma estatística suficiente completa para θ = ( β , σ 2 ) . Como b e s 2 são, respectivamente, estimadores não enviesados de β e σ 2 , pode facilmente concluir-se que (b, s 2 ) é também estimador UMVU de θ = ( β , σ 2 ) .
Anexo 2E – Estatísticas suficientes. Estimadores UMVU. Desigualdade FCR
5
Este resultado é de natureza diferente da do teorema de Gauss-Markov. De facto, este teorema não exige a hipótese REX.6, mas, por outro lado, garante que b é o estimador mais eficiente na classe dos estimadores lineares e não enviesados (estimador BLUE). Se se considerar a hipótese REX.6, o resultado que se baseia no teorema de Lehmann-Scheffé garante que b é o estimador mais eficiente na classe dos estimadores não enviesados (dispensa a linearidade dos estimadores). A eficiência dos estimadores b e s 2 também pode ser investigada considerando a conhecida desigualdade de Fréchet-Cramér-Rao. Começa-se por apresentar o teorema respectivo, e os seus pressupostos. Seja z = ( z1 , K , z n ) um vector aleatório com função densidade definida por f ( z | θ ) , onde θ é o vector m × 1 dos parâmetros da distribuição. Designa-se por vector score, ou simplesmente score, o gradiente do logaritmo da função de verosimilhança, ~ ~ s (θ | z ) = ∇ ln{ L(θ | z )} . (2E.2) Assim, o score é o vector das derivadas parciais do logaritmo da função de verosimilhança, ~ ∂ ln{ L(θ | z )} ~ ( j = 1, 2, K , m) , s j (θ | z ) = ~ ∂θ j para qualquer valor hipotético de θ . Como ~ ~ s (θ | z ) = ∇ ln{ L(θ | z )} =
L(θ | z ) 1 ~
~ ∇L(θ | z ) ,
cada componente do score pode ser interpretado como a taxa de variação da função ~ verosimilhança em relação a θ j : ~ ∂ L(θ | z ) 1 ~ . s j (θ | z ) = ~ ~ L(θ | z ) ∂θ j Considerando o score como um vector aleatório (em z), pode calcular-se o respectivo valor esperado de cada componente (se existir), ~ ~ ~ E{s j (θ | z )} = ∫ n s j (θ | z ) f ( z | θ ) dz ( j = 1, 2, K , m) . ℜ
~ ~ ~ ~ ~ Como f ( z | θ ) ≡ L(θ | z ) , tem-se ∇f ( z | θ ) = s (θ | z ) f ( z | θ ) , ou seja, ~ ∂ f (z |θ ) ~ ~ = s j (θ | z ) f ( z | θ ) . ~ ∂θ j
Como
∫
ℜ
n
~ f ( z | θ ) dz = 1 ,
~ qualquer que seja θ , e admitindo a condição de regularidade segundo a qual se podem permutar as operações de derivação e de integração, obtém-se
Anexo 2E – Estatísticas suficientes. Estimadores UMVU. Desigualdade FCR
∫
ℜ
n
~ ∂ ∂ f (z |θ ) dz = ~ ~ ∂θ j ∂θ j
∫
ℜ
n
6
~ f ( z | θ ) dz = 0 .
~ E{s (θ | z )} = 0 . ~ Diz-se que a função de verosimilhança, L(θ | z ) , é regular se e só se o valor esperado do score, calculado em θ (verdadeiro valor do parâmetro), é nulo. Assim, vem Então,
E{s(θ | z )} = 0 .
Pode, então, enunciar-se o teorema de Fréchet-Cramér-Rao.
Teorema 2E.4 (Fréchet-Cramér-Rao) Seja z = ( z1 , K , z n ) um vector aleatório com função densidade dada por f ( z | θ ) , onde θ é o vector m × 1 dos parâmetros da distribuição. Suponha-se que a respectiva função ~ de verosimilhança, L(θ | z ) , é regular. Considere-se a matriz de informação (de Fisher), (2E.3)
I (θ ) = E{s(θ | z ) s (θ | z )T } = − E{∇s (θ | z )} ,
onde o score é calculado em θ (verdadeiro valor do parâmetro). Seja θˆ um estimador não enviesado de θ tal que Cov(θˆ) é a respectiva matriz das covariâncias. Então, a matriz Cov(θˆ) − I (θ ) −1 é semidefinida positiva. Se Cov(θˆ) = I (θ ) −1 , então θˆ é UMVU.
Note-se que o elemento genérico da matriz de informação é
∂ ln{ L(θ | z )} ∂ ln{ L(θ | z )} ∂ 2 ln{ L(θ | z )} (i, j = 1, 2, K , m) , E = −E ~ ~ ~ ~ ∂ θ θ θ ∂ ∂ ∂θi j i j
não sendo difícil concluir que a matriz de informação é a matriz das covariâncias do score. O teorema de Fréchet-Crámer-Rao estabelece que a inversa desta matriz é o “limite inferior” do conjunto das matrizes das covariâncias dos estimadores não enviesados de θ . Quando uma destas matrizes atinge aquele “limite inferior”, fica garantido que o respectivo estimador é UMVU. Por estas razões, é habitual chamar desigualdade de Fréchet-Crámer-Rao à seguinte propriedade: (2E.4)
Cov(θˆ) − I (θ ) −1 é semidefinida positiva.
A matriz I (θ ) −1 chama-se limite inferior de Fréchet-Crámer-Rao (LIFCR). Estas considerações são mais fáceis de entender quando θ é um escalar. Com efeito, neste caso, a desigualdade de Fréchet-Crámer-Rao resume-se a estabelecer que
Anexo 2E – Estatísticas suficientes. Estimadores UMVU. Desigualdade FCR
7
1 , Var(θˆ) ≥ I (θ ) onde
d 2 ln{ L(θ | z )} d ln{ L(θ | z )} I (θ ) = Var . = − E ~ ~ dθ 2 dθ
Como Cov(θˆ) = I (θ ) −1 é uma condição suficiente para que θˆ seja UMVU, um estimador pode ser UMVU sem que a respectiva matriz das covariâncias atinja o limite inferior de Fréchet-Crámer-Rao. Neste caso, aquela propriedade do estimador deve ser provada com outros argumentos, nomeadamente mostrando que o estimador é baseado numa estatística suficiente completa (ver teorema de Rao-Blackwell). Considerando o MRLCN, vai provar-se um resultado indispensável para se poder aplicar o teorema de Fréchet-Cramér-Rao aos estimadores MQ: dado X, os estimadores MQ, b e s 2 , são independentes. Com efeito, condicionados por X, b − β = ( X T X ) −1 X T U é uma forma linear em U, e Uˆ T Uˆ = U T PX U (propriedade 2.4 dos resíduos MQ) é uma forma quadrática em U, em que PX simétrica e idempotente. Então, como U | X ~ N ( n ) (0, σ 2 I ) , e atendendo à propriedade 5) das distribuições de vectores aleatórios (ver secção 2.10), b − β e Uˆ T Uˆ são independentes (dado X). Daqui resulta que, dado X, b e s 2 são, também, independentes. Notando que (ver demonstração na secção 2.10) 2σ 4 , Var( s | X ) = n−k 2
e que b e s 2 são independentes (dado X), a matriz das covariâncias condicionadas por X do vector (k + 1) × 1 , θˆ = (b, s 2 ) , é (2E.5)
σ 2 ( X T X ) −1 0 Cov(θˆ | X ) = 2σ 4 . 0 n − k
Vai verificar-se que a função de verosimilhança é regular, ou seja, que o valor esperado do score, calculado em θ = ( β , σ 2 ) , é nulo. Com efeito, como n n 1 ~ ~ ~ ln{ L( β , σ~ 2 | Y , X )} = − ln (2π ) − ln (σ~ 2 ) − ~ 2 (Y − Xβ )T (Y − Xβ ) , 2 2 2σ
vem
1 E (∇ β~ ln{ L( β , σ 2 | Y , X )} | X ) = E 2 X T (Y − Xβ ) X = 0 σ
n 1 (Y − Xβ )T (Y − Xβ ) X = 0, E (∇σ~ 2 ln{ L( β , σ 2 | Y , X )} | X ) = E − 2 + 4 2σ 2σ
uma vez que U = Y − Xβ , E (U | X ) = 0 e E (U T U | X ) = nσ 2 .
Anexo 2E – Estatísticas suficientes. Estimadores UMVU. Desigualdade FCR
8
O caminho mais simples para obter a matriz de informação consiste em utilizar a igualdade I (θ ) = − E{∇s(θ | Y , X )} , ou seja, recorrendo ao cálculo das segundas deriva~ ~ das de ln{ L( β , σ~ 2 | Y , X )} , fazendo β = β e σ~ 2 = σ 2 . Assim, tem-se: ∇ 2β~ ln{ L( β , σ 2 | Y , X )} = −
∇σ2~ 2 ln{ L( β , σ 2 | Y , X )} =
σ2 1
2σ
∇ 2β~σ~ 2 ln L( β , σ 2 | Y , X ) = −
n 4
σ4 1
XTX ; −
σ6 1
(Y − Xβ )T (Y − Xβ ) ;
X T (Y − Xβ ) .
Donde,
1 T 1 T X (Y − Xβ ) σ 2 X X 4 σ I ( β , σ 2 ) = E X , 1 (Y − Xβ )T X − n + 1 (Y − Xβ )T (Y − Xβ ) 4 2σ 4 σ 6 σ
ou
1 T X X 0 2 I ( β , σ 2 ) = σ . n 0 2σ 4
Então, o limite inferior de Fréchet-Cramér-Rao é dado por (2E.6)
σ 2 ( X T X ) −1 0 I ( β , σ 2 ) −1 = 2σ 4 . 0 n
Verifica-se, assim, que a matriz das covariâncias condicionadas de b atinge o LIFCR, o que mostra, por outra via, que b é UMVU para β . Contudo, a variância condicionada de s 2 é superior ao respectivo LIFCR. No entanto, como se sabe, este estimador é UMVU para σ 2 , devido ao teorema de Lehmann-Scheffé (não há outro estimador não enviesado de σ 2 com variância menor). Alternativamente, a matriz de informação pode ser obtida utilizando a igualdade I (θ ) = E{s(θ | Y , X ) s (θ | Y , X )T } , embora os cálculos sejam mais laboriosos. Com efeito, sabe-se que
1 T X U 2 σ . s (θ | Y , X ) = n 1 U TU − 2 + 4 2σ 2σ
Então, s (θ | Y , X ) s(θ | Y , X )T é igual a
Anexo 2E – Estatísticas suficientes. Estimadores UMVU. Desigualdade FCR
9
1 T 1 n X UU T X − 4 X TU + 6 X TU (U TU ) 4 σ 2σ 2σ . 2 n 1 1 n T T T T U U − 2 + − 2σ 4 U X + 2σ 6 (U U )U X 4 2σ 2σ Pode, então, calcular-se o valor esperado condicionado de cada bloco desta matriz. Verifica-se, sem dificuldade, que 1 1 1 E 4 X TUU T X X = 4 X T E (UU T | X ) X = 2 X T X . σ σ σ
Relativamente ao bloco (1,2), tem-se
n 1 1 n E − 4 X TU + 6 X TU (U TU ) X = − 4 X T E (U | X ) + X T E (U (U TU ) | X ) 6 2 2 2 2 σ σ σ σ 1 = X T E{U (U TU ) | X } , 2σ 6
uma vez que E (U | X ) = 0 . Seja
u1 u13 + u1u22 + L + u1un2 2 3 2 u u2u1 + u2 + L + u2un T 2 2 2 2 U (U U ) = (u1 + u2 + L + un ) = . M M un u u 2 + u u 2 + L + u 3 n 2 n n 1
Como as variáveis residuais são iid a verificar ut | X ~ N (0, σ 2 ) , tem-se E (ut3 | X ) = 0 e E (ut us2 | X ) = E (ut | X ) E (us2 | X ) = 0 × σ 2 = 0 (t ≠ s ) .
Então, E{U (U TU ) | X } = 0 , podendo concluir-se que
n 1 E − 4 X TU + 6 X TU (U TU ) X = 0 . 2σ 2σ
Quanto ao bloco (2,2), começa-se por notar que
1 1 n2 n n T − + = − 6 U TU + 8 (U TU ) 2 , U U 4 2 4 2σ 2σ 4σ 2σ 4σ 2
(U TU ) 2 = (u12 + u22 + L + un2 ) 2 = u14 + u12u22 + L + u12un2
e que
+ u22u12 + u24 + L + u22un2 +L
+ un2u12 + un2u22 + L + un4 . Como
E (ut4 | X ) = 3σ 4 e E (ut2us2 | X ) = σ 4 (t ≠ s) ,
Anexo 2E – Estatísticas suficientes. Estimadores UMVU. Desigualdade FCR
10
vem
n2 n n2 n 1 2n 2 3nσ 4 + n(n − 1)σ 4 E 4 − 6 U TU + 8 (U TU ) 2 X = − + = . 4 4 8 4 4 2 4 4 4 4 2 σ σ σ σ σ σ σ 2
Pode, então, obter-se a matriz I ( β , σ 2 ) . Considere-se a distribuição conjunta de Y e de X. Seja
f (Y , X | φ ) = f (Y | X ;θ ) f ( X |ψ ) ,
onde se utilizou o símbolo f para representar as funções densidade conjunta, condicionada e marginal. Fazendo θ = ( β , σ 2 ) , tem-se ~ ~ L(φ | Y , X ) = L1 (θ | Y , X ) L2 (ψ~ | X ) , ~ ~ onde L(φ | Y , X ) é a função de verosimilhança conjunta de Y e X, L1 (θ | Y , X ) é a função de verosimilhança de Y condicionada por X, e L2 (ψ~ | X ) é a função de verosimilhança marginal de X. Então, ~ ~ ln{ L(φ | Y , X )} = ln{ L1 (θ | Y , X )} + ln{ L2 (ψ~ | X )} . Admitindo que θ não é função de ψ ~ que maximizar ln{ L(φ | Y , X )} em relação a ~ ~ ln{ L1 (θ | Y , X )} em relação a θ . Tem-se 1 T σ 2 X X 0 n 0 I ( β , σ 2 ,ψ ) = 2σ 4 O O
(e, inversamente), facilmente se conclui ~ φ dá o mesmo resultado que maximizar O . − E (∇ψ2~ ln{L(ψ | X )}) O
ANEXO 2F CONSIDERAÇÕES GERAIS SOBRE TESTE DE HIPÓTESES PARAMÉTRICAS Como o próprio nome sugere, o teste de uma hipótese paramétrica serve para decidir, com base na informação fornecida pelos dados, se se rejeita, ou não, a hipótese. Seja z = ( z1 , K , z n ) um vector aleatório com distribuição na família ~ ~ Fθ~ = { f ( z | θ ) : θ ∈ Θ} ,
~ ~ em que θ é o vector m × 1 que percorre o espaço-parâmetro, Θ ⊂ ℜ m : θ ∈ Θ . Supondo que θ é o vector m × 1 dos parâmetros desconhecidos, qualquer hipótese paramétrica – conjectura sobre θ – estabelece no espaço-parâmetro Θ uma partição Θ0 ∪ Θ1 = Θ , Θ0 ∩ Θ1 = ∅ ,
onde H 0 : θ ∈ Θ 0 é a hipótese a testar e H 1 : θ ∈ Θ1 é a hipótese que corresponde ao conjunto das alternativas. A hipótese H 0 chama-se hipótese nula, designação tradicional, que corresponde, geralmente, ao satus quo; a hipótese H 1 é designada por hipótese alternativa. Quando numa das hipóteses (nula ou alternativa) o respectivo subconjunto de Θ ( Θ 0 ou Θ1 ) só tem um elemento, diz-se que a respectiva hipótese é simples; caso contrário, é composta. O teste de hipóteses pode, então, ser apresentado da seguinte maneira: (2F.1)
H 0 : θ ∈ Θ 0 contra H 1 : θ ∈ Θ1 .
O resultado do teste consiste na rejeição, ou não, de H 0 , sendo esta decisão tomada com base numa amostra. Naturalmente, a não rejeição (a rejeição) de H 0 implica a rejeição (a não rejeição) de H 1 . Seja Z ⊂ ℜ n o espaço-amostra, isto é, o conjunto de todos os vectores particulares z retirados da população. Um teste de hipóteses deve basear-se no comportamento probabilístico de z no espaço-amostra, e estabelecer um critério para determinar quais os valores concretos de z que levam à rejeição da hipótese nula (e, consequentemente, à não rejeição da hipótese alternativa).
Anexo 2F – Considerações gerais sobre teste de hipóteses paramétricas
2
Definição 2F.1 – Teste de hipóteses Um teste de hipóteses é uma regra que permite especificar um subconjunto do espaço-amostra, W ⊂ Z , tal que: − se z ∈ W rejeita-se H 0 (não se rejeita H 1 ); − se z ∉ W não se rejeita H 0 (rejeita-se H 1 ). O conjunto W chama-se região crítica ou região de rejeição. É habitual designar o complementar do conjunto W, W , por região de não rejeição. Pode, então, afirmar-se que um teste é uma regra que permite introduzir uma partição do espaço-amostra nas duas regiões referidas, ou seja,
W ∪W = Z , W ∩W = ∅ .
Como a região crítica é um subconjunto de ℜ n , pode ser complicado concluir se uma determinada amostra particular pertence, ou não, à região crítica. No entanto, em muitos casos de interesse prático, consegue evitar-se esta dificuldade recorrendo a uma estatística T (z ) , designada por estatística-teste. Trabalha-se, então, no espaço-amostra T ⊂ ℜ , relativo à estatística T (z ) , ou seja, com o conjunto de todos os seus valores particulares. Nestas circunstâncias, um teste de hipóteses estabelece uma regra que permite determinar um conjunto WT ⊂ T tal que: se T ( z ) ∈ WT , rejeita-se H 0 (não se rejeita H 1 ); se T ( z ) ∉ WT , não se rejeita H 0 (rejeita-se H 1 ). Os conjuntos WT e WT continuam a chamar-se, respectivamente, região de rejeição e região de não rejeição. Em resumo, os ingredientes de um teste de hipóteses são: − A hipótese nula, H 0 , que é defendida até a evidência estatística mostrar o contrário. − A hipótese alternativa, H 1 , que é adoptada se a hipótese nula for rejeitada. − Uma estatística-teste, T (z ) . − Uma região crítica, WT . Sendo o teste de hipóteses uma modalidade da inferência estatística, ou inferência incerta, não é demais recordar que todo o caminho que vai do particular (amostra) para o geral (população) pode conduzir a erros. No teste de hipóteses, devem considerar-se dois tipos de erros. Definição 2F.2 – Erros de 1.ª e de 2.ª espécies Ao proceder ao teste de H 0 contra H 1 podem cometer-se dois tipos de erros: − O erro de 1.ª espécie ou de rejeição, que consiste em rejeitar H 0 , quando H 0 é verdadeira; − O erro de 2.ª espécie ou de não rejeição, que consiste em não rejeitar H 0 , quando H 0 é falsa. Os erros de 1.ª e de 2.ª espécies estão esquematizados no quadro seguinte:
Anexo 2F – Considerações gerais sobre teste de hipóteses paramétricas
3
Teste de hipóteses – erros de 1.ª e de 2.ª espécies Decisão tomada
H 0 verdadeira
H 0 falsa
Rejeitar H 0
Erro de 1.ª espécie
Decisão correcta
Não rejeitar H 0
Decisão correcta
Erro de 2.ª espécie
O aspecto fundamental da teoria do teste de hipóteses prende-se com a possibilidade de controlar cada um dos tipos de erro. Tenha-se, no entanto, presente que, depois de tomada uma decisão, apenas se pode cometer um dos tipos de erro (se se rejeitar H 0 , nunca ocorre o erro de 2.ª espécie; se não se rejeitar H 0 , nunca acontece o erro de 1.ª espécie). Na impossibilidade de “minimizar” simultaneamente os dois tipos de erros, torna-se necessário definir uma abordagem que permita considerá-los de alguma forma. Das várias alternativas possíveis, assume particular relevância a abordagem de Neyman-Pearson que consiste no seguinte: em primeiro lugar, fixar um limite superior para a possibilidade de ocorrer o erro de 1.ª espécie; em segundo lugar, dado aquele limite superior, reduzir o mais possível o erro de 2.ª espécie. A abordagem de Neyman-Pearson pode ser formalizada em termos mais rigorosos, introduzindo os conceitos de dimensão do teste, e de função potência do teste. Estes dois conceitos baseiam-se nas probabilidades de cometer os dois tipos de erros refe~ ridos, mas deve notar-se que tais probabilidades dependem do particular θ considerado em Θ 0 e Θ1 , respectivamente. Definição 2F.3 – Dimensão do teste O teste associado com a região crítica WT tem dimensão α ( 0 < α < 1 ) se e só se ~ ~ P{T ( z ) ∈WT | θ } ≤ α (∀θ ∈ Θ0 ) ~ (2F.2) sup P{T ( z ) ∈ WT | θ } = α . ~ θ ∈Θ 0
Deste modo, a dimensão do teste é o valor máximo (mais geralmente, o supre~ mo) assumido pela probabilidade de cometer o erro de 1.ª espécie, quando θ percorre o subconjunto do espaço-parâmetro associado à hipótese nula. É habitual chamar nível de significância à dimensão do teste. Definição 2F.4 – Função potência do teste A função potência do teste associado com a região crítica WT é dada por ~ ~ ~ (2F.3) π (θ ) = P{T ( z ) ∈WT | θ } , θ ∈ Θ .
Para qualquer θ fixado em Θ1 , π (θ ) é a potência do teste contra a particular hipótese alternativa H 1 : θ = θ . Verifica-se facilmente que a probabilidade de cometer o
Anexo 2F – Considerações gerais sobre teste de hipóteses paramétricas
4
erro de 2.ª espécie é igual a 1 − π (θ ) . Assim, a potência do teste é a probabilidade de não cometer o erro de 2.ª espécie. Note-se que a função potência costuma definir-se em ~ todo o espaço-parâmetro, Θ , embora tenha especial interesse quando θ ∈ Θ1 (para ~ θ ∈ Θ0 , a função potência dá as probabilidades de cometer os erros de 1.ª espécie; uma vez fixada a dimensão do teste, estas probabilidades não podem exceder o valor α ). Dispondo destes dois conceitos – dimensão e potência do teste – a abordagem de Neyman-Pearson resume-se ao seguinte: fixar a dimensão do teste e maximizar a sua potência. Assinale-se que esta forma de proceder atribui mais importância ao erro de 1.ª espécie, uma vez que é fixado um valor máximo para a probabilidade da sua ocorrência, enquanto a potência deve ser a maior possível dentro dos condicionantes existentes. Consequentemente, quando se rejeita H 0 , tem-se sempre presente a probabilidade máxima associada ao erro que se pode estar a cometer, situação que nem sempre acontece quando não se rejeita H 0 . O teste ideal seria aquele em que ~ ~ 0 (θ ∈ Θ0 ) π (θ ) = , ~ 1 (θ ∈ Θ1 ) o que implicaria que o teste conduziria sempre à decisão correcta. Infelizmente este teste ideal raramente existe. ~ Em geral, tem-se α > 0 e π (θ ) < 1 , sendo desejável que a probabilidade do erro de 1.ª espécie seja pequena, uma vez que se adopta o seguinte ponto de vista: a possibilidade de rejeitar incorrectamente a hipótese nula é considerada grave, pois esta hipótese corresponde à posição que deve ser defendida, salvo se evidência estatística convincente apontar no sentido contrário (a favor da hipótese alternativa). Na grande maioria das aplicações práticas, os valores habituais fixados para α são 0.1, 0.05 ou 0.01. Evidentemente que o valor fixado para α depende da importância que se dá ao facto de rejeitar a hipótese nula, quando esta é verdadeira. Uma ilustração deste ponto de vista pode ser feita com o seguinte princípio da Justiça: “uma pessoa é inocente até se provar que é culpada”. Este princípio dá lugar ao seguinte teste: H 0 : “a pessoa é inocente” contra H 1 : “a pessoa é culpada”. Os erros que podem ocorrer são os seguintes: erro de 1.ª espécie, “a pessoa é condenada, mas está inocente”; erro de 2.ª espécie, “a pessoa é absolvida, mas é culpada”. Naturalmente, de acordo com o princípio enunciado, a aplicação da Justiça deve procurar reduzir a possibilidade de ocorrer o erro de 1.ª espécie, pois entende-se que é mais grave condenar inocentes do que absolver criminosos. Para certos sistemas judiciais pode considerar-se que α = 0.1 é demasiado elevado, optando-se por α = 0.01 ; noutros sistemas judiciais pode admitir-se que α = 0.05 é um valor razoável. Facilmente se conclui que existe uma infinidade de testes de dimensão α , ou seja, há uma infinidade de testes cujas regiões críticas são compatíveis com aquela dimensão. Estando controlada a probabilidade do erro de 1.ª espécie, é precisamente a existência de erros de 2.ª espécie que serve de guia na escolha da região crítica óptima (se existir). De facto, afigura-se natural que seja considerada região crítica óptima,
Anexo 2F – Considerações gerais sobre teste de hipóteses paramétricas
5
aquela que minimiza de algum modo a probabilidade de cometer o erro de 2.ª espécie, isto é, aquela que tem maior potência ou capacidade para rejeitar a hipótese nula, quando falsa, em favor da hipótese alternativa. Para formalizar esta ideia vai apresentar-se a seguinte definição: Definição 2F.5 – Teste uniformemente mais potente (UMP) Ao testar a hipótese nula H 0 : θ ∈ Θ 0 contra a hipótese alternativa H 1 : θ ∈ Θ1 , consideram-se dois testes com a mesma dimensão α , mas com regiões críticas WT e WT∗ , respectivamente. As correspondentes funções potências são ~ ~ ~ π (θ ) = P{T ( z ) ∈WT | θ } para θ ∈ Θ1 , ~ ~ ~ π ∗ (θ ) = P{T ( z ) ∈WT∗ | θ } para θ ∈ Θ1.
Diz-se que o teste com a região crítica WT é uniformemente mais potente do que o teste com região crítica WT∗ se e só se ~ ~ ~ π (θ ) ≥ π ∗ (θ ) , ∀θ ∈ Θ1 . (2F.4) Se o teste com região crítica WT é uniformemente mais potente do que qualquer outro teste de dimensão α , diz-se que é o teste uniformemente mais potente. Em geral, quando não existem testes UMP – ou a sua determinação é muito difícil –, utiliza-se um procedimento que faz largo apelo à intuição, permitindo obter, muitas vezes, resultados interessantes. Trata-se do critério ou princípio da razão de verosimilhanças (RV) [ver capítulo 8]. Este princípio compara o máximo da função de verosimilhança restringido à hipótese nula, ~ L(θ | z ) = Lˆ (Θ 0 ) , max ~ θ ∈Θ0
com o máximo da função de verosimilhança sem restrições, ~ max L(θ | z ) = Lˆ (Θ) . ~ θ ∈Θ
Seja
λ ( z) =
Lˆ (Θ) ≥ 1. Lˆ (Θ 0 )
Note-se que λ é função de z, uma vez que ao minimizar a função de verosimilhança, quer em Θ quer em Θ 0 , os parâmetros são substituídos pelos respectivos estimadores de máxima verosimilhança (que são funções de z). O teste RV baseia-se na seguinte ideia: se H 0 : θ ∈ Θ 0 é verdadeira, então λ (z ) deve ser “pequeno”; a hipótese nula é rejeitada se λ ( z ) ≥ λ0 , onde λ0 é uma constante convenientemente escolhida. A questão resume-se, então, a determinar esta constante. Em alguns casos, dá-se a feliz circunstância de existir uma correspondência entre a estatística λ (z ) e uma estatística T (z ) , com distribuição conhecida, facto que permite obter, no domínio desta estatística, uma região crítica equivalente,
Anexo 2F – Considerações gerais sobre teste de hipóteses paramétricas
6
λ ( z ) ≥ λ0 ⇔ T ( z ) ∈WT .
Então, fixada a dimensão do teste, α , a igualdade ~ P{λ ( z ) ≥ λ0 | θ ∈ Θ0 } = α ,
possibilita a determinação do valor de λ0 . Em Econometria, quando θ é um escalar, é habitual fazer testes em que a hipótese nula é simples, H 0 : θ = θ 0 , e a hipótese alternativa é composta, podendo o teste assumir uma das seguintes três formas: a) b) c)
H 0 : θ = θ 0 contra H 1 : θ > θ 0 ; H 0 : θ = θ 0 contra H 1 : θ < θ 0 ; H 0 : θ = θ 0 contra H 1 : θ ≠ θ 0 .
Em a), diz-se a que a hipótese alternativa é unilateral à direita; em b), unilateral à esquerda; em c), bilateral. Quando θ é um vector de ℜ m , é usual o teste assumir a seguinte forma: d)
H 0 : θ = θ 0 contra H1 : θ ≠ θ 0 .
Neste caso, a hipótese nula é simples, e a hipótese alternativa é composta (tal como nos três casos anteriores). As partições do espaço-parâmetro são, respectivamente, as seguintes: a) b) c) d)
Θ 0 = {θ 0 } e Θ1 = (θ 0 ,+∞) ; Θ 0 = {θ 0 } e Θ1 = (−∞,θ 0 ) ; Θ 0 = {θ 0 } e Θ1 = (−∞,θ 0 ) ∪ (θ 0 ,+∞) ;
Θ 0 = {θ 0 } e Θ1 = {θ : θ ≠ θ 0 } ⊂ ℜ m .
Em qualquer destes quatro tipos de teste, a estatística-teste, T ( z ) , é uma variável aleatória, cuja distribuição é conhecida, pelo menos assintoticamente. Muitas vezes, as regiões de rejeição escolhidas para aqueles quatro tipos são, respectivamente, as seguintes: a) Região de rejeição na cauda direita da distribuição de T (z ) : WT = (T ∗ ,+∞) ; b) Região de rejeição na cauda esquerda da distribuição de T (z ) : WT = (−∞, T ∗ ) ; c) Região de rejeição nas duas caudas (esquerda e direita) da distribuição de T ( z ) : WT = (−∞, T1∗ ) ∪ (T2∗ ,+∞) ; d) Região de rejeição na cauda direita da distribuição de T (z ) : WT = (T ∗ ,+∞) .
Em algumas situações, os valores T1∗ e T2∗ , referidos em c), são simétricos. Evidentemente, tem-se P{T ( z ) ∈WT | H 0 } = α , uma vez que o conjunto Θ 0 tem apenas tem um elemento. É habitual designar por valores críticos as extremidades finitas dos intervalos que definem as regiões críticas.
Anexo 2F – Considerações gerais sobre teste de hipóteses paramétricas
7
Quando se faz um teste de hipóteses, fixada a respectiva dimensão, o resultado consiste em rejeitar, ou não, a hipótese nula conforme a amostra observada pertence, ou não, à região crítica (ou, quando se dispõe de uma estatística-teste, conforme o valor observado dessa estatística pertence, ou não, à respectiva região crítica). Deste modo, quando se reporta a conclusão de um teste, tudo se resume a afirmar se a hipótese nula é rejeitada ou não. Quando assim se procede, não se tem em conta se a amostra observada está muito ou pouco distante da fronteira da região crítica, ou se o valor observado da estatística-teste se situa longe ou perto dos limiares de rejeição. Para se obter mais informação, é lícito fazer a seguinte pergunta: dado o valor observado da estatística-teste, Tobs , qual é o valor máximo da dimensão do teste que permite fazer o teste sem rejeitar a hipótese nula? Para responder a esta pergunta, começa por considerar-se, por facilidade de exposição, o teste H 0 : θ = θ 0 contra H1 : θ > θ 0 , com WT = (T ∗ ,+∞) [teste de tipo a)]. Verifica-se, sem dificuldade, que o valor máximo da dimensão do teste a que corresponde a não rejeição da hipótese nula é dado pela seguinte probabilidade:
pobs = P{T ( z ) > Tobs | H 0 } .
Com efeito, considerar esta probabilidade para dimensão do teste equivale a dizer que o valor crítico que define o limiar da região de rejeição é o valor observado da estatística-teste. Daqui, decorre que: − A hipótese nula não é rejeitada para esta dimensão do teste, ou para qualquer outra inferior; − A hipótese nula é rejeitada quando a dimensão do teste considerada é superior àquela probabilidade. − − − − −
Pode, então, concluir-se o seguinte: Valores pequenos de pobs constituem evidência estatística contra a hipótese nula. Por exemplo, se pobs = 0.001 , só com testes de dimensão igual ou inferior a 0.001 é que não se rejeita H 0 . Valores grandes de pobs fornecem evidência estatística a favor de H 0 . Por exemplo, quando pobs = 0.7 , todos os testes de dimensão igual ou inferior a 0.7 não rejeitam a hipótese nula. De uma maneira geral, pode afirmar-se que quanto menor for pobs menor é a compatibilidade dos dados com H 0 . Reportar o valor de pobs é mais informativo do que apresentar a mera conclusão de rejeição, ou não, da hipótese nula. O teste pode ser feito escolhendo um qualquer valor adequado para a dimensão do teste, seja α , e proceder do seguinte modo: a hipótese nula é rejeitada se pobs < α ; caso contrário, H 0 não é rejeitada.
As conclusões para os outros três tipos de teste são semelhantes, variando apenas o modo de calcular pobs . Assim, tem-se:
Anexo 2F – Considerações gerais sobre teste de hipóteses paramétricas b)
c)
8
H 0 : θ = θ 0 contra H1 : θ < θ 0 , com WT = (−∞, T ∗ ) :
pobs = P{T ( z ) < Tobs | H 0 } .
H 0 : θ = θ 0 contra H1 : θ ≠ θ 0 , com WT = (−∞, T1∗ ) ∪ (T2∗ ,+∞) : Para determinar pobs é necessário considerar as probabilidades P{T ( z ) > Tobs | H 0 } e P{T ( z ) < Tobs | H 0 } ,
e fazer pobs igual ao dobro da menor destas probabilidades. No caso particular em que a distribuição de s(z ) é simétrica tem-se
pobs = 2 P T ( z ) > | Tobs | H 0 .
d)
Θ 0 = {θ 0 } e Θ1 = {θ : θ ≠ θ 0 } ⊂ ℜ m , com WT = (T ∗ ,+∞) : pobs = P{T ( z ) > Tobs | H 0 } .
As considerações anteriores permitem apresentar a seguinte definição: Definição 2F.6 – Valor-p Suponha-se que se pretende fazer um teste de hipóteses em que o valor observado da estatística-teste, T (z ) , é Tobs . Seja WT (α ) a região crítica associada a cada dimensão do teste, α ∈ (0,1) . Admitindo que a hipótese nula, H 0 , é verdadeira, o valor-p é dado por
(2F.5)
pobs = inf{α : Tobs ∈ WT (α )} ,
ou seja, o valor-p é a menor dimensão do teste para a qual se pode rejeitar H 0 . Em termos informais, pode então afirmar-se o seguinte: fixada uma estatística-teste, T (z ) , o valor-p, pobs , mede a probabilidade de obter qualquer valor tão ou mais desfavorável para H 0 do que Tobs . Deste modo, o valor-p mede a evidência contra a hipótese nula: quanto menor é o valor-p, mais forte é a evidência contra H 0 . Como se viu, a propósito dos testes de tipo a), b) e c), em que θ é um escalar, os valores assumidos pela estatística-teste que são tão ou mais desfavoráveis para a hipótese nula, dependem da forma da hipótese alternativa (unilateral à direita, unilateral à esquerda ou bilateral). Por exemplo, quando se calcula o valor-p, no caso em que a hipótese alternativa é composta e bilateral é necessário ter presente que, nesta situação, o conjunto dos valores assumidos pela estatística-teste, tão ou mais desfavoráveis para a hipótese nula, são os que se situam nas duas caudas da sua distribuição. Pode apenas reportar-se o valor-p sem fixar limiares de rejeição de H 0 , e deixar ao cuidado do investigador decidir se há muita ou pouca evidência contra a hipótese. Contudo, muitas vezes, é conveniente comparar o valor-p com certos limiares ou níveis de significância habituais (0.1, 0.05, 0.01). Por exemplo, podem estabelecer-se as seguintes regras práticas:
Anexo 2F – Considerações gerais sobre teste de hipóteses paramétricas valor-p pobs ≤ 0.01 0.01 < pobs ≤ 0.05 0.05 < pobs ≤ 0.10 pobs > 0.10
9
evidência contra H 0 muito forte forte fraca pouca ou nenhuma
Note-se que: − Um valor-p grande não pode ser interpretado como evidência forte a favor de H 0 . De facto, um valor-p elevado pode ocorrer por duas razões: a) H 0 é verdadeira; b) H 0 é falsa, mas o teste tem potência fraca. − Quando, por exemplo, 0.01 < pobs ≤ 0.05 há autores que dizem que a evidência contra H 0 não é significativa ao nível de 0.01, mas é significativa ao nível de 0.05. Outros autores optam por dizer que a hipótese é de rejeitar ao nível de 0.05 mas não é de rejeitar ao nível de 0.01; muitas vezes, fixa-se antecipadamente o nível α ( 0 < α < 1 ) e rejeita-se H 0 quando sai pobs < α .
ANEXO 2G O MODELO DE REGRESSÃO LINEAR CLÁSSICO GENERALIZADO (AITKEN) O modelo de regressão linear clássico pode ser generalizado, abandonando as hipóteses REX.3 (homocedasticidade condicionada) e REX.4 (ausência de autocorrelação). Assim, admite-se que: − Var(ut | XT ) = σ t2 (heterocedasticidade condicionada);
−
Cov(ut , us | XT ) ≠ 0 (autocorrelação).
Quando se dispõe de uma amostra, {( yt , xt1 , xt 2 , K , xtk ) : t = 1, 2, K , n} , a matriz das covariâncias condicionadas, Cov(U | X ) = E (UU T | X ) , deixa de ser σ 2 I n . O abandono daquelas hipóteses (REX.3 e REX.4) significa que cada elemento de Cov(U | X ) é, em geral, função de X. Se existir heterocedasticidade condicionada, os elementos da diagonal principal não são todos iguais; se existir autocorrelação, existem elementos não diagonais diferentes de zero. Tem-se, então, (2G.1)
Cov(U | X ) = Σ( X ) ,
que se supõe definida positiva. Para simplificar a notação, utiliza-se o símbolo
σ 11 σ 12 L σ 1n σ σ 22 L σ 2 n 12 . Σ= M M M σ 1n σ 2 n L σ nn
Usando-se Σ em vez de Σ( X ) , deve estar sempre presente que cada σ ts é, em geral, função de X: σ ts = σ ts ( X ) . Note-se que σ = Var(u | X ) = σ 2 (t = 1, 2, K , n) tt t t σ ts = Cov(ut , us | X ) (t , s = 1, 2, K , n ; t ≠ s ).
Muitas vezes, supõe-se que Σ é conhecida a menos de uma constante multiplicativa. Assim, faz-se Σ = λ Ω , onde λ > 0 (que pode ser desconhecido) e Ω é uma matriz conhecida e definida positiva. Neste caso, tem-se
Anexo 2G – O MRLC generalizado (Aitken)
2
σ = σ 2 = Var (u | X ) = λ ω (t = 1, 2, K , n) tt t t tt = Cov ( , | ) = (t , s = 1, 2, K , n ; t ≠ s ), σ λ ω u u X t s ts ts
onde ωts é o elemento genérico da matriz Ω . Os parâmetros desconhecidos do modelo são os β j ( j = 1, 2, K , k ) e λ . Note-se, também, que Cov(Y | X ) = Σ( X ) .
Como Σ é definida positiva, não existem relações lineares entre as variáveis residuais. Se, pelo contrário, algum ut fosse combinação linear dos outros, a matriz Σ seria singular e, portanto, semidefinida positiva. Por exemplo, seja n = 2 , e suponha-se que u2 = α u1 . Então,
α σ 12 σ 12 E (u12 | X ) E (u1u 2 | X ) 2 1 , σ = = Σ= 1 2 2 2 α α σ 12 σ 2 E (u1u 2 | X ) E (u 2 | X )
e a matriz Σ é semidefinida positiva, pois
α = 0. α α2 1
O modelo de regressão, a verificar as hipóteses REX.1, REX.2, REX.5 e Ω conhecida e definida positiva, designa-se por modelo de regressão linear clássico generalizado (MRLCG) ou modelo de Aitken. Considere-se o estimador MQ de β , no contexto deste modelo, b = ( X T X ) −1 X T Y ,
e analisem-se as suas propriedades exactas. Facilmente se verifica que: − O estimador b, condicionado por X, é linear em Y. − O estimador b é não enviesado, E (b | X ) = E (b) = β . − O erro de amostragem continua a ser b − β = ( X T X ) −1 X T U . − A matriz das covariâncias de b, condicionada por X, é dada por (2G.2)
Cov(b | X ) = ( X T X ) −1 X T Σ X ( X T X ) −1 .
Com efeito, basta notar que Cov(Y | X ) = Σ . − Como vai ver-se, o estimador b não é BLUE (não é o estimador mais eficiente na classe dos estimadores lineares não enviesados; não se verifica o teorema de Gauss-Markov). − Mesmo que se considere a hipótese REX.6 (normalidade das variáveis residuais), os resultados (2.69), (2.73), (2.76), (2.79) e (2.80) não são verdadeiros. Em particular: o rácio-t não segue uma distribuição t-Student; o rácio-F não segue uma distribuição F-Snedcor.
Anexo 2G – O MRLC generalizado (Aitken)
3
Para obter um estimador BLUE para β , vai começar-se por demonstrar que é possível transformar a relação Y = Xβ + U [onde Cov(U | X ) = Σ ] em Y∗ = X ∗ β +U ∗ , onde Cov(U * | X * ) = I n . Como Σ é simétrica e definida positiva, pode determinar-se uma matriz P, quadrada de ordem n, não singular, tal que Σ −1 = P T P . Existem muitas matrizes P que permitem esta decomposição, pouco importando qual delas é que vai ser escolhida. Uma via possível consiste em calcular os valores próprios de Σ e a matriz ortonormal dos respectivos vectores próprios. Representando por δ t > 0 ( t = 1, 2, K , n ) cada valor próprio, a respectiva matriz diagonal é dada por δ 1 0 L 0 0 δ L 0 2 ou D = Diag{δ , δ , K , δ } . D= 1 2 n M M M 0 0 L δn
C = [c•1 c• 2 L c• n ] ,
A correspondente matriz ortonormal dos vectores próprios é, então, onde, como se sabe, C T C = C C T = I n [logo, C T = C −1 ]. Como a matriz C diagonaliza Σ , obtém-se
C T Σ C = D ou Σ = C DC T .
Atendendo a que D = D1/ 2 D1/ 2 , onde D1/ 2 = Diag{δ 11/2 , δ 21/2 ,K, δ n1/2 } , vem
Σ = C D1 / 2 D1 / 2C T .
Então,
Σ −1 = C D −1 / 2 D −1 / 2C T = PT P ⇔ Σ = P −1 ( PT ) −1 ,
onde P = D −1/ 2C T , com | P | ≠ 0 , e D −1/ 2 = Diag{δ 1−1/2 , δ 2−1/2 , K , δ n−1/2 } . Considere-se a transformação de Y = Xβ + U dada por PY = PXβ + PU , Y∗ = X ∗ β +U ∗ ,
ou
onde Y∗ = PY , X ∗ = PX e U ∗ = PU (a matriz P depende de X). Vai verificar-se que a nova relação verifica as seguintes propriedades do MRLC: − E (U ∗ | X ∗ ) = 0 . Com efeito, basta notar que
E (U ∗ | X ∗ ) = E (U ∗ | X ) = E ( PU | X ) = P E (U | X ) = 0 ,
uma vez que não há mais informação em X ∗ do que em X.
− Cov(U ∗ | X ∗ ) = I n . De facto, tem-se
Anexo 2G – O MRLC generalizado (Aitken)
4
Cov(U ∗ | X ∗ ) = Cov(U ∗ | X ) = Cov( PU | X ) = P Cov(U | X ) PT = P Σ PT = P P −1 ( PT ) −1 PT = I n ,
porque não há mais informação em X ∗ do que em X, e Σ = P −1 ( P T ) −1 . Quando Σ = λ Ω , tem-se Cov(U ∗ | X ∗ ) = λ I n .
− r( X ∗ ) = k .
Com efeito, basta notar que r ( X ) = k e P é não singular.
Nestas condições, utilizando a transformação Y∗ = X ∗ β +U ∗ pode determinar-se o estimador MQ de β , obtendo-se b* = ( X ∗T X ∗ ) −1 X ∗T Y∗ = ( X T P T PX ) −1 X T P T PY = ( X T Σ −1 X ) −1 X T Σ −1 Y .
Então, pode definir-se o seguinte estimador: Definição 3G.1 – Estimador MQ generalizado de β O estimador MQ generalizado de β (estimador MQG) é dado por
(2G.3)
bg = ( X T Σ −1 X ) −1 X T Σ −1 Y .
Note-se que b∗ = bg , isto é, o estimador MQ de β , considerando Y∗ = X ∗ β +U ∗ , é igual ao estimador MQG de β , quando se considera Y = Xβ + U . Portanto, minimi~ ~ ~ zar ϕ ( β ) = (Y∗ − X ∗ β )T (Y∗ − X ∗ β ) equivale a minimizar ~ ~ ~ ϕ ( β ) = (Y − Xβ )T Σ −1 (Y − Xβ ) . O erro de amostragem do estimador bg é dado por
bg − β = ( X T Σ −1 X ) −1 X T Σ −1U .
Quando Σ = λ Ω , facilmente se verifica que
bg = ( X T Ω −1 X ) −1 X T Ω −1Y .
Sem dificuldade se conclui que bg , estimador MQG de β , é BLUE. A respectiva matriz das covariâncias, condicionada por X, é dada por (2G.4)
Cov(bg | X ) = ( X T Σ −1 X ) −1 = λ ( X T Ω −1 X ) −1 .
Com efeito, basta notar que
Cov(bg | X ) = ( X T Σ −1 X ) −1 X T Σ −1Cov(Y | X )Σ −1 X ( X T Σ −1 X ) −1 ,
onde Cov(Y | X ) = Σ . Também se demonstra, sem dificuldade, que δˆg = Rbg é BLUE para δ = Rβ e Cov(δˆg | X ) = R Cov(bg | X ) RT = R ( X T Σ −1 X ) −1 RT .
Como bg é BLUE para β , é imediato concluir que
Anexo 2G – O MRLC generalizado (Aitken)
5
Cov(b | X ) − Cov(bg | X ) = ( X T X ) −1 X T Σ X ( X T X ) −1 − ( X T Σ −1 X ) −1
é semidefinida positiva. Quando se considera Σ = λ Ω , facilmente se conclui que o estimador não enviesado de λ , utilizando a relação transformada, é s∗2 = Uˆ ∗T Uˆ ∗ /(n − k ) onde Uˆ ∗ é o respectivo vector dos resíduos MQ, Uˆ ∗ = Y∗ − X ∗b∗ . Como Uˆ ∗ = P(Y − X bg ) = P Uˆ , onde Uˆ = Y − X bg [não confundir com Y − X b ], o estimador não enviesado de λ pode escrever-se da seguinte maneira:
s g2 = Donde,
Uˆ T Ω −1Uˆ . n−k
Cov(bg | X ) = s g2 ( X T Ω −1 X ) −1 . ^
Sabe-se que no MRLC sem termo independente a soma dos resíduos MQ é, em geral, diferente de zero. Supondo que o MRLCG tem termo independente facilmente se verifica que a matriz X ∗ não tem uma coluna com todos os elementos iguais a 1. Com efeito, se x•1 = e então x•1∗ = P e ≠ e . Não se pode, portanto, concluir que Σ tn=1uˆt∗ = eT Uˆ ∗ = 0 .
No entanto, como X ∗TUˆ ∗ = 0 , tem-se ( x•∗1 )T Uˆ ∗ = eT PT P Uˆ = eT Σ −1Uˆ = 0 . Apresenta-se a seguir uma lista de resultados sobre o modelo em estudo: − Da propriedade 1.10 dos resíduos MQ decorre Y∗T Y∗ = Yˆ∗T Yˆ∗ + Uˆ ∗T Uˆ ∗ , pelo que Y T Σ −1Y = Yˆ T Σ −1Yˆ + Uˆ T Σ −1Uˆ .
Então, pode definir-se Rg2 = 1 −
Uˆ T Σ −1Uˆ Yˆ T Σ −1Yˆ . = Y T Σ −1Y Y T Σ −1Y
− A hipótese semelhante a REX.6 para o MRLCG é a seguinte: U | X ~ N ( n ) (0, Σ) ,
A função de verosimilhança é, então,
~ ~ ~ 1 L( β | Y , X ) = (2π ) −n / 2 | Σ |−1/ 2 exp− (Y − Xβ )T Σ −1 (Y − Xβ ) . 2
Quando Σ = λ Ω , vem
~ ~ ~ ~ ~ 1 L( β , λ 2 | Y , X ) = (2π λ 2 ) − n / 2 | Ω |−1 / 2 exp− ~2 (Y − Xβ )T Ω −1 (Y − Xβ ) . 2λ
Os respectivos estimadores MV são
Uˆ T Ω −1Uˆ βˆ g = bg e λˆg = . n
Anexo 2G – O MRLC generalizado (Aitken)
6
− O resultado homólogo a (2.69) é dado por Uˆ T Ω −1Uˆ
λ
=
(n − k ) s g2
− O resultado homólogo a (2.73) é
bgj − β j m∗jj
λ
~ χ 2 (n − k ) .
~ t (n − k ) ,
onde m∗jj é o j-ésimo elemento da diagonal principal da matriz X T Σ −1 X . Quando Σ = λ Ω , vem
bgj − β j s g m∗jj
~ t (n − k ) ,
onde, agora, m∗jj é o j-ésimo elemento da diagonal principal da matriz X T Ω −1 X . − Como o estimador BLUE de δ = Rβ é δˆg = Rbg , o resultado homólogo a (2.79) é o seguinte: (δˆg − δ )T {R( X T Σ −1 X ) −1 RT }−1 (δˆg − δ ) ~ χ 2 (m) . Quando Σ = λ Ω , tem-se
(δˆg − δ )T {R( X T Σ −1 X ) −1 RT }−1 (δˆg − δ ) msg2
~ F (m, n − k ) .
− Considere-se Y = Xβ + U , e suponha-se que se dispõe de r observações adicionais dos regressores, agrupadas na matriz X 0 de tipo r × k . Tem-se: Y0 = X 0 β + U 0 , E (U 0 | X , X 0 ) = 0, Cov(U 0 | X , X 0 ) = Σ 0 , (r ) U 0 | X , X 0 ~ N (0, Σ 0 ), Cov(U ,U 0 | X , X 0 ) = Σ ∗ .
Assim,
U Σ Σ∗ Cov = T . U 0 Σ∗ Σ0
~ Seja Y0 um qualquer previsor de Y0 a verificar as duas condições seguintes: ~ − Y0 = CY (linearidade em Y, condicionado por X e X 0 ). ~ ~ ~ − E ( D | X , X 0 ) = 0 , onde D = Y0 − Y0 (não enviesamento).
É possível demonstrar que
Yˆ0 = X 0bg + ΣT∗ Σ −1Uˆ ,
onde Uˆ = Y − X bg é BLUP para Y0 .
Anexo 2G – O MRLC generalizado (Aitken) Fazendo D = Y0 − Yˆ0 , tem-se E ( D | X , X 0 ) = 0 e Cov( D | X , X 0 ) = Ψ , onde Ψ = Σ 0 − ΣT∗ Σ −1Σ∗ + ( X 0 − ΣT∗ Σ −1 X )( X T Σ −1 X ) −1 ( X 0 − ΣT∗ Σ −1 X )T .
O resultado homólogo a (2.118) é, então,
(Y0 − Yˆ0 )T Ψ −1 (Y0 − Yˆ0 ) ~ χ 2 (r ) .
Quando
Ω Ω∗ U Cov = λ T , Ω∗ Ω0 U 0
tem-se Cov( D | X , X 0 ) = λ Ψ , e
Ψ = Ω 0 − ΩT∗ Ω −1Ω∗ + ( X 0 − ΩT∗ Ω −1 X )( X T Ω −1 X ) −1 ( X 0 − ΩT∗ Ω −1 X )T .
Donde,
Quando r = 1 , obtém-se
(Y0 − Yˆ0 )T Ψ −1 (Y0 − Yˆ0 ) ~ F (r , n − k ) . r sg2
yn+1 − yˆ n+1 ~ t (n − k ) . sg Ψ
7
ANEXO 3A EXEMPLOS SOBRE RUÍDOS BRANCOS E DIFERENÇA-MARTINGALAS Exemplo de ruído branco que não é independente Seja w uma variável aleatória com distribuição uniforme no intervalo (0 , 2π ) , 1 / 2π w ~ U (0 , 2π ) ⇔ 0
(0 < w < 2π ) (outros w) .
Considere-se o processo estocástico {zt = cos(t w) : t = 1, 2, K} . Facilmente se verifica que se trata de um ruído branco. Com efeito, E( zt ) = ∫
2π 0
Var( zt ) = ∫
1 1 sen (t w) cos(t w) dw = = 0; 2π 2π t 0
2π 0
2π
1 1 sen (t w) cos(t w) w 1 cos (t w) dw = + = ; 2π 2π 2t 20 2 2π
2
Cov( zt , zs ) = ∫
2π
0
1 1 sen{( s − t ) w} sen{( s + t ) w} + cos(t w) cos( s w) dw = =0. 2π 2π 2( s − t ) 2( s + t ) 0 2π
Contudo, {zt } não é um ruído branco independente, uma vez que zt = cos(t w) e zs = cos( s w) não são independentes; nem sequer é estritamente estacionário. Exemplo de ruído branco que não é uma diferença-martingala
Considere-se o ruído branco não independente atrás referido, {zt = cos(t w) : t = 1, 2, K} ,
onde w tem distribuição uniforme no intervalo (0 , 2π ) . Em primeiro lugar, vai mostrar-se que E ( zt | z1 ) = zt (t = 2, 3, K) . Com efeito, basta notar que zt = cos(t w) apenas depende de z1 = cos( w) . Por exemplo, z2 = cos(2 w) = 2 cos2 ( w) − 1 = 2 z12 − 1 ; z3 = cos(3w) = 4 cos3 ( w) − 3 cos( w) = 4 z13 − 3z1 ;
z4 = cos(4 w) = 8 cos 4 ( w) − 8 cos 2 ( w) + 1 = 8 z14 − 8 z12 + 1 ;
Anexo 3A – Exemplos sobre ruídos brancos e diferença-martingalas
2
z5 = cos(5w) = 16 cos5 ( w) − 20 cos3 ( w) + 5 cos( w) = 16 z15 − 20 z13 + 5 z1 ; ... Assim, se se conhecer z1 = cos( w) , a previsão de qualquer zt futuro coincide com zt . O processo {zt = cos(t w) : t = 1, 2, K} não é uma diferença-martingala, já que E ( zt | zt −1 , zt − 2 , K , z1 ) = E cos(t w) | cos{(t − 1) w}, cos{(t − 2) w}, K , cos( w) = cos(t w) = zt .
Exemplo de diferença-martingala, que é um ruído branco não independente.
Seja wt = ε tε t −1 , onde {ε t } é um ruído branco independente. Obviamente {wt } não é iid, uma vez que wt = ε tε t −1 e wt −1 = ε t −1ε t − 2 não são variáveis aleatórias independentes. No entanto, {wt } é um ruído branco, porque E ( wt ) = E (ε tε t −1 ) = E (ε t ) E (ε t −1 ) = 0 ,
E ( wt2 ) = E (ε t2ε t2−1 ) = E (ε t2 ) E (ε t2−1 ) = σ ε4 ,
E ( wt wt −1 ) = E (ε tε t2−1ε t − 2 ) = E (ε t ) E (ε t2−1 ) E (ε t − 2 ) = 0 , E ( wt wt − s ) = 0 ( s = 2, 3, K) .
Falta verificar que {wt } é uma diferença-martingala. Com efeito, vem E ( wt | wt −1 , wt − 2 , K) = E (ε tε t −1 | ε t −1ε t − 2 , ε t − 2ε t −3 , K)
= E{E (ε tε t −1 | ε t −1 , ε t − 2 , K) | ε t −1ε t − 2 , ε t − 2ε t −3 , K}
= E{ε t −1E (ε t | ε t −1 , ε t − 2 , K) | ε t −1ε t − 2 , ε t − 2ε t −3 , K} = 0 . Exemplo de diferença-martingala que não é um processo estacionário.
Suponha-se que o processo {ε t } é iid a verificar E (ε t ) = 0 e Var(ε t ) = σ ε2 , e que {xt } é uma sucessão de números reais não constante. Verifica-se imediatamente que E ( xtε t ) = 0 , e que {xtε t } é independente. Contudo, não é identicamente distribuído porque Var( xtε t ) = xt2σ ε2 . Contudo, como E ( xtε t | xt −1ε t −1 , xt − 2ε t − 2 , K) = E ( xtε t ) = 0 , {xtε t } é uma diferença-martingala.
ANEXO 5A TIPOS DE MODELOS SER E RESPECTIVOS ESTIMADORES Neste anexo faz-se um resumo dos resultados fundamentais sobre os vários tipos de modelos SER e respectivos estimadores. Os aspectos considerados são os seguintes (distinguindo, quando for caso disso, aqueles que se referem à população daqueles que dizem respeito à amostra): − Tipos de modelos e respectiva formalização (quadros 5A.1 e 5A.2); − Estruturas matriciais (quadros 5A.3 e 5A.4); − Segundos momentos referentes a variáveis observáveis (quadros 5A.5 e 5A.6); − Produtos dos instrumentos pelas variáveis residuais/resíduos (quadros 5A.7 e 5A.8); − Modelos SER, estimadores e respectivas hipóteses básicas (quadros 5A.9 e 5A.10); − Quartos momentos que envolvem variáveis residuais e variáveis instrumentais (quadros 5A.11 e 5A.12); − Estimadores e matrizes de pesos (quadro 5A.13); − Estimadores, distribuições limite, matrizes das covariâncias assintóticas e respectivos estimadores (quadro 5A.14). Quadro 5A.1 – Tipos de modelos da população Modelos Regressores Regressores Instrumentos Coeficientes SER endógenos? comuns? comuns? comuns? M01 Sim Não Não Não M02 Não Não Não Não M03 Sim Não Sim Não M04 Não Não Sim Não M05 Sim Sim Sim Não M06 Não Sim Sim Não M07 Sim Não Não Sim M08 Sim Não Sim Sim M09 Não Não Sim Sim M10 Sim Sim Sim Sim
2
Anexo 5A – Tipos de modelos SER e respectivos estimadores Quadro 5A.2 – Formalização dos tipos de modelos SER Modelos SER M01 M02 M03 M04 M05
M06 M07 M08 M09 M10
Notação A Equações Instrumentos yti = xti • β •i + uti zti •
yti = xti • β •i + uti
yti = xti • β •i + uti
xti • zt •
Notação B Equações Instrumentos T T Zt • yt • = X t • β + ut • T T X t• yt • = X t • β + ut •
ytT• = X t • β + utT•
Z t • = I m ⊗ zt •
yti = xti • β •i + uti
zt • : xti • = zt • Di
ytT• = X t • β + utT•
yti = xt • β •i + uti
zt •
y = ( I m ⊗ xt • ) β + u
yti = xti • β + uti
zti •
yti = xt • β •i + uti
ytT• = ( I m ⊗ xt • ) β + utT•
yti = xti • β + uti
xt •
yti = xti • β + uti
zt •
ytT• = X t • β + utT•
zt •
y = (em ⊗ xt • ) β + u
yti = xt • β + uti
T t•
ytT• = X t • β + utT•
zt • : xti • = zt • Di
T t•
Z t • = I m ⊗ zt •
X t • = I m ⊗ xt •
Zt •
Z t • = I m ⊗ zt •
ytT• = X t • β + utT• T t•
Z t • = I m ⊗ zt •
Z t • = I m ⊗ zt • T t•
Z t • = I m ⊗ zt •
Quadro 5A.3 – Estruturas matriciais (população) Matrizes/ vectores
Contexto particular
yt •
xt • X t• X t • = I m ⊗ xt • X t• X t • = em ⊗ xt •
β •i β β
1× k
RC CC RC CC CC RC
1× k
1 × mk m×k
m×k
m×k
m×k
k i ×1
Sim Sim Não Não
k ×1
CC
ut • zti • zt • zt • Zt • Z t • = I m ⊗ zt • Di
1× m
Blocodiagonal ?
1× k i
xti • xt • xt •
Formato
IC IC
k ×1
1× m
1 × pi 1× p 1× q m× p m × mq q × ki
Sim Sim Não
Bloco/ elemento genérico yti
Modelos SER
1 a 10
xtij
1234789
xti• xtj
1234789 5 6 10
xti• xti• xt • xti• xt •
789 1234 56 789 10
β ji β •i βj
7 8 9 10
uti
1 a 10
ztih zti • zth zti • zt • I q ( ki colunas)
123456 123456
17 17 3 4 5 8 9 10 17 3 4 5 8 9 10 49
Anexo 5A – Tipos de modelos SER e respectivos estimadores
3
Quadro 5A.4 – Estruturas matriciais (amostra) Bloco/ BlocoModelos elemento diagonal SER genérico ? ------------ Notação A: Y = Xβ + U ← Z ; y•i = X •i β •i + u•i ← Z •i -------------Matrizes/ vectores
Contexto particular
n ×1
y•i
Y X •i X •i ~ X ~ X X X
~ X = Im ⊗ X ~ X = em ⊗ X
n × ki
CC RC CC RC CC RC CC RC
1 a 10 1 a 10
xti• xti• xt • xt • X •i X •i ~ X ~ X
1234 789 56 10 1234 789
n×k
n×k n×k
mn × k mn × k
mn × mk
mn × k n ×1
uti u•i
1 a 10 1 a 10 17 3 4 5 8 9 10 17
Sim
zti • zt • Z •i ~ Z
Não Não Não Não
X t• X t • = I m ⊗ xt • X t• X t • = em ⊗ xt •
1234 56 789 10
utT•
1 a 10
Não Não Não Não Sim Não Sim Não
mn × 1
U
~ Z = Im ⊗ Z
yti y•i
mn × 1
u•i Z •i ~ Z Z
Formato
IC IC
n × pi n×q mn × p
mn × mq
Não Não Sim
56 10
3 4 5 8 9 10
-------------------------- Notação B: Y = Xβ + U ← Z -----------------------------Y ytT• mn × 1 1 a 10
X X X X
mn × k
RC CC CC RC
U
Z Z
IC
mn × mk mn × k mn × k
mn × 1 mn × p
mn × mq
Não Não
Zt • 17 Z t • = I m ⊗ zt • 3 4 5 8 9 10
Nos quadros 5A.3 e 5A.4 são apresentadas as estruturas matriciais referentes às matrizes e vectores que aparecem nos modelos da população e nas respectivas relações amostrais, considerando as matrizes e vectores referentes às variáveis instrumentais. Para cada matriz ou vector é apresentado o contexto particular (IC – instrumentos comuns; RC – regressores comuns; CC – coeficientes comuns), o formato (no caso de matriz, com indicação se é ou não bloco-diagonal), o elemento ou bloco (submatriz ou subvector) genérico e a lista dos modelos SER em que se utiliza.
4
Anexo 5A – Tipos de modelos SER e respectivos estimadores Quadro 5A.5 – Segundos momentos com variáveis observáveis (população)
Qzi xi
Matrizes/ vectores = E ( ztiT• xti • )
Contexto particular
p×k
Qzx = E ( Z tT• X t • )
Qzxi = E ( z x ) T t • ti •
Qzx = E{( I m ⊗ ztT• ) X t • } ~ Qzx = E ( ztT• xt • ) ~ Qzx = I m ⊗ Qzx Qzi xi = E ( ztiT• xti • )
Qzx = E ( Z tT• X t • ) Qzxi = E ( ztT• xti • )
Qzx = E{( I m ⊗ ztT• ) X t • } ~ Qzx = em ⊗ Qzx qzi yi = E ( ztiT• yti )
IC IC IC RC IC RC CC CC CC IC CC IC CC IC RC
qzy = E ( Z tT• ytT• )
qzyi = E ( ztT• yti )
qzy = E{( I m ⊗ ztT• ) ytT• }
Qzi zi = E ( ztiT• zti • )
Qzz = E ( Z tT• Z t • ) ~ Qzz = E ( ztT• zt • ) ~ Qzz = I m ⊗ Qzz
Qxi xi = E ( xtiT• xti • )
Qxx = E ( X tT• X t • ) ~ Qxx = E ( xtT• xt • ) ~ Qxx = I m ⊗ Qxx
Qxi xi = E ( xtiT• xti • )
Qxx = E{diag( X t • )T X t • } ~ Qxx = em ⊗ Qxx qxi yi = E ( xtiT• yti )
IC IC
IC IC
RC RC CC CC CC RC
qxy = E ( X tT• ytT• )
qxyi = E ( xtT• yti )
qxy = E{( I m ⊗ xtT• ) ytT• }
qxi yi = E ( xtiT• yti )
qxy = E{diag( X t • )T ytT• }
Formato pi × ki
RC RC CC CC
q × ki
Bloco- Bloco/elemento diagonal? genérico E ( ztih xtij ) Não Qzi xi Sim
mq × k
Não
E ( zth xtij )
Sim
Qzxi
mq × mk
Não Sim
E ( zth xtj ) ~ Qzx
p×k
Não
E ( ztih xtij )
q×k
Não
Qzi xi
mq × k
Não
E ( zth xtij )
mq × k
Não
pi × 1
Não
Qzxi ~ Qzx
q×k
pi × k
p ×1
E ( ztih yti )
mq × 1
E ( zth yti )
q zi yi
q ×1
pi × pi
q zyi
p× p
Não
E ( ztih ztih′ )
Sim
Qzi zi
mq × mq
Não Sim
E ( zth zth′ ) ~ Qzz
k×k
Não
E ( xtij xtij ′ )
Sim
Qxi xi
mk × mk
Não Sim
E ( xtj xtj ′ ) ~ Qxx
mk × k
Não
E ( xtij xtij ′ )
Não
ki × 1
Não
Qxi xi ~ Qxx
q×q
ki × ki k×k
k×k
mk × k k ×1
E ( xtij yti )
mk × 1
E ( xtj yti )
mk × 1
E ( xtij yti )
k ×1 k ×1
q xi y i q xyi q xi y i
5
Anexo 5A – Tipos de modelos SER e respectivos estimadores Quadro 5A.6 – Segundos momentos com variáveis observáveis (amostra)
Bloco/ Blocoelemento diagonal genérico ? --------------------------------------------------- Notação A: ----------------------------------------------------Matrizes/ vectores
Contexto Forparticular mato
S zi xi = (1 / n)∑t =1 ztiT• xti • = (1 / n) Z •Ti X •i
pi × ki
n
S zx = (1 / n) Z T X
~ S zxi = (1 / n)∑t =1 ztT• xti • = (1 / n) Z T X •i ~ S zx = (1 / n)( I m ⊗ Z T ) X n ~ ~ ~ S zx = (1 / n)∑t =1 ztT• xt • = (1 / n) Z T X ~ ~ ~ S zx = (1 / n)( I m ⊗ Z T )( I m ⊗ X ) = I m ⊗ S zx n
S zi xi = (1 / n)∑t =1 ztiT• xti • = (1 / n) Z •Ti X •i n
S zx = (1 / n) Z T X
~ S zxi = (1 / n)∑t =1 ztT• xti • = (1 / n) Z T X •i ~ S zx = (1 / n)( I m ⊗ Z T ) X ~ S zx = em ⊗ S zx n
szi yi = (1 / n)∑t =1 ztiT• yti = (1 / n) Z •Ti y•i
IC IC IC RC IC RC CC CC CC IC CC IC CC IC RC
n
S zi zi = (1 / n)∑t =1 ztiT• zti • = (1 / n) Z •Ti Z •i
IC IC
n
S zz = (1 / n) Z T Z n ~ ~ ~ S zz = (1 / n)∑t =1 ztT• zt • = (1 / n) Z T Z ~ S zz = I m ⊗ S zz
S xi xi = (1 / n)∑t =1 xtiT• xti • = (1 / n) X •Ti X •i
IC IC
n
S xx = (1 / n) X T X n ~ ~ ~ S xx = (1 / n)∑t =1 xtT• xt • = (1 / n) X T X ~ S xx = I m ⊗ S xx
S xi xi = (1 / n)∑t =1 xtiT• xti • = (1 / n) X •Ti X •i n
S xx = (1 / n) diag( X )T X ~ S xx = em ⊗ S xx
sxi yi = (1 / n)∑t =1 xtiT• yti = (1 / n) X •Ti y•i n
sxy = (1 / n) X T Y
mq × k
Não
mq × mk
Não
p×k
Não
q × ki q×k
pi × k
Sim
Sim
Sim
q×k
Não
mq × k
Não
mq × k pi × 1
Não
Não
RC RC CC CC CC RC
mq × mq
Não
k×k
Não
mk × mk
Não
mk × k
Não
k×k
mk × k
ki × 1 k ×1
(1 / n)∑t =1 zth xtj ~ S zx
S zxi n
(1 / n)∑t =1 ztih xtij n
(1 / n)∑t =1 zth xtij
S z i xi n
S zxi ~ S zx
(1 / n)∑t =1 ztih yti
(1 / n)∑t =1 ztih ztih′
szyi
p× p
k×k
n
n
Não
ki × ki
(1 / n)∑t =1 zth xtij
S z i xi
(1 / n)∑t =1 zth yti
mq × 1
q×q
n
sz i yi
q ×1
pi × pi
(1 / n)∑t =1 ztih xtij
n
p ×1
szy = (1 / n) Z T Y
n ~ szyi = (1 / n)∑t =1 ztT• yti = (1 / n) Z T y•i ~ szy = (1 / n)( I m ⊗ Z T )Y
p×k
Não
Sim
Sim
Sim
Sim
Não Não
n
(1 / n)∑t =1 zth zth′ ~ S zz
S zi zi n
(1 / n)∑t =1 xtij xtij ′ n
(1 / n)∑t =1 xtj xtj ′ ~ S xx
S x i xi n
(1 / n)∑t =1 xtij xtij ′ n
S x i xi ~ S xx
(1 / n)∑t =1 xtij yti n
s xi y i
6
Anexo 5A – Tipos de modelos SER e respectivos estimadores
Matrizes/ vectores
n ~ sxyi = (1 / n)∑t =1 xtT• yti = (1 / n) X T y•i ~ sxy = (1 / n)( I m ⊗ X T )Y
sxi yi = (1 / n)∑t =1 xtiT• yti = (1 / n) X •Ti y•i n
sxy = (1 / n) diag( X )T Y
Contexto Forparticular mato
RC RC CC CC
S zx = (1 / n) Z T X = (1 / n)∑t =1 Z tT• X t •
k ×1
Blocodiagonal ?
Bloco/ elemento genérico
(1 / n)∑t =1 xtj yti n
mk × 1
(1 / n)∑t =1 xtij yti
sxyi
k ×1
n
mk × 1
s xi y i
---------------------------------------------------- Notação B: ---------------------------------------------------n
S zx = (1 / n) Z T X = (1 / n)∑t =1 ( I m ⊗ ztT• ) X t • IC n
S zx = (1 / n) Z T X = I m ⊗ (1 / n)∑t =1 ztT• xt • n
S zx = (1 / n) Z T X = (1 / n)∑t =1 Z tT• X t • n
IC RC
S zx = (1 / n) Z T X = (1 / n)∑t =1 ( I m ⊗ ztT• ) X t • CC IC ~ S zx = em ⊗ S zx CC IC RC
CC
n
szy = (1 / n) Z T Y = (1 / n)∑t =1 Z tT• ytT• n
szy = (1 / n) Z T Y = (1 / n)∑t =1 ( I m ⊗ ztT• ) ytT• n
S zz = (1 / n) Z T Z = (1 / n)∑t =1 Z tT• Z t • ~ S zz = I m ⊗ S zz
IC
n
S xx = (1 / n) X T X = (1 / n)∑t =1 X tT• X t • ~ S xx = I m ⊗ S xx
IC
n
S xx = (1 / n)∑t =1 diag( X t • )T X t • ~ S xx = em ⊗ S xx n
RC CC
sxy = (1 / n) X T Y = (1 / n)∑t =1 X tT• ytT•
CC RC
sxy = (1 / n)∑t =1 diag( X t • )T ytT•
RC
n
sxy = (1 / n) X T Y = (1 / n)∑t =1 ( I m ⊗ xtT• ) ytT• n
n
CC
p×k
mq × k
Sim
S z i xi
Sim
p×k
Sim
S zxi ~ S zx
Não
S z i xi
Não
S zxi ~ S zx
mq × mk mq × k
mq × k p ×1
Não
sz i yi
mq × 1 p× p
mq × mq k×k
szyi Sim Sim
mk × mk
Sim
mk × k
Não
mk × k
k ×1
mk × 1 mk × 1
Sim
Não
S zi zi ~ S zz S x i xi ~ S xx S x i xi ~ S xx s xi y i sxyi s xi y i
Nos quadros 5A.5 e 5A.6 apresentam-se as matrizes referentes a segundos momentos que envolvem variáveis observáveis (valores esperados de produtos de duas variáveis). Para cada matriz ou vector é apresentado o contexto particular (IC – instrumentos comuns; RC – regressores comuns; CC – coeficientes comuns), o formato (no caso de matriz, com indicação se é ou não bloco-diagonal) e o elemento ou bloco genérico. No caso dos momentos amostrais, utilizam-se as notações A e B.
7
Anexo 5A – Tipos de modelos SER e respectivos estimadores Quadro 5A.7 – Produtos dos instrumentos pelas variáveis residuais (população) Modelos SER 17
Matrizes/ vectores
gti • = zti •uti gt • = zt •uti = ut • Z t •
g• n = (1 / n)∑t =1 gtT• = (1 / n) Z TU n
gti • = xti •uti
2
gt • = xt •uti = ut • X t •
g• n = (1 / n)∑t =1 gtT• = (1 / n) X TU n
3 4 5 8 9 10
zt •uti gt • = ut • ⊗ zt • = ut • ( I m ⊗ zt • )
g• n = (1 / n)∑t =1 (utT• ⊗ ztT• ) = (1 / n) Z TU n
xt •uti
6
gt • = ut • ⊗ xt • = ut • ( I m ⊗ xt • )
Formato 1× pi 1× p
p ×1
1 × ki 1× k
k ×1
1× q 1× mq
mq × 1 1× k
1 × mk
g• n = (1 / n)∑t =1 (utT• ⊗ xtT• ) = (1 / n) X TU mk × 1 n
Bloco/elemento genérico gtih = ztihuti g ti • (1 / n)∑t =1 gtiT• n
gtij = xtij uti
(1 / n)∑t =1 gtiT•
g ti •
n
zthuti zt •uti
(1 / n)∑t =1 gtiT• n
xtj uti (1 / n)∑t =1 gtiT•
xt •uti n
Quadro 5A.8 – Produtos dos instrumentos pelos resíduos (amostra) Modelos SER 17
Matrizes/ vectores
gˆ ti • = zti •uˆti gˆ t • = zt •uˆti = uˆt • Z t • Gˆ i
Gˆ
2
gˆ ti • = xti •uˆti
gˆ t • = xt •uˆti = uˆt • X t • Gˆ i
Gˆ
3 4 5 8 9 10
zt •uˆti gˆ t • = uˆt • ⊗ zt • = uˆt • ( I m ⊗ zt • ) Gˆ i
Gˆ
6
xt •uˆti
gˆ t • = uˆt • ⊗ xt • = uˆt • ( I m ⊗ xt • ) Gˆ i
Gˆ
Formato 1× pi 1× p
n × pi
n× p
Bloco/elemento genérico gˆ tih = ztihuˆti gˆ ti • gˆ ti • Gˆ i
1 × ki
gˆ tij = xtij uˆti
n × ki
gˆ ti • gˆ ti •
1× q 1× mq n×q
Gˆ i
1× k
n×k
n × mq
zthuˆti zt •uˆti zt •uˆti Gˆ i
1× k
xtj uˆti
n×k
xt •uˆti xt •uˆti
1 × mk n × mk
Gˆ i
8
Anexo 5A – Tipos de modelos SER e respectivos estimadores
Nos quadros 5A.7 e 5A.8 são apresentados as matrizes e vectores relativos aos produtos de instrumentos por variáveis residuais ou por resíduos, respectivamente. Para cada matriz ou vector, são referidos os modelos SER em que podem ser utilizados, o formato e o bloco/elemento genérico. No quadro 5A.9 apresenta-se a lista dos estimadores MGM, com os respectivos símbolos, hipóteses básicas e modelos SER subjacentes. O quadro 5A.10 refere, para cada modelo SER, a lista dos respectivos estimadores MGM, distinguindo se existe ou não homocedasticidade condicionada. Quadro 5A.9 – Estimadores, hipóteses básicas e modelos SER Estimador
MGM (em geral) MGM eficiente MGM (separado) SMQ SMQGF SIV SMQ2P FIVE MQ3P SUR MQ (regressão multivariada) MGM (coef comuns)
Símbolo Hipóteses básicas ˆ ˆ β (W ) SER: 1 2 3 4 5 −1 ˆ ˆ β ( S ) SER: 1 2 3 4 5
βˆ (Wˆ D )
1 1
βˆSMQGF
SER: 1 2 3 4 5
2
SER: 1 2 4 5; (5.35)
4
βˆSMQ2P
SER: 1 2 3 4 5
1
βˆFIVE
SER: 1 2 3 4 5
1
βˆ
SER: 1 2 3 4 5 6
1
βˆSUR
SER: 1 2 3 4 5 6
3
SER: 1 2 4 5 6; (5.83)
4
SER: 1 2 4 5 6; (5.83)
6
SER: 1’ 2 3 4’ 5
7
βˆSMQ βˆSIV
MQ3P
βˆMQ
βˆ ∗ (Wˆ )
∗ βˆSUR
MQ3P
PMQ (coef comuns)
1
SER: 1 2 3 4 5
∗ −1 MGM eficiente (coef comuns) βˆ ( Sˆ ) SER: 1’ 2 3 4’ 5 ∗ βˆFIVE SER: 1’ 2 3 4’ 5 6 FIVE (coef comuns) βˆ ∗ SER: 1’ 2 3 4’ 5 6 MQ3P (coef comuns)
SUR (coef comuns)
Modelos
βˆPMQ
7 7 8
SER: 1’ 2 4’ 5 6; (5.83)
9
SER: 1’ 2 4’ 5 6; (5.83)
8
Anexo 5A – Tipos de modelos SER e respectivos estimadores Quadro 5A.10 – Modelos SER, homocedasticidade condicionada e estimadores Modelos
SER.6?
M01
Não Sim
M02
Não
Estimadores βˆ (Wˆ ) ; βˆ ( Sˆ ) ; βˆ (Wˆ D ) ; βˆSIV ; βˆSMQ2P βˆ −1
βˆ
FIVE
SMQ
Sim M03
Não Sim
M04
Não Sim
M05
βˆMQ3P
βˆSMQGF βˆSUR
Não Sim
M06
Não Sim
M07
Não Sim
M08
Não Sim
M09
Não Sim
M10
Não Sim
βˆMQ (reg multivariada) βˆ ∗ (Wˆ ) ; βˆ ∗ ( Sˆ −1 ) ∗ βˆFIVE
∗ βˆMQ3P ; βˆPMQ ∗ βˆSUR
9
10
Anexo 5A – Tipos de modelos SER e respectivos estimadores
Nos quadros 5A.11 e 5A.12 são referidas as matrizes relativas aos quartos momentos que envolvem duas variáveis instrumentais e duas variáveis residuais ou dois resíduos, respectivamente. Para cada matriz, referem-se os modelos SER respectivos, distinguindo entre heterocedasticidade e homocedasticidade condicionada, o formato e o bloco ou elemento genérico. Quadro 5A.11 – Quartos momentos com variáveis residuais e variáveis instrumentais (população) Modelos SER.6?
17
Não Sim
2
Não Sim
3 4 5 8 9 10
Não Sim
6
Não
Matriz
Sil = E ( gtiT• gtl • ) = E (utiutl ztiT• ztl • ) S = E ( gtT• gt • ) = E ( Z tT•utT•ut • Z t • )
Sil = σ il E ( ztiT• ztl • ) = σ ilQzi z l
S = E ( Z tT•Σ Z t • )
Sil = E ( gtiT• gtl • ) = E (utiutl xtiT• xtl • ) S = E ( gtT• gt • ) = E ( X tT•utT•ut • X t • )
Sil = σ il E ( xtiT• xtl • ) = σ ilQxi xl
S = E ( X tT•Σ X t • )
Sil = E (utiutl ztT• zt • )
S = E{(utT•ut • ) ⊗ ( ztT• zt • )} ~ Sil = σ il E ( ztT• zt • ) = σ ilQzz ~ S = Σ ⊗ Qzz
Sil = E (utiutl xtT• xt • )
S = E{(u u ) ⊗ ( x x )} ~ Sil = σ il E ( xtT• xt • ) = σ ilQxx ~ S = Σ ⊗ Qxx T t• t•
Sim
Nota: σ il = E (utiutl ) ; Σ = E (utT•ut • ) .
T t• t•
Formato pi × pi p× p
Bloco/elemento genérico E (utiutl ztih ztlh′ )
ki × ki
S il
pi × pi p× p k×k
ki × ki k×k q×q
mq × mq
S il
σ il E ( ztih ztlh′ ) E (utiutl xtij xtlj ′ ) S il
σ il E ( xtij xtlj ′ ) S il E (utiutl zth zth′ ) S il
q×q
σ il E ( zth zth′ )
k×k
S il
mq × mq mk × mk k×k
mk × mk
E (utiutl xtj xtj ′ ) S il
σ il E ( xtj xtj ′ ) S il
11
Anexo 5A – Tipos de modelos SER e respectivos estimadores Quadro 5A.12 – Quartos momentos com resíduos e variáveis instrumentais (amostra) MoSER.6? delos
17
Não
Formato
Bloco/elemento genérico
n ou Sˆil = (1 / n)∑t =1 uˆtiuˆtl ztiT• ztl •
pi × pi
(1 / n)∑t =1 uˆtiuˆtl ztih ztlh′
n ou Sˆ = (1 / n)∑t =1 Z tT•uˆtT•uˆt • Z t •
p× p
Sˆil
n Sˆil = (1 / n)∑t =1 gˆ tiT• gˆ tl • = (1 / n)Gˆ iT Gˆ i
Matriz
n Sˆ = (1 / n)∑t =1 gˆ tT• gˆ t • = (1 / n)Gˆ T Gˆ
Sim
n Sˆil = σˆ il (1 / n)∑t =1 ztiT• ztl • = σˆ il S zi z l
pi × pi
σˆ il (1 / n)∑t =1 ztih ztlh′
p× p
Sˆil
n ou Sˆil = (1 / n)∑t =1 uˆtiuˆtl xtiT• xtl •
ki × ki
(1 / n)∑t =1 uˆtiuˆtl xtij xtlj ′
n ou Sˆ = (1 / n)∑t =1 X tT•uˆtT•uˆt • X t •
k×k
Sˆil
Sˆ = (1 / n){Z T (Σˆ ⊗ I n ) Z }
ou
n Sˆ = (1 / n)∑t =1 Z tT•Σˆ Z t •
= (1 / n){Z ( I n ⊗ Σˆ ) Z }
n Sˆil = (1 / n)∑t =1 gˆ tiT• gˆ tl • = (1 / n)Gˆ iT Gˆ i T
2
Não
n Sˆ = (1 / n)∑t =1 gˆ tT• gˆ t • = (1 / n)Gˆ T Gˆ
Sim
n Sˆil = σˆ il (1 / n)∑t =1 xtiT• xtl • = σˆ il S xi xl
Sˆ = (1 / n){ X T (Σˆ ⊗ I n ) X }
ou
n Sˆ = (1 / n)∑t =1 X tT•Σˆ X t •
= (1 / n){ X ( I n ⊗ Σˆ ) X }
n Sˆil = (1 / n)∑t =1 uˆtiuˆtl ztT• zt • T
345 8 9 10
Não
= (1 / n)Gˆ iT Gˆ i
n Sˆ = (1 / n)∑t =1 (uˆtT•uˆt • ) ⊗ ( ztT• zt • )
= (1 / n)Gˆ Gˆ
~ n Sˆil = σˆ il (1 / n)∑t =1 ztT• zt • = σˆ il S zz ~ Sˆ = Σˆ ⊗ S zz T
Sim
6
Não
n Sˆil = (1 / n)∑t =1 uˆtiuˆtl xtT• xt • = (1 / n)Gˆ iT Gˆ i
n Sˆ = (1 / n)∑t =1 (uˆtT•uˆt • ) ⊗ ( xtT• xt • )
= (1 / n)Gˆ Gˆ
n ~ Sˆil = σˆ il (1 / n)∑t =1 xtT• xt • = σˆ il S xx ~ Sˆ = Σˆ ⊗ S xx T
Sim
n
Nota: σˆ il = (1 / n)Σtn=1uˆtiuˆtl ; Σˆ = (1 / n)Σtn=1uˆtT•uˆt • .
n
n
ki × ki
σˆ il (1 / n)∑t =1 xtij xtlj ′
k×k
Sˆil
q×q mq × mq q×q
mq × mq k×k
mk × mk k×k
mk × mk
n
(1 / n)∑t =1 uˆtiuˆtl zth zth′ n
Sˆil
σˆ il (1 / n)∑t =1 zth zth′ n
(1 / n)∑t =1 uˆtiuˆtl xtj xtj ′ Sˆil
n
Sˆil
σˆ il (1 / n)∑t =1 xtj xtj ′ n
Sˆil
12
Anexo 5A – Tipos de modelos SER e respectivos estimadores
No quadro 5A.13 apresentam-se as referências das fórmulas dos vários estimadores MGM, as respectivas matrizes de pesos, os respectivos modelos SER, referindo-se ainda se o estimador é válido no contexto da heterocedasticidade ou da homocedasticidade condicionada. O quadro 5A.14 diz respeito às distribuições limite dos estimadores considerados no quadro anterior, com indicação das referências das fórmulas das matrizes das covariâncias assintóticas e dos respectivos estimadores. Quadro 5A.13 – Estimadores e matrizes de pesos Estimadores ˆ ˆ β (W ) = (5.15)
Matriz de pesos ˆ W Sˆ −1 = n(Gˆ T Gˆ ) −1 Wˆ
Modelos SER.6?
1
Não
1
Não
1
Não
βˆSMQGF =(5.42) (5.43)
Qualquer
2
Não
βˆSIV =(5.47)
Qualquer
4
Não
βˆSMQ2P =(5.52)
Qualquer
1
Não
βˆFIVE =(5.64) (5.65) (5.66)
S
1
Não
1
Sim
3
Sim
4
Sim
6
Sim
7 7
Não Não
7
Sim
8
Sim
9
Sim
8
Sim
βˆ ( Sˆ −1 ) =(5.25) βˆ (Wˆ D ) =(5.29) βˆSMQ =(5.31)
βˆ
=(5.78) (5.79)
βˆSUR =(5.86) (5.43) MQ3P
βˆMQ =(5.91)
D
−1 zz
Sˆ −1 = n{Z T (Σˆ ⊗ I n ) Z }−1 ~ Sˆ −1 = Σˆ −1 ⊗ S zz−1 ~ Sˆ −1 = Σˆ −1 ⊗ S zz−1 ~ Sˆ −1 = Σˆ −1 ⊗ S −1
βˆ ∗ (Wˆ ) =(5.98) (5.101) (5.102) Wˆ
xx
βˆ ∗ ( Sˆ −1 ) =(5.98) (5.101) (5.102) Sˆ = n(Gˆ Gˆ ) −1
[com Sˆ −1 ] ∗ βˆFIVE =(5.98) (5.101) (5.102) [com Sˆ −1 ] βˆ ∗ =(5.103) (5.104) (5.105)
∗ βˆSUR =(5.106) (5.107) (5.110) MQ3P
βˆPMQ =(5.113) (5.114) (5.118)
T
−1
Sˆ −1 = n{Z T (Σˆ ⊗ I n ) Z }−1
~ Sˆ −1 = Σˆ −1 ⊗ S zz−1 ~ Sˆ −1 = Σˆ −1 ⊗ S zz−1 ~ Sˆ −1 = Σˆ −1 ⊗ S −1 zz
13
Anexo 5A – Tipos de modelos SER e respectivos estimadores Quadro 5A.14 – Estimadores e distribuições limite
Cov a (⋅)
Cov a (⋅)
Distribuições limite (5.18) (5.18) c/ Sˆ −1
(5.19)
(5.22)
(5.26)
(5.27)
βˆSMQ
(5.18) c/ Wˆ D
(5.19) c/ Wˆ D
(5.22) c/ Wˆ D
(5.32)
(5.33)
(5.34)
βˆSIV
(5.44)
(5.45)
(5.46)
(5.49)
(5.50)
(5.51)
βˆFIVE
(5.54)
(5.55)
(5.56)
(5.26)
(5.67) (5.68)
(5.80)
(5.81)
(5.87)
(5.88) (5.89)
(5.92)
(5.93)
(5.19)
(5.22)
(5.26)
(5.27)
(5.26)
(5.27)
(5.80)
(5.81)
Estimadores
βˆ (Wˆ )
βˆ ( Sˆ −1 )
βˆ (Wˆ D ) βˆSMQGF βˆSMQ2P βˆMQ3P βˆSUR
βˆMQ
βˆ ∗ (Wˆ )
βˆ ∗ ( Sˆ −1 ) βˆ
∗ FIVE
∗ βˆMQ3P ∗ βˆSUR
βˆPMQ
(5.18) c/ Sˆ −1 (5.18) c/ Sˆ −1
(5.18) c/ Sˆ −1 (5.32) c/ βˆ
(5.18) c/ βˆ ∗ (Wˆ ) (5.18) c/ βˆ ∗ ( Sˆ −1 ) MQ
(5.18) c/ βˆ (5.18) c/ βˆ ∗
∗ FIVE
∗ (5.18) c/ βˆSUR (5.18) c/ βˆ
MQ3P
PMQ
^
(5.108) (5.111) (5.109) (5.112) (5.115) (5.119) (5.116) (5.117) (5.120)
ANEXO 5B PRODUTO DE KRONECKER E VECTORIZAÇÃO DE MATRIZES Neste anexo apresentam-se os conceitos de produto de Kronecker de duas matrizes e de vectorização de uma matriz, e respectivas propriedades. Definição 5B.1 – Produto de Kronecker de duas matrizes Sejam A e B duas matrizes de tipo m × n e p × q , respectivamente. O produto de Kronecker de A por B é uma matriz de tipo mp × nq , que se representa por A ⊗ B , e é tal que
(5B.1)
a11B a12 B L a1n B a21B a22 B L a2 n B A⊗ B = . M M M am1B am 2 B L amn B
Assim, o produto de Kronecker de duas matrizes é uma matriz em que cada elemento da primeira é multiplicado por todos os elementos da segunda, e estes produtos são organizados de acordo com (5B.1). O produto de Kronecker verifica as seguintes propriedades: a) A ⊗ ( B + C ) = ( A ⊗ B) + ( A ⊗ C ) ; b) ( A ⊗ C ) + ( B ⊗ C ) = ( A + B) ⊗ C ; c) ( A ⊗ B) + ( A ⊗ C ) = A ⊗ ( B + C ) ; d) λ ( A ⊗ B) = (λA) ⊗ B = A ⊗ (λB) ; e) ( A ⊗ C )( B ⊗ D) = ( AB) ⊗ (CD) ; f) ( A ⊗ B)T = AT ⊗ BT ; g) ( A ⊗ B ) −1 = A−1 ⊗ B −1 , onde A e B são matrizes quadradas; h) tr ( A ⊗ B) = tr ( A) tr ( B) , onde A e B são matrizes quadradas; i) | A ⊗ B |=| A |m | B |m , onde A e B são matrizes quadradas de ordem m e n, respectivamente; j) Sejam A e B duas matrizes quadradas em que os pares ( λ j , x• j ) e ( µi , y•i ) representam, respectivamente, os valores próprios e os vectores próprios associados. Então, os valores próprios de A ⊗ B são λ j µi , e os respectivos valores próprios são dados por x• j ⊗ y•i .
Anexo 5B – Produto de Kronecker e vectorização de matrizes
2
Definição 5B.2 – Vectorização de uma matriz Seja A uma matriz de tipo m × n , onde a• j é a coluna genérica de A ( j = 1, 2, K , n ). A vectorização da matriz A tem como resultado um vector mn × 1 , que se representa por Vec( A) , e é dado por
(5B.2)
a•1 a• 2 Vec( A) = . M a• n
Assim, a vectorização de uma matriz A consiste em dispor em coluna todos os elementos da matriz, começando pela primeira coluna de A e terminando na última coluna. A vectorização de matrizes verifica as seguintes propriedades: a) Vec( ABC ) = (C T ⊗ A)Vec( B) ; b) Vec( AB ) = ( I p ⊗ A)Vec( B ) = ( BT ⊗ I m )Vec( A) , onde os tipos das matrizes A e B são m × n e n × p , respectivamente; c) Vec( ABC ) = ( I q ⊗ AB)Vec(C ) = (C T BT ⊗ I n )Vec( A) , onde A, B e C são matrizes de tipo m × n , n × p e p × q , respectivamente; d) tr ( AB) = Vec( BT )T Vec( A) = Vec( AT )T Vec( B) ; e) Se A, B e C são matrizes de tipo m × n , n × p e p × q , respectivamente, então tr ( ABC ) = Vec( AT ) T (C T ⊗ I n )Vec( B)
= Vec( AT ) T ( I m ⊗ B)Vec(C )
= Vec( B T ) T ( AT ⊗ I p )Vec(C ) = Vec( B T ) T ( I n ⊗ C )Vec( A)
;
= Vec(C T )T ( B T ⊗ I m )Vec( A) = Vec(C T )T ( I p ⊗ A)Vec( B);
f) Se A e B são matrizes de tipo m × n , e C e D são matrizes de tipo n × p , então Vec{( A + B )(C + D)} = {( I p ⊗ A) + ( I p ⊗ B )}{Vec(C ) + Vec( D)}
= {(C T ⊗ I m ) + ( DT ⊗ I m )}{Vec( A) + Vec( B )}.
ANEXO 7A COMPLEMENTOS 7A.1 - Construção do vector dos regressores não constantes a partir do vector z•i Recorde-se que: f ti• é o vector 1 × k1 dos regressores não constantes; z•i é o vector q × 1 formado por todos os elementos de xti• ,. Como xti• = [ f ti• hi• ], pode escrever-se
z•Ti = f1i•
f 2 i• L
f pi•
onde q = p k1 + k 2 . Considerando as matrizes q × k1
hi• ,
e ⊗ I k1 (t = 1, 2, K , p) , J t = •t O
onde e•t (vector p × 1 ) é a coluna t da matriz I p , pode “extrair-se” f ti• de z•Ti , fazendo Seja a matriz pq × k1
Então,
fti • = z•Ti J t (t = 1, 2, K , p) . J1 M J = Jt . M J p
F•i = ( I p ⊗ z•Ti ) J .
7A.2 - Hipóteses para que o estimador EF seja BLUE
Começa-se por considerar um conjunto de hipóteses que permitem concluir que, em particular, os regressores não constantes para a unidade seccional i são estritamente exógenos. As hipóteses são as seguintes: a) O processo {( y•i , F•i ) : i = 1, 2, K} é iid; b) E (v•i | F•i ) = 0 ;
Anexo 7A – Complementos
2
c) E (v•i v•Ti | F•i ) = σ v2 I p (esfericidade condicionada dos choques); d) A matriz dos regressores de (7.63), W = [ D F ] de tipo mp × (m + k1 ) , tem característica igual a m + k1 . Facilmente se verifica que os regressores não constantes para a unidade seccional i são estritamente exógenos: E (v•i | F•1 , F• 2 , K) = 0 . Com efeito, basta invocar a hipótese b), e notar que a hipótese a) implica que (v•i , F•i ) é independente de F•l , para l ≠ i . Assim, E (v•i | F•1 , F• 2 , K) = E (v•i | F•i ) = 0 . Quando se considera a relação Y = Dα + Fφ + V , conclui-se também, sem dificuldade, que E (V | W ) = 0 , ou que E (v•i | W ) = 0 (i = 1, 2, K , m) . Com efeito, notando que D é uma matriz de constantes, e pelas razões já referidas, tem-se E (v•i | W ) = E (v•i | F ) = E (v•i | F•1 , F• 2 , K , F• m ) = E (v•i | F•i ) = 0 .
De forma semelhante, as hipóteses a) e c) permitem provar que E (v•i v•Ti | F•1 , F• 2 , K) = σ v2 I p e E (v•i v•Ti | W ) = σ v2 I p .
Vai demonstrar-se, a seguir, que E (v•i v•Tl | F•1 , F• 2 , K) = O . Como, devido à hipótese a), (v•i , F•i , v• l , F•l ) é independente de F• h , para h ≠ i, l , vem E (v•i v•Tl | F•1 , F• 2 , K) = E (v•i v•Tl | F•i , F•l ) .
Então,
E (v•i v•Tl | F•i , F•l ) = E{E (v•i v•Tl | F•i , F• l , v•i ) | F•i , F•l } = E{v•i E (v•Tl | F•i , F• l , v•i ) | F•i , F•l } = E{v•i E (v•Tl | F• l ) | F•i , F•l },
pois (v•i , F•i ) é independente de (v•l , F• l ) . A hipótese b) permite concluir a demonstração. Obtém-se, também, E (v•i v•Tl | W ) = O , e, portanto, E (V V T | W ) = σ v2 I mp . A hipótese d) permite determinar os estimadores MQ de α e de φ , que coincidem, como se sabe, com os respectivos estimadores EF. As consequências que se deduziram das quatro hipóteses [a) a d)], com particular relevo para a exogeneidade estrita, levam à conclusão de que estes estimadores são BLUE.
7A.3 - Demonstração das propriedades assintóticas do estimador EF As propriedades do estimador EF com homocedasticidade condicionada podem demonstrar-se directamente, a partir do erro de amostragem (7.58), 1 m φˆEF − φ = ∑i =1 ( F•ci )T F•ci m
−1
1 m ∑ ( F•ci )T v•ci . m i =1
Para provar (7.65), tem de verificar-se que a matriz E{( F•ci )T F•ci } tem inversa, e que E{( F•ci )T v•ci } = 0 . Nestas circunstâncias, tem-se
Anexo 7A – Complementos
3
plim(φˆEF ) = φ + E{( F•ci )T F•ci }−1 E{( F•ci )T v•ci } = φ .
Em primeiro lugar, vai demonstrar-se que MENO.4 implica que E{( F•ci )T F•ci } tem inversa. Começa-se por notar que E{( F•ci )T F•ci } = E{F•Ti Pe F•i } = ∑t =1 ∑ s =1 cts E ( ftiT• f si • ) , p
p
em que cts é o elemento genérico de Pe , e
E ( f tiT• f si • ) = E ( f tiT• z•Ti ) E ( z•i z•Ti ) −1 E ( z•i f si • ) ,
uma vez que todos os elementos dos fti • estão incluídos em z•i (ver exemplo 7.8). Como o produto de uma coluna por uma linha é igual ao produto de Kronecker da linha pela coluna, tem-se z•i fti • = fti • ⊗ z•i . Então, E{( F•ci )T F•ci } = ∑t =1 ∑s =1 cts E ( f tiT• z•Ti ) Qzz−1 E ( z•i f si• ) p
p
p
p
= ∑t =1 ∑s =1 cts E ( f ti• ⊗ z•i )T Qzz−1 E ( f si• ⊗ z•i ),
ou
E{( F•ci )T F•ci } = E ( F•i ⊗ z•i )T ( Pe ⊗ Qzz−1 ) E ( F•i ⊗ z•i )
= E ( Pe F•i ⊗ z•i )T ( I p ⊗ Qzz−1 ) E ( Pe F•i ⊗ z•i )
= E ( F•ci ⊗ z•i )T ( I p ⊗ Qzz−1 ) E ( F•ci ⊗ z•i )
= (Qzfc )T ( I p ⊗ Qzz−1 )Qzfc ,
onde Qzfc = E ( F•ci ⊗ z•i ) . Logo, E{( F•ci )T F•ci } é não singular. A seguir vai provar-se que E{( F•ci )T v•ci } = 0 . Com efeito,
p p p p E{( F•ci )T v•ci } = E ( F•Ti Pe v•i ) = E ∑t =1 ∑ s =1 cts f tiT•vsi = ∑t =1 ∑ s =1 cts E ( ftiT•vsi ) = 0 ,
pois, devido a (7.54), E ( f tiT•vsi ) = 0 [deve ficar claro que as ortogonalidades cruzadas, E ( f tiT•vsi ) = 0 para t ≠ s , são indispensáveis para provar a consistência de φˆEF ]. Facilmente se conclui que as hipóteses do modelo implicam (7.66), em que Cov a (φˆEF ) = E{( F•ci )T F•ci }−1 E {( F•ci )T v•ci (v•ci )T F•ci } E{( F•ci )T F•ci }−1 .
Para provar (7.67), começa por notar-se que
E {( F•ci )T v•ci (v•ci )T F•ci } = E E{( F•ci )T v•ci (v•ci )T F•ci | z•i }
= E ( F•ci )T E{v•ci (v•ci )T | z•i }F•ci ,
porque z•i abrange todos os elementos dos fti • . Falta demonstrar que E{v•ci (v•ci )T | z•i } não depende de z•i . Como v•ci = Pev•i = Pe (e pα i + v•i ) = Peu•i = u•ci , tem-se
E{v•ci (v•ci )T | z•i } = E{u•ci (u•ci )T | z•i } = Pe E (u•iu•Ti | z•i ) Pe
= Pe E (u•iu•Ti ) Pe = E{u•ci (u•ci )T } = E{v•ci (v•ci )T }.
Anexo 7A – Complementos
4
A matriz E{v•ci (v•ci )T } é singular. Com efeito, tem-se E{v•ci (v•ci )T } = Pe Σ Pe , onde v•ci = Pe u•i e Σ = E (u•i u•Ti ) . Então, como Pe é singular, conclui-se que E{v•ci (v•ci )T } também é singular. A seguir, vai demonstrar-se que E ( F•ci )T E{v•ci (v•ci )T }F•ci
é invertível. Com efeito, notando que v•ci = Pe u•i , vem
E ( F•ci )T E{v•ci (v•ci )T }F•ci = E {( F•ci )T Pe E (u•i u•Ti ) Pe F•ci } = E {( F•ci )T E (u•i u•Ti ) F•ci } = E {( F•ci )T Σ F•ci } = E ( F•ci ⊗ z•i )T {Σ ⊗ E ( z•i z•Ti ) −1} E ( F•ci ⊗ z•i ) = (Qzfc )T (Σ ⊗ Qzz−1 ) Qzfc .
Como r (Qzfc ) = k1 e existe Σ −1 , o resultado está provado. Vai provar-se que Vˆ , dado por (7.69), é estimador consistente de E{v•ci (v•ci )T } . Para isso, basta invocar a propriedade 5.1 (ver capítulo 5), e verificar as hipóteses desta propriedade. Obviamente, no contexto do sistema ytic = f tic•φ + vtic ( t = 1, 2, K , p ), são verdadeiras as hipóteses MCDP.1 e MCDP.3 porque, respectivamente, o modelo é linear em relação a φ , e o processo {( ytic , f tic• ) : i = 1, 2, K} é iid. Falta, então, provar a terceira condição, ou seja, que existe E{( f tic• )T f sic• } . Como f tiT• é uma transformação linear de z•i , ftiT• = J tT z•i , tem-se E ( f tiT• f si • ) = J tT E ( z•i z•Ti ) J s .
Como F•ci = Pe F•i , também existe E{( f tic• )T f sic• } . Pode, então, concluir-se que plim(Vˆ ) = E{v•ci (v•ci )T } .
As propriedades do estimador EF podem provar-se indirectamente, demonstrando que este estimador é um estimador MGM. Para isso, começa-se por considerar uma matriz A, de tipo p × ( p − 1) , a verificar as seguintes condições: a) r ( A) = p − 1 (as colunas de A são linearmente independentes); b) AT e p = 0 . Um exemplo importante é a matriz das primeiras diferenças, − 1 0 1 −1 0 1 A= M M 0 0 0 0 0 0
Por exemplo, tem-se
L L L L L L
0 0 0 0 M M . −1 0 1 − 1 0 1 0 0
Anexo 7A – Complementos − 1 1 0 −1 T A y•i = M M 0 0 0 0
5
0 1 M 0 0
L L L L
y 1i 0 0 0 y2i y2i − y1i 0 0 0 y3i y3i − y2i . M M M M M = − 1 1 0 y p − 2,i y p −1,i − y p − 2,i 0 − 1 1 y p −1,i y pi − y p −1,i y pi
Outro caso importante de matriz A é a matriz tima coluna, 1 − (1 / p) − (1 / p ) L − (1 / p) 1 − (1 / p) L A= M M − (1 / p) − (1 / p ) L − (1 / p) − (1 / p ) L
Pe eliminando, por exemplo, a úl− (1 / p ) − (1 / p ) . M 1 − (1 / p) − (1 / p )
Por exemplo,
y 1 − (1 / p) − (1 / p) L − (1 / p) − (1 / p) 1i y1i − yi y2 i y2i − yi − (1 / p) 1 − (1 / p) L − (1 / p) − (1 / p) T M = A y•i = . M M M M M y p −1,i y y − − (1 / p) − (1 / p) L 1 − (1 / p) − (1 / p) i y pi p −1,i Considere-se o modelo (7.51). Multiplicando ambos os membros por AT , vem AT y•i = AT F•iφ + AT e p hi •η + AT e pα i + AT v•i ⇔ y•ai = F•aiφ + v•ai ,
onde: y•ai = AT y•i é um vector ( p − 1) × 1 ; F•ai = AT F•i é uma matriz de tipo ( p − 1) × k1 ; v•ai = AT v•i é um vector ( p − 1) × 1 . Em particular, o sistema de p − 1 equações de regressão, y•ai = F•aiφ + v•ai , é o modelo com primeiras diferenças. Suponha-se que o sistema (7.51) é um modelo com componentes do erro (MCE) [verifica MENO.1′ , MENO.2, MENO.3, MCDP.4, MENO.4, MCDP.5 e MCDP.6]. Vai provar-se que o sistema y•ai = F•aiφ + v•ai é um modelo clássico de dados de painel, ou seja, verifica as hipóteses MCDP.1 a MCDP.6: 1) MCDP.1 (linearidade). É imediato, porque y•ai = F•aiφ + v•ai . 2) MCDP.2 (amostragem casual): {( y•ai , F•ai ) : i = 1, 2, K} é iid. Basta notar que {( y•i , F•i , hiT• ) : i = 1, 2, K} é iid. 3) MCDP.3 (ortogonalidade): E ( g•ai ) = E (v•ai ⊗ z•i ) = 0 , em que g•ai = v•ai ⊗ z•i é um vector ( p − 1)q × 1 . Com efeito,
Anexo 7A – Complementos
6
E (v•ai ⊗ z•i ) = E ( AT v•i ⊗ z•i ) = E{( AT ⊗ I q )(v•i ⊗ z•i )} = ( AT ⊗ I q ) E (v•i ⊗ z•i ) = 0 ,
uma vez que E (v•i ⊗ z•i ) = 0 . 4) MCDP.4: Qzfa = E ( F•ai ⊗ z•i ) , de tipo ( p − 1)q × k1 , existe e verifica r (Qzfa ) = k1 . Com efeito, como r (Qzfc ) = k1 , basta provar que r (Qzfa ) = r (Qzfc ) . Começa-se por notar que existe uma matriz L, p × ( p − 1) , tal que r ( L) = p − 1 e Pe = L AT ; esta matriz é A( AT A) −1 pois pode demonstrar-se que A( AT A) −1 AT = Pe . Como Qzfc = E ( F•ci ⊗ z•i ) = E ( Pe F•i ⊗ z•i ) = E ( L AT F•i ⊗ z•i ) = E ( L F•ai ⊗ z•i ) = E{( L⊗ I q )( F•ai ⊗ z•i )} = ( L⊗ I q ) E ( F•ai ⊗ z•i ) = ( L⊗ I q )Qzfa ,
vem r (Qzfc ) ≤ r (Qzfa ) . Seja
( LT ⊗ I q )Qzfc = ( LT ⊗ I q )( L⊗ I q )Qzfa .
Como ( LT ⊗ I q )( L⊗ I q ) é não singular, tem-se
r (Qzfa ) = r{( LT ⊗ I q )( L⊗ I q )Qzfa } = r{( LT ⊗ I q )Qzfc } ≤ r (Qzfc ) .
Então, r (Qzfa ) = r (Qzfc ) = k1 . 5) MCDP.5 (existência e não singularidade da matriz S): a matriz ( p − 1) × ( p − 1) , S a = E{g•ai ( g•ai )T } = E {v•ai (v•ai )T } ⊗ ( z•i z•Ti )
existe e tem inversa. Com efeito, sabendo que u•i = e pα i + v•i , obtém-se
g•ai ( g•ai )T = {v•ai (v•ai )T } ⊗ ( z•i z•Ti ) = { AT (e pα i + v•i )(e pα i + v•i )T A} ⊗ ( z•i z•Ti ) = ( AT u•iu•Ti A) ⊗ ( z•i z•Ti ) = ( AT ⊗ I q )(u•iu•Ti ⊗ z•i z•Ti )( A ⊗ I q ).
Logo,
S a = ( AT ⊗ I q ) E (u•iu•Ti ⊗ z•i z•Ti )( A ⊗ I q ) = ( AT ⊗ I q ) S ( A ⊗ I q ) .
Como r ( A) = p − 1 , conclui-se que r ( A ⊗ I q ) = r ( AT ⊗ I q ) = ( p − 1)q , e, portanto, a matriz Sa tem inversa. 6) MCDP.6 (homocedasticidade condicionada): E{v•ai (v•ai )T | z•i } = E{v•ai (v•ai )T } = Σ a é não singular. Como v•ai (v•ai )T = AT u•iu•Ti A , e atendendo a que E (u•iu•Ti | z•i ) = Σ ,vem E{v•ai (v•ai )T | z•i } = E ( AT u•iu•Ti A | z•i ) = AT E (u•iu•Ti | z•i ) A = AT Σ A = Σ a .
Note-se, sob a hipótese da homocedasticidade condicionada, a matriz Sa é mais simples. Com efeito, tem-se
Anexo 7A – Complementos
7
S a = E E {v•ai (v•ai )T } ⊗ ( z•i z•Ti ) | z•i = E E {v•ai (v•ai )T } | z•i ⊗ ( z•i z•Ti ) = E{Σ a ⊗ ( z•i z•Ti )} = Σ a ⊗ E ( z•i z•Ti ) = Σ a ⊗ Qzz . Sabe-se que o estimador EA, (7.26), é estimador MGM eficiente, pois corresponde ao estimador SUR com coeficientes constantes (ver capítulo 5). Vai, agora, demonstrar-se que o estimador EF de φ , (7.57), é um estimador MGM (ficando também provado que é um estimador consistente e assintoticamente normal). Para isso, vai considerar-se o sistema de p − 1 equações, y•ai = F•aiφ + v•ai , e um estimador MGM de φ [com o formato (5.15)], considerando S zfa =
szya =
1 m ( F a ⊗ z•i ) [média amostral correspondente a Qzfa = E ( F•ai ⊗ z•i ) ], m ∑i =1 •i
1 m a ( y•i ⊗ z•i ) [média amostral correspondente a qzya = E ( y•ai ⊗ z•i ) ], ∑ = i 1 m
Wˆ = ( AT A) −1 ⊗ S zz−1 [matriz quadrada de ordem ( p − 1)q ]. Vai, então, provar-se que
φˆ(Wˆ ) = {( S zfa )T Wˆ S zfa }−1 ( S zfa )T Wˆ szya = φˆEF .
Como F•ai = AT F•i , vem S zfa =
1 m T 1 m ( A F•i ⊗ z•i ) = ( AT ⊗ I q ) ∑i =1 ( F•i ⊗ z•i ) . m ∑i =1 m
De modo semelhante, tem-se szya =
1 m T 1 m ( A y•i ⊗ z•i ) = ( AT ⊗ I q ) ∑i =1 ( y•i ⊗ z•i ) . ∑ i 1 = m m
Então,
1 m 1 m ( S zfa )T Wˆ S zfa = ∑i =1 ( F•i ⊗ z•i )T ( A ⊗ I q ){( AT A) −1⊗ S zz−1}( AT ⊗ I q ) ∑i =1 ( F•i ⊗ z•i ) m m 1 m 1 m = ∑i =1 ( F•i ⊗ z•i )T {Pe ⊗ S zz−1} ∑i =1 ( F•i ⊗ z•i ) , m m
e
1 m 1 m ( S zfa )T Wˆ szya = ∑i =1 ( F•i ⊗ z•i )T {Pe ⊗ S zz−1} ∑i =1 ( y•i ⊗ z•i ) . m m Como
Anexo 7A – Complementos
8
f1i • ⊗ z•i z•i f1i • f ⊗ z z f •i •i 2i • 2i • , y ⊗ z•i = z•i y•i , = F•i ⊗ z•i = M •i M f pi • ⊗ z•i z•i f pi •
e notando que cts é o elemento genérico de Pe , obtém-se 1 m ( S zfa )T Wˆ S zfa = ∑i =1 f1Ti• z•Ti m
c S −1 L c S −1 1 m z f ∑ 1 p zz m i =1 •i 1i • 11 zz 1 m L ∑i =1 f piT • z•Ti M M M m 1 m c S −1 L c S −1 z f pp zz p1 zz m ∑i =1 •i pi •
1 m 1 m p p = ∑t =1 ∑ s =1 cts ∑i =1 ftiT• z•Ti S zz−1 ∑i =1 z•i f si • m m e, de forma semelhante, 1 m ( S zfa )T Wˆ szya = ∑i =1 f1Ti• z•Ti m
c S −1 L c S −1 1 m z y ∑ 1 p zz m i =1 •i 1i 11 zz 1 m L ∑i =1 f piT • z•Ti M M M m 1 m c S −1 L c S −1 z y pp zz p1 zz m ∑i =1 •i pi
1 m 1 m p p = ∑t =1 ∑ s =1 cts ∑i =1 ftiT• z•Ti S zz−1 ∑i =1 z•i ysi . m m
Como z•i inclui todos os elementos de F•i , z•i “desaparece”. Assim,
1 m 1 m p p p p ( S zfa )T Wˆ S zfa = ∑t =1 ∑ s =1 cts ∑i =1 ftiT• f si • = ∑i =1 ∑t =1 ∑ s =1 cts ftiT• f si • , m m 1 m 1 m p p p p ( S zfa )T Wˆ szya = ∑t =1 ∑ s =1 cts ∑i =1 ftiT• ysi = ∑i =1 ∑t =1 ∑ s =1 cts ftiT• ysi . m m
∑ ∑
Usando as fórmulas (ver capítulo 5) p
t =1
obtém-se
p T s =1 ts ti • si •
c f f
= F•Ti Pe F•i e
∑ ∑ p
t =1
c f y = F•Ti Pe y•i ,
p T s =1 ts ti • si
1 m 1 m ( S zfa )T Wˆ S zfa = ∑i =1 F•Ti Pe F•i e ( S zfa )T Wˆ szfa = ∑i =1 F•Ti Pe y•i , m m
e, portanto, φˆ(Wˆ ) = φˆEF . Facilmente se conclui que o estimador φˆEF não é eficiente. De facto, como Sa = E {v•ai (v•ai )T } ⊗ ( z•i z•Ti ) = Σ a ⊗ Qzz ,
é imediato verificar que
Anexo 7A – Complementos
9
plim(Wˆ ) = plim {( AT A) −1 ⊗ S zz−1} = ( AT A) −1 ⊗ Qzz−1 ≠ S a−1 = Σ a−1 ⊗ Qzz−1 .
Seja Σˆ a um estimador consistente de Σ a . Como Sˆa−1 = Σˆ −a1 ⊗ S zz−1 , o estimador MGM eficiente de φ – quando se considera o sistema de p − 1 equações y•ai = F•aiφ + v•ai – é φˆ( Sˆ a−1 ) , que não é mais do que o estimador SUR com coeficientes comuns [na linguagem do capítulo 5], ou o estimador EA [na linguagem do capítulo 7]. Assim, tem-se m a φˆ( Sˆa−1 ) = φˆEA = ∑i =1 ( F•ai )T Σˆ a−1 F•ai
−1
∑
m
i =1
( F•ai )T Σˆ −a1 y•ai [ver (7.26)],
a Cov a (φˆEA ) = E{( F•ai )T Σ −a1 F•ai }−1 [ver (7.27)],
1 m Cov a (φˆ ) = ∑i =1 ( F•ai )T Σˆ a−1 F•ai m ^
−1
a EA
[ver (7.28)].
Trata-se, evidentemente, de um estimador consistente e assintoticamente normal. Vai provar-se que E{( F•ai )T Σ a−1 F•ai } é invertível. Com efeito, basta notar que E {( F•ai )T Σ −a1 F•ai } = E ( F•ai ⊗ z•i )T {Σ −a1 ⊗ E ( z•i z•Ti ) −1} E ( F•ai ⊗ z•i ) = (Qzfa )T (Σ a−1 ⊗ Qzz−1 ) Qzfa ,
e que r (Qzfa ) = k1 . Escrutinando a propriedade 5.1, pode provar-se, sem dificuldade, que
1 m Σˆ a = ∑t =1 ( y•ai − F•ai φˆEF )( y•ai − F•ai φˆEF )T m é estimador consistente de Σ . Como φˆ é consistente para φ , e se verificam as hipótea
EF
ses MCDP.1 e MCDP.2, basta mostrar que E{( f tia• )T f sia• } existe. Para isso, basta notar que Qzz = E ( z•i z•Ti ) existe e tem inversa, e que em z•i estão todos os elementos de F•i . a é dada por A estatística de Sargan associada com o estimador φˆEF a a T ˆ −1 a QS = J (φˆEA , Sˆa−1 ) = m( s zya − S zfa φˆEA ) S a ( s zya − S zfa φˆEA ) → χ 2 ( pq − k1 ) . d
Considere-se, de novo, a matriz A, p × ( p − 1) , tal que r ( A) = p − 1 e AT e p = 0 . Seja B = AC , onde C é matriz quadrada de ordem p − 1 , não singular. Obviamente, a matriz B ainda é de tipo p × ( p − 1) , e verifica r ( B) = p − 1 e BT e p = 0 . Como A( AT A) −1 AT = Pe , facilmente se mostra que B ( BT B) −1 BT = Pe . Então, pode concluir-se que o estimador EF, φˆEF , é invariante à escolha de A. Seja y•bi = BT y•i , F•bi = BT F•i , v•bi = BT v•i e o sistema y•bi = F•biφ + v•bi . Como y•bi = C T AT y•i = C T y•ai , F•bi = C T AT F•i = C T F•ai , v•bi = C T AT v•i = C T v•ai ,
tem-se Σˆ b = C T Σˆ aC . Fazendo Sˆb = Σˆ b ⊗ Qzz , obtém-se m b = ∑i =1 ( F•bi )T Σˆ b−1F•bi φˆ( Sˆb−1 ) = φˆEA
−1
∑
m
i =1
( F•bi )T Σˆ b−1 y•bi
m = ∑i =1 ( F•ai )T C (C T Σˆ −a1C ) −1 C T F•ai
−1
∑
m
i =1
a ( F•ai )T C (C T Σˆ −a1C ) −1 C T y•ai = φˆEA ,
Anexo 7A – Complementos
10
a . Facilmente se verifica que o que prova a invariância do estimador φˆEA
a a Cov a (φˆEA ) e Cov a (φˆEA ) ^
também são invariantes à escolha da matriz A. As propriedades do estimador EF com heterocedasticidade condicionada ainda se podem provar de duas maneiras: verificar que o estimador EF é um estimador MGM, e aplicar os respectivos resultados assintóticos; analisar a expressão do respectivo erro de amostragem. Em particular deve ficar garantido que
1 m plim ∑i =1 ( F•ci )T vˆ•ci (vˆ•ci )T F•ci = E{( F•ci )T v•ci (v•ci )T F•ci } . m
A demonstração desta convergência é feita com a mesma técnica usada para demonstrar a propriedade 3.4 (ver anexo 3B, secção 3B.2) e a propriedade 4.4. Vai, também, provar-se que a matriz E{( F•ci )T v•ci (v•ci )T F•ci } é invertível. Notando que F•i = ( I p ⊗ z•Ti ) J , seja ( F•ci )T v•ci = F•Ti Pe v•i = J T ( I p ⊗ z•i ) Pe v•i = J T ( I p ⊗ z•i ) Pe u•i = J T ( I p ⊗ z•i )( Pe u•i ⊗ 1) = J T ( Pe u•i ⊗ z•i ) = J T ( Pe ⊗ I q )(u•i ⊗ z•i ) = J T ( Pe ⊗ I q ) g•i .
Então,
E{( F•ci )T v•ci (v•ci )T F•ci } = E{J T ( Pe ⊗ I q ) g•i g•Ti ( Pe ⊗ I q ) J } = J T ( Pe ⊗ I q ) S ( Pe ⊗ I q ) J ,
recordando que S = E ( g •i g •Ti ) [hipótese MCDP.5]. Como S tem inversa, falta provar que a característica de ( Pe ⊗ I q ) J é igual a k1 . Começa-se por notar que F•i ⊗ z•i = {( I p ⊗ z•Ti ) J } ⊗ z•i = {( I p ⊗ z•Ti ) ⊗ z•i }( J ⊗ 1) = ( I p ⊗ z•Ti ⊗ z•i ) J = ( I p ⊗ z•i z•Ti ) J ,
F•ci ⊗ z•i = ( Pe ⊗ I p )( F•i ⊗ z•i ) = ( Pe ⊗ I p )( I p ⊗ z•i z•Ti ) J
e
= ( Pe ⊗ z•i z•Ti ) J = ( I p ⊗ z•i z•Ti )( Pe ⊗ I p ) J .
Então,
Qzfc = ( I p ⊗ Qzz )( Pe ⊗ I p ) J .
Como, devido à hipótese MENO.4, Qzfc = E ( F•ci ⊗ z•i ) tem característica k1 , e como que Qzz = E ( z•i z•Ti ) é não singular, conclui-se que r{( Pe ⊗ I q ) J } = k1 .
7A.4 - Modelos dinâmicos Uma situação típica em que o estimador EF não é consistente verifica-se quando o modelo é dinâmico. Com efeito, seja o modelo
Anexo 7A – Complementos
11
yti = α i + φ yt −1,i + vti (i = 1, 2, K; t = 1, 2, K , p) .
Admita-se que E (α i vti ) = 0 , E ( y0i vti ) = 0 , E (vti vsi ) = 0 ( t ≠ s ), E (vti2 ) = σ v2 . Este modelo pode ser apresentado na forma (7.51), fazendo y1i y0 i v1i y2i y1i v2 i , y•i = , F•i = v = i • M e hi • = 0 (não existe). M M y pi y p−1,i v pi
Para obter E ( yti vsi ) , começa-se por obter yti por substituição recursiva. Assim, yti =
1−φt α i + φ t y0i + vti + φ vt −1,i + L + φ t v1i . 1−φ
Multiplicando ambos os membros por vsi , e calculando os respectivos valores esperados, tem-se E ( yti vsi ) = E (vti vsi ) + φ E (vt −1,i vsi ) + L + φ t E (v1i vsi ) ,
porque E (α i vti ) = 0 , E ( y0i vti ) = 0 . Então,
φ t − sσ 2 v E ( yti vsi ) = 0
(t ≥ s )
(t < s ).
Vai, agora, determinar-se E ( F•Ti Pe v•i ) . Começa-se por verificar que
E ( F•Ti Pe v•i ) = E{tr ( F•Ti Pe v•i )} = E{tr (v•i F•Ti Pe )} = tr{E (v•i F•Ti ) Pe }
1 1 = tr E (v•i F•Ti ) I p − e p eTp = tr{E (v•i F•Ti )} − tr{E (v•i F•Ti ) e p eTp } p p 1 = tr{E (v•i F•Ti )} − eTp E (v•i F•Ti ) e p . p
Como
vem
v1i y0i v y 2i 0i T v•i F•i = M v pi y0i
0 0 M E (v•i F•Ti ) = 0 0 0
v1i y1i v2i y1i
M v pi y1i
L v1i y p −1,i L v2i y p −1,i , M L v pi y p−1,i
1 φ φ 2 L φ p −1 φ p −2 0 1 φ L φ p − 2 φ p −3 M M M M M , 0 0 0 L 1 φ 0 0 0 L 0 1 0 0 0 L 0 0
Anexo 7A – Complementos
12
e tr{E (v•i F•Ti )} = 0 . Notando que eTp E (v•i F•Ti ) e p é a soma dos elementos de E (v•i F•Ti ) , tem-se E ( F•Ti Pe v•i ) = −
σ2 1 T e p E (v•i F•Ti ) e p = − v p p
1 − φ p−1 1 − φ p−2 1−φ + +L+ 1−φ 1 − φ 1−φ
σ v2 ( p − 1) − {(1 − φ p ) /(1 − φ ) − 1} =− p 1−φ
=− =−
σ v2 ( p − 1)(1 − φ ) − (1 − φ p ) + (1 − φ )} p 1−φ σ v2 p − 1 − pφ + φ p . p 1−φ
Se E ( F•Ti Pe F•i ) é não singular, e se p − 1 − pφ + φ p ≠ 0 , então o estimador EF de φ é inconsistente. Neste caso, é violada a hipótese MENO.2′ , já que E ( yt −1,i vsi ) ≠ 0 , para s ≤ t − 1 .
7A.5 - Esfericidade dos choques Sabe-se que E (u•iu•Ti ) = Σ . No entanto, quando se decompõe o erro nas duas componentes já conhecidas – ver (7.35) –, é habitual supor que os choques são esféricos (não há autocorrelação), isto é, E (v•i v•Ti ) = σ v2 I p ,
onde σ v2 = E (vti2 ) . Daqui decorre que E{v•ci (v•ci )T } = σ v2 Pe . Esta ausência de autocorrelação não deve ser confundida com a condição de que v•i não está correlacionado com v•l , para i ≠ l . Esta condição é consequência da hipótese MCDP.2 (amostragem casual). Considerando a esfericidade dos choques em (7.67), e notando que Pe F•ci = F•ci , obtém-se Cov a (φˆEF ) = σ v2 E{( F•ci )T F•ci }−1 . Se σˆ v2 é um estimador de σ v2 , vem
1 m Cov a (φˆEF ) = σˆ ∑i =1 ( F•ci )T F•ci = mσˆ v2 ( FcT Fc ) −1 , m ^
−1
2 v
que é igual a m vezes o estimador da matriz das covariâncias assintóticas quando se aplica o estimador PMQ à amostra ( yc , Fc ) . A respectiva soma dos quadrados dos resíduos é dada por (7A.1)
m SQR = (Yc − Fc φˆEF )T (Yc − Fc φˆEF ) = ∑i =1 (vˆ•ci )T vˆ•ci .
O estimador habitual de σ v2 seria
Anexo 7A – Complementos
13
σˆ v2 =
SQR . mp − k1
Pode provar-se que este estimador não é consistente, mas sim,
σˆ v2 =
SQR . mp − m − k1
Para demonstrar que este estimador é consistente, começa-se por provar a consistência de SQR/ (mp − m) . Com efeito, seja SQR = ∑i =1 (vˆ•ci )T vˆ•ci = ∑i =1 vˆ•Ti Pe vˆ•i = ∑i =1 vˆ•Ti A( AT A) −1 AT vˆ•i = ∑i =1 (vˆ•ai )T ( AT A) −1 vˆ•ai m
m
m
m
= ∑i =1 tr{(vˆ•ai )T ( AT A) −1 vˆ•ai } = ∑i =1 tr{( AT A) −1 vˆ•ai (vˆ•ai )T } m
m
1 m = m tr ( AT A) −1 ∑i =1 vˆ•ai (vˆ•ai )T . m Como
1 m plim ∑i =1 vˆ•ai (vˆ•ai )T = E{v•ai (v•ai )T } = E ( AT v•i v•Ti A) = AT E (v•i v•Ti ) A = σ v2 AT A , m obtém-se
ou
SQR plim = m tr [( AT A) −1σ v2 AT A] = ( p − 1)σ v2 , m SQR plim = σ v2 . m( p − 1)
Como
SQR SQR m( p − 1) = , m( p − 1) − k1 m( p − 1) m( p − 1) − k1
resulta imediatamente que σˆ v2 = SQR/( mp − m − k1 ) é estimador consistente de σ v2 . A razão para subtrair m ao denominador tem a ver com o facto de as p equações do modelo transformado não serem linearmente independentes, porque a soma de ambos os membros de y•ci = F•ciφ + v•ci é nula (basta notar que eTp Pe = 0 ). Assim, a verdadeira dimensão da amostra é mp − m , e não mp ; usar mp em vez de mp − m é um erro muito comum que pode sub-estimar os erros padrão e sobre-estimar os rácios-t. Por exemplo, se p = 3 , m = 2000 e k1 = 4 tem-se mp − k1 = 5996 e mp − m − k1 = 3996 ; os rácios-t são sobre-estimados em cerca de 22.5%, uma vez que
5996 − 1 ≈ 0.225 . 3996 Como
Σ a = E{v•ai (v•ai )T } = AT E (v•i v•Ti ) A = σ v2 AT A ,
Anexo 7A – Complementos
14
Σˆ a = σˆ v2 AT A é estimador consistente de Σ a , desde que σˆ v2 seja estimador consistente a de σ v2 . Pode, então, concluir-se que o estimador MGM eficiente, φˆEA , com esta escolha de Σˆ , é numericamente igual ao estimador de efeitos fixos, φˆ . Com efeito, tem-se Sˆa−1 = (σˆ v2 AT A) −1 ⊗ S zz−1 ,
a
e, portanto,
a = {( S zfa )T Sˆa−1 S zfa }−1 ( S zfa )T Sˆa−1 s zya φˆEA
EF
= ( S zfa )T {(σˆ v2 AT A) −1 ⊗ S zz−1}S zfa ( S zfa )T {(σˆ v2 AT A) −1 ⊗ S zz−1}s zya −1
= ( S zfa )T {( AT A) −1 ⊗ S zz−1}S zfa ( S zfa )T {( AT A) −1 ⊗ S zz−1}s zya −1
= φˆEF .
7A.6 - Demonstração do teorema 7.1 (teste de especificação de Hausman) Sabe-se que o estimador EA de β se pode escrever com o formato de (5.25):
βˆEA = ( S zxT Sˆ −1 S zx ) −1 S zxT Sˆ −1 s zy .
A seguir, vai provar-se que o estimador EF de φ , (7.57), pode ser apresentado na forma seguinte:
φˆEF = ( J kT S zxT Wˆ S zx J k )−1 J kT S zxT Wˆ szy ,
onde
I J k = k1 (matriz de tipo k × k1 ) e Wˆ = Pe ⊗ S zz−1 . O Com efeito, tem-se
1 m 1 m J kT S zxT Wˆ S zx J k = J kT ∑t =1 ( X •i ⊗ z•i )T Wˆ ∑t =1 ( X •i ⊗ z•i ) J k m m 1 m 1 m T = J kT ∑t =1 [F•i ⊗ z•i H •i ⊗ z•i ] Wˆ ∑t =1 [F•i ⊗ z•i H •i ⊗ z•i ] J k m m 1 m 1 m = ∑t =1 ( F•i ⊗ z•i )T ( Pe ⊗ S zz−1 ) ∑t =1 ( F•i ⊗ z•i ) . m m
De forma semelhante, vem
1 m 1 m J kT S zxT Wˆ szy = ∑t =1 ( F•i ⊗ z•i )T ( Pe ⊗ S zz−1 ) ∑t =1 ( y•i ⊗ z•i ) . m m
Usando a mesma técnica utilizada para provar que o estimador EF de φ é estimador MGM (a partir do sistema y•ai = F•aiφ + v•ai ), obtém-se o resultado pretendido. Seja
Anexo 7A – Complementos
15
δˆ = φˆEF − φˆEA = φˆEF − J kT βˆEA
= ( J kT S zxT Wˆ S zx J k ) −1 J kT S zxT Wˆ szy − ( J kT S zxT Wˆ S zx J k ) −1 ( J kT S zxT Wˆ S zx J k ) J kT βˆEA .
Notando que
1 m S zxT Wˆ S zx = ∑i =1 X •Ti Pe X •i , m
e que Pe X •i = Pe [ F•i H •i ] = Pe [ F•i e p hi• ] = [ Pe F•i tem-se
F•Ti Pe F•i O ], X Pe X •i = O T •i
O , O
1 m T F P F O S zxT Wˆ S zx = m ∑i =1 •i e •i = S zxT Wˆ S zx J k J kT . O O Então,
δˆ = ( J kT S zxT Wˆ S zx J k )−1 J kT S zxT Wˆ szy − ( J kT S zxT Wˆ S zx J k )−1 J kT S zxT Wˆ S zx βˆEA = ( J kT S zxT Wˆ S zx J k ) −1 J kT S zxT Wˆ ( szy − S zx βˆEA ) = ( J kT S zxT Wˆ S zx J k ) −1 J kT S zxT Wˆ g• m ( βˆEA ),
g •m ( βˆEA ) = s zy − S zx βˆEA .
onde
De acordo com a demonstração do teorema 4.5 (secção 4A.4 do anexo 4A), g •m ( βˆEA ) = Bˆ g •m ,
em que
1 m 1 m Bˆ = I pq − S zx ( S zxT Sˆ −1S zx ) −1 S zxT Sˆ −1 e g •m = ∑i =1 g •i = ∑i =1 (u•i ⊗ z•i ) . m m Como
m g •m → N ( pq ) ( 0, S ) , Cov a ( g •m ) = S , d
conclui-se que
m δˆ = ( J kT S zxT Wˆ S zx J k ) −1 J kT S zxT Wˆ Bˆ m g• m → N ( k1 ){ 0, Cov a (δˆ)} , d
desde que a matriz Cov a (δˆ) tenha inversa. Neste caso, tem-se
Cov a (δˆ) = ( J kT QzxT W Qzx J k ) −1 J kT QzxT W B S BTW Qzx J k ( J kT QzxT W Qzx J k ) −1 ,
onde W = plim(Wˆ ) = Pe ⊗ Qzz−1 e B = plim( Bˆ ) = I pq − Qzx (QzxT S −1Qzx ) −1 QzxT S −1 . Para provar que Cov a (δˆ) é não singular, vai confirmar-se, em primeiro lugar, T T que J k Qzx W Qzx J k é não singular. Com efeito, tem-se
Anexo 7A – Complementos
16
J kT QzxT W Qzx J k = E ( F•i ⊗ z•i )T ( Pe ⊗ Qzz−1 ) E ( F•i ⊗ z•i ) = E ( F•Ti Pe F•i ) , em que z•i “desaparece” porque todos os elementos de F•i estão incluídos em z•i . Como E ( F•Ti Pe F•i ) tem inversa (ver a demonstração das propriedades do estimador EF), está garantida a não singularidade de J kT QzxT W Qzx J k . Fica ao cuidado do leitor provar que BTW Qzx J k , matriz de tipo pq × k1 , tem característica igual a k1 . Nestas circunstâncias, conclui-se que Cov a (δˆ) é invertível. Um estimador consistente de Cov a (δˆ) é Cov a (δˆ ) = ( J kT S zxT Wˆ S zx J k ) −1 J kT S zxT Wˆ Bˆ Sˆ Bˆ TWˆ S zx J k ( J kT S zxT Wˆ S zx J k ) −1 . ^
Pode verificar-se sem dificuldade que
Cov a (δˆ) = Cov a (φˆEF ) − J kT Cov a ( βˆEA ) J k = Cov a (φˆEF ) − Cov a (φˆEA ) ,
Cov a (δˆ) = Cov a (φˆEF ) − J kT Cov a ( βˆEA ) J k = Cov a (φˆEF ) − Cov a (φˆEA ) . ^
^
^
^
^
Então, conclui-se que esta matriz é definida positiva, e, portanto, H ≥ 0 . O resultado (7.82) resulta imediatamente do princípio MGM de Hausman. O teste de Hausman é considerado um teste de especificação porque pode detectar a violação de (7.79), que faz parte da hipótese a manter do modelo com componentes do erro. No entanto, convém aprofundar esta questão de forma a dar uma resposta à seguinte pergunta: que testa a estatística de Hausman? Para simplificar, suponha-se que Σ = E (u•i u•Ti ) é conhecido, e que xti• = f ti• (não há regressores constantes no tempo). Assim, (7.79) reduz-se a E ( xti •α i ) = 0 , qualquer que seja t, que é a restrição que não se usa no estimador EF. Será o estimador EA necessariamente inconsistente quando não se verifica E ( xti •α i ) = 0 , mas as outras hipóteses do modelo com componentes do erro (MCE) são satisfeitas? Comece-se por notar que
βˆEA = ∑i =1 X •Ti Σ −1 X •i
m
−1
∑
= β + ∑i =1 X •Ti Σ −1 X •i m
Então,
m
i =1
−1
X •Ti Σ −1 ( X •i β + u•i )
∑
m
i =1
X •Ti Σ −1u•i .
plim(βˆEA ) = β + E ( X •Ti Σ −1 X •i ) −1 E ( X •Ti Σ −1u•i ) ,
onde u•i = e pα i + v•i . A consistência do estimador exige que E ( X •Ti Σ −1u•i ) = 0 . Assim: desde que se verifique E ( xti •vsi ) = 0 , a condição E ( xti •α i ) = 0 é suficiente para que E ( X •Ti Σ −1u•i ) = 0 ; contudo, esta condição não é necessária. Deste modo, em rigor, o teste de Hausman não testa E ( xti •α i ) = 0 , mas sim E ( X •Ti Σ −1u•i ) = 0 .
Anexo 7A – Complementos
17
7A.7 - Demonstração das propriedades assintóticas do estimador EF no caso de painéis não balanceados A demonstração destas propriedades também se pode fazer de duas formas: provar que estimador EF é estimador MGM, e aplicar os respectivos resultados assintóticos; analisar a expressão do respectivo erro de amostragem. Directamente, vai provar-se apenas que E{( F•ci )T v•ci } = 0 . Com efeito, como ( F•ci )T v•ci = F•Ti Pd i v•i = ∑t =1 ∑ s =1 ctsi dti d si f ti • vsi , p
p
onde ctsi é o elemento genérico de Pd i , resulta
E{( F•ci )T v•ci } = ∑t =1 ∑ s =1 E (ctsi dti d si fti • vsi ) = 0 , p
p
porque, atendendo à hipótese MENO.2′′ ,
E (ctsi dti d si fti • vsi ) = E{E (ctsi dti d si fti • vsi | d•i )} = E{ctsi dti d si E ( fti • vsi | d•i )} = 0 .
Deve notar-se que a extensão das propriedades do estimador EF ao caso dos painéis não balanceados é mais fácil admitindo a possibilidade de existir heterocedasticidade condicionada. No caso de homocedasticidade condicionada, para obter, por exemplo, a expressão correspondente a (7.67), deve supor-se que
E{v•ci (v•ci )T | z•i , d•i } = E{v•ci (v•ci )T } .
A determinação de um estimador consistente desta matriz é mais complicado do que (7.68). Alternativamente, o estimador EF pode ser obtido fazendo a “compressão” do vector y•i e da matriz F•i , ou seja, eliminando os zeros do primeiro, e as linhas nulas da segunda: obtém-se, respectivamente, y•∗i (vector pi × 1 ), e F•∗i (vector pi × k1 ). Neste caso, d•∗i = e pi (vector-coluna com pi uns), a que corresponde a matriz Pei . Verifica-se facilmente que m φˆEF = ∑i =1 ( F•∗i )T Pei F•∗i
−1
∑
m
i =1
( F•∗i )T Pei y•∗i .
Quando se considera o modelo y•i = X •i β + u•i , com dados de painel não balanceados, em que se admite a possibilidade de existir heterocedasticidade condicionada, o estimador PMQ pode ser construído, sem dificuldade, fazendo d u d x d y 1i 1i 1i 1i • 1i 1i d 2 i u2 i d 2i x2i • d 2 i y2 i . e u•i = , X •i = y•i = M M M d piu pi d pi x pi • d pi y pi
Então,
βˆ
PMQ
m = ∑i =1 X •Ti X •i
−1
∑
m
i =1
X •Ti y•i ,
Anexo 7A – Complementos
18
Cov a ( βˆPMQ ) = E ( X •Ti X •i ) −1 E ( X •Tiu•iu•Ti X •i ) E ( X •Ti X •i ) −1 ,
1 m Cov a ( βˆPMQ ) = ∑i =1 X •Ti X •i m ^
onde uˆ•i = y•i − X •i βˆPMQ .
−1
1 m T ∑ X uˆ uˆ T X 1 ∑m X T X , • • • • • • i i i i i i m i =1 m i =1 −1
ANEXO 9A COMPLEMENTOS SOBRE EQUAÇÕES COM DIFERENÇAS 9A.1 - Equações lineares com diferenças e com coeficientes constantes Começa-se por apresentar o conceito geral de equação com diferenças. Definição 9A.1 - Equação com diferenças Considere-se uma variável yt que depende de t, desconhecida, bem como as sucessivas diferenças até à ordem p, ∆yt , ∆2 yt ,…, ∆p yt , e uma variável, wt , conhecida. Uma equação com diferenças de ordem p é uma relação conhecida entre t, yt , ∆yt , ∆2 yt ,…, ∆p yt e wt , F (t , yt , ∆yt , ∆2 yt , , ∆p yt , wt ) = 0 . Como a diferença de ordem s ( s = 1, 2, , p ) de yt é uma expressão que apenas depende de yt , yt −1 ,…, yt −s , a relação que define a equação com diferenças de ordem p pode escrever-se da seguinte maneira: (9A.1)
F (t , yt , yt −1 , yt − 2 ,
, yt − p , wt ) = 0 .
As equações com diferenças que são considerado no capítulo 9 são as equações lineares de ordem p com coeficientes constantes introduzidas na definição 9.1: (9A.2)
yt = ϕ 1 yt −1 + ϕ 2 yt −2 +
+ ϕ p yt − p + wt .
A obtenção da solução geral da respectiva equação homogénea foi feita no capítulo 9, para os seguintes casos: p = 1 ; p = 2 ; qualquer p. Para obter a solução geral de (9A.2), sabe-se que esta solução, yt , é igual à soma da solução geral da correspondente equação homogénea, yth , com uma solução particular da equação (não homogénea), ytp : yt = yth + ytp . Vai complementar-se o estudo feito no capítulo 9, com a obtenção de uma solução particular de (9A.2), quando wt = α (constante) e wt = α + β t (tendência linear). Para p = 1 , tem-se: a) wt = α . Para resolver a equação yt = α + ϕ yt −1 , vai ver-se em que condições ytp = δ é uma solução particular. Fazendo a substituição na equação, tem-se
Anexo 9A – Complementos sobre equações com diferenças
δ=
α 1−ϕ
2
,
supondo que ϕ ≠ 1 . Então, a solução geral da equação é
α
yt = cϕ t +
1−ϕ
.
Uma solução definida quando yt 0 é conhecido é, então, yt = y t 0 −
α
ϕ t −t + 0
1−ϕ
α 1−ϕ
.
Quando ϕ = 1 , a equação reduz-se a yt = α + yt −1 . Uma solução particular é dada por ytp = α t ; a solução geral é yt = c + α t ; conhecendo yt 0 , uma solução definida é yt = yt 0 + α (t − t0 ) . b) wt = α + β t . Para resolver a equação yt = α + β t + ϕ yt −1 , vai indagar-se a que condições devem obedecer δ 0 e δ 1 para que ytp = δ 0 + δ 1t seja uma solução particular. Substituindo na equação, vem
δ 0 + δ 1t = α + β t + ϕ (δ 0 + δ 1 (t − 1) ) , ou
δ 0 + δ 1t = (α + ϕ δ 0 − ϕ δ 1 ) + ( β + ϕ δ 1 ) t . Então, (1 − ϕ )δ 0 + ϕ δ1 = α (1 − ϕ )δ1 = β . donde
δ0 = δ1 =
α (1 − ϕ ) − β ϕ (1 − ϕ ) 2 β 1−ϕ
.
Conclui-se, portanto, que ytp =
α (1 − ϕ ) − β ϕ β t, + 2 (1 − ϕ ) 1−ϕ
quando ϕ ≠ 1 . A solução geral é dada por yt = cϕ t +
α (1 − ϕ ) − β ϕ β + t. 2 (1 − ϕ ) 1−ϕ
Com yt 0 conhecido, a respectiva solução definida é
Anexo 9A – Complementos sobre equações com diferenças
yt = yt0 −
3
α (1 − ϕ ) − β ϕ β α (1 − ϕ ) − β ϕ β − + t0 ϕ t − t + t. 2 2 (1 − ϕ ) 1−ϕ (1 − ϕ ) 1−ϕ 0
Para ϕ = 1 , a equação reduz-se a yt = α + β t + yt −1 . Para resolver esta equação, vai ver-se em que condições ytp = δ 0t + δ 1t 2 é uma solução particular. Assim, de
δ 0t + δ 1t 2 = α + β t + δ 0 (t − 1) + δ 1 (t − 1) 2 , ou
δ 0t + δ 1t 2 = α + β t + δ 0t − δ 0 + δ 1t 2 − 2δ 1t + δ 1 , vem (δ 0 − δ 1 ) + 2δ 1t = α + β t . Donde
2α + β δ0 = δ 0 −δ 1 = α 2 . ⇔ β 2δ 1 = β δ1 = 2
Então, ytp =
2α + β β t + t2 . 2 2
A solução geral é, então, yt = c +
2α + β β t + t2 . 2 2
Para yt 0 conhecido, a solução definida respectiva é yt = yt 0 +
2α + β β (t − t0 ) + (t 2 − t02 ) . 2 2
Quando p = 2 , obtém-se: a) wt = α . Para resolver a equação yt = α + ϕ 1 yt −1 + ϕ 2 yt −2 , propõe-se uma solução particular da forma ytp = δ . Fazendo a substituição na equação, tem-se
δ=
α , 1 − ϕ1 − ϕ 2
desde que ϕ1 + ϕ 2 ≠ 1 . Então, tem-se a solução geral, yt = yth +
α , 1 − ϕ1 − ϕ 2
yth é a solução geral da respectiva equação homogénea, que depende do caso considerado. Por exemplo, se as raízes são reais e distintas, vem yt = c1λ1t + c2 λt2 +
α . 1 − ϕ1 − ϕ 2
Anexo 9A – Complementos sobre equações com diferenças
4
Fica ao cuidado do leitor estabelecer as soluções definidas quando y0 e y1 são conhecidos. Quando ϕ1 + ϕ 2 = 1 , a equação passa a ser yt = α + ϕ 1 yt −1 + (1 − ϕ 1) yt −2 . Para resolver vai ver-se em que condições ytp = δ t é uma solução particular. Facilmente se verifica que
δ=
α , 2 − ϕ1
ytp =
α t. 2 − ϕ1
supondo ϕ1 ≠ 2 . Então,
Fica ao cuidado do leitor obter a solução geral e a solução definida, para y0 e y1 conhecidos, para os três casos estudados. Se ϕ1 + ϕ 2 = 1 e ϕ1 = 2 , a equação reduz-se a yt = α + 2 yt −1 − yt −2 . Propondo como solução particular, ytp = δ t 2 , obtém-se δ = −α / 2 . Donde, ytp = −
α 2
t2 .
Para os três casos de raízes da equação característica, fica ao cuidado do leitor a obtenção da solução geral e da solução definida quando y0 e y1 são conhecidos. b) wt = α + β t . Para resolver a equação yt = α + β t + ϕ 1 yt −1 + ϕ 2 yt −2 , propõe-se a solução particular ytp = δ 0 + δ 1t , e procuram-se determinar os valores de δ 0 e δ 1 . Substituindo na equação, obtém-se a igualdade (1 − ϕ1 − ϕ 2 )δ 0 + (ϕ1 + 2 ϕ 2 )δ 1 + (1 − ϕ1 − ϕ 2 )δ 1t = α + β t . Pode, então, concluir-se que
δ0 =
(1 − ϕ1 − ϕ 2 )α − (ϕ1 + 2 ϕ 2 ) β β e δ1 = , 2 (1 − ϕ1 − ϕ 2 ) 1 − ϕ1 − ϕ 2
admitindo que ϕ1 + ϕ 2 ≠ 1 . Fica ao cuidado leitor obter, quando y0 e y1 são conhecidos, a solução geral e a solução definida, para os três casos estudados. Quando ϕ1 + ϕ 2 = 1 , tem-se a equação yt = α + β t + ϕ 1 yt −1 + (1 − ϕ 1) yt −2 . A solução particular a ensaiar é ytp = δ 0t + δ 1t 2 , obtendo-se (2 − ϕ1 )δ 0 − (4 − 3ϕ1 )δ 1 + 2(2 − ϕ1 )δ 1t = α + β t . Donde
δ0 =
2(2 − ϕ1 )α − (4 − 3ϕ1 ) β β , e δ1 = 2 2 (1 − ϕ1 ) 2(2 − ϕ1 )
admitindo que ϕ1 ≠ 2 . Fica ao cuidado do leitor obter, para os três casos estudados, a solução geral e a solução definida (com y0 e y1 conhecidos).
Anexo 9A – Complementos sobre equações com diferenças
5
Quando ϕ1 + ϕ 2 = 1 e ϕ1 = 2 , a equação passa a ser yt = α + β t + 2 yt −1 − yt −2 . Considerando como solução particular ytp = δ 0t 2 + δ 1t 3 , a relação que se obtém a partir da equação é dada por 2δ 0 − 6δ 1 + 6δ 1t = α + β t . Então,
δ0 =
α+β 2
e δ1 =
β 6
.
Fica ao cuidado do leitor determinar, para os três casos estudados, a solução geral e a solução definida (quando y0 e y1 são conhecidos). Para qualquer p, fica ao cuidado do leitor a obtenção das soluções da equação não homogénea para as duas situações referidas.
9A.2 - Equações vectoriais de 1.ª ordem O estudo das equações (escalares) de ordem p pode ser reduzido à análise de equações vectoriais de 1.ª ordem. Seja:
ξt =
yt yt −1 yt − 2 yt −( p−2 ) yt −( p−1)
ϕ1 ϕ 2 ϕ 3
ϕ p−1 ϕ p
1
0
0
0
0
; F= 0
1
0
0
0 ; vt =
0
0
0
1
0
wt 0 0
,
0 0
onde: ξ t e vt são vectores p × 1 ; F é uma matriz p × p . Facilmente se verifica que no sistema de p equações de diferenças (equação vectorial de 1.ª ordem), (9A.3)
ξ t = Fξ t −1 + vt ,
onde
ξt −1 =
yt −1 yt − 2 yt −3
,
yt − ( p −1) yt − p a primeira equação é (9A.2), ou seja, yt = ϕ 1 yt −1 + ϕ 2 yt −2 + + ϕ p yt − p + wt (as outras p − 1 equações são, obviamente, yt −1 = yt −1 , yt −2 = yt −2 ,…, yt − p+1 = yt − p+1 ). Deste modo,
Anexo 9A – Complementos sobre equações com diferenças
6
a equação vectorial de 1.ª ordem, (9A.3), não é mais do que outra forma de representar a equação escalar de ordem p, (9A.2). Notando que y0
ξ0 =
y−1 y −2
,
y −( p − 2 ) y−( p−1) a equação (9A.3) pode resolver-se pelo método da substituição recursiva, tal como se fez para (9.5), obtendo-se uma solução definida semelhante a (9.6): (9A.4)
ξ t = F tξ 0 + F t −1v1 + F t −2 v2 +
+ F vt −1 + vt .
Não é difícil verificar que o primeiro elemento de ξ t , em (9A.4), é dado por (9A.5)
yt = f11(t ) y0 + f12(t ) y−1 + f13(t ) y−2 + + f11( t −1) w1 + f11( t −2) w2 +
onde: − f11( t ) , f12( t ) , f13(t ) , −
f11( t −1) , f11( t −2) ,
+ f1(pt ) y−( p−1)
+ f11(1) wt −1 + wt ,
, f1(pt ) são os elementos da primeira linha da matriz F t ; , f11(1) são os elementos da primeira linha e na posição (1,1) das matri-
zes F t −1 , F t −2 ,
, F , respectivamente.
Conclui-se, portanto, que yt é uma função de p valores iniciais (os elementos do vector ξ 0 ), e dos valores w1 , w2 ,…, wt . Do mesmo modo que (9.10), vem (9A.6)
ξ t +s = F s +1ξ t −1 + F s vt + F s−1vt +1 + F s −2vt +2 +
+ F vt + s−1 + vt + s ,
e (9A.7)
yt + s = f11( s +1) yt −1 + f12( s +1) yt −2 + f13( s +1) yt −3 + + f11( s ) wt + f11( s −1) wt +1 + f11( s −2) wt + 2 +
+ f1(ps +1) yt − p + f11(1) wt + s −1 + wt + s .
Neste caso, o multiplicador dinâmico é dado por (9A.8)
∂ yt + s = f11( s ) , ∂ wt
onde, obviamente, f11( s ) representa o elemento (1,1) da matriz F s . Facilmente se verifica que: ∂ yt + 2 ∂ yt +1 = ϕ1 ; = ϕ12 + ϕ 2 . ∂ wt ∂ wt O estudo das soluções e dos multiplicadores dinâmicos pode ser feito a partir dos valores próprios da matriz F, ou seja, fazendo | F − λ I p | = 0 , onde, como se sabe,
Anexo 9A – Complementos sobre equações com diferenças
7
o determinante é um polinómio, em λ , de grau p; as p raízes do polinómio são os valores próprios de F. Por exemplo, para p = 2 , os valores próprios são dados por
ϕ1 − λ
ϕ2 = λ2 − ϕ1λ − ϕ 2 = 0 , −λ
1
que não é mais do que a equação característica da equação de 2.ª ordem. Este resultado sugere o seguinte:
Teorema 9A.1 Os valores próprios da matriz F são as soluções da equação característica, (9.19), da equação de diferenças linear de ordem p, com coeficientes constantes. Dem.: Com efeito, seja
ϕ1 − λ | F − λ Ip |=
ϕ3
ϕ p −1
ϕp
1
ϕ2 −λ
0
0
0
0
1
−λ
0
0
0
0
0
−λ
0
0
0
0
1
−λ
.
Sabe-se que: por meio de operações elementares sobre as colunas de F − λ I p se pode obter uma matriz triangular superior com o mesmo determinante; o determinante desta matriz é igual ao produto dos elementos da diagonal principal. Verifica-se, sem dificuldade, que os p elementos da diagonal principal da matriz triangular podem ser os seguintes: − λ + ϕ1 +
ϕ 2 ϕ3 + + λ λ2
+
ϕp , − λ, λ p−1
, −λ .
Então,
| F − λ I p | = − λ + ϕ1 +
ϕ 2 ϕ3 + + λ λ2
+
ϕp (−λ ) p −1 p −1 λ
= (−1) p −1 (−λ p + ϕ1λ p −1 + ϕ2λ p − 2 + ϕ3λ p − 3 + = (−1) p (λ p − ϕ1λ p −1 − ϕ2λ p − 2 − ϕ3λ p − 3 −
+ϕp)
−ϕp),
o que mostra claramente a equivalência entre | F − λ I p | = 0 e (9.19). ∇∇ Se os valores próprios são distintos (reais ou complexos), existe uma matriz B, quadrada de ordem p, não singular, que permite diagonalizar a matriz F, B −1 F B = Λ ⇔ F = B Λ B −1 ,
Anexo 9A – Complementos sobre equações com diferenças onde Λ é a matriz diagonal dos valores próprios, Λ = Diag {λ1 , λ2 , dificuldade, que F s = B Λs B −1 ,
8 , λ p } ; decorre, sem
onde Λs = Diag {λ1s , λs2 , , λsp } . Se se designar por bij e b ij os elementos genéricos das matrizes B e B −1 , respectivamente, pode verificar-se que o elemento (1,1) de F s é dado por
f11( s ) = (b11b11 )λ1s + (b12b 21 )λs2 + onde hi = b1i b i1 ( i = 1, 2,
+ (b1 p b p1 )λsp = h1λ1s + h2 λs2 +
+ h p λsp ,
, p ). Note-se que
h1 + h2 +
+ h p = b11b11 + b12b 21 +
+ b1 p b p1 = 1 ,
uma vez que é o elemento (1,1) da matriz B B −1 . Pode, então, obter-se o resultado (9.24), (9A.9)
∂ yt + s = h1λ1s + h2 λs2 + ∂ wt
+ h p λsp ,
onde a expressão de cada hi ( i = 1, 2, , p ) já é conhecida. Deste modo, o multiplicador dinâmico é uma média ponderada das potências de expoente s dos valores próprios da matriz F. Sejam λ1 , λ2 , , λq , os valores próprios da matriz F (quadrada de ordem p), em que a multiplicidade algébrica de λi ( i = 1, 2, , q ) é pi . Facilmente se conclui que q ≤ p e que a soma das multiplicidades algébricas é p: p1 + p2 + + pq = p . Quando q = p , todos os valores próprios são distintos (todas as multiplicidades algébricas são iguais a 1). Neste caso, existem p vectores próprios linearmente independentes (cada um, associado a um e só um valor próprio), que constituem as colunas da B (matriz quadrada de ordem p, não singular) diagonalizadora de F: B −1F B = Λ ( Λ é a matriz diagonal dos valores próprios). Quando q < p , há, pelo menos, um valor próprio repetido (pelo menos um deles tem multiplicidade algébrica maior do que 1). Sendo m o número de vectores próprios linearmente independentes, tem-se q ≤ m ≤ p , e duas situações podem ocorrer. Na primeira, supõe-se que é possível dispor ainda de p vectores próprios linearmente independentes. Isto consegue-se, quando (e só quando) se podem determinar pi vectores próprios linearmente independentes associados a cada valor próprio λi . Neste caso, tem-se q < m = p , e continua a ter-se B −1F B = Λ ( Λ é matriz diagonal dos p valores próprios, com as repetições dadas pelas multiplicidades algébricas respectivas). Não segunda situação, tem-se q ≤ m < p , e não existem p vectores próprios linearmente independentes. Nestas condições, não se pode diagonalizar a matriz F, de modo a obter a decomposição F = B Λ B −1 . No entanto, é possível encontrar outra decomposição de F – que permite determinar uma expressão para o multiplicador dinâmico –, conhecida pelo nome de decomposição de Jordan. Qualquer que seja a matriz F, pode provar-se que, existe uma matriz G (quadrada de ordem p, não singular), tal que
Anexo 9A – Complementos sobre equações com diferenças
9
F = G J G −1 , onde J é também uma matriz quadrada de ordem p, diagonal por blocos,
J=
J1 O
O J2
O O
O
O
Jm
tal que cada bloco diagonal (bloco de Jordan) é da forma
a)
b)
c) d)
λi
1
0 J = 0
λi
0 1
0
λi
0 0 0
0
0
0
λi
( = 1,2,
, m ).
Podem-se fazer os seguintes comentários à matriz J e aos blocos de Jordan: Como J não é diagonal, a matriz G não é diagonalizadora de F; no entanto, J é “quase diagonal” (na diagonal principal encontram-se os valores próprios; apenas tem um 1 em cada linha a seguir ao elemento da diagonal principal; os restantes elementos são nulos). Na diagonal principal de cada matriz J repete-se o mesmo valor próprio. No entanto, o mesmo valor próprio pode aparecer em vários blocos de Jordan (em tantos, quantos os vectores próprios linearmente independentes associados ao valor próprio). O número de vezes que o mesmo valor próprio aparece na diagonal principal da matriz J é igual à sua multiplicidade algébrica. Cada bloco de Jordan é uma matriz quadrada de ordem n e n1 + n2 + + nm = p . Facilmente se verifica que F s = G J s G −1 ,
onde
Js =
J1s O
O J 2s
O O
O
O
J ms
,
podendo provar-se que
λsi C1s λsi −1 C2s λsi −2 C1s λis −1 0 λsi Js = 0 λis 0 0
0
0
Cns −1λis −n +1 Cns −2 λis −n +2 Cns −3λis −n +3 ( = 1, 2,
λsi
, m ),
Anexo 9A – Complementos sobre equações com diferenças
10
onde s! ( s ≥ n) Cns = n!( s − n)! 0 ( s < n) . Por exemplo, no caso em que p = 2 (equação de 2.ª ordem) e os valores próprios de F são reais e iguais, vem
g F = G J G = 11 g 21 s
s
−1
=
g12 g 22
λs
sλs −1
0
λs
g11 1 g11 g 22 − g12 g 21 g 21
g11 g 21 g12 g 22
g12 g 22
λs
−1
sλs −1
λ
0
g 22 − g12 , − g 21 g11
s
ficando ao cuidado do leitor verificar que ∂ yt + s g11 g 21 sλs−1 . = f11( s ) = λs − g11 g 22 − g12 g 21 ∂ wt Vai ser retomado o estudo, em geral, das equações vectoriais de 1.ª ordem, (9A.3). Quando os valores próprios da matriz F verificam a condição | λi | < 1 , F s tende para O quando s → +∞ , e é possível obter uma relação de longo prazo, em que yt é função de toda a “história” da variável de input. Com efeito, supondo que as sucessões { yt } e {wt } são limitadas, fazendo, indefinidamente em (9A.5), a substituição recursiva, vem (9A.10)
yt = wt + f11(1) wt −1 + f11( 2 ) wt −2 + f11(3) wt −3 +
.
No caso particular em que os valores próprios são distintos, tem-se
f11( s ) = h1λ1s + h2 λs2 +
+ h p λsp ( s = 1, 2, 3,
).
Como se sabe, o valor actual do fluxo de valores futuros do output, yt , yt +1 , yt +2 ,…, para um dado factor de actualização γ , é dado por (9.12). Suponha-se que se pretende determinar a variação deste valor actual quando wt varia de uma unidade. Para isso, começa-se por estabelecer que, devido a (9A.7), se tem ∂ ∂ ξ t+s = Fs e ∂ vt ∂ vt
+∞
s =0
γ sξt + s =
+∞
s =0
γ s F s = ( I p − γ F ) −1 ,
desde que | λi | < 1 / γ . Pode, então, provar-se que [Hamilton (1994), pp. 23-24] (9A.11)
∂ VA t = ∂ wt
+∞ s =0
γs
∂ yt + s 1 = ∂ wt 1 − ϕ1γ − ϕ 2γ 2 −
− ϕ pγ
p
,
que é o elemento (1,1) da matriz ( I p − γ F ) −1 . O efeito acumulado para o output, quando wt varia de uma unidade, é obtido, fazendo γ = 1 em (9A.11). Assim, (9A.12)
+∞ s =0
∂ yt + s 1 = ∂ wt 1 − ϕ1 − ϕ 2 −
−ϕ p
.
Anexo 9A – Complementos sobre equações com diferenças
11
Este valor é também é igual ao efeito de longo prazo sobre o output, quando o input varia de uma unidade, de forma permanente. Tem-se: (9A.13)
lim
s → +∞
∂ yt + s ∂ yt + s ∂ yt + s + + + ∂ wt ∂ wt +1 ∂ wt + 2
+
∂ yt + s 1 = ∂ wt + s 1 − ϕ1 − ϕ2 −
−ϕp
.
ANEXO 10A VALORES CRÍTICOS PARA TESTES DE RAÍZES UNITÁRIAS E DE COINTEGRAÇÃO As tabelas 10A.1 e 10A.2 apresentam os valores críticos para, respectivamente, efectuar os seguintes testes de Dickey-Fuller: DF- ϕ , DF- ϕc e DF- ϕct ; DF- τ , DF- τ c e DF- τ ct . Tabela 10A.1 Valores críticos para os testes de Dickey-Fuller: DF- ϕ , DF- ϕc e DF- ϕct n 25 50 100 250 500 ∞
Probabilidade de a estatística-teste ser menor do que o valor crítico 0.01 0.025 0.05 0.10 0.90 0.95 0.975 0.99 Teste DF- ϕ : n(ϕˆ − 1) –11.8 –12.8 –13.3 –13.6 –13.7 –13.8
–9.3 –9.9 –10.2 –10.4 –10.4 –10.5
–7.3 –7.7 –7.9 –8.0 –8.0 – 8.1
–5.3 –5.5 –5.6 –5.7 –5.7 –5.7
1.01 0.97 0.95 0.94 0.93 0.93
1.41 1.34 1.31 1.29 1.28 1.28
1.78 1.69 1.65 1.62 1.61 1.60
2.28 2.16 2.09 2.05 2.04 2.03
0.00 –0.07 –0.11 –0.13 –0.14 –0.14
0.65 0.53 0.47 0.44 0.42 0.41
1.39 1.22 1.14 1.08 1.07 1.05
–2.51 –2.60 –2.63 –2.65 –2.66 –2.67
–1.53 –1.67 –1.74 –1.79 –1.80 –1.81
–0.46 –0.67 –0.76 –0.83 –0.86 –0.88
Teste DF- ϕc : n(ϕˆc − 1) 25 50 100 250 500 ∞
–17.2 –18.9 –19.8 –20.3 –20.5 –20.7
–14.6 –15.7 –16.3 –16.7 –16.8 –16.9
–12.5 –13.3 –13.7 –13.9 –14.0 –14.1
–10.2 –10.7 –11.0 –11.1 –11.2 –11.3
25 50 100 250 500 ∞
–22.5 –25.8 –27.4 –28.5 –28.9 –29.4
–20.0 –22.4 –23.7 –24.4 –24.7 –25.0
–17.9 –19.7 –20.6 –21.3 –21.5 –21.7
–15.6 –16.8 –17.5 –17.9 –18.1 –18.3
Fonte: Fuller (1996).
–0.76 –0.81 –0.83 –0.84 –0.85 –0.85 Teste DF- ϕct : n(ϕˆct − 1) –3.65 –3.71 –3.74 –3.76 –3.76 –3.77
2
Anexo 10A – Valores críticos para testes de raízes unitárias e de cointegração Tabela 10A.2 Valores críticos para os testes de Dickey-Fuller: DF- τ , DF- τ c e DF- τ ct n 25 50 100 250 500 ∞
Probabilidade de a estatística-teste ser menor do que o valor crítico 0.01 0.025 0.05 0.10 0.90 0.95 0.975 0.99 Teste DF- τ –2.65 –2.26 –1.95 –1.60 0.92 1.33 1.70 2.15 –2.62 –2.25 –1.95 –1.61 0.91 1.31 1.66 2.08 –2.60 –2.24 –1.95 –1.61 0.90 1.29 1.64 2.04 –2.58 –2.24 –1.95 –1.62 0.89 1.28 1.63 2.02 –2.58 –2.23 –1.95 –1.62 0.89 1.28 1.62 2.01 –2.58 –2.23 –1.95 –1.62 0.89 1.28 1.62 2.01 Teste DF- τ c
25 50 100 250 500 ∞
–3.75 –3.59 –3.50 –3.45 –3.44 –3.42
–3.33 –3.23 –3.17 –3.14 –3.13 –3.12
–2.99 –2.93 –2.90 –2.88 –2.87 –2.86
–2.64 –2.60 –2.59 –2.58 –2.57 –2.57
–0.37 –0.41 –0.42 –0.42 –0.44 –0.44
0.00 –0.04 –0.06 –0.07 –0.07 –0.08
0.34 0.28 0.26 0.24 0.24 0.23
0.71 0.66 0.63 0.62 0.61 0.60
–0.81 –0.87 –0.90 –0.92 –0.93 –0.94
–0.50 –0.58 –0.62 –0.64 –0.65 –0.66
–0.15 –0.24 –0.28 –0.31 –0.32 –0.32
Teste DF- τ ct 25 50 100 250 500 ∞
–4.38 –4.16 –4.05 –3.98 –3.97 –3.96
–3.95 –3.80 –3.73 –3.69 –3.67 –3.67
–3.60 –3.50 –3.45 –3.42 –3.42 –3.41
–3.24 –3.18 –3.15 –3.13 –3.13 –3.13
–1.14 –1.19 –1.22 –1.23 –1.24 –1.25
Fonte: Fuller (1996).
A tabela 10A.3 apresenta os valores críticos para os testes de cointegração de Engle-Granger, quando se considera a equação de regressão y1t = β 0 + β T z•t + λT y•(t2) + ut ,
para os seguintes casos: 1) E (∆y•( t2 ) ) = 0 e E (∆y1t ) = 0 ; 2)
E (∆y•(t2) ) ≠ 0 , mas E (∆y1t ) pode ser nulo ou não;
3)
E (∆y•( t2 ) ) = 0 e E (∆y1t ) ≠ 0 .
Os valores críticos referentes ao primeiro caso encontram-se na tabela 10A.3(a), e, para os outros dois casos, na 10A.3(b).
Anexo 10A – Valores críticos para testes de raízes unitárias e de cointegração
3
Tabela 10A.3 Valores críticos para os testes de cointegração de Engle-Granger N.º de regressores (excluindo o termo independente)
1% 2.5% 5% (a) Os regressores não têm deriva 1 –3.96 –3.64 –3.53 2 –4.31 –4.02 –3.77 3 –4.73 –4.37 –4.11 4 –5.07 –4.71 –4.45 5 –5.28 –4.98 –4.71 (b) Os regressores têm deriva 1 –3.96 –3.67 –3.41 2 –4.36 –4.07 –3.80 3 –4.65 –4.39 –4.16 4 –5.04 –4.77 –4.49 5 –5.36 –5.02 –4.74
10% –3.07 –3.45 –3.83 –4.16 –4.43 –3.13 –3.52 –3.84 –4.20 –4.46
Fonte: (a) Phillips e Ouliaris (1990); (b) linha 1 – Fuller (1996); (b) linhas 2 a 5 – Phillips e Ouliaris (1990).
Em vez das tabelas anteriores, podem utilizar-se os valores referidos na tabela 10A.4 para calcular valores críticos para efectuar os testes de Dickey-Fuller (na versão rácios- τ ) e os testes de cointegração de Engle-Granger. Para isso, utiliza-se a fórmula de MacKinnon (1991), Cˆ (α , n) = βˆ∞ + βˆ1 n −1 + βˆ 2 n −2 , onde α é a dimensão do teste e n é o número de observações. Nesta tabela, m representa o número de variáveis envolvidas no teste ( m = 1 para os testes de Dickey-Fuller; m = 2, ,6 para os testes de Engle-Granger).
Anexo 10A – Valores críticos para testes de raízes unitárias e de cointegração
Tabela 10A.4 Estimativas dos parâmetros da fórmula de MacKinnon para calcular os valores críticos para os testes de Dickey-Fuller (rácios- τ ) e para os testes de Cointegração de Engle-Granger m
Variante
1
Sem constante
1
Sem tendência
1
Com tendência
2
Sem tendência
2
Com tendência
3
Sem tendência
3
Com tendência
4
Sem tendência
4
Com tendência
5
Sem tendência
5
Com tendência
6
Sem tendência
6
Com tendência
Fonte: MacKinnon (1991).
α 1 5 10 1 5 10 1 5 10 1 5 10 1 5 10 1 5 10 1 5 10 1 5 10 1 5 10 1 5 10 1 5 10 1 5 10 1 5 10
βˆ∞ –2.5658 –1.9393 –1.6156 –3.4335 –2.8621 –2.5671 –3.9638 –3.4126 –3.1279 –3.9001 –3.3377 –3.0462 –4.3266 –3.7809 –3.4959 –4.2981 –3.7429 –3.4518 –4.6676 –4.1193 –3.8344 –4.6493 –4.1000 –3.8110 –4.9695 –4.4294 –4.1474 –4.9587 –4.4185 –4.1327 –5.2497 –4.7154 –4.4345 –5.2400 –4.7048 –4.4242 –5.5127 –4.9767 –4.6999
βˆ1 –1.960 –0.398 –0.181 –5.999 –2.738 –1.438 –8.353 –4.039 –2.418 –10.534 –5.967 –4.069 –15.531 –9.421 –7.203 –13.790 –8.352 –6.241 –18.492 –12.024 –9.188 –17.188 –10.745 –8.317 –22.504 –14.501 –11.165 –22.140 –13.641 –10.638 –26.606 –17.432 –13.654 –26.278 –17.120 –13.347 –30.735 –20.883 –16.445
βˆ 2 –10.04 –0.00 –0.00 –29.25 –8.36 –4.48 –47.44 –17.83 –7.58 –30.03 –8.98 –5.73 –34.03 –15.06 –4.01 –46.37 –13.41 –2.79 –49.35 –13.13 –4.85 –59.20 –21.57 –5.19 –50.22 –19.54 –9.88 –37.29 –21.16 –5.48 –49.56 –16.50 –5.77 –41.65 –11.17 –0.00 –52.50 –9.05 –0.00
4