267 89 8MB
Portuguese Pages 147 [154] Year 1988
WILTON DE OLIVEIRA BUSSAB Prof. do Instituto de Matemática e Estatística, Universidade de S. Paulo
MÉTODOS QUANTITATIVOS
ANÁLISE DE VARIÂNCIA E DE REGRESSÃO Uma Introdução 2.a edição
Capa: Sylvio Ulhoa Cintra Filho Composição: Paika Realizações Gráficas Ltda. Assessoria Editorial: Samuel Hazzan
Copyright © Wilton O. Bussab
Dados de Catalogação na Publicação (CIP) Internacional (Câmara Brasileira do Livro, SP, Brasil)
B986a 2,ed.
Bussab, Wilton de Oliveira, 1940Análise de variância e de regressão: uma introdução / Wilton de Oliveira Bussab. — 2. ed. — São Paulo : Atual, 1988. (Coleção métodos quantitativos) Bibliografia. 1. Análise de regressão 2. Análise de variância 1. Titulo. II. Série.
CDD-519.5352 -519.536
87-2630 índices para catálogo sistemático:
1. Análise de regressão : Estatística matemática 519.536 2. Análise de variância : Estatística matemática 519.5352
Todos os direitos reservados à ATUAL EDITORA LTDA. Rua José Antônio Coelho, 785 Telefone: 575-1544 04011 — São Paulo — SP
LOYLCVV
2468 10 9753 NOS PEDIDOS TELEGRÁFICOS BASTA CITAR O CÓDIGO: ADTM0337P
Prefácio O estudo de Análise de Variância e de Regressão são usualmente os tó picos seguintes a um curso introdutório de estatística. Assim, este livro pres supõe do leitor alguns conhecimentos básicos de estatística, a nível, por exem plo, do livro Estatística Básica, meu e de Pedro A. Morettin, também per tencente a esta coleção de Métodos Quantitativos. Mantendo a linha de ser uma introdução aos dois tópicos menciona dos, o conteúdo restringe-se à apresentação e análise dos dois modelos mais simples: Análise de Variância para um único fator fixo e Análise de Re gressão Linear para uma única variável preditora. Estes tópicos são apre sentados a partir de um mesmo exemplo, procurando-se ressaltar princi palmente as suposições exigidas pelo modelo, a obtenção dos estimadores, suas propriedades, e os testes mais usuais. A Análise de Variância é o tema do Capítulo 1, enquanto a Regressão Simples é tratada no Capítulo 2. O Capítulo 3 aborda alguns modelos especiais de Regressão Linear Simples. Já o Capítulo 4 introduz a questão de investigar a veracidade das suposi ções do modelo, principalmente pela análise dos resíduos. Esta parte tem sido negligenciada na maioria dos textos introdutórios. Embora exista um grande número de exercícios distribuídos pelas diversas seções, o Apêndice A traz alguns problemas especiais, a maioria obtida de dados reais, e que serão muito úteis para aplicar os conhecimentos adquiridos. Boa parte deste material é resultado de cursos introdutórios no Institu to de Matemática e Estatística (IME) da USP, e na Escola de Administra ção de Empresas da Fundação Getúlio Vargas, e está planejado para ser lecionado entre 15 e 18 horas de aulas. Recebi ou usei, com e sem autorização, idéias, exemplos, ensinamen tos e correções de vários colegas do IME. Silvia N. Elian e Lisbeth K. Cordani leram partes deste material e fizeram contribuições valiosas. Agrade ço a todos. É claro que os erros e as partes obscuras restantes são de minha inteira responsabilidade, por não ter aprendido corretamente o que me en sinaram. Um obrigado especial a Lourdes V. Silva pela paciente e excelen te datilografia dos originais.
São Paulo, maio de 1986. Wilton de Oliveira Bussab
Dedicatória: À Mu e Mana
Sumário CAPÍTULO 1 — ANÁLISE DE VARIÂNCIA COM UM FATOR 1.1 1.2 1.3 1.4 1.5
— Introdução.................................................................................. — Modelo para Uma População.................................................. — Modelo para Duas Populações................................................ — Modelo para Mais de Duas Populações.................................. — Comparações entre as Médias..................................................
1 2 11 23 29
CAPÍTULO 2 — REGRESSÃO LINEAR SIMPLES 2.1 2.2 2.3 2.4
— Introdução.................................................................................. — Estimação dos Parâmetros...................................................... — Avaliação do Modelo................................................................ — Propriedades dos Estimadores................................................
36 38 42 50
CAPÍTULO 3 — MODELOS ESPECIAIS 3.1 3.2 3.3 3.4
— Introdução.................................................................................. — Reta Passando pela Origem...................................................... — Regressão Linear para Séries de Tempo.................................. — Transformação de Variáveis....................................................
73 73 81 86
CAPÍTULO 4 — ANÁLISE DE RESÍDUOS 4.1 4.2 4.3 4.4 4.5 4.6
— Introdução.................................................................................... 101 — Gráfico dos Resíduos................................................................... 102 — Falta de Ajustamento................................................................... 107 — Fleterogeneidade da Variância (Heterocedasticidade).......... 112 — Verificação da Normalidade....................................................... 118 — Observações Discrepantes........................................................... 124
APÊNDICE A.................................................................................................. APÊNDICE B.................................................................................................. BIBLIOGRAFIA..............................................................................................
135 142 147
CAPÍTULO
I
Análise de variância com um fator 1.1. INTRODUÇÃO Uma das preocupações estatísticas ao analisar dados, é a de criar mo delos que explicitem estruturas do fenômeno em observação, as quais freqüentemente estão misturadas com variações acidentais ou aleatórias. A iden tificação dessas estruturas permite conhecer melhor o fenômeno, bem co mo fazer afirmações sobre possíveis comportamentos do mesmo. Assim, uma estratégia conveniente de análise é supor que cada observação é formada por duas partes: uma previsível (ou controlada) e outra aleatória (ou não previsível). Desse modo, cada observação poderia ser representada por:
(observação) = (previsível) + (aleatório)
num caso de suposição de modelo aditivo, ou
(observação) = (previsível) . (aleatório)
no caso de modelo multipliçatjvo. A primeira componente, a parte previsível, incorpora o conhecimento que o pesquisador tem sobre o fenômeno e é usualmente expressajjor uma função matemática com parâmetros desconhecidos. Para a segunda componente, devido ao seu caráter aleatório, impõe-se que os mesmos obedeçam a algum modelo de probabilidade. Com essas suposições, o trabalho estatístico passa a ser aquele de pro duzir estimativas para os parâmetros desconhecidos, baseando-se em amos tras observadas. 1
Neste livro, iremos apresentar o processo de investigar dois modelos simples do tipo descrito acima, conhecidos como: modelo de análise de variância com um único fator e o modelo de regressão linear simples. Iremos introduzir as técnicas através de exemplos, e o apresentado abaixo será aquele mais utilizado, e sobre o qual procuraremos mostrar métodos alternativos de modelos de análise para um mesmo problema, cada um in corporando diferentes graus de conhecimento ou de suposições. Exemplo 1.1. Um psicólogo está investigando a relação entre o tempo que o indivíduo leva para reagir a um certo estímulo e algumas de suas ca racterísticas tais como: sexo, idade e acuidade visual (medida em %). O resultado de 20 indivíduos estão na tabela abaixo.
i Yi Wj Xj Zj
í
yi
™i
x,
Zí
i
yi
™i
Xi
Zi
1 2 3 4 5 6 7 8 9 10
96 92 106 100 98 104 110 101 116 106
H M H M M H H M M H
20 20 20 20 25 25 25 25 30 30
90 100 80 90 100 90 80 90 70 90
11 12 13 14 15 16 17 18 19 20
109 100 112 105 118 108 113 112 127 117
H M M M H H M M H H
30 30 35 35 35 35 40 40 40 40
90 80 90 80 70 90 90 90 60 80
— — — — —
indivíduo tempo de reação sexo idade acuidade visual
1.2. MODELO PARA UMA POPULAÇÃO
1.2.1. O Modelo e Seus Estimadores Inicialmente podemos admitir que nenhuma das características mencio nadas acima tenha influência sistemática no tempo de reação e esses fatores 2
somariam-se^a outros não controlados, agindo de uma maneira aleatória. O fator aleatório pode agir tanto no sentido de aumentar ou diminuir o tempo de reação. Desse modo poderiamos propor o seguinte modelo de aná lise; cada observação (tempo de reação) pode ser decomposto na soma de dois fatores: um fixo, comum a todas as observações, e outro aleatório, não controlado, resultante da soma de todas as características que poderíam in fluir no tempo de reação do indivíduo. Simbolicamente, poderiamos escrever do seguinte modo: yí = e + Ci,
(i.i)
onde
yt = tempo de reação da i-ésima observação; 0 = efeito fixo, comum a todos os indivíduos; e,-, também chamado de erro, ou efeito residual. Na realidade ej pode ser considerado como o efeito resultante de várias características que não es tão explícitas no modelo, e usando a linguagem matemática podemos escrever: ej = f(sexo, idade, ac. visual, etc...)
Para uma interpretação melhor é conveniente impor algumas condições para o modelo. A mais importante no momento é de que os resíduos assu mam valores positivos e negativos e que sua média, quando calculada para todos os indivíduos da população, seja zero. Assim, vamos supor E(e) = 0
e
Var(e) = Og.
(1.2)
Quando não houver possibilidade de confusão, deixaremos de lado o índi2 ce e na vanancia OeAssim, conhecendo os parâmetros 0 e Oç, teremos uma idéia do com portamento do tempo de reação dos indivíduos, já que, com as condições introduzidas, o tempo médio de reação dos indivíduos é igual ao parâme tro 0, enquanto que a variância será Oe- Simbolicamente
E(yi) = E(0) + E(ej) = 0 + 0 = 0 Var(yj) = Var(0) + Var(ej) = 0 + o^ = o*
(1.3) 3
Estamos propondo um modelo para todos os indivíduos, e não apenas para aqueles 20 do exemplo 1.1., que representa uma amostra da popula ção. Nosso problema agora é estimar os parâmetros 0 e Oç, em função da amostra obtida. Uma das maneiras de estimar é usando o princípio de mí nimos quadrados (ver Estatística Básica, desta mesma coleção). De acordo com o modelo proposto, temos ei = yi - 0
(1-4)
e, para cada valor de 0, teremos um resíduo diferente. O “melhor”'valor de 0 será aquele que produzir resíduos pequenos para as 20 observações da amostra. Pelo fato dos resíduos serem positivos e negativos, e por ne cessitarmos de uma medida comum dos resíduos, vamos definir a soma de quadrados dos resíduos como sendo essa medida n
SQ(0) =
n
E i = 1
ei=
E i = 1
(yi -0)2-
(1-5)
Para cada valor de 0, teremos um valor SQ(0), e sem dúvida o “melhor” valor de 0 será aquele que minimizar SQ(0). Observe que para uma dada amostra os valores de y, são constantes. Para encontrar a solução 0 que minimiza SQ(0), basta derivar a expressão (1.5) e igualar a zero; logo: n
SQ’(0) =
E i = 1
22 ] - -jV (1373) ' 72,26 Ôe = 8,5
Assim, sem nenhuma informação adicional, podemos prever o tempo de reação de uma pessoa como sendo 107,50. Aplicado esse valor para ca da uma das observações da amostra, teremos a imprecisão e; dessa estima tiva. Esses valores encontram-se na coluna e (1) da tabela 1.1. De lá pode mos observar que as piores previsões serão feitas para as observações 2 e 5
19. Elevando-se ao quadrado e somando-se aqueles valores obteremos SQ(0) = 11373 = 1373, o que dará um desvio padrão (médio) de / = 8,5, ou seja, usando a média como previsão estaremos cometendo, em média, um erro de 8,5.
TABELA 1.1. Resíduos para vários modelos ajustados aos dados do exemplo 1.1. RESÍDUOS DOS MODELOS
VARIÁVEIS
i
1 2 3 4 5 6
Tempo de Acuidade Sexo idade Visual Reação
e(l)
e(2)
e(3)
e(4)
(y, - y)
y- - yj
y, - ík
y, - y.
- 11,50 -15,50 - 1,50 -7,50 -9,50 -3,50 2,50 -6,50 8,50 - 1,50 1,50 -7,50 -4,50 -2,50 10,50 0,50 5,50 4,50 19,50 9,50
-14,1 - 12,9 -4,1 -4,9 -6,9 -6,1 -0,1 -3,9 11.1 -4,1 - 1,1 -4,9 7,1 0,1 7,9 -2,1 8,1 7,1 16,9 6,9
-2,50 -6,50 7,50 1,50 -5,25 0,75 6,75 -2,25 8,25 - 1,75 1,25 -7,75 1,25 -5,75 7,25 -2,75 -4,25 -5,25 9,75 -0,25
-2,5 -6,5 7,5 l,-‘ -5,0 1,0 7,0 -2,0 8,5 - 1,5 1,5 -7,5 0,0 -7,0 6,0 -4,0 -4,5 -5,5 9,5 -0,5
s
8,50
8,29
6,08
5,59
2s
17,50
16,58
12,16
11,18
7 8 9 10 11 12 13 14 15 16 17 18 19 20
96 92 106 100 98 104 110 101 116 106 109 100 112 105 118 108 113 112 127 117
H M H M M H H M M H H M M M H H M M H H
20 20 20 20 25 25 25 25 30 30 30 30 35 35 35 35 40 40 40 40
90 100 80 90 100 90 80 90 70 90 90 80 90 80 70 90 90 90 60 80
Notcr. Nesta tabela estão expressos os resíduos de diversos modelos ajusta dos aos dados e colocados juntos para comparar os “lucros” na adoção de cada modelo. No texto aparece o significado de cada coluna dos resíduos. 6
1.2.2. Suposições Necessárias para Inferência Para derivar o estimador de mínimos quadrados não foi necessário fa zer nenhuma suposição sobre a distribuição de probabilidade envolvendo a parte aleatória. Entretanto, para usar os dados para fazer inferência so bre a população serão necessárias algumas suposições adicionais. As mais usuais são:
(i) O erro ei tem distribuição normal, com média zero e variância Og, para todo i. : N(0 : Og) i = 1, 2,...
(ii) Os erros associados com quaisquer pares de observações são inde pendentes, o que equivale à E(ej.ej) = 0
para todo i
j.
As duas suposições acima e a expressão (1.1) mostrando que y; = - 0 + e; equivalem a afirmar que y1( y2,..., yn é uma amostra aleatória simples da população N(0 : o^), e a média y tem as seguintes propriedades (como pode ser visto em Estatística Básica, capítulos 9, 10 e 11): (a) y : N (o : -^)
(b) Sg é estimador não viesado de Og (c) (y - 0) Vn7se tem distribuição t de Student com n - 1 graus de liberdade.
Assim, podemos usar o conceito de intervalo de confiança (Estatística Básica, capítulo 9) para fazer uma previsão mais técnica do parâmetro 0. Por exemplo, podemos dizer com 95% de confiança que o parâmetro 0, a parte previsível do tempo de reação de um indivíduo, é algum valor no intervalo: 7
IC(9 : 95%) = y t t -^=- = 107,50 ± (2,093) -4|=- = x/n \ 20
= 107,50 í 3,98 = ] 103,52; 111,48 [ onde t é obtido da tabela t de Student com 19 graus de liberdade e a = 5%. De um modo geral o intervalo de confiança para o parâmetro 9 será indica do por: . IC(9 : 1 - a) = y ± t„
se
2
Vamos supor agora que quiséssemos produzir uma estimativa para um novo indivíduo da população, e não para a média da população. Pelo mo delo adotado, teríamos
Yk = 9 + ek>
O-9)
que poderá ser estimado por
(1-10)
yk = y + ek,
e como não existe meio de estimar ek, vamos substituir pelo seu valor es perado que é zero. Assim, o estimador para uma observação ainda é a mé dia da amostra, isto é,
yk = y.
(111)
O que irá mudar agora será a variância desse estimador. Da expressão (1.10) acima, e com a suposição de que ek é uma nova observação independente das anteriores podemos escrever:
Var(yk) = Var(Y) + Var(ek) =
= -< + n 8
oi = Oe
+ v;
(l-12)
e que será estimada por
Var(yk) = sj (1 + -^-
(1.13)
De modo análogo, podemos construir um intervalo de confiança para uma observação do seguinte modo:
IC(y : 1 - a) = y - t.se
(1.14)
Voltando ao nosso exemplo, podemos escrever
IC(y : 95%) = 107,5 ± (2,093' (8,5)
+ 1 =
= 107,5 ± 18,23 = ] 89,27; 125,73 [.
Ou seja, temos 95% de confiança de que um indivíduo dessa população, tenha o seu tempo de reação entre 89,27 e 125,73. Convém observar a importância da variância residual na construção dos intervalos de confiança, e modelos, com pequenos valores de Oe, produzi rão etimativas mais “seguras”. Nas seções seguintes veremos a importân cia e utilização dessa estatística na análise dos modelos. Para encerrar esta seção convém lembrar também que sobre o erro fo ram feitas algumas suposições, e seria muito conveniente analisá-las à pro cura de alguma possível transgressão. Uma das boas ferramentas para esta análise é a representação gráfica das mesmas. A figura 1.1. apresenta o gráfico da coluna e (1) da tabela 1.1. Este gráfico deve ser analisado procurando-se detectar possíveis fugas à aleatoriedade, normalidade e igualdade de variância (homocedasticidade). No capítulo 4 iremos tratar este assunto com maiores detalhes; por enquanto faremos uma análise mais superficial. Assim, o gráfico dos resíduos não sugere nenhuma transgressão das suposições. O número de resíduos positi vos é quase igual aos negativos (11 e 9). Dentro do intervalo de -2se até + 2se caem 19 casos, 95% das observações s, de - se à + se caem 14, ou se ja, 70%, enquanto que na curva normal seriam esperados 95% e 68% res 9
pectivamente. A única observação que merece maior atenção é o caso n? 19, que produz um resíduo muito grande (- 19,50). Mas não possuímos informações suficientes para sugerir algo de errado com esse dado.
------ *_*
...»
- 8,50 (- 15e)
- 17,00 (—2se)
...
t
**-----------
8,50 (—5e)
0
17,00 (25e)
Fig. 1.1. — Resíduos do modelo yj = y + e;
PROBLEMAS
1.
Usando a variável W, acuidade visual, do exemplo 1.1: (a) Qual o correspondente ao modelo (1.1)? Dê o significado de cada símbolo. (b) Qual a estimativa de MQ para 0?
E para ô|? Construa IC(0 : 95%). (e) Construa IC(y : 90%). (/) Faça uma análise dos resíduos.
(c)
(d)
2.
No quadro abaixo estão os dados referentes a uma amostra de 21 alunos do primeiro ano de um curso universitário. Os dados referem-se a: y : nota obtida na primeira prova do curso x : se cursou escola particular(P) ou oficial(O) z : o período em que está matriculado: matutino(M), vespertino(V) e noturno(N).
y X z 10
56 P N
68 O M
69 P M
70 P M
70 O V
72 O N
75 O M
77 P M
83 P V
84 P N
84 O N
y X z
85 O V
90 P V
92 O M
95 P M
95 P N
95 P V
100 p V
100 p M
100 P M
100 P V
Faça uma análise da variável y análoga à realizada no problema 1. 3. Conduziu-se um estudo-piloto para determinar qual o intervalo de normalidade pa
ra o peso de crianças com 10 anos de idade. Usando-se uma amostra de 50 crianças; encontrou-se o peso x de cada uma delas, cujos resultados resumidos são: Sx = = 1 639,5 kg e Sx2 = 56 950,33 kg2. Com esses dados, quais seriam os limites de um intervalo, para que crianças com 10 anos de idade fossem consideradas como tendo peso normal? [Pense no IC, e lembre-se que S(x - x)2 = Sx2 - (Ex)2/n.]
1.3. MODELO PARA DUAS POPULAÇÕES
1.3.1. O Modelo e seus Estimadores Efeito do fator sexo sobre o tempo de reação Suponhamos agora que desejamos investigar o efeito do sexo sobre o tempo de reação. Isso equivalería a retirar esse fator do erro residual, que é uma soma de vários fatores. Caso esse fator seja importante para prever o tempo de reação das pessoas, devemos fazer a previsão com mais preci são, o que significa diminuir o erro residual. Desse modo, poderiamos rees crever o modelo (1.1) do seguinte modo:
Yij = 0i + ejj,
(1.15)
onde: 0i = efeito comum a todos os elementos do grupo i (i = 1, homem, i = 2, mulher) eq = efeito aleatório, não controlado, do j-ésimo indivíduo do grupo i. Yij = tempo de reação do j-ésimo indivíduo do grupo i. 11
Novamente, nosso objetivo inicial é estimar os parâmetros 0] e 02 e verificar se são diferentes, isto é, se o fato de conhecer o sexo da pessoa ajuda-nos a prever o tempo de reação dessa pessoa. Aqui, mais uma vez, precisamos impor algumas condições para encontrarmos os estimadores, e ainda dentro do princípio de mínimos quadrados. A primeira restrição é que os erros distribuam-se em torno de zero, dentro do respectivo grupo, ou seja
E(ei) = 0
E(e2) = 0,
e
(1.16)
onde ej é o erro não controlado (aleatório) de uma observação qualquer do grupo i. Com essa suposição estamos pedindo apenas que os erros distribuam-se aleatoriamente em torno do parâmetro 0j. As variâncias residuais serão indicadas por
Var(e() = Oj
Var(e2) = o^.
e
(1.17)
Os estimadores de 0j e 02 de mínimos quadrados, serão aqueles que pro duzirão o mínimo valor para soma dos quadrados residuais, isto é, n(
2
rij
2
sQ(0b 02)= i E É= i eü = 1 E= 1 jE= i (yü-0i)2 = = i í
n2
n,
=
Ej
j = 1
ni
(yií - 0')2 + j E (y2j ~02)2 = 1 n2
(1-18)
Observe que se as variâncias residuais o, e o2 não forem iguais, essa soma será mais afetada por aquele grupo que possui maior variância, e isso deveria influenciar a escolha dos estimadores. Neste caso, uma sugestão é usar os resíduos padronizados, ou seja, minimizar a expressão 12
n'
/»
\2
j = 1
\
'
/
\2
y (eij) + y (e2'j V
(1.19)
j = 2 ' 02 /
que é o caso de mínimos quadrados ponderados. Aqui, por facilidade nas deduções e das propriedades, iremos trabalhar com o caso simples de igualda de de variâncias. Então estaremos impondo uma outra restrição:
Var(ei) = Var(e2) 2
2
(1.20) 2
°1 = °2 = °e
É a propriedade conhecida como hotnocedasticidade, isto é, estamos ad mitindo que a variabilidade residual é a mesma nos dois grupos. Derivando a expressão (1.18) em relação à 0] e igualando a zero, vem
8;) - 0 — 2 dOl
ni 2 2j = Y2-
(1.21)
Ou seja, os estimadores de mínimos quadrados de 0, e 02 são as respecti vas médias para cada grupo. A quantidade total de informação perdida se rá então nj
2
sq(0i,
=
ni E j = i
§2) =
S
i = i
S
j = i
(yij ~ y‘)2
"i ?
(yü _ yi)2 +
j
(y2j ~ y2)2’
(1.22)
-1 13
Vejamos outra maneira de escrever essa soma de quadrados. Dentro do grupo de homens, a variância of seria estimada por (cf. Estatística Bá sica, capítulo 9). t
1
s'=~iírH-
S
"i
j = i
a-23)
(yu-yi)2.
e a variância o2 das mulheres, por 1
"2
Mas, devido à imposição (1.20), of = 0^ temos acima dois estimadores do mesmo parâmetro, a variância residual a£. Assim podemos definir a va riância comum ponderada (cf. Estatística Básica, capítulo 11) por
2 (ni - l)sf + (n2 - l)s2 se----------------------------- ni + n2 - 2
SQ(0b 02) n - 2—’
n ,5) u ’
que é a quantidade de informação média perdida.
Exemplo 1.3. Voltando aos dados, obteremos Grupo dos Homens jq = 110,1 S(Yij - yi)2= 670,9 Grupo das Mulheres y2 = 104,90 S(y2j - yl? = 566,9
sf = 74,54
sj = 62>"
Daqui teríamos
2 = 670,9 4- 566,9 = 1o 14
= 8>29.
Os resíduos deste modelo encontram-se na coluna e (2) da tabela 1.1. Comparando os resíduos das colunas e (1) e e (2) vemos que o segundo me lhora um pouco as previsões, isto é, faz o resíduo médio cair de 8,50 para 8,29. Mas essa queda parece-nos muito pequena para justificar a afirma ção de que o conhecimento do sexo do indivíduo ajuda a melhorar a previ são sobre o tempo de reação dele. Assim, neste caso, talvez fosse preferível adotar o modelo simples (1.1) de um único grupo, em vez do modelo (1.15) com dois grupos.
1.3.2. Suposições para Inferência Como na seção anterior, é necessário introduzir uma estrutura de pro babilidades sobre os erros para fazer inferências sobre os parâmetros po pulacionais. As suposições, dentro de cada população, serão as mesmas já adotadas e mais uma estabelecendo condições entre as observações das duas populações. Assim teremos:
(i) ejj : N(0 : Og), para todo i = 1,2 e j = 1,2,..., n, (ii) E(ejj. ejk) = 0, para j k e i = 1,2 indicando independência entre as observações dentro de cada população. (iii) E(eij. e2k) = 0, para todo j e k, indicando independência entre obser vações das duas populações.
Com essas suposições, teremos duas amostras aleatórias simples inde pendentes, retiradas das populações N(0j : Oç) e N(02 : Og), e, conseqüentemente (Estatística Básica), y> : n(0j :
e
y2 : n(o2 :
o que permite construir intervalos de confiança separados para os dois pa râmetros 0[ e 02Exemplo 1.4. «
IC(0,; 95%) = yj ± t -^~= H0,10 ± 2,101
8 29
=
= 110,10 ± 5,51 = ] 104,59; 115,61 [ 15
IC(02;95%)
= y2 t t
= 104,90 ± 2,101 -^==
= 104,90 ± 5,51 = ] 99,39; 110,41 [
onde t é encontrado na tabela t de Student com 18 graus de liberdade. O primeiro intervalo indica o tempo médio esperado para todos os homens, enquanto que o segundo é o tempo médio esperado para todas as mulhe res. Querendo produzir uma estimativa para um homem e usando dedu ção similar à obtida para a expressão (1.14), teremos 1 + 1 = 10
IC(ylj;95%) = 110,10 ± 2,101(8,29)
= 110,10 ± 18,27
De modo análogo, para uma mulher teríamos: IC(y2j;95%) = 104,90 t 18,27. Observe que estes intervalos são amplos, devido principalmente ao al to valor do resíduo médio (se). Se o modelo tivesse produzido resíduos me nores, os intervalos seriam menores e as estimativas mais precisas. Este fa to será um dos guias básicos que usaremos na procura de modelos mais adequados. Ainda com as suposições feitas, podemos concluir que
yi - y2 : NÍ0] - 02 :
+
£e_\
n2 /
ou ainda, a estatística
(yi - y?) - (9i - 62)
16
tem distribuição t de Student com rii + n2 - 2 graus de liberdade (Esta tística Básica, capítulo 11). Desse modo, podemos construir um intervalo de confiança para a diferença. Voltando ao exemplo, teremos:
+ -^ =
IC(0! - G2 : 95%) = (yj - y2) ± t se
=
= (110,1 - 104,9) * (2,101) (8,29) j
= 5,2 t 7,79 = ] -2,59;12,99 [ Este resultado mostra que as duas médias podem ser iguais, já que o zero pertence ao intervalo. Isto está de acordo com o resultado já aponta do de que o conhecimento do sexo do indivíduo não irá ajudar a prever o tempo de reação.
1.3.3. Análise de Resíduos Para verificar a adequacidade dos dados às suposições feitas, devemos usar os resíduos do modelo (1.15), listados na coluna e (2) da tabela 1.1. Como anteriormente, faremos uma investigação gráfica e descritiva dos mes mos. A figura 1.2 mostra os resíduos das duas amostras.
(a) Homens
______ ,__ •_________ ,__ •__ •__ •••._________ ••___________ • - 16,58 (- 2se)
- 8,29 (- se)
0
8,29 (se)
1 6,58 (2sc)
C1
(b) Mulheres ______ t______ •______ t__ •__ |«______________ ___lí.___•________
— 16,58
-8,25
0
8,29
।_______
16,58
c2
Fig. 1.2. — Resíduos do modelo (1.15) 17
Olhando a figura 1.2a, podemos notar uma pequena predominância de valores negativos sobre os positivos. Novamente, a causa é o alto resíduo da observação n? 19 (tabela 1.1), que obriga haver um número maior de negativos para compensá-lo. (Lembre-se de que uma das propriedades da mé dia é que a soma dos resíduos deve ser zero.) Entretanto, devido ao peque no número de observações, não nos parece haver uma transgressão muito forte da aleatoriedade. Já a figura 1.2b parece-nos melhor comportada. A comparação das duas figuras parece confirmar a homocedasticidade (igual dade das variâncias).
1.3.4. Tabela de Análise de Variância As operações processadas anteriormente podem ser resumidas num qua dro para facilitar a análise. Adotado o modelo
Yi = 0 + ej,
que é equivalente ao modelo Yii = 0 + ejj,
a quantidade de informação perdida é dada por sq(0) = E E (yij - y)2 = SQTot. O-26) i
J
que iremos chamar de soma total de quadrados. Analogamente, adotado o modelo, Yij = 6i + eij,
a quantidade de informação perdida é dada por sq(0i, 02) = EM _ yj)2 + E^j - yiz)2 =
= E E (yij “ Yi)2 = SQDen,
i 18
j
(1.27)
que iremos chamar de soma de quadrados dentro dos dois grupos, ou so ma de quadrados residuais. A economia obtida por passar de um modelo para o outro será
SQTot - SQDen = SQEnt,
(1.28)
a qual chamaremos de soma de quadrados entre os grupos. Através de pro priedades de somatória podemos verificar que
SQEnt = 2 n>
- y>2-
(1.29)
i
Observando essa expressão, vemos que ela mede uma certa distância da média de cada grupo para a média global. Quanto mais diferentes fo rem as médias yfs, maior será a “economia” SQEnt obtida pelo modelo; conseqüentemente, e devido à (1.28), menor será SQDen. Também vimos anteriormente que os desvios padrões residuais dos dois modelos eram dados respectivamente por:
s2 =
Ç Ç (yij - y)2 =
nQ-°1 = QMTot
(L30)
«e = ni + *2 - 2 ^>2 + Etaj - y2)2} =
= SQDen = QMDen> n — 2
(1 31)
os quais serão referidos como quadrado médio total e quadrado médio dentro (ou residual), respectivamente. Todas essas informações são agrupadas numa única tabela, conhecida pelo nome de ANOVA (abreviação de ylTValysis Of K4riance), descrita a seguir. 19
ANOVA Fonte de Variação()
Graus de Liberdade(gl)
SQ
QM
F
Entre Dentro
1 n - 2
SQEnt SQDen
QMEnt QMDen(Se)
QMEnt/Se
Total
n - 1
SQTot
s2
Sobre os valores QMEnt e a coluna indicada porF, falaremos na seção 1.4.2.
Exemplo 1.5. Com os dados obtidos anteriormente, podemos construir a ANOVA para o modelo yy = 0j + ey, que será
ANOVA para o fator sexo.
Õ
gl
SQ
QM
F
Entre Dentro
1 18
135,20 1 237,80
135,20 68,77
1,97
Total
19
1 373,00
72,26
No momento, para julgarmos a economia produzida pelo modelo, com paramos os resultados 68,77 e 72,26, verificando que não diminuiu muito o erro residual neste novo modelo. Da ANOVA encontramos os desvios padrões residuais se = V68,77 = 8,29
e
s = V72,26 = 8,50
e com estes dados podemos construir intervalos de confiança como foi fei to anteriormente. 20
Observando a tabela acima, vemos que ao passar de um modelo para outro economizamos 135,20 na soma de quadrados, ou seja, economizamos
135 20 ,,-TL = 0,0985 = 9,85% = 10%, 1 J/j,uU
aproximadamente 10% na soma dos quadrados dos resíduos. Podemos di zer que essa é a porcentagem da variação total explicada pelo modelo y^ = 0i + ejj. Essa medida é chamada de coeficiente de explicação e é defini da por: r2 = SQEnt SQTot
(1.32)
A conveniência ou não da adoção do modelo yjj = 0j + ey está asso ciada ao teste Ho : 0i = 02» já que a aceitação desta hipótese implica a ado ção do primeiro modelo, isto é, y^ = 0 + e,j. Com as suposições feitas, a estatística para este teste é (cf. Estatística Básica, capítulo 11).
Yi - Y2
(1.33)
que tem distribuição t de Student com ni + n2 - 2 graus de liberdade. Também sabemos que o quadrado da estatística t tem distribuição F de Snedecor com 1 e n! + n2 - 2 graus de liberdade (cf. Estatística Básica, capí tulo 11). Contudo,
QMEnt = SnjÍYi - y)2 = n^y, - y)2 + n2(y2 - y)2,
(1.34)
_í. n2y2 , podemos escrever e como y = _niYi ni + n2 21
n2(yi - ¥2)
QMEnt = ni
-ni(yi - y2)12
2
n2
ni + 112
nl t,,n2
(y, - y2)2 =
_
1
ni + ri2
-.y 1
ti]
(1.35)
n2
Desse modo, teremos
(yi - Vi)2
QMEnt
(1.36)
Esta é a estatística que aparece na última coluna da tabela ANOVA. Desse modo, temos também na tabela uma outra estatística que permite julgar a adoção do modelo. Exemplo 1.6. Da ANOVA, vemos que o valor da estatística é F = 1,97. Consultando a tabela F de Snedecor com 1 e 18 graus de liberdade e a = 5%, encontramos o valor crítico para F como sendo 4,41. Assim, somos levados a não rejeitar Ho : 0i = 02, ou seja, não há vantagem em adotar o segundo modelo. Em outras palavras, o fator sexo não melhora a previ são do tempo de reação do indivíduo. Para melhor entender os resultados, apresentamos na figura 1.3 as observações diferenciadas pelo sexo. Podese observar que, embora as médias dos grupos sejam distintas, as observa ções estão muito misturadas, não mostrando um padrão distinto para ho mens e mulheres.
—!_•---- —।----------------- +-----
—+—e----- i—s-----5—•----- W.t,+ * M
90
100
H
110
• . . . mulher +...homem □ . . . Média
Fig. 1.3. — Tempo de reação segundo o sexo. 22
y
120
130
PROBLEMAS 4.
Usando a acuidade visual como a variável resposta (exemplo 1.1), e sexo como a va riável de classificação: (a) Encontre as estimativas de MQ para 0, e 02. (b) Encontre a estimativa da variância residual comum Oç. (c) Construa o 1C(0, - 02 : 95%). (d) Construa a tabela ANOVA e analise os resultados obtidos. (e) Calcule o valor de R2. (/) Você diria que o fator sexo influi na acuidade visual? (Teste a hipótese Ho : 0] = 02-) (g) A análise dos resíduos sugere a violação de algumas das suposições básicas? (h) Qual seria a acuidade visual esperada para uma mulher?
5.
Usando os dados do problema 2, você diria que o fato de a pessoa ter cursado a escola particular ou oficial influi no resultado da primeira prova? (Sugetão: siga todos os passos do problema 4, antes de tomar sua decisão.)
6.
Em uma pesquisa sobre rendimentos por hora, entre assalariados segundo o grau de instrução, obtiveram-se os dados do quadro abaixo. Construa a tabela ANOVA e verifique se existe diferença significativa entre os rendimentos das duas categorias.
Escolaridade
n
Xx
Xx2
l.° grau 2.° grau
50 20
111,50 71,00
259,93 258,89
[Observação: os rendimentos x estão expressos como % do salário mínimo (SM)].
1.4. MODELO PARA MAIS DE DUAS POPULAÇÕES
1.4.1. Efeito da Idade sobre o Tempo de Reação De modo análogo àquele da seção 1.3, podemos propor yij = 0i + eij,
i = 1, 2, 3, 4, 5 j = 1, 2, 3, 4
(1.37)
(cada grupo de idade), (indivíduo). 23
Queremos minimizar
SQ(91, e2, 03, 04, 05) =
2 (Yij - 0i)2, i
(1.38)
j
sujeito às restrições E(eO = 0 Var(e,) = Var(e2) = Var(e3) = Var(e4) = Var(e5) = o2,
É fácil verificar que
= V £ yü
@i =
(1-39)
e que SQDen = SQ(0b 02, §3, §4,
= Z 2 (y>j ~ yi)2 =
= Z