Monday, November 05, 2007

Análise às notas dos exames do Secundário (X)

Na verdade, as regressões que estimei nos posts anteriores parecem-me de validade muito duvidosa. Veja-se:

- Casos em que mudar uma variável altera bastante os resultados para as outras variáveis (p.ex., usar a "Idade" ao o "Para Aproveitamento" altera logo o efeito da escola privada de 5 décimas para 8 décimas de valor)

- Variáveis que parecem significativas, mas que têm que ser excluidas "à mão" porque a lógica diz que é impossível essas variáveis serem significativas (o caso da "Fase")

- Variáveis que, intuitivamente, é de esperar que tenham pouca importância ("Nº de Exames", "Idade") revelarem-se mais significativas do que variáveis que, à partida era de esperar que tivessem importância (p.ex. "Interno").

Acho que a causa destes estranhos fenómenos deve ser a mudança de método do primeiro para o segundo post - deixei de tentar explicar os resultados de cada exame para passar a tentar explicar os resultados de cada escola (agrupando todos os exames e fazendo a média), nomeadamente porque era mais simples tratar 593 observações do que 65.491. Isso pode ter tido dois efeitos:

Dá, no cálculo, o mesmo peso a uma escola que tenha realizado 50 exames e a uma que tenha realizado 200 (por outras palavras, amplia por 4 os efeitos que possam ocorrer nos exames na pequena escola)

Ao reduzir e agregar o número de observações, pode aumentar a correlação entre as variáveis (sobretudo ser elas já forem correlacionadas), dando origem aos problemas referidos aqui.

Se, em vez das médias por escola, tomar como base os resultados por exame, a maior parte das correlações entre as variáveis reduz-se bastante - a única correlação significativa passa a ser a entre "Para Aprovação" e "Para Melhoria" (-0,68), o que até é de esperar, já que nenhum teste que é "Para Aprovação" é "Para Melhoria" e vice-versa (a matriz de correlações está no fim do post)

Assim, vou voltar a estimar a regressão, mas agora fazendo o cálculo para os exames e não para as escolas.

Correlações verificadas entre os exames


Pub Priv
Interno Fase Para Aprov Para Melhoria Para Ingresso Sexo Idade poder compra Nº de exames
PubPriv
1,00 0,07 0,00 0,02 0,02 0,02 -0,01 -0,09 0,13 -0,20
Interno
1,00 -0,16 0,28 0,12 0,03 0,17 -0,38 -0,08 -0,07
Fase

1,00 -0,31 0,34 -0,01 -0,01 0,07 -0,01 0,00
ParaAprov


1,00 -0,68 -0,08 0,15 -0,32 -0,04 -0,03
ParaMelhoria



1,00 0,04 -0,01 -0,05 0,00 0,00
ParaIngresso




1,00 -0,07 0,00 0,02 0,04
Sexo





1,00 -0,15 -0,05 -0,02
Idade






1,00 0,07 0,06
poder compra







1,00 0,20
Nº de exames








1,00

No comments: