Na verdade, as regressões que estimei nos posts anteriores parecem-me de validade muito duvidosa. Veja-se:
- Casos em que mudar uma variável altera bastante os resultados para as outras variáveis (p.ex., usar a "Idade" ao o "Para Aproveitamento" altera logo o efeito da escola privada de 5 décimas para 8 décimas de valor)
- Variáveis que parecem significativas, mas que têm que ser excluidas "à mão" porque a lógica diz que é impossível essas variáveis serem significativas (o caso da "Fase")
- Variáveis que, intuitivamente, é de esperar que tenham pouca importância ("Nº de Exames", "Idade") revelarem-se mais significativas do que variáveis que, à partida era de esperar que tivessem importância (p.ex. "Interno").
Acho que a causa destes estranhos fenómenos deve ser a mudança de método do primeiro para o segundo post - deixei de tentar explicar os resultados de cada exame para passar a tentar explicar os resultados de cada escola (agrupando todos os exames e fazendo a média), nomeadamente porque era mais simples tratar 593 observações do que 65.491. Isso pode ter tido dois efeitos:
Dá, no cálculo, o mesmo peso a uma escola que tenha realizado 50 exames e a uma que tenha realizado 200 (por outras palavras, amplia por 4 os efeitos que possam ocorrer nos exames na pequena escola)
Ao reduzir e agregar o número de observações, pode aumentar a correlação entre as variáveis (sobretudo ser elas já forem correlacionadas), dando origem aos problemas referidos aqui.
Se, em vez das médias por escola, tomar como base os resultados por exame, a maior parte das correlações entre as variáveis reduz-se bastante - a única correlação significativa passa a ser a entre "Para Aprovação" e "Para Melhoria" (-0,68), o que até é de esperar, já que nenhum teste que é "Para Aprovação" é "Para Melhoria" e vice-versa (a matriz de correlações está no fim do post)
Assim, vou voltar a estimar a regressão, mas agora fazendo o cálculo para os exames e não para as escolas.
- Casos em que mudar uma variável altera bastante os resultados para as outras variáveis (p.ex., usar a "Idade" ao o "Para Aproveitamento" altera logo o efeito da escola privada de 5 décimas para 8 décimas de valor)
- Variáveis que parecem significativas, mas que têm que ser excluidas "à mão" porque a lógica diz que é impossível essas variáveis serem significativas (o caso da "Fase")
- Variáveis que, intuitivamente, é de esperar que tenham pouca importância ("Nº de Exames", "Idade") revelarem-se mais significativas do que variáveis que, à partida era de esperar que tivessem importância (p.ex. "Interno").
Acho que a causa destes estranhos fenómenos deve ser a mudança de método do primeiro para o segundo post - deixei de tentar explicar os resultados de cada exame para passar a tentar explicar os resultados de cada escola (agrupando todos os exames e fazendo a média), nomeadamente porque era mais simples tratar 593 observações do que 65.491. Isso pode ter tido dois efeitos:
Dá, no cálculo, o mesmo peso a uma escola que tenha realizado 50 exames e a uma que tenha realizado 200 (por outras palavras, amplia por 4 os efeitos que possam ocorrer nos exames na pequena escola)
Ao reduzir e agregar o número de observações, pode aumentar a correlação entre as variáveis (sobretudo ser elas já forem correlacionadas), dando origem aos problemas referidos aqui.
Se, em vez das médias por escola, tomar como base os resultados por exame, a maior parte das correlações entre as variáveis reduz-se bastante - a única correlação significativa passa a ser a entre "Para Aprovação" e "Para Melhoria" (-0,68), o que até é de esperar, já que nenhum teste que é "Para Aprovação" é "Para Melhoria" e vice-versa (a matriz de correlações está no fim do post)
Assim, vou voltar a estimar a regressão, mas agora fazendo o cálculo para os exames e não para as escolas.
Correlações verificadas entre os exames
Pub Priv | Interno | Fase | Para Aprov | Para Melhoria | Para Ingresso | Sexo | Idade | poder compra | Nº de exames | |
PubPriv | 1,00 | 0,07 | 0,00 | 0,02 | 0,02 | 0,02 | -0,01 | -0,09 | 0,13 | -0,20 |
Interno | 1,00 | -0,16 | 0,28 | 0,12 | 0,03 | 0,17 | -0,38 | -0,08 | -0,07 | |
Fase | 1,00 | -0,31 | 0,34 | -0,01 | -0,01 | 0,07 | -0,01 | 0,00 | ||
ParaAprov | 1,00 | -0,68 | -0,08 | 0,15 | -0,32 | -0,04 | -0,03 | |||
ParaMelhoria | 1,00 | 0,04 | -0,01 | -0,05 | 0,00 | 0,00 | ||||
ParaIngresso | 1,00 | -0,07 | 0,00 | 0,02 | 0,04 | |||||
Sexo | 1,00 | -0,15 | -0,05 | -0,02 | ||||||
Idade | 1,00 | 0,07 | 0,06 | |||||||
poder compra | 1,00 | 0,20 | ||||||||
Nº de exames | 1,00 |
No comments:
Post a Comment