O Tiago Mendes também sugere:
"a eliminação das melhores notas poderia também ser interessante, ao “alisar” um pouco a tua base de dados, tirando os outliers no topo e na base. Nas escolas públicas haverá certamente notas estratosféricas a matemática, mas espera-se, pelas médias observadas, uma desproporção dessas notas de topo nas privadas. Repito que a justificação essencial para isto não se baseia no facto de elas serem um outlier, mas no facto de haver uma assimetria no poder de selecção dos melhores alunos entre as escolas privadas e públicas."
Efectivamente, 1,5% dos exames das privadas têm notas iguais ou superiores a 19,7, contra 0,94% nas públicas (1% no conjunto dos exames). No entanto, excluir essas notas (junto com os menores que 1) do cálculo não me parece ter grandes consequências:
A única consequência que noto nesta regressão e na outra é que a exclusão dos valores extremos diminui alguma coisa o coeficiente da variável "Interno", ou seja, que provavelmente haverá um peso muito desproporcionado de "externos" nos zeros e uns e de "internos" nos dezanoves e vintes.
Ainda a respeito de sugestões, o Lidador/José Carmo sugere correr sobre os dados um algoritmo de data mining, mas tenho que confessar que nem sei bem o que é isso.
"a eliminação das melhores notas poderia também ser interessante, ao “alisar” um pouco a tua base de dados, tirando os outliers no topo e na base. Nas escolas públicas haverá certamente notas estratosféricas a matemática, mas espera-se, pelas médias observadas, uma desproporção dessas notas de topo nas privadas. Repito que a justificação essencial para isto não se baseia no facto de elas serem um outlier, mas no facto de haver uma assimetria no poder de selecção dos melhores alunos entre as escolas privadas e públicas."
Efectivamente, 1,5% dos exames das privadas têm notas iguais ou superiores a 19,7, contra 0,94% nas públicas (1% no conjunto dos exames). No entanto, excluir essas notas (junto com os menores que 1) do cálculo não me parece ter grandes consequências:
R2 | 0,19 | ||
F | 1904,92 | ||
variável: | desvio | t | |
Nº de exames | 0,01 | 0,00 | 7,51 |
poder compra | 0,16 | 0,01 | 29,67 |
Sexo | -1,76 | 0,33 | -5,39 |
ParaIngresso | 16,12 | 1,02 | 15,73 |
ParaAprov | -22,37 | 0,38 | -58,53 |
Interno | 36,14 | 0,37 | 97,05 |
PubPriv (a) | 5,45 | 0,53 | 10,21 |
Idade | -2,26 | 0,08 | -27,70 |
C | 92,92 | 2,01 | 46,12 |
A única consequência que noto nesta regressão e na outra é que a exclusão dos valores extremos diminui alguma coisa o coeficiente da variável "Interno", ou seja, que provavelmente haverá um peso muito desproporcionado de "externos" nos zeros e uns e de "internos" nos dezanoves e vintes.
Ainda a respeito de sugestões, o Lidador/José Carmo sugere correr sobre os dados um algoritmo de data mining, mas tenho que confessar que nem sei bem o que é isso.
3 comments:
Obrigado, Miguel. E se excluirmos os 10% piores resultados e os 5% melhores resultados? Nao te quero chatear com isto, obviamente, e' so' uma proposta...
Outra coisa que julgo interessante fazer (vou ver se consigo abrir os ficheiros de Acess, mas a partir do meu Dept. tem sido dificil) e' um ranking das escolas por regiao/distrito do pais, assim como a media de cada distrito. Fizeste isso mais atras, nao? Se os dados estiverem no Excel e' facil fazer esse "sort", vou ver se tenho mais sorte com o ficheiro de Excel que puseste la' mais atras. Acho que era interessante ter varias distribuicoes por regioes diferentes do pais justapostas no mesmo grafico.
"Fizeste isso mais atras, nao? "
Não. Estava era a pensar em testar a hipotese (através de uma dummy) de as escolas do Algarve terem resultados diferentes (afinal, ambas as secundárias de Portimão têm uma nota média inferior ao previsto pela fórmula que estimei lá atrás)
Muito interessante. Algumas sugestões: cheguei agora aqui e não me apetece ir procurar o número de observações - ou seja, podias incluir o n quando apresentas resultados; pensa usar outros estimadores. É conveniente respeitar algumas hipóteses básicas, nomeadamente o facto da variável dependente se restringir a valores entre 0 e 20, coisa que um OLS simples não respeita. Um modelo muito mais sofistificado seria um hurdle model (para o caso em que usas como observações as notas individuais). primeiro modeliza-se a probabilidade de ir a exame (isto baseia-se nos zeros da série) e depois modeliza-se então a nota prevista do aluno. mas pronto, isto são picuinhices, na prática espero que os resultados sejam basicamente idênticos. excelentes posts.
Post a Comment