O Tiago Mendes faz algumas sugestões:
"A variabilidade nos resultados de Matemática (infelizmente ainda não consegui abrir a base de dados), onde existem imensos “zeros” convida, quanto a mim, a fazer dois exercícios: um com os dados totais, outro excluindo estes outliers. Acho que era interessante veres a diferença que resulta desta escolha simples de eliminar os “zeros” (e eventualmente outras notas - sendo que é impossível não escolher uma linha de demarcação de certo modo arbitrária). Repara que isto pode mudar muito um dos coeficientes mais importantes na tua benvinda análise: aquele que indica o efeito parcial do ensino público/privado. É que, como é previsível (ou talvez não tanto assim, como disse não vi os dados, e sei que há muitas escolas privadas no fim da tabela), o facto de muitas escolas privadas terem algum poder de selecção sobre os seus alunos faz com que o número de “zeros” nas privadas seja, previsivelmente, bastante menor. Por outras palavras, aqueles que não nasceram para a Matemática estão mais que desproporcionalmente no ensino público e não tens nenhuma variável que controle isso."
Excluindo os "zeros" (129 exames em 65.491), os resultados são estes:
Se excluirmos todos os exames com menos de 10 (numa escala de 0 a 200), o que representa 594 exames, os resultados são estes:
Diga-se que há uma diferença qualitativa entre excluir os "zeros" e excluir também os 0,1 (numa escala até 20), 0,2 e afins: em principio, o aluno que vai ao exame, olha e desiste (e não sei se os dados também incluem os que nem aparecem lá) tem 0, não tem 0,1 nem 0,2.
Mas, de qualquer forma, parece-me que excluir os zeros ou todos os com menos que 1/20 não afecta de forma visível o resultado anterior.
[Espero que nenhum leitor que venha da Atlantico pelos links do TM se assuste com o post anterior]
Excluindo os "zeros" (129 exames em 65.491), os resultados são estes:
R2 | 0,20 | ||
F | 1984,19 | ||
variável: | desvio | t | |
Nº de exames | 0,01 | 0,00 | 8,22 |
poder compra | 0,16 | 0,01 | 30,24 |
Sexo | -1,72 | 0,33 | -5,16 |
ParaIngresso | 17,21 | 1,04 | 16,50 |
ParaAprov | -22,00 | 0,39 | -56,30 |
Interno | 37,90 | 0,38 | 99,79 |
PubPriv | 5,85 | 0,54 | 10,75 |
Idade | -2,32 | 0,08 | -27,93 |
C | 91,03 | 2,05 | 44,42 |
Se excluirmos todos os exames com menos de 10 (numa escala de 0 a 200), o que representa 594 exames, os resultados são estes:
R2 | 0,19 | ||
F | 1904,45 | ||
variável: | desvio | t | |
Nº de exames | 0,01 | 0,00 | 8,01 |
poder compra | 0,16 | 0,01 | 29,92 |
Sexo | -1,63 | 0,33 | -4,89 |
ParaIngresso | 16,96 | 1,05 | 16,20 |
ParaAprov | -21,94 | 0,39 | -56,24 |
Interno | 37,00 | 0,38 | 97,31 |
PubPriv (a) | 5,74 | 0,54 | 10,59 |
Idade | -2,30 | 0,08 | -27,64 |
C | 92,21 | 2,06 | 44,86 |
Diga-se que há uma diferença qualitativa entre excluir os "zeros" e excluir também os 0,1 (numa escala até 20), 0,2 e afins: em principio, o aluno que vai ao exame, olha e desiste (e não sei se os dados também incluem os que nem aparecem lá) tem 0, não tem 0,1 nem 0,2.
Mas, de qualquer forma, parece-me que excluir os zeros ou todos os com menos que 1/20 não afecta de forma visível o resultado anterior.
[Espero que nenhum leitor que venha da Atlantico pelos links do TM se assuste com o post anterior]
No comments:
Post a Comment