Thursday, November 15, 2007

Análise aos exames do Secundário (mais um post...)

Eu já tinha dado esta série por encerrada, mas pelos vistos isto tornou-se um vicio (podia ser pior...), pelo que vou fazer mais um post.

Agora, decidi calcular uma regressão, não para os exames de Matemática, mas para todos os exames (menos os do estrangeiro e 2 exames que não tinham indicação de idade) - 398.179.

Assim, a cada disciplina (menos "Matemática A/Matemática", sobre a qual incidiram os anteriores cálculos) atribuí uma variável dummy. Não utilizei a variável "Número de exames" e estive para utilizar uma variável indicativa que o aluno era externo à disciplina mas fez pelo menos um exame como interno a outra (mas a correlação - negativa - com a variável "Interno" era tão grande que decidi ignorá-la).

Como 398.179 linhas não cabem numa folha de Excel (que só tem 65 mil e tal linhas) e como descobri que não tinha o TSP gravado no disco e que a disquete que nos foi distribuida nas aulas de econometria (para aí em 1994) já não estava totalmente legível, o cálculo acabou por ser feito em gretl.

Como havia uma correlação de 0,58 entre "Interno" e "ParaAprovação" e de -0,6 entre "ParaAprovação" e "ParaMelhoria", optei por deixar a variável "ParaAprovação" de fora.

Resultados:

VARIÁVEL COEFICIENTE ERRO PADRÃO T




const 77,18 0,63 122,54
Privado 5,78 0,19 30,42
poder_compra 0,08 0,00 60,15
Interno 14,27 0,14 104,30
Fase -1,04 0,13 -7,81
ParaMelhoria 20,02 0,16 122,50
ParaIngresso 11,77 0,33 35,72
Sexo 0,45 0,12 3,74
Idade -0,88 0,02 -36,68
E_Filosofia 27,41 0,90 30,36
E_Latim -15,22 4,85 -3,14
E_Portugues 11,04 0,83 13,32
E_Psicologia 11,40 0,34 33,36
E_Portugues239 26,59 5,40 4,93
E_Frances317 -0,12 16,36 -0,01
E_GeomDescritiv 22,71 0,76 29,70
E_Ingles450 80,71 25,86 3,12
E_Alemao501 37,99 1,68 22,61
E_Frances517 34,82 1,69 20,57
E_Espanhol547 61,24 2,23 27,44
E_Ingles550 62,56 1,17 53,24
E_Biologia 16,19 0,30 53,67
E_Fisica -26,97 0,64 -41,92
E_Geologia 0,32 0,69 0,47
E_Historia -3,53 0,34 -10,23
E_Portugues639 13,53 0,20 68,91
E_Quimica 5,81 0,40 14,45
E_Alemao701 26,40 1,67 15,81
E_BiologiaGeolo -8,74 0,22 -40,31
E_Informatica 12,19 1,03 11,84
E_Desenho 28,87 0,51 56,81
E_GeometriaDesc -1,37 0,44 -3,14
E_Economia 12,67 0,33 38,21
E_Filosofia714 16,98 0,65 26,19
E_FisicoQuimica -14,96 0,22 -69,14
E_Frances717 40,66 7,32 5,55
E_Geografia 13,23 0,31 42,49
E_HCArtes 2,58 0,66 3,92
E_Latim732 12,58 1,66 7,57
E_Literatura 9,98 1,27 7,88
E_Matematica735 -8,75 0,42 -20,77
E_Espanhol747 47,98 2,99 16,04
E_Frances817 10,66 1,18 9,02
E_Matematica835 17,36 0,42 41,24
E_Ingles850 38,62 1,14 33,82


Média da variável dependente = 97,0871
Desvio padrão da variável dependente = 39,859
Soma dos resíduos quadrados = 5,32535e+008
Erro padrão dos resíduos = 36,5729
R-quadrado não-ajustado = 0,158181
R-quadrado ajustado = 0,158088
Estatística-F (44, 398134) = 1700,24

[Os valor referentes a "E_Frances317" - "Francês (iniciação -bienal)" - e "E_Geologia" não são significativos estatisticamente, mas inclui-os à mesma]

Comparando com os resultados apurados só para Matemática, temos que:

- O efeito da escola privada mantêm-se sensivelmente o mesmo: cerca de 6 décimas de valor

- O efeito do poder de compra concelhio reduz-se para cerca de metade (regressando ao exemplo de Portimão e Monchique, a diferença passaria a ser cerca de meio valor)

- O efeito da idade reduziu-se um bocadinho

- Como eu já esperava, o factor "Sexo" mudou de sinal: agora são as raparigas que tendem a ter mais 5 centésimas de valor que os rapazes

- No factor "Interno" parece ter havido uma alteração: em vez de mais 3 valores e 8 décimas, neste cálculo os alunos internos tendem a ter apenas mais 1 valor e 4 décimas; no entanto, como eu suprimi a variável "ParaAprovação" (que originava uma descida de 2 valores e 2 décimas) e muitos "Internos" também são "ParaAprovação" e vice-versa (foi exactamente por isso que suprimi a variável), provavelmente reside aí a diferença

Para uma análise por disciplina:


Variável coeciente
Descrição Anos
E_Ingles450 80,71
Inglês (iniciação -bienal) 12.º
E_Ingles550 62,56
Inglês (continuação -bienal) 12.º
E_Espanhol547 61,24
Espanhol (iniciação -bienal) 12.º
E_Espanhol747 47,98
Espanhol (iniciação -trienal) 12.º
E_Frances717 40,66
Francês (iniciação -trienal) 12.º
E_Ingles850 38,62
Inglês (continuação -trienal) 12.º
E_Alemao501 37,99
Alemão (iniciação -bienal) 12.º
E_Frances517 34,82
Francês (continuação -bienal) 12.º
E_Desenho 28,87
Desenho A 12.º
E_Filosofia 27,41
Filosofia 12.º
E_Portugues239 26,59
Português / Português B 12.º
E_Alemao701 26,40
Alemão (iniciação -trienal) 12.º
E_GeomDescritiv 22,71
Desenho e Geometria Descritiva A 12.º
E_Matematica835 17,36
Matemática Aplic. às Ciências Soc. 11.º
E_Filosofia714 16,98
Filosofia 11.º
E_Biologia 16,19
Biologia 12.º
E_Portugues639 13,53
Português / Português B 12.º
E_Geografia 13,23
Geografia A / Geografia 11.º
E_Economia 12,67
Economia A / Introdução à Economia 11.º
E_Latim732 12,58
Latim A 11.º
E_Informatica 12,19
Aplicações Informáticas B 12.º
E_Psicologia 11,40
Psicologia 12.º
E_Portugues 11,04
Português A 12.º
E_Frances817 10,66
Francês (continuação -trienal) 12.º
E_Literatura 9,98
Literatura Portuguesa 11.º
E_Quimica 5,81
Química 12.º
E_HCArtes 2,58
História da Cultura e das Artes 12.º
E_Geologia 0,32
Geologia 12.º
(sem variável) 0,00
Matemática A / Matemática 12.º
E_Frances317 -0,12
Francês (iniciação -bienal) 12.º
E_GeometriaDesc -1,37
Geometria Descritiva A 11.º
E_Historia -3,53
História A / História B / História 12.º
E_BiologiaGeolo -8,74
Biologia e Geologia 11.º
E_Matematica735 -8,75
Matemática B 12.º
E_FisicoQuimica -14,96
Física e Química A 11.º
E_Latim -15,22
Latim 12.º
E_Fisica -26,97
Física 12.º

O coeciente indica a diferença esperada entre um exame nessa disciplina e um exame de "Matemática A / Matemática", se tudo o resto se mantivesse igual.

Concluo que as melhores notas são a línguas (a mim eram as piores - cheguei a ter um 20 a Francês, mas foi numa escala de 100), excluindo o Latim (o exame de "Desenho e Geometria Descritiva" do 12º também tem bons resultados - seria a esse que o Tarique se referia?)

Notas a este cálculo:

- Talvez calcular uma única regressão para todas as disciplinas não seja muito correcto: é possível que o efeito das várias variáveis seja diferente de disciplina para disciplina (não me admirava nada que isso acontecesse com a variável "Sexo")

- Talvez também não seja boa ideia por, à mistura, exames a disciplinas do 11º e do 12º ano (mas penso que diferenças entre os anos aparecerão como diferenças entres as disciplinas, não afectando o essencial do resultado)

- Não é de se excluir a hipótese de, ao passar os valores de um lado para outro e/ou ao transformar os "N/S" em "0/1" eu tenha trocado alguma coisa e isto esteja tudo mal, mas acho que não

Os dados que usei para calcular a regressão estão aqui, num ficheiro zip de 2,5 MB (deszipado são cerca de 47 MB).

2 comments:

Anonymous said...

Acabei de ver o seu trabalho e gostava de saber onde obteve os dados.

ZM

Miguel Madeira said...

Aqui:

http://www.dgidc.min-edu.pt/jneweb/estat.htm