Eu já tinha dado esta série por encerrada, mas pelos vistos isto tornou-se um vicio (podia ser pior...), pelo que vou fazer mais um post.
Agora, decidi calcular uma regressão, não para os exames de Matemática, mas para todos os exames (menos os do estrangeiro e 2 exames que não tinham indicação de idade) - 398.179.
Assim, a cada disciplina (menos "Matemática A/Matemática", sobre a qual incidiram os anteriores cálculos) atribuí uma variável dummy. Não utilizei a variável "Número de exames" e estive para utilizar uma variável indicativa que o aluno era externo à disciplina mas fez pelo menos um exame como interno a outra (mas a correlação - negativa - com a variável "Interno" era tão grande que decidi ignorá-la).
Como 398.179 linhas não cabem numa folha de Excel (que só tem 65 mil e tal linhas) e como descobri que não tinha o TSP gravado no disco e que a disquete que nos foi distribuida nas aulas de econometria (para aí em 1994) já não estava totalmente legível, o cálculo acabou por ser feito em gretl.
Como havia uma correlação de 0,58 entre "Interno" e "ParaAprovação" e de -0,6 entre "ParaAprovação" e "ParaMelhoria", optei por deixar a variável "ParaAprovação" de fora.
Resultados:
Média da variável dependente = 97,0871
Desvio padrão da variável dependente = 39,859
Soma dos resíduos quadrados = 5,32535e+008
Erro padrão dos resíduos = 36,5729
R-quadrado não-ajustado = 0,158181
R-quadrado ajustado = 0,158088
Estatística-F (44, 398134) = 1700,24
[Os valor referentes a "E_Frances317" - "Francês (iniciação -bienal)" - e "E_Geologia" não são significativos estatisticamente, mas inclui-os à mesma]
Comparando com os resultados apurados só para Matemática, temos que:
- O efeito da escola privada mantêm-se sensivelmente o mesmo: cerca de 6 décimas de valor
- O efeito do poder de compra concelhio reduz-se para cerca de metade (regressando ao exemplo de Portimão e Monchique, a diferença passaria a ser cerca de meio valor)
- O efeito da idade reduziu-se um bocadinho
- Como eu já esperava, o factor "Sexo" mudou de sinal: agora são as raparigas que tendem a ter mais 5 centésimas de valor que os rapazes
- No factor "Interno" parece ter havido uma alteração: em vez de mais 3 valores e 8 décimas, neste cálculo os alunos internos tendem a ter apenas mais 1 valor e 4 décimas; no entanto, como eu suprimi a variável "ParaAprovação" (que originava uma descida de 2 valores e 2 décimas) e muitos "Internos" também são "ParaAprovação" e vice-versa (foi exactamente por isso que suprimi a variável), provavelmente reside aí a diferença
Para uma análise por disciplina:
O coeciente indica a diferença esperada entre um exame nessa disciplina e um exame de "Matemática A / Matemática", se tudo o resto se mantivesse igual.
Concluo que as melhores notas são a línguas (a mim eram as piores - cheguei a ter um 20 a Francês, mas foi numa escala de 100), excluindo o Latim (o exame de "Desenho e Geometria Descritiva" do 12º também tem bons resultados - seria a esse que o Tarique se referia?)
Notas a este cálculo:
- Talvez calcular uma única regressão para todas as disciplinas não seja muito correcto: é possível que o efeito das várias variáveis seja diferente de disciplina para disciplina (não me admirava nada que isso acontecesse com a variável "Sexo")
- Talvez também não seja boa ideia por, à mistura, exames a disciplinas do 11º e do 12º ano (mas penso que diferenças entre os anos aparecerão como diferenças entres as disciplinas, não afectando o essencial do resultado)
- Não é de se excluir a hipótese de, ao passar os valores de um lado para outro e/ou ao transformar os "N/S" em "0/1" eu tenha trocado alguma coisa e isto esteja tudo mal, mas acho que não
Os dados que usei para calcular a regressão estão aqui, num ficheiro zip de 2,5 MB (deszipado são cerca de 47 MB).
Agora, decidi calcular uma regressão, não para os exames de Matemática, mas para todos os exames (menos os do estrangeiro e 2 exames que não tinham indicação de idade) - 398.179.
Assim, a cada disciplina (menos "Matemática A/Matemática", sobre a qual incidiram os anteriores cálculos) atribuí uma variável dummy. Não utilizei a variável "Número de exames" e estive para utilizar uma variável indicativa que o aluno era externo à disciplina mas fez pelo menos um exame como interno a outra (mas a correlação - negativa - com a variável "Interno" era tão grande que decidi ignorá-la).
Como 398.179 linhas não cabem numa folha de Excel (que só tem 65 mil e tal linhas) e como descobri que não tinha o TSP gravado no disco e que a disquete que nos foi distribuida nas aulas de econometria (para aí em 1994) já não estava totalmente legível, o cálculo acabou por ser feito em gretl.
Como havia uma correlação de 0,58 entre "Interno" e "ParaAprovação" e de -0,6 entre "ParaAprovação" e "ParaMelhoria", optei por deixar a variável "ParaAprovação" de fora.
Resultados:
VARIÁVEL | COEFICIENTE | ERRO PADRÃO | T |
const | 77,18 | 0,63 | 122,54 |
Privado | 5,78 | 0,19 | 30,42 |
poder_compra | 0,08 | 0,00 | 60,15 |
Interno | 14,27 | 0,14 | 104,30 |
Fase | -1,04 | 0,13 | -7,81 |
ParaMelhoria | 20,02 | 0,16 | 122,50 |
ParaIngresso | 11,77 | 0,33 | 35,72 |
Sexo | 0,45 | 0,12 | 3,74 |
Idade | -0,88 | 0,02 | -36,68 |
E_Filosofia | 27,41 | 0,90 | 30,36 |
E_Latim | -15,22 | 4,85 | -3,14 |
E_Portugues | 11,04 | 0,83 | 13,32 |
E_Psicologia | 11,40 | 0,34 | 33,36 |
E_Portugues239 | 26,59 | 5,40 | 4,93 |
E_Frances317 | -0,12 | 16,36 | -0,01 |
E_GeomDescritiv | 22,71 | 0,76 | 29,70 |
E_Ingles450 | 80,71 | 25,86 | 3,12 |
E_Alemao501 | 37,99 | 1,68 | 22,61 |
E_Frances517 | 34,82 | 1,69 | 20,57 |
E_Espanhol547 | 61,24 | 2,23 | 27,44 |
E_Ingles550 | 62,56 | 1,17 | 53,24 |
E_Biologia | 16,19 | 0,30 | 53,67 |
E_Fisica | -26,97 | 0,64 | -41,92 |
E_Geologia | 0,32 | 0,69 | 0,47 |
E_Historia | -3,53 | 0,34 | -10,23 |
E_Portugues639 | 13,53 | 0,20 | 68,91 |
E_Quimica | 5,81 | 0,40 | 14,45 |
E_Alemao701 | 26,40 | 1,67 | 15,81 |
E_BiologiaGeolo | -8,74 | 0,22 | -40,31 |
E_Informatica | 12,19 | 1,03 | 11,84 |
E_Desenho | 28,87 | 0,51 | 56,81 |
E_GeometriaDesc | -1,37 | 0,44 | -3,14 |
E_Economia | 12,67 | 0,33 | 38,21 |
E_Filosofia714 | 16,98 | 0,65 | 26,19 |
E_FisicoQuimica | -14,96 | 0,22 | -69,14 |
E_Frances717 | 40,66 | 7,32 | 5,55 |
E_Geografia | 13,23 | 0,31 | 42,49 |
E_HCArtes | 2,58 | 0,66 | 3,92 |
E_Latim732 | 12,58 | 1,66 | 7,57 |
E_Literatura | 9,98 | 1,27 | 7,88 |
E_Matematica735 | -8,75 | 0,42 | -20,77 |
E_Espanhol747 | 47,98 | 2,99 | 16,04 |
E_Frances817 | 10,66 | 1,18 | 9,02 |
E_Matematica835 | 17,36 | 0,42 | 41,24 |
E_Ingles850 | 38,62 | 1,14 | 33,82 |
Média da variável dependente = 97,0871
Desvio padrão da variável dependente = 39,859
Soma dos resíduos quadrados = 5,32535e+008
Erro padrão dos resíduos = 36,5729
R-quadrado não-ajustado = 0,158181
R-quadrado ajustado = 0,158088
Estatística-F (44, 398134) = 1700,24
[Os valor referentes a "E_Frances317" - "Francês (iniciação -bienal)" - e "E_Geologia" não são significativos estatisticamente, mas inclui-os à mesma]
Comparando com os resultados apurados só para Matemática, temos que:
- O efeito da escola privada mantêm-se sensivelmente o mesmo: cerca de 6 décimas de valor
- O efeito do poder de compra concelhio reduz-se para cerca de metade (regressando ao exemplo de Portimão e Monchique, a diferença passaria a ser cerca de meio valor)
- O efeito da idade reduziu-se um bocadinho
- Como eu já esperava, o factor "Sexo" mudou de sinal: agora são as raparigas que tendem a ter mais 5 centésimas de valor que os rapazes
- No factor "Interno" parece ter havido uma alteração: em vez de mais 3 valores e 8 décimas, neste cálculo os alunos internos tendem a ter apenas mais 1 valor e 4 décimas; no entanto, como eu suprimi a variável "ParaAprovação" (que originava uma descida de 2 valores e 2 décimas) e muitos "Internos" também são "ParaAprovação" e vice-versa (foi exactamente por isso que suprimi a variável), provavelmente reside aí a diferença
Para uma análise por disciplina:
Variável | coeciente | Descrição | Anos | |
E_Ingles450 | 80,71 | Inglês (iniciação -bienal) | 12.º | |
E_Ingles550 | 62,56 | Inglês (continuação -bienal) | 12.º | |
E_Espanhol547 | 61,24 | Espanhol (iniciação -bienal) | 12.º | |
E_Espanhol747 | 47,98 | Espanhol (iniciação -trienal) | 12.º | |
E_Frances717 | 40,66 | Francês (iniciação -trienal) | 12.º | |
E_Ingles850 | 38,62 | Inglês (continuação -trienal) | 12.º | |
E_Alemao501 | 37,99 | Alemão (iniciação -bienal) | 12.º | |
E_Frances517 | 34,82 | Francês (continuação -bienal) | 12.º | |
E_Desenho | 28,87 | Desenho A | 12.º | |
E_Filosofia | 27,41 | Filosofia | 12.º | |
E_Portugues239 | 26,59 | Português / Português B | 12.º | |
E_Alemao701 | 26,40 | Alemão (iniciação -trienal) | 12.º | |
E_GeomDescritiv | 22,71 | Desenho e Geometria Descritiva A | 12.º | |
E_Matematica835 | 17,36 | Matemática Aplic. às Ciências Soc. | 11.º | |
E_Filosofia714 | 16,98 | Filosofia | 11.º | |
E_Biologia | 16,19 | Biologia | 12.º | |
E_Portugues639 | 13,53 | Português / Português B | 12.º | |
E_Geografia | 13,23 | Geografia A / Geografia | 11.º | |
E_Economia | 12,67 | Economia A / Introdução à Economia | 11.º | |
E_Latim732 | 12,58 | Latim A | 11.º | |
E_Informatica | 12,19 | Aplicações Informáticas B | 12.º | |
E_Psicologia | 11,40 | Psicologia | 12.º | |
E_Portugues | 11,04 | Português A | 12.º | |
E_Frances817 | 10,66 | Francês (continuação -trienal) | 12.º | |
E_Literatura | 9,98 | Literatura Portuguesa | 11.º | |
E_Quimica | 5,81 | Química | 12.º | |
E_HCArtes | 2,58 | História da Cultura e das Artes | 12.º | |
E_Geologia | 0,32 | Geologia | 12.º | |
(sem variável) | 0,00 | Matemática A / Matemática | 12.º | |
E_Frances317 | -0,12 | Francês (iniciação -bienal) | 12.º | |
E_GeometriaDesc | -1,37 | Geometria Descritiva A | 11.º | |
E_Historia | -3,53 | História A / História B / História | 12.º | |
E_BiologiaGeolo | -8,74 | Biologia e Geologia | 11.º | |
E_Matematica735 | -8,75 | Matemática B | 12.º | |
E_FisicoQuimica | -14,96 | Física e Química A | 11.º | |
E_Latim | -15,22 | Latim | 12.º | |
E_Fisica | -26,97 | Física | 12.º |
O coeciente indica a diferença esperada entre um exame nessa disciplina e um exame de "Matemática A / Matemática", se tudo o resto se mantivesse igual.
Concluo que as melhores notas são a línguas (a mim eram as piores - cheguei a ter um 20 a Francês, mas foi numa escala de 100), excluindo o Latim (o exame de "Desenho e Geometria Descritiva" do 12º também tem bons resultados - seria a esse que o Tarique se referia?)
Notas a este cálculo:
- Talvez calcular uma única regressão para todas as disciplinas não seja muito correcto: é possível que o efeito das várias variáveis seja diferente de disciplina para disciplina (não me admirava nada que isso acontecesse com a variável "Sexo")
- Talvez também não seja boa ideia por, à mistura, exames a disciplinas do 11º e do 12º ano (mas penso que diferenças entre os anos aparecerão como diferenças entres as disciplinas, não afectando o essencial do resultado)
- Não é de se excluir a hipótese de, ao passar os valores de um lado para outro e/ou ao transformar os "N/S" em "0/1" eu tenha trocado alguma coisa e isto esteja tudo mal, mas acho que não
Os dados que usei para calcular a regressão estão aqui, num ficheiro zip de 2,5 MB (deszipado são cerca de 47 MB).
2 comments:
Acabei de ver o seu trabalho e gostava de saber onde obteve os dados.
ZM
Aqui:
http://www.dgidc.min-edu.pt/jneweb/estat.htm
Post a Comment