Monday, November 05, 2007

Análise às notas dos exames do Secundário (XII)

[Já começam a ficar fartos?]

Vamos recapitular os resultados estimados aqui em baixo:

  • Cada 100 exames realizados na escola fazem a classificações serem 1 décima de valor mais alta
  • Como anteriormente, cada 100 unidades de poder de compra representam cerca de 1 valor e meio a mais nas classificações (para termos uma referência, Portimão tem 124,36 unidade de poder de compra e Monchique 56,22; assim, se Monchique tivesse secundário, essa diferença de poder de compra originaria uma diferença de pouco mais de 1 valor)
  • Cada ano adicional de idade representa menos 2-3 décimas de valor
  • As raparigas tendem a ter menos 1,75 décimas que os rapazes (recorde-se que estou a analisar o exame de Matemática)
  • Os exames para ingresso no Ensino Superior tendem a ter mais 1 valor e 7 décimas
  • Os exames para aprovação tendem a ter menos 2 valor e 2 décimas
  • Os exames de alunos internos tendem a ter mais 3 valores e 8 décimas (agora um mea culpa: além da variável "aluno interno", a base de dados do ME tem também a variável "aluno interno a pelos menos uma disciplina"; quando passei os dados para a folha de cálculo, ignorei essa variável que talvez podesse ser relevante)
  • Os exames das escolas privadas tendem a ter mais 6 décimas de valor
  • A fase em que foi feito o exame não parece ter importância
Comparada com as dos posts anteriores, esta regressão parece-me mais confiável, na medida em que tem menos resultados contra-intuitivos:

- Variáveis que é de esperar que tenham pouca influência (nº de exames, fase a que os alunos foram a exame) têm efectivamente pouca ou nenhuma importância

- Variáveis como "Idade" e "Sexo" têm alguma importância mas não tanta como "Publico/Privado", "Interno", "poder de compra concelhio", etc. De novo, parecem-me resultados "normais"

Efectivamente, esta última regressão têm um R2 de 0,2, enquanto nas anteriores andava por 0,3. Mas convêm lembrar que esta equação pretende "prever" os resultados dos exames individuais, não a média da escola - como é óbvio, a dispersão de valores nos exames é maior, logo também o será a margem de erro da regressão (portanto, mais baixo será o R2 - noto que um R2 de 1 corresponderia a uma situação em que os resultados fossem fielmente explicados pela fórmula, sem desvios nenhum).

No entanto, aplicando esta fórmula aos dados médios de cada escola (e não a cada exame individual) e comparando o resultado com o valor real, temos uma correlação de 0,46, o que não me parece muito mau.

Como é óbvio, mantêm-se as observações que fiz mais abaixo:

"De qualquer forma, há variáveis que não foram contabilizadas (já que eu não as tinha à mão) e poderiam ser úteis: habilitações dos pais dos alunos (ou, quanto muito, o nível médio de habilitações dos pais dos alunos dessa escola, mesmo que não necessariamente dos alunos que foram a exame), percentagem de alunos que foram a exame, percentagem de alunos por escola beneficiários da Acção Social Escolar, etc; talvez fosse também boa ideia ter usado duas variáveis distintas para as escolas privadas: uma para as privadas em regime "liberal" e outra para as privadas com contrato de associação." (Gasel também apresenta mais algumas sugestões).

Eu pus os dados que recolhi e utilizei (acerca dos exames, das escolas e da caracterização dos concelhos) numa folha de excel zipada aqui (aviso que, deszipada, são 14 MB).

Quanta à analise das diferenças entre a "Escola" e o "Liceu", fica para amanhã...

2 comments:

Anonymous said...

Fixe! Aguardo ansiosamente :)

Unknown said...

"De qualquer forma, há variáveis que não foram contabilizadas (já que eu não as tinha à mão) e poderiam ser úteis: habilitações dos pais dos alunos"

Estou convicto que é justamente essa a variável mais significativa, e pelas razões que já dei a entender.
Mas o rendimento é, da algum modo, uma variável correlacionada...

E que tal correr sobre os dados um algoritmo de data mining?