Oficinas em Ciência de Dados – dia3_inferencia

Oficinas em
Ciência de Dados

Introdução à Inferência Estatística,
Intervalos de Confiança, Testes de Hipóteses,
ANOVA e Hands-on

Agenda do Dia

Introdução (25min)
- População vs Amostra, Teorema Central do Limite
Intervalos de Confiança (30min)
Testes de Hipóteses (35min)
Pausa (10min)
ANOVA e Comparações Múltiplas (30min)
Hands-on: Análise Estatística Completa (1h20)

O que é Probabilidade?

Probabilidade: A Base da Incerteza

Probabilidade: Medida da incerteza sobre um evento
Varia de 0 a 1 (ou 0% a 100%)
- 0 = Impossível
- 1 = Certeza absoluta
Exemplo: Qual a probabilidade de um pinguim pescar peixe hoje?
- Depende de fatores: clima, disponibilidade de peixes, saúde do pinguim

O Mundo é Incerto

Pesquisa sobre Pinguins de Palmer (342 pinguins com dados de massa corporal)
Qual é a massa corporal média dos pinguins de Palmer?
Impossível pesar todos os pinguins da região
Observar alguns e inferir sobre toda a população

O Dilema Central

O que QUEREMOS saber	O que CONSEGUIMOS medir
Massa corporal média de todos os pinguins de Palmer	342 pinguins observados (2007-2009)
Diferenças entre todas as espécies na população	3 espécies: Adelie, Chinstrap, Gentoo
Características de toda a colônia regional	3 ilhas: Biscoe, Dream, Torgersen

Como ir de 342 observações para conclusões sobre milhares de pinguins?

População vs Amostra

O Problema Prático

Parâmetro vs Estatística

Parâmetro: Valor fixo da população (desconhecido)
Estatística: Valor calculado da amostra (observável)

Construindo Intervalos de Confiança

O Problema da Estimativa Pontual

Resultado da pesquisa: “Massa corporal média é 4,2kg”

Problemas:

Quão confiável é esse valor?
Qual a margem de erro?
Se repetirmos, será 4,2kg novamente?

A Necessidade do Intervalo

Se repetirmos o experimento várias vezes, não temos garantia de obter 4,2kg novamente…

O que é um Intervalo de Confiança?

Definição formal: Uma faixa de valores que, com determinada probabilidade, contém o parâmetro populacional.

Em português simples: Nossa “margem de erro” em torno da estimativa.

Interpretação

IC 95%: [4,12kg, 4,29kg]

“Se repetirmos o experimento (amostrar pinguins) várias vezes, 95% dos intervalos calculados conterão a média populacional verdadeira”

A Analogia dos 100 Estudos (Simulação)

Fatores que Influenciam o IC

1. Tamanho da Amostra (n)

Variância da média = \(\frac{\sigma^2}{\sqrt{n}}\)

Maior n → Menor incerteza → Intervalo mais preciso

Fatores que Influenciam o IC

2. Nível de Confiança

IC para Média

Distribuição t com n-1 graus de liberdade (n=342)

IC 95%: [4,12kg, 4,29kg]

Pergunta: Qual é a massa corporal média dos pinguins?

IC para Proporção

Distribuição Normal para grandes amostras (n=333)

IC 95%: [45.2%, 55.8%]

Pergunta: Qual é a proporção de pinguins machos na população?

IC para Diferença de Médias

Distribuição t para diferença de médias independentes

IC 95%: [526g, 841g]

Pergunta: Pinguins machos são mais pesados que fêmeas?

Testando Hipóteses na Prática

A Conexão Natural

Pergunta: A massa corporal média dos pinguins é igual a 4kg?

Nossa evidência: IC 95% = [4,12kg, 4,29kg]

Resposta:

Como 4kg não está no intervalo, com 95% de confiança,
a massa não é igual a 4kg

Esta é a essência dos testes de hipóteses!

Como Formular Hipóteses

H₀ (Hipótese Nula): A afirmação que testamos
- Posição “cética” ou status quo
- “Não há diferença”, “Não há efeito”
- Ex: \(\mu = 4kg\)
H₁ (Hipótese Alternativa): O que queremos evidenciar
- “Há diferença”, “Há efeito”
- Ex: \(\mu \neq 4kg\)

Escolhendo as Hipóteses

Dicas práticas:

\(H_0\) sempre contém igualdade (=, \(\leq\), \(\geq\))
\(H_1\) é o que você suspeita ser verdade
\(H_0\) deve ser específica (valor numérico)
\(H_1\) pode ser bilateral (\(\neq\)) ou unilateral (<, >)

Escolhendo o Nível de Significância

\(\alpha\) (alfa): Probabilidade máxima de Erro Tipo I que aceitamos

Valores comuns:

\(\alpha = 0.05\) (5%): Padrão em ciências biológicas
\(\alpha = 0.01\) (1%): Quando queremos mais rigor
\(\alpha = 0.10\) (10%): Em estudos exploratórios

Como escolher: Depende do custo de cometer Erro Tipo I

Tipos de Erro em Detalhes

	H₀ Verdadeira	H₀ Falsa
Não rejeitar H₀	✅ Decisão correta	❌ Erro Tipo II (β)
Rejeitar H₀	❌ Erro Tipo I (α)	✅ Decisão correta

Erro Tipo I: “Alarme falso” - encontrar efeito que não existe
Erro Tipo II: “Perder efeito” - não detectar efeito que existe
Poder = 1-β: Probabilidade de detectar efeito quando existe

Equivalência IC ↔︎ Teste de Hipóteses

IC 95% não contém valor → Teste rejeita \(H_0\) com \(\alpha = 0.05\)

Vantagem do IC:

Mais informativo (mostra a faixa)
Mais intuitivo (visualização)

Vantagem do Teste:

Mais direto (um único valor)
Mais preciso (p-valor quantifica evidência)

Transição para Testes Formais

IC respondeu: “Massa corporal \(\neq\) 4kg”

Agora queremos:

Quão forte é essa evidência?
Qual a probabilidade de estar errado?

Testando Hipóteses na Prática

O Método Científico Estatístico

Formulação: \(H_0\) vs \(H_1\)
Coleta: Amostra e estatística de teste
Cálculo: p-valor
Decisão: Rejeitar ou não \(H_0\)
Conclusão: Interpretação no contexto

P-valor: O Conceito Central

Hipóteses:

\(H_0\): \(\mu = 4,1kg\)
\(H_1\): \(\mu \neq 4,1kg\)

α = 0,05

Como p = 0,021 < 0,05, rejeitamos \(H_0\)

P-valor: Probabilidade de observar resultado tão extremo, assumindo \(H_0\) verdadeira

Interpretação do P-valor

p < 0.05: Evidência forte contra \(H_0\)
p < 0.01: Evidência muito forte contra \(H_0\)
p < 0.001: Evidência extremamente forte contra \(H_0\)
p ≥ 0.05: Evidência insuficiente contra \(H_0\)

Importante: p-valor NÃO é a probabilidade de \(H_0\) ser verdadeira

Erros em Testes de Hipóteses

	\(H_0\) Verdadeira	\(H_0\) Falsa
Não rejeitar \(H_0\)	✅ Decisão correta	❌ Erro Tipo II (\(\beta\))
Rejeitar \(H_0\)	❌ Erro Tipo I (\(\alpha\))	✅ Decisão correta

Poder do Teste

Poder = \(1-\beta\) = Probabilidade de detectar efeito quando ele existe

Fatores que aumentam o poder:

↑ Tamanho da amostra
↑ Tamanho do efeito
↑ Nível de significância (\(\alpha\))
↓ Variabilidade

Paramétricos vs Não-Paramétricos

Testes Paramétricos:

Assumem distribuição específica
Mais poderosos quando pressupostos atendem
Exemplos: t-test, ANOVA, correlação de Pearson

Testes Não-Paramétricos:

Poucos pressupostos sobre distribuição
Mais robustos a violações
Exemplos: Mann-Whitney, Wilcoxon, Spearman

Exemplos de Pressupostos

Principais pressupostos em testes paramétricos:

Normalidade: Dados* seguem distribuição normal
Homogeneidade de variâncias: Variâncias iguais entre grupos
Independência: Observações são independentes
Aleatoriedade: Amostra aleatória da população

Verificando Pressupostos na Prática

Jarque-Bera p = 0.237 > 0.05: Resíduos seguem distribuição normal ✓
Levene p = 0.034 < 0.05: Variâncias heterogêneas entre grupos ✗

Catálogo de Testes Estatísticos

Comparando Múltiplos Grupos

O Problema dos Testes Múltiplos

Cenário: Comparar 3 espécies (Adelie, Chinstrap, Gentoo)

Opção ingênua: 3 testes de Média (t)

Adelie vs Chinstrap
Adelie vs Gentoo
Chinstrap vs Gentoo

Problema: Inflação do erro Tipo I

Inflação do Erro Tipo I

A Solução

\(H_0\): \(\mu_1 = \mu_2 = \mu_3\) (todas as médias são iguais)
\(H_1\): Pelo menos uma média é diferente

Paramétrico:

ANOVA

Não-paramétrico:

Kruskal-Wallis

O que obtemos na prática

Fonte	SQ	gl	QM	F	p-valor
Tabela ANOVA - Massa Corporal por Espécie
Entre grupos	152	2	76	387.9	0.000000
Dentro dos grupos	66	339	0
Total	218	341


Kruskal-Wallis p-valor: 0.000000

Interpretação: Embora tenham muitos números na tabela, só importa o valor-p

Interpretando o Teste

\(H_0\): \(\mu_1=\mu_2=\mu_3\) (todas as médias são iguais)
\(H_1\): Pelo menos uma média é diferente

Se p < 0.05 (ANOVA ou Kruskal-Wallis):

Rejeitamos \(H_0\), i.e, pelo menos um grupo é diferente dos outros

Mas os testes não dizem:

Qual grupo é diferente?
Quantos grupos diferem?
Quão grande é a diferença?

O Problema das Múltiplas Comparações

ANOVA significativa → Precisa identificar quais grupos diferem

Solução: Testes Post Hoc

Ajustam para múltiplas comparações
Controlam erro Tipo I

Teste de Tukey HSD

Honest Significant Difference

Alternativa Não-Paramétrica: Dunn Test

Quando usar: Após Kruskal-Wallis significativo

Lógica: Comparações múltiplas baseadas em postos

Vantagem: Não assume normalidade

Implementação:

Comparações pareadas de Mann-Whitney
Correção para múltiplas comparações
Alternativa robusta ao Tukey HSD

Comparando 2+ Fatores

Exemplo: Massa corporal por espécie + sexo

Passo a Passo da Análise

Definir a pergunta de pesquisa
Formular hipóteses (H₀ vs H₁)
Verificar pressupostos
Escolher o teste apropriado
Calcular estatística e p-valor
Tomar decisão
Interpretar no contexto

Como Comunicar Resultados

Template de Comunicação

Contexto → Método → Resultado → Interpretação → Limitações

Exemplo de Comunicação

“Para investigar diferenças entre espécies de pinguins de Palmer (contexto), analisamos dados de massa corporal de 342 indivíduos de três espécies coletados entre 2007-2009 (método). Encontramos diferenças significativas entre espécies (p < 0.001, ANOVA), com Gentoo sendo mais pesados que Adelie e Chinstrap (resultado). Isso indica variação adaptativa relacionada ao nicho ecológico, com Gentoo apresentando massa 37% maior que Adelie (interpretação). Considerações sazonais e variabilidade anual requerem estudos adicionais (limitações).”

Pausa de 10 minutos

10:00

Link do Notebook para o Hands-on

bit.ly/oficinas-dados-dia-3

Ilustração das três espécies de pinguins de Palmer

Obrigado!

github.com/damarals

linkedin.com/in/damarals