
Modelos de Regressão, Agrupamento,
Redução de Dimensionalidade e Hands-on
Aprendizado de Máquina (Machine Learning) é uma área da inteligência artificial que permite aos computadores aprender e tomar decisões a partir de dados, sem serem explicitamente programados para cada tarefa específica.
Diferença fundamental:


Semi-supervisionado: Combina dados rotulados e não-rotulados
Por reforço: Aprende através de tentativa e erro com sistema de recompensas
Self-supervisionado: Cria próprios rótulos a partir dos dados
Transfer Learning: Reutiliza conhecimento de tarefas similares




Essa melhor linha se chama: RETA DE REGRESSÃO

O processo matemático minimiza as distâncias dos pontos à linha
Para os pinguins:
Para cada pinguim, temos um erro: \((y - \hat{y})^2\)
Onde:
Objetivo: Fazer o menor erro possível!
Nossa estimativa ŷ é uma função dos dados que temos:
\[ \hat{y} = f(x) \]
Em termos práticos:
Pergunta: Qual deve ser essa função f(x)?
\[ f(x) = a + bx \]

\[ f(x) = a + bx + cx^2 \]

\[ f(x) = a + bx + cx^2 + dx^3 \]

Cada função tem parâmetros que precisam ser determinados:
Como escolher os valores?
Equação básica: \[ Y = \beta_0 + \beta_1 X + \varepsilon \]


Interpretação: Para cada mm adicional na nadadeira, o pinguim ganha aproximadamente 51g de massa
\[ \text{Comprimento}^* = \text{Comprimento} - \text{Média(Comprimento)} \]

Quando temos múltiplas variáveis explicativas:
\[ Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + ... + \beta_n X_n + \varepsilon \]
Podemos prever a Massa Corporal utilizando todas as outras variáveis do conjunto de dados!

Para problemas de classificação (não regressão!):

Diferença: Saída é probabilidade (0 a 1)

Fronteira de decisão: Linha preta tracejada separa as duas classes

Métricas-chave: Acurácia, Precisão, Recall, F1-Score, AUC-ROC
Para classificação de pinguins Adelie vs Chinstrap:
10:00
Link do Notebook para o Hands-on

“Já se perguntou como o Spotify consegue agrupar músicas por ‘vibe’ mesmo sem você dizer qual é o gênero?”
Nesses casos NÃO temos uma variável de interesse conhecida
Duas tarefas comuns:
Problema 1: Dados com muitas variáveis são difíceis de visualizar
Problema 2: Nem sempre sabemos quais grupos existem nos dados
Solução: Algoritmos que encontram estruturas ocultas nos dados
“Como observar dados com 4, 10 ou 100 dimensões?” 
PCA (Principal Component Analysis): Encontra as “melhores direções” para observar os dados
Ideia central: Capturar o máximo de informação em poucas dimensões

Mantivemos ~88% da informação original com apenas 2 componentes!
Padronizar os dados (todas as variáveis na mesma escala)
Encontrar a direção de maior variação (PC1)
Encontrar a segunda direção perpendicular (PC2)
Repetir até ter todos os componentes
Resultado: Novos “eixos” que capturam o máximo de informação

PC1 (68,6%): Tamanho geral do pinguim
PC2 (19,5%): Características específicas do bico
~97% da variância total dos dados, com uma variável a menos
“Imagine que você precisa organizar uma gaveta cheia de objetos misturados, mas sem instruções de como agrupá-los.” 

“Como sabemos se o agrupamento faz sentido?”

“O K-means descobriu as espécies reais?”

Concordância K-means vs Espécies Reais: 0.799
Interpretação: 1.0 = concordância perfeita, 0.0 = aleatório
Tabela de Confusão:
Cluster 0 1 2 All
species
Adelie 119 0 27 146
Chinstrap 5 6 57 68
Gentoo 0 110 0 110
All 124 116 84 324
10:00
Link do Notebook para o Hands-on
