Introdução à Ciência de Dados,
Análise Exploratória e Hands-on






Imagem: R para Ciência de Dados (2ª ed.), Wickham et al. (2024).
Há um gap nesse fluxo!

Mas como fica isso na prática?
| País | População 2022 | População 2023 |
|---|---|---|
| Brasil | 210 | 212 |
| Chile | 19 | 19.5 |
| Peru | 33 | 33.2 |
| País | Ano | População |
|---|---|---|
| Brasil | 2022 | 210 |
| Brasil | 2023 | 212 |
| Chile | 2022 | 19 |
| Chile | 2023 | 19.5 |
| Peru | 2022 | 33 |
| Peru | 2023 | 33.2 |
Antes de iniciarmos nossas análises, precisamos às vezes modificar algumas coisas para que a análise seja possível.
Alguns processos são visíveis e outros mais escondidos, como valores anômalos que podem comprometer nossos resultados.
| ID | Nome | Idade | Cidade | Salário |
|---|---|---|---|---|
| 1 | Ana | 28 | SP | 5000 |
| 2 | João | RJ | 4500 | |
| 3 | Maria | 35 | ||
| 4 | Pedro | 42 | MG | 6200 |
Estratégias: remoção, imputação por média/mediana, análise separada
Cuidado: imputação altera a distribuição original dos dados
| ID | Nome | Idade | Cidade | Salário |
|---|---|---|---|---|
| 1 | Ana | 28 | SP | 5000 |
| 2 | João | 999 | RJ | 4500 |
| 3 | Maria | 35 | BH | 500000 |
| 4 | Pedro | -5 | MG | 6200 |
Valores anômalos: observações que se desviam significativamente do padrão esperado
Podem ser: erros de digitação, problemas de medição, ou valores extremos legítimos
| ID | Nome | Estado | Salário | Data |
|---|---|---|---|---|
| 1 | Ana | SP | R$ 5.000 | 15/03/2023 |
| 2 | João | sp | 5000 | 2023-03-16 |
| 3 | Maria | São Paulo | 5,000.00 | Mar 17, 23 |
| 4 | Pedro | SAO PAULO | R$5000 | 17-03-2023 |
Problemas: grafias diferentes, formatos variados, unidades inconsistentes
| Estado | Salário | Idade |
|---|---|---|
| SP | R$ 5.000 | 28 |
| sp | 5000 | 999 |
| São Paulo | 5,000.00 | 35 |
| SAO PAULO | R$5000 | -5 |
| Estado | Salário | Idade |
|---|---|---|
| SP | 5000 | 28 |
| SP | 5000 | |
| SP | 5000 | 35 |
| SP | 5000 |
Resultado: Dados padronizados e consistentes para análise confiável
Gráfico de Barras é a mesma coisa que Histograma?


Variância: Medida da variabilidade dos dados em relação à média
Desvio Padrão: Raiz quadrada da variância, mesma unidade dos dados
Quartis: Dividem dados em 4 grupos iguais (Q1, Q2, Q3)
Amplitude: Diferença entre máximo e mínimo
Coeficiente de Variação: Desvio padrão relativo à média (%)
Covariância: Mede relação linear entre duas variáveis
Correlação: Covariância padronizada
Tabela básica em segundos
Pronta para publicação
Adaptado de: Few, Stephen. (2012). Show Me the Numbers: Designing Tables and Graphs to Enlighten

Alinhamos os números à direita e, de preferência, escolhemos fontes mono-espaçadas ou alinhadas numericamente, evitando fontes “antigas” que têm números com posicionamento horizontal variável.
Comparando os Alinhamentos
Adendos ao Alinhamento
Ao alinhar texto de comprimento igual (longo ou muito curto), o alinhamento central do texto pode ser preciso ou até preferível.
Adendos ao Alinhamento
Texto de comprimento igual pode ser centralizado sem afetar negativamente a capacidade de leitura rápida.
Escolha Cuidadosamente as Fontes do Texto
Para textos/frases, é normalmente mais apropriado alinhar à esquerda. Isso permite que seus olhos facilmente acompanhem o texto curto e longo verticalmente.
Embora às vezes você possa justificar o aumento de casas decimais, geralmente 1 ou 2 é o suficiente.
Pense em como você deseja guiar o leitor - vertical ou horizontalmente.
Pense em como você deseja guiar o leitor - vertical ou horizontalmente.
Você pode aplicar o símbolo da unidade apenas na primeira linha, por exemplo.
Com grandes tabelas de dados, pode ser útil destacar outliers com cor ou forma.
Com um pouco de cor, podemos nos concentrar claramente nos outliers.
Podemos também utilizar um fundo preenchido em cada célula discrepante.
Aqui, agrupamos categorias semelhantes para facilitar a análise da tabela.
Também podemos aumentar o espaço em branco ou até mesmo remover repetições para aumentar a proporção de dados vs tinta.
Mal Exemplo
Bom Exemplo
Embora a visualização de dados e as tabelas sejam ferramentas diferentes, você pode combiná-las de maneiras inteligentes para envolver ainda mais o leitor.
A visualização de dados incorporados pode revelar tendências, enquanto a própria tabela mostra os dados brutos para consulta.
Sparklines - Tendências ao longo do tempo
Sparklines - Distribuições com densidade
Gráficos de Barras
Gráficos Bullet
Intervalos de Confiança
Gráficos de Pontos
Heatmap
10:00
Link do Notebook para o Hands-on
