Oficinas em
Ciência de Dados

Introdução à Ciência de Dados,
Análise Exploratória e Hands-on

Artigos Produzidos no Projeto

Artigo 1 - BRESCI

Artigos Produzidos no Projeto

Artigo 2 - BRESCI

Artigos Produzidos no Projeto

Artigo 3 - WCGE

Reconhecimento

Certificado Best Paper

Agenda do Dia

  • Introdução à Ciência de Dados (20min)
  • Fundamentos da Análise Exploratória de Dados (30min)
    • Problemas comuns no pré-processamento
    • Estatísticas descritivas
  • 10 Princípios para Melhores Tabelas (40min)
    • Gramática das tabelas
  • Pausa (10min)
  • Hands-on: Pinguins da ilha de Palmer (1h20)
    • Notebook no Google Colab

O que é Ciência de Dados?

  • Matemática/Estatística
    • Base analítica
  • Ciência da Computação
    • Base tecnológica
  • Conhecimento de Domínio
    • Contexto do problema

Venn Diagram Data Science

Exemplos Reais

Visual do projeto Serenata de Amor

Exemplos Reais

Pôster do filme Moneyball

Exemplos Reais

https://covid.saude.gov.br/

Etapas de um Projeto de Dados

Etapas de um projeto de ciência de dados

Há um gap nesse fluxo!

  • É preciso ter um conhecimento prévio do problema de negócio!

Etapas de um Projeto de Dados

Etapas de um projeto de ciência de dados

Como começar bem?

  • Python - Linguagem de programação
  • pandas - Manipulação de dados
  • plotly - Visualização
  • Google Colab - Computação em nuvem

Como aprender bem?

Python
Python
Pandas
Pandas
Visualização (Matplot)
Visualização (Matplot)

Tidy Data: Dados “Organizados”

  1. Cada variável forma uma coluna
  2. Cada observação forma uma linha
  3. Cada valor tem sua própria célula

Mas como fica isso na prática?

Tidy Data: Exemplo Untidy

País População 2022 População 2023
Brasil 210 212
Chile 19 19.5
Peru 33 33.2

Tidy Data: Exemplo Tidy

País Ano População
Brasil 2022 210
Brasil 2023 212
Chile 2022 19
Chile 2023 19.5
Peru 2022 33
Peru 2023 33.2

Pré-processamento de Dados

Antes de iniciarmos nossas análises, precisamos às vezes modificar algumas coisas para que a análise seja possível.

Alguns processos são visíveis e outros mais escondidos, como valores anômalos que podem comprometer nossos resultados.

Valores Ausentes (Missing Data)

ID Nome Idade Cidade Salário
1 Ana 28 SP 5000
2 João RJ 4500
3 Maria 35
4 Pedro 42 MG 6200

Estratégias: remoção, imputação por média/mediana, análise separada

Cuidado: imputação altera a distribuição original dos dados

Valores Anômalos

ID Nome Idade Cidade Salário
1 Ana 28 SP 5000
2 João 999 RJ 4500
3 Maria 35 BH 500000
4 Pedro -5 MG 6200

Valores anômalos: observações que se desviam significativamente do padrão esperado

Podem ser: erros de digitação, problemas de medição, ou valores extremos legítimos

Inconsistências nos Dados

ID Nome Estado Salário Data
1 Ana SP R$ 5.000 15/03/2023
2 João sp 5000 2023-03-16
3 Maria São Paulo 5,000.00 Mar 17, 23
4 Pedro SAO PAULO R$5000 17-03-2023

Problemas: grafias diferentes, formatos variados, unidades inconsistentes

Estratégias de Limpeza

Antes da Limpeza

Estado Salário Idade
SP R$ 5.000 28
sp 5000 999
São Paulo 5,000.00 35
SAO PAULO R$5000 -5

Após a Limpeza

Estado Salário Idade
SP 5000 28
SP 5000
SP 5000 35
SP 5000

Resultado: Dados padronizados e consistentes para análise confiável

Medidas de Tendência Central

Gráfico de Barras é a mesma coisa que Histograma?

Gráfico de Barras vs Histograma

Medidas de Tendência Central

Média, Moda e Mediana

Moda: Útil para dados categóricos e identificar picos múltiplos
Mediana: Mais robusta, ideal para distribuições assimétricas
Média: Melhor para distribuições simétricas, sensível a outliers

Medidas de Dispersão

Variância: Medida da variabilidade dos dados em relação à média

Desvio Padrão: Raiz quadrada da variância, mesma unidade dos dados

Quartis: Dividem dados em 4 grupos iguais (Q1, Q2, Q3)

Amplitude: Diferença entre máximo e mínimo

Coeficiente de Variação: Desvio padrão relativo à média (%)

Medidas de Relação

Covariância: Mede relação linear entre duas variáveis

  • Problema: valores entre -∞ a +∞ (sem interpretabilidade)

Correlação: Covariância padronizada

  • Vantagem: valores entre -1 a +1
  • -1: correlação negativa perfeita
  • 0: sem correlação linear
  • +1: correlação positiva perfeita

Criando tabelas que comunicam

  • Por que nos preocupamos com gráficos?
  • Por que nos preocupamos com tabelas?
  • Gráficos e Tabelas são ferramentas de comunicação
  • Melhores gráficos/tabelas geram melhor comunicação

A Gramática das Tabelas

Partes de uma tabela gt

Workflow das Tabelas

Fluxo de trabalho gt

Prototipagem rápida

Tabela básica em segundos

Tabela Final

Pronta para publicação

Use Tabelas Quando

  • Será usada para procurar valores individuais
  • Será usada para comparar valores individuais
  • Valores precisos são obrigatórios
  • Valores quantitativos incluem mais de uma unidade de medida
  • Valores de detalhe e/ou resumo estão incluídos

Use Gráficos Quando

  • Será usada para revelar as relações entre conjuntos inteiros de valores
  • A mensagem está contida na forma dos valores (padrões, tendências, exceções)

Referência

Show Me the Numbers

10 Princípios Básicos para
Melhores Tabelas

1. Separe o Cabeçalho do Corpo da Tabela

1. Separe o Cabeçalho do Corpo da Tabela

2. Use divisórias sutis em vez de linhas de grade pesadas

2. Use divisórias sutis em vez de linhas de grade pesadas

3. Alinhe Números à Direita

Alinhamos os números à direita e, de preferência, escolhemos fontes mono-espaçadas ou alinhadas numericamente, evitando fontes “antigas” que têm números com posicionamento horizontal variável.

3. Alinhe Números à Direita

Comparando os Alinhamentos

3. Alinhe Números à Direita

Adendos ao Alinhamento

Ao alinhar texto de comprimento igual (longo ou muito curto), o alinhamento central do texto pode ser preciso ou até preferível.

3. Alinhe Números à Direita

Adendos ao Alinhamento

Texto de comprimento igual pode ser centralizado sem afetar negativamente a capacidade de leitura rápida.

3. Alinhe Números à Direita

Escolha Cuidadosamente as Fontes do Texto

4. Alinhe Textos à Esquerda

Para textos/frases, é normalmente mais apropriado alinhar à esquerda. Isso permite que seus olhos facilmente acompanhem o texto curto e longo verticalmente.

5. Selecione o Nível Apropriado de Precisão nos Números

Embora às vezes você possa justificar o aumento de casas decimais, geralmente 1 ou 2 é o suficiente.

6. Guie seu Leitor com Espaços

Pense em como você deseja guiar o leitor - vertical ou horizontalmente.

6. Guie seu Leitor com Espaços

Pense em como você deseja guiar o leitor - vertical ou horizontalmente.

7. Evite a Repetição de Unidade

7. Evite a Repetição de Unidade

Você pode aplicar o símbolo da unidade apenas na primeira linha, por exemplo.

8. Destaque Outliers

Com grandes tabelas de dados, pode ser útil destacar outliers com cor ou forma.

8. Destaque Outliers

Com um pouco de cor, podemos nos concentrar claramente nos outliers.

8. Destaque Outliers

Podemos também utilizar um fundo preenchido em cada célula discrepante.

9. Agrupe Dados Similares e Aumente o Espaçamento

Aqui, agrupamos categorias semelhantes para facilitar a análise da tabela.

Também podemos aumentar o espaço em branco ou até mesmo remover repetições para aumentar a proporção de dados vs tinta.

9. Agrupe Dados Similares e Aumente o Espaçamento

Mal Exemplo

9. Agrupe Dados Similares e Aumente o Espaçamento

Bom Exemplo

10. Adicione Visualizações quando Apropriado

Embora a visualização de dados e as tabelas sejam ferramentas diferentes, você pode combiná-las de maneiras inteligentes para envolver ainda mais o leitor.

A visualização de dados incorporados pode revelar tendências, enquanto a própria tabela mostra os dados brutos para consulta.

10. Adicione Visualizações quando Apropriado

Sparklines - Tendências ao longo do tempo

10. Adicione Visualizações quando Apropriado

Sparklines - Distribuições com densidade

10. Adicione Visualizações quando Apropriado

Gráficos de Barras

10. Adicione Visualizações quando Apropriado

Gráficos Bullet

10. Adicione Visualizações quando Apropriado

Intervalos de Confiança

10. Adicione Visualizações quando Apropriado

Gráficos de Pontos

10. Adicione Visualizações quando Apropriado

Heatmap

10 Princípios Básicos para Melhores Tabelas

  1. Separe o Cabeçalho do Corpo da Tabela
  2. Use divisórias sutis em vez de linhas de grade pesadas
  3. Alinhe Números à Direita
  4. Alinhe Textos à Esquerda
  5. Selecione o Nível Apropriado de Precisão nos Números
  1. Guie seu Leitor com Espaços
  2. Evite a Repetição de Unidade
  3. Destaque Outliers
  4. Agrupe Dados Similares e Aumente o Espaçamento
  5. Adicione Visualizações quando Apropriado

Pausa de 10 minutos

10:00

Link do Notebook para o Hands-on

bit.ly/oficinas-dados-dia1

Ilustração das três espécies de pinguins de Palmer

Próxima Oficina (12/09)

Visualização & Dashboards

  • Gráficos com Plotly
  • Dashboards com Shiny
  • Interatividade

Obrigado!

github.com/damarals
linkedin.com/in/damarals