Precisa de ajuda?

+ 55 11 99384-2442
[email protected]

Livro Impresso

Estatística prática para cientistas de dados
50 conceitos essenciais



Estatística, Métodos estatísticos, perspectiva estatística, Peter Bruce, Andrew Bruce, alta books


Sinopse

Métodos estatísticos são uma parte crucial da ciência de dados; ainda assim, poucos cientistas de dados têm formação estatística.
Os cursos e livros sobre estatística básica raramente abordam os tópicos sob a perspectiva da ciência de dados.
Este guia prático explica como aplicar diversos métodos estatísticos em ciência de dados, ensina a evitar seu mau uso e aconselha sobre o que é importante e o que não é.
Muitos recursos da ciência de dados incorporam métodos estatísticos, mas carecem de uma perspectiva estatística aprofundada.
Se você está familiarizado com a linguagem de programação R e tem algum conhecimento estatístico, este guia fará a ponte de forma fácil e acessível.

Com este livro, você aprenderá:

- Por que a análise exploratória de dados é um passo prévio importante na ciência de dados
- Como a amostragem aleatória pode reduzir o viés e resultar um conjunto de dados de maior qualidade, mesmo em big data
- Como os princípios do design experimental resultam respostas definitivas
- Como usar regressão para estimar resultados e detectar anomalias
- Principais técnicas de classificação para prever a quais categorias um registro pertence
- Métodos de aprendizado de máquina estatístico que “aprendem” com os dados
- Métodos de aprendizado não supervisionado para extração de significado de dados não rotulados.

Metadado adicionado em 30/04/2019

Encontrou alguma informação errada?

ISBN relacionados

--


Metadados adicionados: 30/04/2019
Última alteração: 18/07/2024
Última alteração de preço: 05/06/2024

Autores e Biografia

Bruce, Andrew (Autor) , Bruce, Peter (Autor)

Sumário

Prefácio ...........................................................................................................xv
1. Análise Exploratória de Dados ............................................................................1
Elementos de Dados Estruturados 2
Leitura Adicional 5
Dados Retangulares 5
Quadros de Dados e Índices 6
Estruturas de Dados Não Retangulares 7
Leitura Adicional 8
Estimativas de Localização 8
Média 9
Mediana e Estimativas Robustas 11
Exemplo: Estimativas de Localização de População e
Taxas de Homicídio 12
Leitura Adicional 14
Estimativas de Variabilidade 14
Desvio-padrão e Estimativas Relacionadas 15
Estimativas Baseadas em Percentis 17
Exemplo: Estimativas de Variabilidade de População Estadual 18
Leitura Adicional 19
Explorando a Distribuição de Dados 20
Percentis e Boxplots 20
Tabela de Frequências e Histogramas 22
Estimativas de Densidade 24
Leitura Adicional 26
Cap. de Amostra
viii | Sumário
Explorando Dados Binários e Categóricos 26
Moda 28
Valor Esperado 28
Leitura Adicional 29
Correlação 30
Gráficos de Dispersão 33
Leitura Adicional 34
Explorando Duas ou Mais Variáveis 34
Compartimentação Hexagonal e Contornos (Representando
Numéricos versus Dados Numéricos) 35
Duas Variáveis Categóricas 37
Dados Categóricos e Numéricos 38
Visualizando Variáveis Múltiplas 40
Leitura Adicional 42
Resumo 42
2. Distribuições de Dados e Amostras ................................................................... 43
Amostragem Aleatória e Viés de Amostra 44
Viés 46
Seleção Aleatória 47
Tamanho versus Qualidade: Quando o tamanho importa? 48
Média Amostral versus Média Populacional 49
Leitura Adicional 49
Viés de Seleção 50
Regressão à Média 51
Leitura Adicional 53
Distribuição de Amostragem de uma Estatística 53
Teorema de Limite Central 56
Erro-padrão 56
Leitura Adicional 57
O Bootstrap 57
Reamostragem versus Bootstrapping 61
Leitura Adicional 61
Intervalos de Confiança 61
Leitura Adicional 64
Cap. de Amostra
Sumário | ix
Distribuição Normal 65
Normal Padrão e Gráficos QQ 66
Distribuições de Cauda Longa 68
Leitura Adicional 70
Distribuição t de Student 70
Leitura Adicional 73
Distribuição Binomial 73
Leitura Adicional 75
Poisson e Distribuições Relacionadas 76
Distribuições Poisson 76
Distribuição Exponencial 77
Estimando a Taxa de Falha 77
Distribuição Weibull 78
Leitura Adicional 79
Resumo 79
3. Experimentos Estatísticos e Teste de Significância ............................................. 81
Testagem A/B 82
Por que Ter um Grupo de Controle? 84
Por que apenas A/B? Por que Não C, D…? 85
Leitura Adicional 86
Testes de Hipótese 87
A Hipótese Nula 88
Hipótese Alternativa 89
Teste de Hipótese Unilateral, Bilateral 89
Leitura Adicional 90
Reamostragem 91
Teste de Permutação 91
Exemplo: Aderência Web 92
Testes de Permutação Exaustiva e Bootstrap 95
Testes de Permutação: A conclusão para a Ciência de Dados 96
Leitura Adicional 96
Significância Estatística e Valores P 97
Valor P 99
Alfa 99
Erros Tipo 1 e Tipo 2 101
Cap. de Amostra
x | Sumário
Ciência de Dados e Valores P 101
Leitura Adicional 102
Testes t 102
Leitura Adicional 104
Testagem Múltipla 104
Leitura Adicional 108
Graus de Liberdade 108
Leitura Adicional 109
ANOVA 110
Estatística F 113
ANOVA Bidirecional 114
Leitura Adicional 115
Teste de Qui Quadrado 115
Teste de Qui Quadrado: Uma Abordagem à Reamostra 115
Teste de Qui Quadrado: Teoria Estatística 117
Teste Exato de Fisher 118
Relevância para a Ciência de Dados 120
Leitura Adicional 121
Algoritmo de Bandido Multibraços 122
Leitura Adicional 125
Potência e Tamanho de Amostra 125
Tamanho da Amostra 127
Leitura Adicional 129
Resumo 129
4. Regressão e Previsão ......................................................................................131
Regressão Linear Simples 131
A Equação de Regressão 132
Valores Ajustados e Resíduos 134
Mínimos Quadrados 136
Previsão versus Explicação (Profiling) 137
Leitura Adicional 138
Regressão Linear Múltipla 138
Exemplo: Dados Imobiliários de King County 139
Avaliando o Modelo 140
Validação Cruzada 142
Cap. de Amostra
Sumário | xi
Seleção de Modelo e Regressão Passo a Passo 143
Regressão Ponderada 145
Previsão Usando Regressão 146
Os Perigos da Extrapolação 147
Intervalos de Confiança e Previsão 147
Variáveis Fatoriais em Regressão 149
Representação de Variáveis Fictícias 150
Variáveis Fatoriais com Muitos Níveis 152
Variáveis de Fator Ordenado 153
Interpretando a Equação de Regressão 154
Preditoras Correlacionadas 155
Multicolinearidade 156
Variáveis de Confundimento 157
Interações e Efeitos Principais 158
Testando as Suposições: Diagnósticos de Regressão 160
Outliers 161
Valores Influentes 163
Heteroscedasticidade, Não Normalidade e Erros Correlacionados 165
Gráficos Residuais Parciais e Não Linearidade 168
Regressão Polinomial e Spline 170
Polinomial 171
Splines 172
Modelos Aditivos Generalizados 174
Leitura Adicional 176
Resumo 176
5. Classificação .................................................................................................. 177
Naive Bayes 178
Por que a Classificação Bayesiana Exata é Impraticável 179
A Solução Naive 180
Variáveis Preditoras Numéricas 182
Leitura Adicional 182
Análise Discriminante 183
Matriz de Covariância 184
Discriminante Linear de Fisher 184
Um Exemplo Simples 185
Leitura Adicional 187
Cap. de Amostra
xii | Sumário
Regressão Logística 188
Função de Resposta Logística e Logito 188
Regressão Logística e o GLM 190
Modelos Lineares Generalizados 191
Valores Previstos a Partir da Regressão Logística 192
Interpretando os Coeficientes e as Razões de Chances 192
Regressão Linear e Logística: Semelhanças e Diferenças 194
Avaliando o Modelo 195
Leitura Adicional 198
Avaliando Modelos de Classificação 199
Matriz de Confusão 200
O Problema da Classe Rara 201
Precisão, Revocação e Especificidade 202
Curva ROC 202
AUC 204
Lift 205
Leitura Adicional 207
Estratégias para Dados Desequilibrados 208
Undersampling 208
Oversampling e Ponderação Acima/Abaixo 209
Geração de Dados 210
Classificação Baseada em Custos 211
Explorando as Previsões 212
Leitura Adicional 213
Resumo 214
6. Aprendizado de Máquina Estatístico ................................................................215
K-Vizinhos Mais Próximos 216
Um Pequeno Exemplo: Prevendo Inadimplência em Empréstimos 217
Métricas de Distância 219
One Hot Encoder 220
Padronização (Normalização, Escores Z) 221
Escolhendo K 223
KNN como um Motor de Característica 224
Modelos de Árvore 226
Um Exemplo Simples 227
O Algoritmo Recursivo de Repartição 229
Cap. de Amostra
Sumário | xiii
Medindo Homogeneidade ou Impureza 231
Fazendo a Árvore Parar de Crescer 232
Prevendo um Valor Contínuo 234
Como as Árvores São Usadas 234
Leitura Adicional 235
Bagging e a Floresta Aleatória 236
Bagging 237
Floresta Aleatória 237
Importância da Variável 241
Hiperparâmetros 243
Boosting 245
O Algoritmo de Boosting 246
XGBoost 247
Regularização: Evitando Sobreajuste 248
Hiperparâmetros e Validação Cruzada 252
Resumo 255
7. Aprendizado Não Supervisionado ................................................................... 257
Análise dos Componentes Principais 258
Um Exemplo Simples 259
Calculando os Componentes Principais 261
Interpretando os Componentes Principais 262
Leitura Adicional 264
Agrupamento por K-Médias 265
Um Exemplo Simples 265
Algoritmo de K-Médias 268
Interpretando os Agrupamentos 269
Escolhendo o Número de Grupos 271
Agrupamento Hierárquico 273
Um Exemplo Simples 274
O Dendrograma 274
O Algoritmo Aglomerativo 276
Medidas de Dissimilaridade 276
Agrupamento Baseado em Modelos 278
Distribuição Normal Multivariada 278
Misturas de Normais 280
Selecionando o Número de Grupos 282
Cap. de Amostra
xiv | Sumário
Leitura Adicional 284
Escalonamento e Variáveis Categóricas 285
Escalonando as Variáveis 285
Variáveis Dominantes 287
Dados Categóricos e Distância de Gower 288
Problemas com Agrupamento de Dados Mistos 291
Resumo 292
Bibliografia ....................................................................................................293
Índice ............................................................................................................295



Para acessar as informações desta seção, Faça o login.