News & Politics

Análise Bivariada. Frases. Roteiro. 1. Introdução

Description
Análse Bvarada Frases Torture os dados por um tempo sufcente, e eles contam tudo! fonte: (Barry Fetter) Um homem com um relógo sabe a hora certa. Um homem com dos relógos só sabe a méda.
Published
of 41
All materials on our website are shared by users. If you have any questions about copyright issues, please report us to resolve them. We are always happy to assist you.
Related Documents
Share
Transcript
Análse Bvarada Frases Torture os dados por um tempo sufcente, e eles contam tudo! fonte: (Barry Fetter) Um homem com um relógo sabe a hora certa. Um homem com dos relógos só sabe a méda. Anônmo 1. Introdução Rotero 2. Dagramas de Dspersão 3. Correlação 4. Regressão de Mínmos Quadrados 5. Cudados com a Regressão e Correlação 6. Relações em Dados Categórcos 7. Referêncas Introdução Relação entre Varáves (1) Estudar as relações (assocações) entre varáves; Ex.: Carros pesados causam menos vítmas fatas? Pessoas que fumam tendem a não vver tanto quanto pessoas que não fumam? Para o estudos das relações entre varáves, medmos os valores em mesmos ndvíduos. Relação entre Varáves (2) A relação entre duas varáves pode ser fortemente nfluencada por varáves que estão ocultas no contexto; Assocações estatístcas são tendêncas globas e não regras rígdas. Exame da Relação entre Varáves 1. Que ndvíduos os dados descrevem? 2. Que varáves estão presentes? Como são meddas? 3. Quas varáves são quanttatvas e quas são qualtatvas. Podem ser: Objetvos explorar a natureza da relação; ou mostrar que uma das varáves pode explcar varações na outra. Tpos de Varáves Varável resposta (Y): Varável Explanatóra (X): Afrmações do tpo: se x é dada, então ocorre y São mas fáces de serem dentfcadas quando fxamos os valores das varáves explanatóras para vermos como a varável resposta é afetada. x Y Varável explcatva Varável ndependente Regressor Predtor Varável exógena Varável de controle ou estímulos Varável explcada Varável dependente Regreddo Predto Varável endógena Varável resposta Causa Há stuações em que o objetvo é mostrar que a varação em uma ou mas varáves explcatvas causam efetvamente varações em uma varável resposta. Avalações do ENEM podem ajudar a predzer as futuras notas dos estudantes na faculdade. Mas avalação elevada não causa nota alta em uma faculdade. Rotero para Estudo de Assocação 1. Incar o trabalho com apresentação gráfca e, em seguda, acrescentar resumos numércos; 2. Procurar padrões geras e desvos em relação a eles. 3. Quando o padrão geral é regular, utlzar o modelo matemátco compacto. Dagramas de Dspersão Dagrama de Dspersão Mostra a relação entre 2 varáves quanttatvas ; Cada ndvíduo é representado por uma ponto no gráfco; par ordenado; Se for possível dentfcar: Exo horzontal: varável explcatva; Exo vertcal: varável resposta. Resultados do ENEM 26 Dese mpe nho Ger al po r E stado 4 Brasl = 52, 8 38 Prova Objet va , 9 32 Dados: ENEM, , 47, 5 5, 52,5 55, 57,5 Redação Aparentemente há uma relação entre os desempenhos na redação e na prova objetva. Interpretação Procurar o padrão geral e desvos acentuados; Descrção do padrão geral: Forma Dreção Intensdade Importante: Indentfcar e analsar outlers Forma Tpos mas comuns de relações: Lnear: Exponencal Quadrátca Exemplo 1 Vendas/Renda Varável resposta: Vendas no varejo ($) Varável explcatva: Renda dsponível ($) 7 Vendas no Varejo ($) Tendênca lnear Renda Ds ponível ($) Exemplo 2 Absorção de Oxgêno Varável resposta: Absorção de Oxgêno Varável explcatva: Ventlação Absorçã o de Oxgê no Tendênca exponencal Ventlaç ão Outros Padrões (1) Concentração de qunase de creatnna no sangue 1 Concentração (mu/ml) Tempo (horas) Os padrões da tendênca varam Exemplo 3 Comprmentos de Fígados Varável resposta: Comprmento do fígado (mm) Varável explcatva: Tempo de gestação (sem.) 7 Comprme nto do fígado (mm) Tendênca não-lnear Tempo de Ge sta ção (se m. ) Dreção Assocação Postva: Valores acma da méda de uma delas tendem a ocorrer com valores acma da méda da outra e vce-versa. Assocação Negatva: Valores acma da méda de uma delas, acompanham valores abaxo da méda da outra e vce-versa. Trânsto em Captas 16 1 V ít mas Fat as Vít ma s Fat as por 1. veículos V ít mas de A cden te Moto rzação (veícu los po r 1 habtan tes) D ados: Denatran, 26 D ados: Denatran, 26. Postva Negatva Intensdade Determnada pela proxmdade dos pontos observados a uma forma defnda. Desempenho ENEM 26 57,5 Dese mpenho Reda ção Des empenho Estudante s que Cursa ram ape na s Esc ola s Partculare s 62 Desempenho Geral 55, 52,5 5, 47,5 Desempenho e m Reda çã o , 45, 47,5 5, 52,5 55, 57,5 De se mpenho Estudant es que Cursa ram a penas Escolas Públcas PIB per capta (R$) Dados: ENEM, 26 Dados: ENEM, 26 Correlação Forte Correlação Fraca Intensdade de correlação lnear: proxmdade à uma reta Correlação Lnear Postva y y y Postva x Postva Forte x Postva Perfeta x Dagramas de Dspersão Correlação Lnear Negatva y y y Negatva x Negatva Forte x Negatva Perfeta x Dagramas de Dspersão Sem Correlação Lnear y y Sem Correlação x Correlação não-lnear x Dagramas de Dspersão Conglomerados Análse de Clusters ou Conglomerados: Classfcação de objetos em dferentes grupos, ou seja, a partção do conjunto de dados em subconjuntos (clusters) de manera que os dados em cada grupo compartlhe dealmente alguma característca comum Em geral, proxmdade entre objetos de acordo a alguma medda de dstânca Acrescentando Categoras no Dagrama A lunos que Cursaram apenas Es colas Públc as 57,5 55, 52,5 5, 47,5 45, 52 Da dos: ENEM, 26 G rupo N /N E Outr as Desempe nho em Re dação Alunos que Cursaram apenas Es colas Part culares Aparentemente há um padrão dferente para os estados do N e NE. 62 Suavzação usando a Méda Exemplo 2.5: Safra de mlho nos EUA: 1 acre,447 ha 45 alqueres por acre 5 sacas/ha Plantas por acre Méda ,1 113, 118,4 142,6 131, ,9 12,7 135,2 149,8 143, ,3 13,1 139,6 149,9 146, ,7 138,4 156,1 143, , 15,5 134,8 Méda 16,8 124,6 13,1 149,8 17 Safra de mlho (alqueres por acre) Taxa (mlhares de plantas por acre) 1956 teve safras altas, nfluencando as médas Relação entre 2 varáves nem sempre pode ser entendda sem conhecmento sobre outras varáves. Suavzação Nem todos os dagramas de dspersão têm mutos valores de y para o mesmo valor de x; Os suavzadores consderam a méda de y em uma vznhança de cada valor de x; Eles costumam ser resstentes a outlers; Objetvo da Suavzação: auxlar na vsualzação de padrões mas complexos Exemplo Suavzação Exemplo 2.6: Teste de Colsão de Motoccletas Planlha: colsao_motos 1 Varação de Velocdade em Colsão de Motoccleta 5 Acele ração (gs) Tempo (mlssegundos) Dados: Schmdt, Mattern, S chüler (1981) Varáves Explcatvas Categórcas Os dagramas de dspersão mostram a assocação entre duas varáves quanttatvas; Para mostrar relação entre varável resposta quanttatva e varável explcatva qualtatva os box-plot, em geral, dão bons resultados Assocação entre Renda per capta e Regão Há dfereças entre rendas per capta e regões? Identfque Relação entre Desempenho ENEM e Regões 57,5 4 Desempenho Geral em Redação 55, 52,5 5, 47,5 Desempenho Geral em Prova Objetva , C entr o-oeste Nordeste N orte Regão Sudeste Sul 3 Centro-Oeste Nordeste Norte Re gão S udeste Sul Dados: Enem, 26. Dados: Enem, 26 A Regão ajuda a explcar o desempenho? Exemplo com Varável Qualtatva Ordnal Correlação Intensdade de Assocação Lnear No dagrama de dspersão: Forte:os pontos se dstrbuem próxmos a uma reta; Fraca: os pontos estão muto dspersos em torno dela. Medda numérca que complementa o dagrama de dspersão para estabelecer a ntensdade de relação lnear: Correlação Soma de Quadrados Notação S xx = 2 ( x x) = x 2 n( x) 2 S yy = 2 ( y y) = y 2 2 n ( y) S = ( x x)( y y) = x y n ( x. y) xy Coefcente de Correlação Lnear Amostral Mede o grau de relaconamento lnear entre os valores emparelhados x e y em uma amostra. r = S Em geral, calculadoras fnanceras calculam o valor de r. S xx xy S yy Outra expressão para Cálculo de r r = ( x x)( y y) ( n 1) s s x y s x : desvo padrão amostral de x s y : desvo padrão amostral de y Desempenho ENEM 26 4 Desempenho Geral por Estado 3 8 Prova Objetva Dados: ENEM, 26 45, 47,5 5, Reda ção 52,5 55, 57, 5 Correlatons: Objetva_so_pub; Objetva_so_part Pearson correlaton of Objetva_so_pub and Objetva_so_part =,741 P-Value =, Propredades da Correlação A correlação não faz qualquer dstnção entre varáves explanatóras e varáves resposta; A correlação exge que ambas as varáves sejam quanttatvas; A correlação mede apenas ntensdade de relação lnear entre varáves; Não descreve relações curvlíneas por mas fortes que sejam 1 8 6 X^2 4 2 r =, -1-5 X 5 1 MTB correlaton 'X' 'X^2' Correlatons: X; X^2 Pearson correlaton of X and X^2 = -, P-Value = 1, Exste uma relação de dependênca NÃO LINEAR entre as varáves. Propredades da Correlação (2) A correlação r não se altera quando mudamos as undades de medda de x e y; r postvo ndca assocação postva entre as varáves e r negatvo, assocação negatva; r é sempre um número entre -1 e 1: Valores próxmos de -1 ndcam que os pontos se stuam próxmos a uma reta decrescente; Próxmos de 1, próxmos a uma reta crescente Intensdade de relação lnear dmnu na medda em que se aproxma de Dagramas de Dspersão (1) Dagramas de Dspersão (2) Dagramas de Dspersão (3) Correlação e Outlers Utlze r com cautela quando houver outlers no dagrama de dspersão; Assm como a méda e o desvo-padrão, a correlação é fortemente afetada por outlers. 4 Des empenho Ger al por Estado RS 3 8 Prova Objetva , 47, 5 5, 52,5 Da dos: ENEM, , 5 7,5 Re da çã o Todos os estados: r =,741 Todos, exceto RS: r =,849 O RS nfluenca no resultado da correlação? Porcentagem de Varação 1 r r ( ) r r: correlação calculada com todas as observações r():correlação calculada sem a -ésma observação.,849,741 1 = 14,6%,741 Comentáros A correlação não é uma descrção completa dos dados de duas varáves; É precso dar as médas e os desvos-padrão tanto de x quanto de y. Correlação baseada em médas, em geral, é mas alta do que se dspuséssemos os dados por ndvíduos Uma correlação elevada não mplca causação. Regressão de Mínmos Quadrados Reta de Regressão Resume a relação entre duas varáves, somente no contexto em que uma das varáves ajuda a explcarmos ou predzermos a outra. Descreve como uma varável resposta y vara me função de uma varável explanatóra x; A regressão, ao contráro da correlação, exge que tenhamos varável explanatóra e varável resposta. Ajuste de uma Reta aos Dados Nenhuma reta passa exatamente por todos os pontos; Ajustamento de uma reta: Traçar uma reta que passe tão próxma dos pontos quanto possível. Equação da Reta y = a + bx y se modfca a uma taxa constante em relação à sua varável explcatva x a e b são constantes y a : ntercepto-y b : coefcente angular x Exemplo 2.11, pg. 77 Estudo de nutrção em cranças Dados de alturas médas de grupo de cranças de Kalama (aldea egípca) Medções mensas de alturas de 161 cranças, dos 18 aos 29 meses de dade Planlha: kalama A lt ura ( em cm) Idade (em meses) Correlatons: Idade; Altura Pearson correlaton of Idade and Altura =,994 P-Value =, Evdênca de forte assocação lnear postva Sem outlers Qualquer reta que descreva os dados de Kalama terá a forma: altura = a + ( b dade) A ltura (em c m) Idade (em meses) Como por exemplo a reta: altura = 64,93 + (,635 dade) 3 64,93 cm: altura méda no nascmento A crança cresce em méda,635 cm por mês Predção Podemos usar a reta de regressão para predzer a resposta y para um valor espec ífco da varável explanatóra x; Exemplo: Vamos predzer a altura méda das cranças aos 32 meses de dade altura = 64,93 + (,635 32) = 85, 25cm 32 85, 85,25 Altura (em cm) 82, 5 8, 77, 5 75, Idade (em meses) Os pontos estão próxmos da reta, logo a precsão do valor prevsto ser á razoável. Precsão das Predções Se os dados apresentam padrão lnear com razoável dspersão, podemos usar a reta de regressão para resumr o padrão, mas não teremos tanta confança em predções baseadas na reta Intervalo de Predção 7 Comprmento do fígado (mm) Para 25 semanas: comprmento fígado entre 23 e 41 mm Tempo de Ge sta ção (se m. ) Grande dspersão em torno da tendênca Relação fraca Intervalos de predção amplos Predção mprecsa Extrapolação Aplcação da reta de regressão para predções muto afastadas do ntervalo de valores de x usados para obter a reta; Em geral, tas predções não são recomendadas. Será que podemos usar a reta de regressão ajustada para prever a dade dos resdentes do Kalama aos 2 anos? altura = 64,93 + (,635 24) = 217, 33cm Comentáros Conduz a uma altura de 2,17 m!!! Fo um cálculo cego Os dados cobrem apenas o período de 18 a 29 meses; Na medda em que as pessoas envelhecem, crescem mas devagar (dferentes valores de b); A reta ajustada não é um bom modelo para dades muto afastadas dos dados da amostra. Importante Métodos estatístcos não podem ultrapassar as lmtações dos dados que os almentam! Y Erro de Predção erro = altura observada altura predta Para a 7ª. observação (tabela): erro = y 7 (a + b x 7 ) ou seja, o erro depende da reta que escolhemos Ajuste da Reta , 1,5 2, Qual a reta que se ajusta melhor aos dados? ou seja quas os valores de a e b? Escolher a e b de manera a tornar mínma a dstânca entre a reta e os pontos 2,5 X 3, 3,5 4, Método dos Mínmos Quadrados Crtéro: Valores dos parâmetros que mnmzam a soma dos quadrados dos erros n ( y yˆ ) = 1 2 Método dos Mínmos Quadrados (2) Mnmzação em relação a ß e ß 1 : 2 S = d = + S = a 2 { Y ( a bx )} y d S = b x Método dos Mínmos Quadrados (3) Resultados das dervadas parcas: bˆ = aˆ = n. ( x y ) ( x ) ( y ) 2 n. x ( ) 2 x y b x n s bˆ = r s Calculando por meddas estatístcas : s ˆβ 1 = = r s XY 2 X XY s s Y X y x aˆ = Y bx ˆ Exemplo 2.14 contnuação Dados calculados a partr da Tabela 2.5: x = 23,5 meses y = 79,85cm r =,9944 Cálculo dos parâmetros: s = 3,66meses s = 2,32cm Equação da reta: yˆ = 64,928+, 635 x x ˆ s x 3,66 b = r =,9944,635 s 2,32 = aˆ = y bˆ x = 79,85 64,928 23,5 = 64, 928 y y Saída do Mntab Regresson Analyss: Altura versus Idade The regresson equaton s Altura = 64,9 +,635 Idade Predctor Coef SE Coef T P Constant 64,9283, ,71, Idade,63497,214 29,66, S =, R-Sq = 98,9% R-Sq(adj) = 98,8% b =,635 : taxa mensal de varação da altura méda a = 64,926: não podemos afrmar que é a altura ao nascer, pos, as dades ncam com 18 meses Propredades dos EMQO A reta de regressão passa pelo ponto Podemos escrever a regressão exclusvamente em termos das meddas descrtvas básca: sx, sy, x, y, r ( x, y) Se x e y são ambas varáves padronzadas (méda zero e desvo-padrão1) então teremos a reta de regressão: Passando pela orgem, com coefcente angular r. Correlação e Regressão O coefcente angular da reta de mínmos quadrados (b) envolve r; O quadrado da correlação r 2 é a percentagem de varação nos valores de y que é explcada pela regressão de mínmos quadrados de y em x. É comum usar r 2 para mostrar a capacdade de a regressão explcar a resposta. Regresson Analyss: Altura versus Idade The regresson equaton s Altura = 64,9 +,635 Idade No Exemplo Predctor Coef SE Coef T P Constant 64,9283, ,71, Idade,63497,214 29,66, S =, R-Sq = 98,9% R-Sq(adj) = 98,8% r =,994 r 2 =,989 A reta de regressão explca 98,9% da varação das alturas Trânsto Captas 16 V ítmas fatas por 1. veículos r 2 =, Severdade(vítmas fatas por 1. ac dentes) Dados: Denatra n, Outra Interpretação r 2 dá a razão entre a varânca das respostas predtas e a varânca das respostas efetvas; Varânca dos valores predtos: Varação dos valores se não houvesse dspersão em torno da reta Varânca dos valores observados: Varação que os valores efetvamente apresentam. No exemplo Varânca dos valores observados (y): 5,391 Varânca dos valores predtos ( y): 5,24135 r2 2 5,24135 r = =, ,391 Cudados com Regressão e Correlação Avalação do Modelo A técnca têm lmtações e há necessdade de avalar a qualdade do ajuste; Em uma análse ncal necesstamos: Avalar os resíduos; Verfcar a presença de varáves ocultas; Avalar a presença de outlers ou observações nfluentes. Resíduos As dstâncas vertcas dos pontos à reta de regressão são as menores possíves; mínmos quadrados Resíduo: é a dferença entre um valor observado da varável resposta e o valor predto pela reta de regressão. resíduo = y observado y predto eˆ = y yˆ Reta de Regressão e Resíduos Valores ajustados: y ˆ = a + Resíduos: bx y ŷ ê y ˆ = a+ bx eˆ = y yˆ A méda dos resíduos de mínmos quadrados é sempre zero x Gráfco de Resíduos É um dagrama de dspersão dos resíduos da regressão versus a varável explanatóra; Esses gráfcos ajudam a avalar o ajuste de uma reta de regressão. Exemplo Kalama x Observado 76,1 77, 78,1 78,2 78,8 79,7 79,9 81,1 81,2 81,8 82,8 83,5 Predto 76,4 77, 77,6 78,3 78,9 79,5 8,2 8,8 81,4 82,1 82,7 83,3 Resíduo -,26 y ˆ1 = 64,928+, = 76, 4,1,47 -,6 -,1,17 -,27,3 -,24 -,27,9,16 e = 76,1 76,4 =,26 ˆ , 5, 4 Resdual s Versus the F tted Values (r esponse s Altur a) Altura (em cm) Resíd uos (cm), 3, 2, 1, -, 1 -, Idade (em meses) , Va lo r A justado Os resíduos tem a dspersão rregular típca de dados que não se afastam do modelo de forma sstemátca Análse Gráfca dos Resíduos Se a regressão estver bem ajustada não observaremos qualquer padrão no gráfco; Espera-se que os pontos estejam: dstrbuídos em uma faxa horzontal não estruturada; smétrcos em relação a zero. Resíduos vs Varável Explcatva ê ê x x Não há defetos óbvos no modelo A varânca é crescente de y. função Prevsões de y mas precsas para menores valores de x. Resíduos vs Varável Explcatva ê x Modelo não lnear. Varáves Ocultas É uma varável que tem um efeto mportante sobre a relação entre as varáves em estudo, mas não está ncluída entre as varáves estudadas.; Um método convenente é grafar a varável resposta e os res íduos da regressão segundo a ordem temporal das observações Exemplo 2.17, pg. 88 Predção do número de alunos dos cursos elementares do Departamento de Matemátca com base no número de alunos do 1º ano. Varável explanatóra (x): número de alunos do 1º ano Varável resposta (y): número de estudantes matrculados em cursos elementares de matemátca Dados coletados de 199 a 1997 Reta de Regressã o Ajus ta da Elementar es = , 66 1º ano Res íduos v s. Valores Ajustados ( Resposta: Matrículas em Cursos Element ar es) Eleme ntares Resíduo s S 18 8,94 9 R-Sq 6 9,4% R-Sq(a dj) 6 4,3% º a no Valor Aj ustado A reta parece ajustar-se razoavelmente bem; Os três pontos acma da reta representam uma relação um tanto dferente. Gráfco Resíduos vs Ordem Resíduos vs Ano (Resposta : Mat rículas e m Cursos Elemen tares) 3 2 Resíduos = Ordem das Observações 7 8 Os 3 res íduos postvos representam de 95 a 97; Houve um aumento entre 1994 (5) e 1995 (6) que provocou aumento da proporção de estudantes Outlers e Observações Influentes Devemos também procurar pontos ndvduas surpreendentes Exemplo 2.18, pg. 91 A dade em que uma crança começa a falar permte predzer a nota em teste posteror de capacdade mental? Varável explcatva: dade, em meses, em que a crança pronuncou sua 1ª palavra; Varável resposta: Escore Adaptatvo de Gesell, resultado de teste de capacdade feto muto mas tarde Grupo de 21 cranças Planlha: nco_fala Reta de Regressão Ajustada Escore = 19,9-1,127 Idade Resí duo s vs Valo re s Aj ustado s (Resposta: Escore adaptatvo de Gesell) Escore ada ptat vo de Gesell S 11, 229 R- Sq 4 1,% R- Sq (adj) 3 7,9% 1 8 Resíduo Idade à pr mer a palavra (em meses) Valor Ajustado 9 1 Relação negatva moderadamente lnear % de explcação da varação do escore: 41% Outlers: Dreção x: crança 18 Dreção y: crança 19 Escore ada ptat vo de Gesell Reta de Regressão Ajustada Escore = 19,9-1,127 Idade Ponto Influente 1 9 S 11, 229 R- Sq 4 1,% R- Sq (adj) 3 7,9% 1 8 Escore ada ptat vo de Gesell Reta d e Regressão Aju sta da - Se m Observaç ão 1 8 es cor e_2 = 15,6 -,7792 dade_2 S 11,168 R-Sq 1 1,2% R-Sq (ad j) 6,3% Idade à pr mer a palavra (em meses) Idade à prmera pa lavr a (em me ses) 4 45 A observação 18 nfluenca bastante o ajuste r 2 baxou para 11,2% a nclnação reduzu-se Se o dado for mantdo são necessáras mas observações de cranças que demoraram a falar Outlers Observação stuada fora do padrão global das demas observações; Outlers na dreção y tem grandes resíduos; Outlers na dreção x necessaramente não apresentam a mesma característca. Pontos Influentes Observações cuja remoção do cálculo estatístco, modfca sensvelmente o resultado; Os pontos que são outlers na dreção x em geral são nfluentes para a reta de regressão. A manera mas segura de verfcar se um ponto é nfluente é achar a reta de regressão com o ponto suspeto e sem ele; Se a reta sofrer mas que um pequ
We Need Your Support
Thank you for visiting our website and your interest in our free products and services. We are nonprofit website to share and download documents. To the running of this website, we need your help to support us.

Thanks to everyone for your continued support.

No, Thanks