Slides

Clustering aplicado às eleições 2010

Description
Análise de Clustering aplicado às eleições 2010. Foram avaliadas matérias publicadas em grandes portais online sobre o primeiro debate Band dos presidenciáveis.
Categories
Published
of 18
All materials on our website are shared by users. If you have any questions about copyright issues, please report us to resolve them. We are always happy to assist you.
Related Documents
Share
Transcript
  • 1. Clustering aplicado às Eleições 2010
  • 2. O que é Clustering? Clustering compreende uma família de técnicas computacionais utilizadas para agrupar dados semelhantes entre si. A imagem ao lado ilustra uma aplicação de clustering a um conjunto de dados referentes a consumidores. Cada ponto corresponde às respostas de um questionário de um consumidor, e quatro grupos de consumidores podem ser rapidamente visualizados. O que os agrupa é o quanto eles associam bebida alcóolica a uma das seguintes características: individualidade, status, apelo social e esperteza. Fonte: Wikipedia
  • 3. Clustering e Comunicação Digital Aplicar clustering a uma quantidade significativa de conteúdo digital pode revelar relações entre palavras que evidenciam aspectos de notícias, opiniões e outras informações veiculadas em mídias tradicionais e sociais, direcionando leituras e análises. • Especialmente útil quando a quantidade de conteúdo nas mídias é muito abundante, requerendo muito tempo para ser lida.
  • 4. Clustering e Comunicação Digital Os agrupamentos obtidos através de clustering ajudam a entender como as mídias estão enfocando uma determinada marca ou pessoa pública, evidenciando recortes de assunto (agrupamentos diferentes) e aquilo que é mais relevante (agrupamentos maiores). Cada agrupamento de menções a uma marca • Ou seja, têm aplicação direta X evidencia algo diferente (assunto, aceitação etc). a monitoramento de conteúdo digital
  • 5. Modelo de Tópicos L-LDA O modelo de tópicos L-LDA é uma técnica computacional para agrupamento de informação por tópicos (Ramage et al.). Diferentemente de outras técnicas de clustering, cada agrupamento, antes de ser gerado, já está previamente associado a um tópico. A interpretação do significado de cada um deles, portanto, torna-se mais objetiva. Um tópico pode ser um assunto, uma tag Agrupamento de menções à marca por de blog, um sentimento etc. tópicos (atendimento, variedade e promoções)
  • 6. Modelo de Tópicos L-LDA Imagine um conjunto de posts marcados com tags diferentes, Tópico Palavras cada uma representando um Web, search, site, tópico. O L-LDA parte da ideia de Web blog, css, content, que as palavras em cada post se google associam às tags de forma Book, image, pdf, diferente, agrupando-as de Books review, posted, read library, acordo com este princípio. A Woorks, water, tabela ao lado mostra uma Science map, human, life, aplicação do L-LDA a um work, science conjunto de posts do del.icio.us Comment, god, (Ramage et al.). Observe como Religion jesus, people, gospel, bible, reply as palavras associadas a cada tag se relacionam semanticamente.
  • 7. Debate da Band: agrupando conteúdo com um L-LDA • Dados – Notícias sobre o debate dos presidenciáveis do dia 05 de Agosto de 2010, organizado pela Band. • Portais: Globo, Folha, Terra, iG e Estadão. • Presidenciáveis: Dilma Rousseff, José Serra, Marina Silva e Plínio Arruda. • Datas monitoradas: 05 e 06 de Agosto de 2010. • Tópicos – Cada notícia foi rotulada com três tópicos: • presidenciável destacado (nos casos em que Serra e Dilma foram muito discutidos, o rótulo dado foi “serdil”; no caso em que todos foram enfocados, “todos”); • data da notícia; • portal.
  • 8. Debate da Band: agrupando conteúdo com um L-LDA As dez palavras mais fortemente agrupadas em torno de cada presidenciável (ou “serdil” ou “todos”), excetuando artigos, conjunções, preposições a alguns pronomes, estão listadas na tabela abaixo. eduardo,bandeirantes, paulo, petista, foi, candidato, dilma, dilma são,lula,primeiro aécio,governo,foi,diz,avaliar,psdb,pesquisa,presidenciável,conseg serra uiu,bandeirantes presidenciável, ter, marinasilva, receio, disse, são, candidata, marina marina, diz,candidato presidência,sampaio,plateia,aliados,marisa,república,foi,primeiro,f plínio or,campanha debate,plínio,marinasilva,candidatos,educação,distribuição,dilmar todos ousseff,primeiro,federal,críticas serra,luiz,candidato,nome,plínio,blocos,bandeirantes,foi,bloco,tod serdil os
  • 9. Debate da Band: agrupando conteúdo com um L-LDA Para compreender melhor estes agrupamentos, recomenda-se ler passagens das notícias que contenham as palavras listadas. • Dilma Rousseff – "O primeiro debate entre os candidatos à Presidência da República, promovido na noite da quinta-feira pela Rede Bandeirantes, teve em seu primeiro bloco a candidata do PT, Dilma-Rousseff, buscando em um dado momento fazer comparações entre as gestões de Luiz Inácio Lula da Silva e Fernando Henrique Cardoso." – “Dilma chegou acompanhada do ex-ministro Antonio Palloci, do presidente do PT José Eduardo Dutra e João Santana Filho. Para reforçar a plateia feminina, está presente a primeira dama Marisa Letícia.”
  • 10. Debate da Band: agrupando conteúdo com um L-LDA Para compreender melhor estes agrupamentos, recomenda-se ler passagens das notícias que contenham as palavras listadas. • José Serra – "O ex-governador de Minas Gerais Aécio Neves (PSDB) afirmou nesta sexta-feira que o presidenciável tucano José-Serra saiu-se melhor no debate na TV Bandeirantes, na noite de ontem." – “Depois, em entrevista, Serra se recusou a avaliar seu desempenho do primeiro debate da TV da campanha presidencial. O candidato tucano não quis avaliar a nova pesquisa Ibope divulgada hoje, que aponta Dilma (PT), com 39% das intenções de voto, contra 34% para o tucano. Marina, do PV, está com 8%. 'Não comento pesquisa', declarou Serra. "
  • 11. Debate da Band: agrupando conteúdo com um L-LDA Para compreender melhor estes agrupamentos, recomenda-se ler passagens das notícias que contenham as palavras listadas. • Marina Silva – “Estou tranquila, graças a Deus. Preparo não significa receio, significa respeito com o cidadão e com o concorrente." – “Apesar das críticas pesadas, Marina disse que não se sentiu alvo exclusivo do candidato do PSOL. Ela avalia que a estratégia de combate e desconstrução do adversário resvalou em todos os debatedores. 'O importante foi que me mantive tranquila. Sobre ele ter me chamado de Poliana, não me senti triste porque na época de ler poliana eu ainda era analfabeta', afirmou.”
  • 12. Debate da Band: agrupando conteúdo com um L-LDA Para compreender melhor estes agrupamentos, recomenda-se ler passagens das notícias que contenham as palavras listadas. • Plínio Arruda – “O candidato do PSOL se disse orgulhoso com o próprio desempenho 'Pimenta' do debate desta quinta-feira na TV Bandeirantes, conforme definição dos aliados." – “Apesar das críticas pesadas, Marina disse que não se sentiu alvo exclusivo do candidato do PSOL. Ela avalia que a estratégia de combate e desconstrução do adversário resvalou em todos os debatedores. 'O importante foi que me mantive tranquila. Sobre ele ter me chamado de Poliana, não me senti triste porque na época de ler poliana eu ainda era analfabeta', afirmou.”
  • 13. Debate da Band: agrupando conteúdo com um L-LDA Para compreender melhor estes agrupamentos, recomenda-se ler passagens das notícias que contenham as palavras listadas. • Todos – “Plínio questionou as respostas de Dilma. E disse que é fundamental a distribuição de terras. E afirmou que vai defender a igualdade social.” – “O tucano defendeu que o governo federal entre na luta contra o crime organizado e prometeu criar o ministério da Segurança. Na sequência ele perguntou para Dilma quais eram suas propostas concretas para saúde, educação e segurança.” – “Além de protagonizarem a primeira troca de críticas sobre estradas, Dilma e Serra falaram sobre política de emprego, após a petista se empenhar em uma comparação entre os governos Lula e FHC.”
  • 14. Debate da Band: agrupando conteúdo com um L-LDA Para compreender melhor estes agrupamentos, recomenda-se ler passagens das notícias que contenham as palavras listadas. • SerDil – “'Enfim o Serra mostrou a verdadeira cara. É contra o Lula e escondeu o Fernando Henrique', disse Rui Falcão, da coordenação da campanha do PT.” – “A candidata do PT à Presidência, Dilma Rousseff, preferiu utilizar a expressão 'nosso governo' no debate desta quinta-feira na TV Bandeirantes ao invés de citar diretamente o presidente Luiz Inácio Lula da Silva.” – “Um monitoramento do desempenho dos candidatos realizado pelo marqueteiro do PSDB, Luiz González, apontou que a candidata do PV, Marina Silva, teria se saído melhor que a petista Dilma Rousseff nos dois últimos blocos do debate realizado pela Band.”
  • 15. Debate da Band: agrupando conteúdo com um L-LDA • A escolha dos tópicos deve ser bem pensada, a fim de gerar agrupamentos suficientemente diferentes que evidenciem aspectos distintos de um mesmo conjunto de documentos. – Os tópicos por portal e por data, por exemplo, não conduziram a uma análise interessante sobre a cobertura do debate. • A quantidade de documentos (notícias, posts, tweets etc.) também deve ser a maior possível, a fim de se garantir que os agrupamentos realmente revelam padrões significativos. Se a quantidade de documentos é pequena, a leitura de todos eles é viável e certamente leva a uma compreensão melhor dos conteúdos abordados. – Para o debate da Band, a quantidade de documentos analisados foi pequena (51 notícias). Não é o ideal, mas foi suficiente para os propósitos didáticos desta apresentação.
  • 16. Clustering, monitoramento e análise É possível aplicar técnicas de Clustering para aperfeiçoar e otimizar mecânicas e metodologias de monitoramento e análise de marcas na internet e mídias sociais. A PaperCliQ promove a pesquisa e desenvolvimento de novas técnicas e metodologias. O clustering é uma das muitas técnicas que podem ser utilizadas nos relatórios de monitoramento de marcas, concorrência, setor ou público produzidos pela agência. Para saber mais, veja mais relatórios ou entre em contato através dos links dos próximos slides.
  • 17. Fontes Ramage D., Hall D., Nallapati R., Manning C. Labeled Lda: A supervised topic model for credit attribution in multi-labeled corpora. In Proceddings of the 2009 Conference on Empirical Methods in Natural Language Processing, 2009. + sobre Monitoramento:
  • 18. Aline Bessa – Assistente de Pesquisa e Desenvolvimento www.twitter.com/_alibezz + Conteúdo: www.papercliq.com.br www.papercliq.com.br/blog www.slideshare.net/papercliq www.twitter.com/papercliq Tel.: (71) 3013-1432 Av. Tancredo Neves – Ed. Esplanada Tower, 939 – Sala 403 – Caminho das Árvores | CEP 41.820-021 | Salvador-BA
  • Search
    Related Search
    We Need Your Support
    Thank you for visiting our website and your interest in our free products and services. We are nonprofit website to share and download documents. To the running of this website, we need your help to support us.

    Thanks to everyone for your continued support.

    No, Thanks