Slides

A anatomia de um mecanismo de busca hipertextual de grande escala na web

Description
Tradução (fins acadêmicos, não-comercial), para o idioma português, do artigo "The anatomy of a large scale hyper textual web search engine", de Sergey Brin e Larry Page, Tradução: Fernando Gallas.
Categories
Published
of 27
All materials on our website are shared by users. If you have any questions about copyright issues, please report us to resolve them. We are always happy to assist you.
Related Documents
Share
Transcript
  • 1. A anatomia de um mecanismo de busca hipertextual de grande escala na Web Sergey Brin e Lawrence Page {sergey, page}@cs.stanford.edu Departamento de Ciência da Computação, Stanford University, Stanford, CA 94305 Resumo Neste artigo, apresentamos o Google, um protótipo de um mecanismo de busca em larga escala que faz uso intenso da estrutura presente no hipertexto. O Google foi projetado para rastrear e indexar a Web de maneira eficiente e produzir resultados de busca muito mais satisfatórios do que os sistemas existentes. O protótipo com um completo banco de dados de texto e hiperlinks de pelo menos 24 milhões de páginas está disponível em http://google.stanford.edu/ Desenvolver um mecanismo de busca é uma tarefa desafiadora. Os mecanismos de busca indexam dezenas a centenas de milhões de páginas da Web, envolvendo um número comparável de termos distintos. Eles respondem a dezenas de milhões de consultas todos os dias. Apesar da importância dos mecanismos de busca em larga escala na web, muito pouca pesquisa acadêmica tem sido feita sobre eles. Além disso, devido ao rápido avanço na tecnologia e proliferação da web, a criação de um mecanismo de busca na web hoje é muito diferente de três anos atrás. Este artigo fornece uma descrição detalhada do nosso mecanismo de busca em grande escala (a primeira descrição pública detalhada até hoje existente). Além dos problemas de dimensionamento de técnicas tradicionais de busca para dados dessa magnitude, há novos desafios técnicos envolvidos no uso das informações adicionais presentes no hipertexto para produzir melhores resultados de busca. Este artigo aborda essa questão de como construir um sistema prático de larga escala que pode explorar as informações adicionais presentes no hipertexto. Também analisamos o problema de como lidar efetivamente com coleções de hipertexto sem controle, onde qualquer pessoa pode publicar o que quiser. Palavras-chave: World Wide Web, Mecanismos de Busca, Recuperação de Informação, PageRank, Google
  • 2. Tradutor: Fernando Gallas. 2016 | www.seo.salvador.br Tradução para fins acadêmicos, exclusivamente. Uso não-comercial. 2A anatomia de um mecanismo de busca hipertextual de grande escala na Web 1. Introdução (Observação: existem duas versões deste artigo; uma versão completa mais longa e uma versão impressa mais curta. A versão completa está disponível na Web e no CD-ROM da conferência.) A Web cria novos desafios para a recuperação de informações. A quantidade de informação na Web está crescendo rapidamente, bem como o número de novos usuários inexperientes na arte da busca na Web. É provável que as pessoas naveguem usando o graph de links da Web, geralmente começando com índices de alta qualidade construídos por humanos como o Yahoo! ou com mecanismos de busca. As listas mantidas por humanos cobrem os tópicos populares de forma eficaz, mas são subjetivas, caras para construir e manter, lentas para melhorar e não podem cobrir todos os tópicos esotéricos. Os mecanismos de busca automatizados que dependem da correspondência de palavras-chave geralmente retornam muitas correspondências de baixa qualidade. Para piorar, alguns anunciantes tentam chamar a atenção das pessoas tomando medidas para enganar os mecanismos de busca automatizados. Nós construímos um mecanismo de busca em larga escala que resolve muitos dos problemas dos sistemas existentes. Ele, especialmente, faz uso intenso da estrutura adicional presente no hipertexto para fornecer resultados de busca de qualidade muito superior. Escolhemos o nome do nosso sistema, Google, porque é uma grafia comum do googol, ou 10100 , e se encaixa bem com o nosso objetivo de construir mecanismos de busca de larga escala. 1.1 Mecanismos de busca da Web: 1994 - 2000 A tecnologia dos mecanismos de busca teve que escalar drasticamente para acompanhar o crescimento da Web. Em 1994, um dos primeiros mecanismos de busca da Web, o World Wide Web Worm (WWWW) [McBryan 94], tinha um índice de 110.000 páginas e documentos acessíveis pela web. A partir de novembro de 1997, os principais mecanismos de busca afirmam indexar de 2 milhões (WebCrawler) a 100 milhões de documentos da web (Search Engine Watch). É previsível que até o ano 2000, um índice abrangente da Web contenha mais de um bilhão de documentos. Ao mesmo tempo, o número de consultas com as quais os mecanismos de busca têm de lidar também cresceu incrivelmente. Em março e abril de 1994, o World Wide Web Worm recebeu uma média de cerca de 1500 consultas por dia. Em novembro de 1997, o Altavista divulgou ter lidado com cerca de 20 milhões de consultas por dia. Com o crescente número de usuários na Web e sistemas automatizados que consultam mecanismos de busca, é provável que os principais mecanismos de busca lidem com centenas de milhões de consultas por dia até o ano 2000. O objetivo do nosso sistema é abordar muitos dos problemas, tanto em qualidade quanto em escalabilidade, introduzidos pelo escalonamento da tecnologia de mecanismos de busca a números tão extraordinários. 1.2. Google: escalando com a Web Criar um mecanismo de busca que se adapte à Web de hoje apresenta muitos desafios. A tecnologia de rastreamento rápido é necessária para reunir os documentos da Web e mantê- los atualizados. O espaço de armazenamento deve ser usado eficientemente para armazenar
  • 3. Tradutor: Fernando Gallas. 2016 | www.seo.salvador.br Tradução para fins acadêmicos, exclusivamente. Uso não-comercial. 3A anatomia de um mecanismo de busca hipertextual de grande escala na Web índices e, opcionalmente, os próprios documentos. O sistema de indexação deve processar centenas de gigabytes de dados de maneira eficiente. As consultas devem ser tratadas rapidamente, a uma taxa de centenas a milhares por segundo. Essas tarefas estão se tornando cada vez mais difíceis à medida que a Web cresce. No entanto, o desempenho e o custo do hardware melhoraram drasticamente para compensar parcialmente as dificuldades. Há, no entanto, várias exceções notáveis a esse progresso, como tempo de busca de disco e robustez do sistema operacional. Ao projetar o Google, consideramos a taxa de crescimento da Web e as mudanças tecnológicas. O Google foi projetado para ser bem dimensionado para conjuntos de dados extremamente grandes. Faz uso eficiente do espaço de armazenamento para armazenar o índice. Suas estruturas de dados são otimizadas para acesso rápido e eficiente (ver seção 4.2). Além disso, esperamos que o custo para indexar e armazenar texto ou HTML acabe diminuindo em relação ao valor que estará disponível (consulte o Apêndice B). Isso resultará em propriedades de escalabilidade favoráveis para sistemas centralizados como o Google. 1.3 Metas de Design 1.3.1 Qualidade de pesquisa aprimorada Nosso principal objetivo é melhorar a qualidade dos mecanismos de busca na web. Em 1994, algumas pessoas acreditavam que um índice de pesquisa completo tornaria possível encontrar qualquer coisa facilmente. De acordo com o Best of the Web 1994 - Navigators, "o melhor serviço de navegação deve ser aquele que facilita a localização de quase qualquer coisa na Web (uma vez que todos os dados sejam inseridos)". No entanto, a Web de 1997 é bem diferente. Qualquer pessoa que tenha recentemente usado um mecanismo de busca pode comprovar, prontamente, que a integridade do índice não é o único fator na qualidade dos resultados de busca. Os "junk results" muitas vezes eliminam quaisquer resultados nos quais um usuário está interessado. De fato, a partir de novembro de 1997, apenas um dos quatro principais mecanismos de busca comerciais é capaz de encontrar a si mesmo (retornar, nos 10 primeiros resultados, sua própria página de pesquisa em resposta ao seu nome). Uma das principais causas desse problema é que o número de documentos nos índices tem aumentado em muitas ordens de magnitude, mas a capacidade do usuário de examinar os documentos não aumentou. As pessoas ainda estão dispostas apenas a olhar para os primeiros 10 resultados. Por causa disso, à medida que o tamanho da coleção cresce, precisamos de ferramentas que tenham alta precisão (número de documentos relevantes retornados, digamos, nos 10 primeiros resultados mais importantes). De fato, queremos que nossa noção de "relevante" inclua apenas os melhores documentos, pois pode haver dezenas de milhares de documentos ligeiramente relevantes. Essa precisão muito alta é importante mesmo em detrimento do recall (o número total de documentos relevantes que o sistema é capaz de retornar). Há um certo otimismo recente de que o uso de mais informações hipertextuais pode ajudar a melhorar a pesquisa e outras aplicações [Marchiori 97] [Spertus 97] [Weiss 96] [Kleinberg 98]. Em particular, a estrutura de links [Page, 98] e o texto dos links fornecem muitas informações para fazermos julgamentos de relevância e filtragem de qualidade. O Google utiliza a estrutura de links e o texto-âncora (consulte as seções 2.1 e 2.2).
  • 4. Tradutor: Fernando Gallas. 2016 | www.seo.salvador.br Tradução para fins acadêmicos, exclusivamente. Uso não-comercial. 4A anatomia de um mecanismo de busca hipertextual de grande escala na Web 1.3.2 Pesquisa acadêmica dos Mecanismos de Busca Além do enorme crescimento, a Web também se tornou cada vez mais comercial ao longo do tempo. Em 1993, 1,5% dos servidores da Web estavam em domínios .com. Esse número cresceu para mais de 60% em 1997. Ao mesmo tempo, os mecanismos de busca migraram do domínio acadêmico para o comercial. Até agora, a maior parte do desenvolvimento de mecanismos de busca foi implementado em empresas e com pouca publicação de detalhes técnicos. Isso faz com que a tecnologia dos mecanismos de busca permaneça uma “arte negra” e seja orientada para a publicidade (consulte o Apêndice A). Com o Google, temos um forte objetivo de promover mais desenvolvimento e compreensão no mundo acadêmico. Outro objetivo importante do projeto foi criar sistemas que um número razoável de pessoas pudesse realmente usar. O uso foi importante para nós, porque achamos que algumas das pesquisas mais interessantes envolverão a utilização da vasta quantidade de dados de uso que está disponível nos sistemas web modernos. Por exemplo, existem muitas dezenas de milhões de pesquisas realizadas todos os dias. No entanto, é muito difícil obter esses dados, principalmente porque é considerado comercialmente valioso. Nosso objetivo final de projeto foi construir uma arquitetura que pudesse apoiar novas atividades de pesquisa em dados da Web em larga escala. Para apoiar novos usos de pesquisa, o Google armazena todos os documentos reais que ele rastreia em formato compactado. Um dos nossos principais objetivos ao projetar o Google foi criar um ambiente em que outros pesquisadores pudessem entrar rapidamente, processar grandes partes da Web e produzir resultados interessantes que, de outra forma, teriam sido muito difíceis de produzir. No curto espaço de tempo em que o sistema tem estado em atividade, já houve diversos artigos usando bancos de dados gerados pelo Google, e muitos outros estão em andamento. Outro objetivo que temos é criar um ambiente semelhante ao do Spacelab, no qual pesquisadores (ou até estudantes) possam propor e fazer experimentos interessantes em nossos dados da Web em larga escala. 2. Recursos do Sistema O mecanismo de busca do Google tem dois recursos importantes que ajudam a produzir resultados de alta precisão. Primeiro, ele faz uso da estrutura de links da Web para calcular uma classificação de qualidade para cada página da Web. Essa classificação é chamada de PageRank e é descrita em detalhes em [Page 98: Lawrence Page, Sergey Brin, Rajeev Motwani, Terry Winograd. The PageRank Citation Ranking: Bringing Order to the Web]. Em segundo lugar, o Google utiliza links para melhorar os resultados da busca. 2.1 PageRank: Levando ordem para a Web O graph de citação (link) da web é um recurso importante que, em grande parte, não tem sido utilizado nos mecanismos de busca existentes na web. Criamos mapas contendo até 518 milhões desses hiperlinks, uma amostra significativa do total. Esses mapas permitem o
  • 5. Tradutor: Fernando Gallas. 2016 | www.seo.salvador.br Tradução para fins acadêmicos, exclusivamente. Uso não-comercial. 5A anatomia de um mecanismo de busca hipertextual de grande escala na Web cálculo rápido do “PageRank” de uma página da Web, uma medida objetiva de sua importância de citação que corresponde bem à ideia subjetiva de importância das pessoas. Devido a essa correspondência, o PageRank é uma excelente maneira de priorizar os resultados das buscas de palavras-chave da Web. Para os assuntos mais populares, uma busca de correspondência de texto simples restrita a títulos de páginas da Web tem um desempenho admirável quando o PageRank prioriza os resultados (demonstração disponível em google.stanford.edu). Para o tipo de pesquisa de texto completo no sistema principal do Google, o PageRank também ajuda bastante. 2.1.1 Descrição do cálculo do PageRank Literatura de citação acadêmica tem sido aplicada à web, em grande parte, contando citações ou backlinks para uma determinada página. Isto dá alguma aproximação da importância ou qualidade de uma página. O PageRank estende essa ideia não contando links de todas as páginas igualmente, e normalizando pelo número de links em uma página. O PageRank é definido da seguinte maneira: Assumimos que a página A tem páginas T1 ... Tn que apontam para ela (ou seja, são citações). O parâmetro d é um fator de amortecimento que pode ser ajustado entre 0 e 1. Geralmente, ajustamos d para 0,85. Há mais detalhes sobre d na próxima seção. Também C(A) é definido como o número de links saindo da página A. O PageRank de uma página A é dado da seguinte forma: PR(A) = (1-d) + d (PR(T1) / C(T1) + ... + PR(Tn) / C(Tn)) Observe que os PageRanks formam uma distribuição de probabilidade sobre páginas da Web, portanto, a soma dos PageRanks de todas as páginas da Web será um. O PageRank ou PR(A) pode ser calculado usando um algoritmo iterativo simples e corresponde ao principal autovetor da matriz de enlace normalizado da web. Além disso, um PageRank para 26 milhões de páginas da web pode ser computado em poucas horas em uma estação de trabalho de tamanho médio. Há muitos outros detalhes que estão além do escopo deste artigo. 2.1.2 Justificação intuitiva O PageRank pode ser considerado um modelo de comportamento do usuário. Assumimos que existe um "surfista web aleatório" ao qual é apresentada uma página da web aleatoriamente e ele continua clicando nos links, nunca clicando no botão "de volta" do navegador, mas que, eventualmente, fica entediado e começa em outra página aleatória. A probabilidade de que este "surfista web aleatório" visite uma página é o PageRank da página. E o fator de amortecimento é a probabilidade em cada página de o "surfista web aleatório" ficar entediado e solicitar outra página aleatória. Uma variação importante é adicionar apenas o fator de amortecimento "d" a uma única página ou a um grupo de páginas. Isso permite personalização e pode tornar quase impossível
  • 6. Tradutor: Fernando Gallas. 2016 | www.seo.salvador.br Tradução para fins acadêmicos, exclusivamente. Uso não-comercial. 6A anatomia de um mecanismo de busca hipertextual de grande escala na Web enganar deliberadamente o sistema para obter uma classificação mais alta. Temos várias outras extensões para o PageRank [ver mais uma vez Page 98]. Outra justificativa intuitiva é que uma página pode ter um PageRank alto se houver muitas páginas que apontem para ela, ou se houver algumas páginas que apontem para ela e tenham um PageRank alto. Intuitivamente, as páginas que são bem citadas em muitos lugares da Web merecem ser vistas. Além disso, páginas que talvez tenham apenas uma citação a partir de uma página como a homepage do Yahoo! geralmente também vale a pena ser vista. Se uma página não fosse de alta qualidade, ou fosse um link quebrado, é bem provável que a página inicial do Yahoo! não tivesse um link para ela. O PageRank manipula esses dois casos e tudo o mais, propagando recursivamente os pesos através da estrutura de links da Web. 2.2 Texto-âncora O texto dos links é tratado de maneira especial em nosso mecanismo de busca. A maioria dos mecanismos de busca associa o texto de um link à página em que o link está. Ademais, nós o associamos à página para a qual o link aponta. Isso tem várias vantagens. Primeiro, as âncoras geralmente fornecem descrições mais precisas de páginas da Web do que as próprias páginas. Em segundo lugar, âncoras podem existir para documentos que não podem ser indexados por um mecanismo de busca baseado em texto, como imagens, programas e bancos de dados. Isso possibilita o retorno de páginas da Web que não foram realmente rastreadas. Observe que as páginas que não foram rastreadas podem causar problemas, pois nunca são verificadas quanto à validade antes de serem apresentadas ao usuário. Nesse caso, o mecanismo de busca pode até apresentar uma página que nunca existiu, mas tinha hiperlinks apontando para ela. No entanto, é possível classificar os resultados para que esse problema específico raramente aconteça. Essa ideia de propagar o texto-âncora para a página a que ele se refere foi implementada no World Wide Web Worm [McBryan 94], especialmente porque ajuda a buscar informações não-textuais e expande a cobertura de busca com menos documentos baixados. Usamos a propagação de âncoras principalmente porque o texto-âncora pode ajudar a fornecer resultados de melhor qualidade. Usar o texto-âncora com eficiência é tecnicamente difícil devido às grandes quantidades de dados que devem ser processados. Em nosso rastreamento atual de 24 milhões de páginas, tivemos mais de 259 milhões de âncoras que indexamos. 2.3 Outras funcionalidades Além do PageRank e do uso do texto-âncora, o Google tem vários outros recursos. Primeiro, ele tem informações de localização para todos os hits e, por isso, faz uso extensivo da proximidade na pesquisa. Em segundo lugar, o Google acompanha alguns detalhes da apresentação visual, como o tamanho da fonte das palavras. Palavras em uma fonte maior ou negrito têm mais peso que outras palavras.
  • 7. Tradutor: Fernando Gallas. 2016 | www.seo.salvador.br Tradução para fins acadêmicos, exclusivamente. Uso não-comercial. 7A anatomia de um mecanismo de busca hipertextual de grande escala na Web Em terceiro lugar, o HTML bruto completo das páginas está disponível em um repositório. 3. Trabalhos Relacionados A pesquisa sobre busca na Web tem um histórico curto e conciso. O World Wide Web Worm (WWWW) [McBryan 94] foi um dos primeiros mecanismos de busca da Web. Posteriormente, foi seguido por vários outros mecanismos de busca acadêmicos, muitos dos quais agora são empresas públicas. Em comparação com o crescimento da Web e a importância dos mecanismos de busca, há poucos artigos atuais e relevantes sobre os mecanismos de busca recentes [Pinkerton 94]. De acordo com Michael Mauldin (cientista-chefe, Lycos Inc) [Mauldin], "os vários serviços (incluindo o Lycos) guardam os detalhes desses bancos de dados". No entanto, tem havido uma quantidade razoável de trabalho sobre as características específicas dos mecanismos de busca. Especialmente representativo é o trabalho que pode obter resultados por pós-processamento dos resultados dos mecanismos de busca comerciais existentes, ou produzir mecanismos de busca "individualizados" em pequena escala. Finalmente, tem havido muita pesquisa sobre sistemas de recuperação de informação, especialmente em coleções bem controladas. Nas próximas duas seções, discutiremos algumas áreas em que essa pesquisa precisa ser estendida para funcionar melhor na Web. 3.1 Recuperação de Informações O trabalho em sistemas de recuperação de informação remonta há muitos anos e está bem desenvolvido [Witten 94]. No entanto, a
  • Search
    Related Search
    We Need Your Support
    Thank you for visiting our website and your interest in our free products and services. We are nonprofit website to share and download documents. To the running of this website, we need your help to support us.

    Thanks to everyone for your continued support.

    No, Thanks