Submarino.com.br

Google busca e indexa textos de documentos escaneados em PDF

Vinicius | 2 de novembro de 2008 | Comentários (1)

O maior e melhor buscador do mundo melhorou um pouquinho mais, e agora está com um recurso inédito entre os buscadores:

Busca e indexação de texto em arquivos escaneados para o formato PDF

Isso mesmo, o Google passou a indexar documentos escaneados em PDF nos resultados de busca. Agora, quando você escanear uma página e publicar na web, ela será tratada pelo mecanismo de busca e indexação do Google da mesma forma que uma página de texto comum, ao invés de ser tratada como uma imagem.

Veja abaixo o link e repare no texto “View as HTML”, disponível como um link. Quando você clica nele, aparece a página escaneada, indexada pelo buscador. Caso teste no Yahoo ou no Live Search, da Microsoft, não terá o mesmo resultado:

repairing aluminum wiring

Como o Google faz isso?

Fazendo uso da já conhecida tecnologia de reconhecimento ótico de caracteres, OCR, convertendo a imagem do texto em texto propriamente dito. Por enquanto o sistema ignora gráficos e diagramas.

Essa melhora faz parte da missão e estratégia do Google de tornar toda a informação do mundo acessível.

Numa estratégia diferente de seus antecessores no mundo da busca pela Web, o Google está sempre buscando melhorias que podem alavancar cada vez mais seu carro-chefe, aquele que o levou no patamar que está no dia de hoje em termos de market-share mundial.

Agora quanto a documentos confidenciais publicados na Web, antes protegidos pela ausência desse recurso, sendo invisíveis aos buscadores, isso é um outro problema, e que certamente demandará um grande trabalho das autoridades quanto à sua segurança, dado importante citado pela InformationWeek (veja artigo em inglês).

Vida dura para os concorrentes, não?

Artigos que também podem lhe interessar:

Divulgue este artigo no Twitter!

Compartilhe com seus amigos!:
Share this page via Email Share this page via Stumble Upon Share this page via Digg this Share this page via Facebook Share this page via Twitter
Related Posts with Thumbnails

If you enjoyed this post, make sure you subscribe to my RSS feed!

Tags:

Categoria: Tecnologia

About Vinicius: Veja o perfil do autor.

Comments (1)

Trackback URL | Comentários de Feed RSS

  1. O Google está sempre a frente, inovando e pesquisando.
    Isso já era esperado depois de indexar arquivos SWF (Flash) com um pouco de ajuda da Adobe.
    Parabens pelo Blog.

    Abraço

    [Reply]

Deixe uma Resposta




Se quiser uma imagem com seu comentário, pegue um Gravatar.

CommentLuv badge

Switch to our mobile site