Grande vazamento de dados do Buscador da Google expõe funcionamento do algoritmo

Os documentos revelam como a Pesquisa Google tem usando cliques, links, conteúdo, entidades, dados do Chrome e muito mais para classificação

Um conjunto de documentos vazados do Google mostra uma visão sem precedentes da Pesquisa Google e revelou alguns dos elementos mais importantes que o Google usa para classificar conteúdo.

O acontecimento

Milhares de documentos, que parecem vir do Content API Warehouse interno do Google, foram lançados em 13 de março no Github por um bot automatizado chamado yoshi-code-bot. Esses documentos foram compartilhados com Rand Fishkin, cofundador da SparkToro, no início de maio de 2024.

Qual a importância?

Continua após a publicidade:

Podemos ter uma ideia de como o algoritmo de classificação do Google pode funcionar, o que é inestimável para SEOs que podem entender o que tudo isso significa. Em 2023, já foi possível ter uma visão sem precedentes dos fatores de classificação do Yandex Search por meio de um vazamento , que foi uma das maiores histórias daquele ano.

Este documento vazado provavelmente será um dos maiores da história do SEO e da Pesquisa Google.

Segundo Fishkin e King, os documentos internos continham:

  • Atual: A documentação indica que esta informação é precisa em março;
  • Recursos de classificação: 2.596 módulos estão representados na documentação da API com 14.014 atributos;
  • Ponderação: Os documentos não especificam como qualquer uma das características da classificação é ponderada – apenas que elas existem;
  • Twiddlers: São funções de reclassificação que “podem ajustar a pontuação de recuperação de informações de um documento ou alterar a classificação de um documento”, de acordo com King;
  • Rebaixamentos: o conteúdo pode ser rebaixado por vários motivos, como:
    • Um link não corresponde ao site de destino.
    • Os sinais SERP indicam insatisfação do usuário.
    • Revisão de produtos.
    • Localização.
    • Domínios de correspondência exata.
    • Pornografia.
  • Histórico de alterações: o Google aparentemente mantém uma cópia de cada versão de cada página que já indexou. Ou seja, o Google pode “lembrar” todas as alterações feitas em uma página. No entanto, o Google usa apenas as últimas 20 alterações de um URL ao analisar links.

Links são importantes

A relevância dos links continuam. A diversidade e a relevância dos links continuam a ser fundamentais, mostram os documentos. E o PageRank ainda está muito vivo nos recursos de classificação do Google. O PageRank da página inicial de um site é considerado para todos os documentos.

Isso não prova que os porta-vozes do Google mentiram sobre os links não serem um “3 principais fatores de classificação” ou sobre os links serem menos importantes para a classificação . Duas coisas podem ser verdadeiras ao mesmo tempo. Novamente, não sabemos como qualquer um desses recursos é ponderado.

Cliques bem-sucedidos são importantes. Isso não deve ser chocante, mas se você quiser ter uma boa classificação, precisará continuar criando ótimos conteúdos e experiências de usuário, com base nos documentos. O Google usa uma variedade de medidas, incluindo  badClicks , goodClicks , lastLongestClicks e unquashedClicks.

Continua após a publicidade:

Além disso, documentos mais longos podem ficar truncados, enquanto conteúdos mais curtos recebem uma pontuação (de 0 a 512) com base na originalidade. As pontuações também são atribuídas ao conteúdo do Your Money Your Life, como saúde e notícias.

O que tudo isso significa? De acordo com King:

  • “[Você] precisa gerar cliques mais  bem-sucedidos  usando um conjunto mais amplo de consultas e obter mais diversidade de links se quiser continuar na classificação. Conceitualmente, faz sentido porque um conteúdo muito forte fará isso. O foco em direcionar tráfego mais qualificado para uma melhor experiência do usuário enviará sinais ao Google de que sua página merece uma classificação.

Documentos e depoimentos do julgamento antitruste EUA x Google confirmaram que o Google usa cliques na classificação – especialmente com seu sistema Navboost, “um dos sinais importantes” que o Google usa para classificação.

A marca é importante. A grande lição de Fishkin? A marca é mais importante do que qualquer outra coisa:

  • “Se houvesse um conselho universal que eu desse aos profissionais de marketing que buscam melhorar amplamente suas classificações e tráfego de pesquisa orgânica, seria: ‘Construa uma marca notável, popular e bem reconhecida em seu espaço, fora da pesquisa do Google.”

As entidades são importantes. A autoria vive . O Google armazena informações do autor associadas ao conteúdo e tenta determinar se uma entidade é a autora do documento.

SiteAuthority: o Google usa algo chamado “siteAuthority”.

Dados do Chrome. Um módulo chamado ChromeInTotal indica que o Google usa dados de seu navegador Chrome para classificação.

Continua após a publicidade:

Listas de permissões. Alguns módulos indicam que o Google coloca na lista de permissões determinados domínios relacionados a eleições e COVID – isElectionAuthority e isCovidLocalAuthority . Embora saibamos há muito tempo que o Google (e o Bing) têm “listas de exceções” quando “algoritmos específicos impactam inadvertidamente os sites”.

Sites pequenos. Outro recurso é smallPersonalSite – para um pequeno site ou blog pessoal. King especulou que o Google poderia impulsionar ou rebaixar esses sites por meio de um Twiddler. No entanto, isso permanece uma questão em aberto. Novamente, não sabemos ao certo quanto esses recursos são ponderados.

Outras descobertas interessantes. De acordo com documentos internos do Google:

  • A atualização é importante – o Google analisa as datas na assinatura ( bylineDate ), URL ( syntacticDate ) e no conteúdo da página ( semanticDate ).
  • Para determinar se um documento é ou não um tópico central do site, o Google vetoriza páginas e sites e, em seguida, compara os embeddings de páginas ( siteRadius ) com os embeddings de sites ( siteFocusScore ).
  • O Google armazena informações de registro de domínio ( RegistrationInfo ).
  • Os títulos das páginas ainda são importantes. O Google tem um recurso chamado titlematchScore que mede o quão bem o título de uma página corresponde a uma consulta.
  • O Google mede o tamanho médio ponderado da fonte dos termos em documentos ( avgTermWeight ) e texto âncora.

Continua após a publicidade:

No final de maio. O Google forneceu uma declaração ao Search Engine Land. Leia nosso acompanhamento: Google responde ao vazamento: falta contexto à documentação .

Também no final de maio. King escreveu um artigo de acompanhamento para Search Engine Land:

Quer se aprofundar no assunto? –> Desvendando o enorme vazamento de documentação de pesquisa do Google

Esclarecimento rápido. Há alguma controvérsia sobre se esses documentos foram “vazados” ou “descobertos”. É possível que os documentos internos tenham sido incluídos acidentalmente em uma revisão de código e transmitidos ao vivo a partir da base de código interna do Google, onde foram descobertos.

Referências/Fontes: 

  • https://searchengineland.com/
  • Erfan Azimi , CEO e diretor de SEO da agência de marketing digital EA Eagle Digital, postou um vídeo , reivindicando a responsabilidade pelo compartilhamento dos documentos com Fishkin. Azimi não é funcionário do Google.
Dixon Jones, CEO da Inlinks, tornou pesquisáveis ​​as 14.000 variáveis ​​da Pesquisa Google. Jones disse que esta ferramenta lhe dirá quais itens o Google armazena e para que são usados.

Continua após a publicidade:


Leia também:

Author: mquality.adm

Comente...