Como encontrar e corrigir problemas de cobertura de índice

Está com problemas com a indexação do Google? Esse problema pode levar a uma queda no tráfego e nas taxas de conversão.

Você precisa verificar as páginas indexadas e não indexadas do seu site para resolver rapidamente quaisquer problemas 

Com o método a seguir, conseguimos resolver problemas de cobertura de índice em centenas de sites com milhões ou bilhões de páginas excluídas. Use-o para que nenhuma de suas páginas relevantes perca visibilidade nos resultados de pesquisa e aumente seu tráfego de SEO!

Etapa 1: verifique a taxa de cobertura do índice

O relatório de cobertura do console de pesquisa indica quais páginas foram rastreadas e indexadas pelo Google e por que os URLs estão nesse estado específico. Você pode usá-lo para detectar quaisquer erros encontrados durante o processo de rastreamento e indexação .

Relatório de cobertura

Para verificar a taxa de cobertura do índice, acesse o Google Search Console e clique em Cobertura (logo abaixo do índice). Uma vez aberto, você verá um resumo com quatro estados diferentes que categorizam seus URLs:

  • Erro: Estas páginas não podem ser indexadas e não aparecerão nos resultados da pesquisa devido a alguns erros.
  • Válido com ressalvas: essas páginas podem ou não aparecer nos resultados de pesquisa do Google.
  • Válido: Essas páginas foram indexadas e podem ser exibidas nos resultados da pesquisa. Nada precisa ser feito.
  • Excluídas: essas páginas não foram indexadas e não aparecerão nos resultados da pesquisa. O Google acha que você não quer indexá-los ou que não vale a pena indexar o conteúdo.

Você deve verificar todas as páginas que estão no site Error e corrigi-las o mais rápido possível, pois pode perder a oportunidade de direcionar tráfego para seu site.

Se você tiver tempo, veja as páginas incluídas no status Válido com aviso , pois pode haver algumas páginas vitais que de forma alguma devem estar faltando nos resultados da pesquisa.

Por fim, certifique-se de que as páginas excluídas são aquelas que você não deseja indexar.

Etapa 2: como solucionar problemas de cada um dos estados de cobertura do índice

Quando o relatório de cobertura do índice estiver aberto, selecione o status desejado ( Erros, Válido com Avisos ou Excluído) e veja os detalhes fornecidos na parte inferior da página. Você encontrará uma lista de tipos de erros com base em sua gravidade e no número de páginas afetadas, portanto, é recomendável começar a investigar os problemas desde o início da tabela.

Vejamos cada um dos erros em diferentes estados e como você pode corrigi-los. 

Estado de erro

Páginas de erro no relatório de cobertura do GSC

 

Erros do servidor (5xx):

São URLs que retornam um código de status 5xx para o Google.

Ações a serem tomadas:

  • Verifique que tipo de código de status 500 está retornando . Aqui você tem uma lista completa com a definição de cada código de status de erro do servidor .
  • Recarregue a URL para ver se o erro persiste. Os erros 5xx são temporários e não requerem ação.
  • Verifique se o servidor não está sobrecarregado ou configurado incorretamente. Nesse caso, peça ajuda aos seus desenvolvedores ou entre em contato com seu provedor de hospedagem.
  • Execute uma análise do arquivo de log para verificar os logs de erro do seu servidor. Esta prática fornece mais informações sobre o problema.
  • Revise as alterações que você fez recentemente em seu site para ver se alguma delas pode ser a causa raiz. ex) plugin, novo código de backend, etc.

Erros de redirecionamento:

O GoogleBot encontrou um erro durante o processo de redirecionamento que não permite rastrear a página. Um dos motivos a seguir geralmente causa esse problema.

  • Uma cadeia de redirecionamento muito longa
  • Um loop de redirecionamento
  • Um URL de redirecionamento que excede o comprimento máximo do URL
  • Havia um URL incorreto ou vazio na cadeia de redirecionamento

Ações a serem tomadas:

  • Elimine cadeias e loops de redirecionamento. Faça com que cada URL execute apenas um redirecionamento. Em outras palavras, um redirecionamento do primeiro para o último URL.

URL enviado bloqueado por Robots.txt:

Esses são os URLs que você enviou ao Google fazendo upload de um Sitemap XML para o Google Search Console, mas que foram bloqueados pelo arquivo Robots.txt.

Ações a serem tomadas:

Verifique se você deseja que os mecanismos de pesquisa indexem a página em questão ou não.

  • Se você não quiser que ele seja indexado, faça upload de um sitemap XML removendo o URL.
  • Por outro lado, se você quiser que ele seja indexado, edite as diretrizes em Robots.txt. Aqui está um guia sobre como editar robots.txt .

Inserida a URL marcada com “noindex”:

Essas páginas foram enviadas ao Google por meio de um mapa do site XML, mas têm uma diretiva ‘noindex’ nas meta tags do robô e nos cabeçalhos HTTP.

Ações a serem tomadas:

  • Se você deseja que o URL seja indexado, você precisa remover a diretiva noindex
  • Se houver URLs que você não deseja que o Google indexe, exclua-os do Sitemap XML

A URL enviada parece ser um Soft 404:

A URL que você enviou por meio de um Sitemap XML para fins de indexação é um soft 404 . Esse erro ocorre quando o servidor retorna um código de status 200 para uma solicitação, mas o Google acredita que ele deve exibir um 404. Em outras palavras, a página aparece para o Google como um erro 404. Em alguns casos, pode ser porque a página não está tem conteúdo, parece errado ou é de baixa qualidade para o Google. 

Ações a serem tomadas:

  • Verifique se esses URLs devem retornar um código de status 404 (real). Nesse caso, remova-os do sitemap XML.
  • Se você achar que eles não devem retornar um erro, certifique-se de fornecer o conteúdo apropriado nessas páginas. Evite conteúdo sutil ou duplicado. Verifique se existem redirecionamentos, eles estão corretos.

A URL enviada retorna a solicitação não autorizada (401):

O URL enviado ao Google por meio de um Sitemap XML retorna um erro 401 . Este código de status indica que você não está autorizado a acessar a URL. Você pode precisar de um nome de usuário e senha, ou talvez haja restrições de acesso com base no endereço IP.

Ações a serem tomadas:

  • Verifique se os URLs devem retornar um 401. Em caso afirmativo, exclua-os do mapa do site XML.
  • Se você não quiser que eles vejam um código 401, remova qualquer autenticação HTTP. 

URL enviado não encontrado (404):

Você enviou o URL para indexação ao Google Search Console, mas o Google não pode rastrear devido a um problema diferente dos mencionados acima. 

Ações a serem tomadas:

  • Veja se deseja que a página seja indexada ou não. Se a resposta for sim, corrija-a, o que retornará um código de status de 200. Você também pode atribuir um redirecionamento 301 ao URL, para que uma página apropriada seja exibida. Lembre-se que se você optar por um redirecionamento, você precisa adicionar o URL atribuído ao mapa do site XML e remover aquele que dá um 404.   
  • Se você não quiser que a página seja indexada, remova-a do mapa do site XML.

O URL enviado tem um problema de rastreamento: 

O URL foi enviado ao GSC para fins de indexação, mas não pode ser pesquisado pelo Google devido a um problema diferente dos mencionados acima. 

Ações a serem tomadas:

  • Use a Ferramenta de inspeção de URL para obter mais informações sobre o que está causando o problema.
  • Às vezes, esses erros são temporários, portanto, não exigem nenhuma ação.

Válido com status de aviso

Válido com avisos

Essas páginas são indexadas, mesmo que estejam bloqueadas pelo robots.txt. O Google sempre tenta seguir as diretrizes indicadas no arquivo robots.txt. No entanto, às vezes ele se comporta de maneira diferente. Isso pode acontecer, por exemplo, quando alguém cria um link para o URL fornecido.

Você encontra URLs nesta categoria porque o Google duvida que você queira bloquear essas páginas nos resultados de pesquisa . 

Ações a serem tomadas: 

  • O Google não recomenda o uso do arquivo robots.txt para evitar a indexação de páginas. Se você não quiser ver essas páginas indexadas, use o noindex nos metarobots ou um cabeçalho de resposta HTTP.
  • Outra boa prática para impedir que o Google acesse a página é implementar a autenticação HTTP.
  • Caso não queira bloquear a página, faça as correções necessárias no arquivo robots.txt.
  • Você pode identificar qual regra está bloqueando uma página usando a opção do testador robot.txt .

Por esse motivo, recomendo que você monitore continuamente os logs e revise o Relatório de Cobertura do GSC (embora quaisquer problemas sejam detectados antes de verificar os logs). E lembre-se que o robots.txt não impede a indexação de páginas. Se você deseja que o Google não pesquise um URL, é melhor tornar o URL inacessível!

Foi excluído

Páginas excluídas do relatório de cobertura do GSC

Essas páginas não são indexadas nos resultados de pesquisa e o Google acredita que é a coisa certa. Por exemplo, isso pode ser porque são páginas duplicadas de páginas indexadas ou porque você fornece diretrizes em seu site para que os mecanismos de pesquisa as indexem.

O relatório de cobertura mostra 15 situações em que sua página pode ser excluída .

 

Excluído da tag ‘noindex’: 

Você está dizendo aos mecanismos de pesquisa para não indexar a página fornecendo uma diretiva “noindex”. 

Ações a serem tomadas: 

  • Verifique se você realmente não deseja indexar a página. Se você deseja que a página seja indexada, remova a tag “noindex”. 
  • Você pode confirmar a presença dessa diretiva abrindo a página e procurando por “noindex” no corpo da resposta e no cabeçalho da resposta.

Bloqueado pela ferramenta de remoção de página: 

ou enviou uma solicitação para remover o URL dessas páginas no GSC.

Ações a serem tomadas:

  • O Google atende a essa solicitação apenas por 90 dias, portanto, se você não quiser indexar a página, use as diretivas “noindex”, implemente a autenticação HTTP ou remova a página.

Bloqueado por robots.txt: 

Você está bloqueando o acesso do Googlebot a essas páginas com o arquivo robots.txt. No entanto, ainda poderia ser indexado se o Google pudesse encontrar informações nesta página sem carregá-la. Talvez o Google tenha indexado a página antes de não permitir o robots.txt

Ações a serem tomadas: 

  • Se você não quiser que a página seja indexada, use uma diretiva “noindex” e remova o bloco robots.txt.

Bloqueado devido a solicitação não autorizada (401): 

Bloqueie o acesso ao Google usando uma permissão de solicitação (resposta 401). 

Ações a serem tomadas: 

  • Se você quiser permitir que o GoogleBot visite a página, remova os requisitos de autorização. 

Anomalia de deslizamento: 

A página não foi indexada devido a um código de resposta de erro 4xx ou 5xx.

Ações a serem tomadas: 

  • Use o Inspetor de URL para obter mais informações sobre os problemas .

Rastreado – Atualmente não indexado

Esta página foi rastreada pelo GoogleBot, mas não foi indexada. Pode ou não ser indexado no futuro. Não é necessário enviar este URL para rastreamento .

Ações a serem tomadas:

  • Se você deseja que a página seja indexada nos resultados da pesquisa, forneça informações valiosas.  

Descoberto – Atualmente não indexado:

O Google encontrou esta página, mas ainda não conseguiu rastrear . Essa situação geralmente acontece porque quando o GoogleBot tentou rastreá-lo, o site estava sobrecarregado. O rastreamento foi agendado para outro momento.

Nenhuma ação é necessária.

 

Página alternativa com a tag canônica apropriada:

Esta página indica uma página canônica , portanto, o Google entende que você não deseja indexá-la.

Ações a serem tomadas:

  • Se você deseja indexar esta página, você precisa alterar o parâmetro rel = canonical attribute para fornecer ao Google as diretrizes desejadas.

Duplicar sem cânones selecionados pelo usuário: 

A página tem duplicatas, mas nenhuma delas está marcada como canônica. O Google acredita que este não é o canônico. 

Ações a serem tomadas:

Duplicado, o Google escolheu um cânone diferente do usuário: 

Você marcou esta página como canônica, mas o Google indexou outra página que acha que funciona melhor como canônica. 

Ações a serem tomadas:

  • Você pode seguir a escolha do Google. Nesse caso, marque a página indexada como canônica e esta como uma duplicata da URL canônica.
  • Caso contrário, descubra por que o Google prefere outra página à que você escolheu e faça as alterações necessárias . Use a Ferramenta de inspeção de URL para descobrir a “página canônica” selecionada pelo Google.

<img class="entered exited lazyloaded" src="data:;base64,” alt=”” width=”150″ height=”150″ data-lazy-srcset=”https://cdn.fandangoseo.com/wp-content/uploads/2020/10/image-300×300.png 300w, https://cdn.fandangoseo.com/wp-content/uploads/2020/10/image-150×150.png 150w, https://cdn.fandangoseo.com/wp-content/uploads/2020/10/image.png 600w” data-lazy-sizes=”(max-width: 150px) 100vw, 150px” data-lazy-src=”https://cdn.fandangoseo.com/wp-content/uploads/2020/10/image-300×300.png” data-was-processed=”true” />

 

Não encontrado (404): 

A página retorna um código de status de erro 404 quando o Google faz uma solicitação . O GoogleBot não encontrou a página por meio de um mapa do site, mas provavelmente por meio de outro site vinculado ao URL. Também é possível que este URL tenha existido no passado e tenha sido removido. 

Ações a serem tomadas:

  • Se a resposta 404 for intencional, você pode deixá-la como está. Não vai prejudicar o seu desempenho de SEO. No entanto, se a página foi movida, implemente um redirecionamento 301.

Página removida devido a reclamação legal: 

Esta página foi removida do índice devido a uma reclamação legal .

Ações a serem tomadas: 

  • Investigue quais regras legais você pode ter violado e tome as medidas necessárias para corrigi-las.

Página com redirecionamento: 

Este URL é um redirecionamento e, portanto, não foi indexado.

Ações a serem tomadas:

  • Se a URL não deveria redirecionar, remova a implementação de redirecionamento. 

Suave 404: 

A página retorna o que o Google acredita ser uma resposta suave 404. A página não está indexada porque, embora forneça um código de status de 200, o Googles acha que deveria retornar um 404 . 

Ações a serem tomadas:

  • Veja se você deve atribuir um 404 à página, como sugere o Google.
  • Adicione conteúdo valioso à página para que o Google saiba que não é um Soft 404.

Duplicado, URL enviado não selecionado como canônico: 

Você enviou o URL ao GSC para indexação. No entanto, não foi indexado porque a página tem duplicatas sem tags canônicas, e o Google acredita que há um candidato melhor para o cânone. 

Ações a serem tomadas:

  • Decida se você deseja seguir a escolha do Google para a página canônica. Nesse caso, atribua os atributos rel = canonical para apontar para a página selecionada pelo Google.
  • Você pode usar a Ferramenta de inspeção de URL para ver qual página foi escolhida pelo Google como canônica.
  • Se você deseja que esse URL seja canônico, investigue por que o Google prefere a outra página. Ofereça mais conteúdo de alto valor na página de sua escolha .

Fase 3. Relatório de Cobertura do Índice Problemas Mais Comuns

Agora você conhece os diferentes tipos de erros que podem ser encontrados no relatório de cobertura do índice e quais ações tomar ao encontrá-los. Abaixo está uma breve visão geral dos problemas mais comuns.

Mais excluídas do que páginas válidas

Às vezes você pode ter mais páginas excluídas do que válidas. Essa circunstância geralmente é fornecida em sites grandes que sofreram uma alteração significativa de URL . Este é provavelmente um site antigo com um longo histórico ou o código da web foi alterado.

Se você tiver uma diferença significativa entre o número de páginas dos dois estados (Excluído e Válido), você tem um problema sério. Comece a revisar as páginas excluídas, conforme explicado acima. 

Isso acabou sendo o erro mais caro em termos de rastreamento de todos os tempos. Tivemos que rejeitar completamente os URLs de navegação multifacetados via robots.txt, porque o Googlebot estava derrubando nosso servidor com mais de 25 milhões de acessos por dia.

 

Picos de erro

Quando o número de erros aumenta exponencialmente, é necessário verificar o erro e corrigi-lo o mais rápido possível. O Google encontrou alguns problemas que prejudicam gravemente o desempenho do seu site . Se você não corrigir o problema hoje, terá problemas significativos amanhã.

Erros do servidor

Certifique-se de que esses erros não sejam 503 (Serviço indisponível) . Esse código de status significa que o servidor não pode lidar com a solicitação devido a uma sobrecarga temporária ou manutenção. A princípio, o erro deve desaparecer sozinho, mas se continuar ocorrendo, você precisará investigar o problema e corrigi-lo.

Se você tiver outros tipos de erros 5xx, recomendamos que consulte nosso guia para ver quais ações tomar em cada caso.

erros 404

Parece que o Google detectou uma área do seu site que gera 404 páginas não encontradas. Se o seu volume aumentar significativamente, confira nosso guia para encontrar e reparar links quebrados .

Páginas ou sites ausentes

Se você não conseguir ver uma página ou site no relatório, pode ser por vários motivos.

  1. O Google ainda não descobriu. Quando uma página ou site é novo, pode levar algum tempo para o Google encontrá-lo. Envie uma solicitação de pesquisa de sitemap ou rastreamento de página para acelerar o processo de indexação. Além disso, verifique se a página não é órfã e não está vinculada ao site.
  2. O Google não pode acessar sua página devido a uma solicitação de login . Remova os requisitos de permissão para permitir que o GoogleBot rastreie a página.
  3. A página tem uma tag noindex ou foi excluída do índice por algum motivo . Remova a tag noindex e verifique se você está fornecendo conteúdo valioso na página.

Erros e Exclusões “Enviado mas / enviado e”.

Esse problema ocorre quando há inconsistência. Se você enviar uma página por meio de um mapa do site, precisará verificar se ela é válida para indexação e se está vinculada ao site.

Seu site deve consistir principalmente em páginas valiosas que valem a pena vincular. 

Resumo

Aqui está um resumo de três etapas do artigo “Como encontrar e corrigir erros de cobertura de índice”.  

  • A primeira coisa que você deseja fazer ao usar o relatório de cobertura de índice é corrigir as páginas que aparecem no estado de erro . Deve ser 0 para evitar penalidades do Google.
  • Em segundo lugar , verifique as páginas excluídas e veja se são páginas que você não deseja indexar. Caso contrário, siga nossas diretrizes de solução de problemas.
  • Se você tiver tempo, recomendamos que verifique as páginas válidas com um aviso . Verifique se as diretrizes fornecidas no robots.txt estão corretas e se não há inconsistências.