Presupuesto de rastreo

Presupuesto De Rastreo. Cómo Optimizarlo

Cómo Optimizar El Presupuesto De Rastreo

A veces el robot de Google no siempre rastrea todas las páginas rápidamente. A veces, puede llevar semanas. Esto podría obstaculizar sus esfuerzos de SEO. Es posible que su página de destino recién optimizada no se indexe. En ese momento, es hora de optimizar su presupuesto de rastreo. En este artículo, analizaremos qué es un ‘presupuesto de rastreo‘ y qué puede hacer para optimizarlo.

Entonces estamos interesados en conocer Qué significa el presupuesto de rastreo para el robot de Google

Priorizar qué rastrear, cuándo y cuántos recursos puede asignar el servidor que aloja el sitio al rastreo es más importante para los sitios más grandes o aquellos que generan páginas automáticamente en función de parámetros de URL, por ejemplo.

La principal prioridad de Googlebot es el rastreo.

La definición de rastreo nos la proporciona el propio Google:

consiste en averiguar qué páginas existen en la Web. Ya que no hay un registro central donde figuren todas las páginas existentes, Google debe buscar páginas nuevas constantemente para agregarlas a su lista de páginas conocidas.

El rastreo es el proceso a través del cual Googlebot visita páginas nuevas y actualizadas para agregarlas al índice de Google.

¿Qué es un presupuesto de rastreo?

La mejor definición de presupuesto de rastreo nos la proporciona nuevamente el propio Google en su Guía para propietarios de sitios web grandes:

Google no tiene la capacidad de descubrir e indexar todas las URL disponibles. Por eso, limitamos el tiempo y los recursos que puede dedicar el robot de Google a rastrear cada sitio; estos límites, en conjunto, son lo que se suele denominar el presupuesto de rastreo.

En la Teoría General de Rastreo de Google explica que ya que Googlebot no tiene la capacidad de descubrir e indexar todas las URL debe limitar el tiempo y los recursos que puede dedicar el robot a rastrear cada sitio; estos límites, en conjunto, son lo que se suele denominar el presupuesto de rastreo.

El presupuesto de rastreo lo determinan principalmente dos elementos: el límite de capacidad de rastreo y la demanda de rastreo.

No se indexa todo lo que se rastrea de un sitio web.

El robot de Google quiere rastrear los sitios web sin sobrecargar los servidores. Para conseguirlo, estima el máximo de conexiones paralelas simultáneas que puede utilizar para rastrear un sitio concreto, así como el tiempo de espera entre rastreos. Esta estimación se denomina límite de capacidad de rastreo y se calcula de modo que se pueda rastrear todo el contenido importante de los sitios web sin llegar a sobrecargar los servidores.

 Google dedica todo el tiempo necesario para rastrear un sitio, tiempo que suele estar determinado por el tamaño, la frecuencia de actualización, la calidad de las páginas y la relevancia que tiene el sitio en comparación con otros.

¿Cómo funciona un rastreador?

Un rastreador como Googlebot obtiene una lista de URL para rastrear en un sitio. Repasa esa lista de forma sistemática. Toma su archivo robots.txt de vez en cuando para asegurarse de que aún se le permite rastrear cada URL y luego rastrea las URL una por una. Obtenga información sobre cómo administrar el rastreo con el archivo robots.txt. Una vez que una araña ha rastreado una URL y ha analizado el contenido, agrega nuevas URL que ha encontrado en esa página y que tiene que volver a rastrear en la lista de tareas pendientes.

Varios eventos pueden hacer que Google sienta que se debe rastrear una URL. Es posible que haya encontrado nuevos enlaces internos que apuntan al contenido, o que alguien lo haya twitteado, o que se haya actualizado en el mapa del sitio XML, etc., etc. No hay forma de hacer una lista de todas las razones por las que Google rastrearía una URL, pero cuando determina que tiene que hacerlo, lo agrega a la lista de tareas pendientes.

Aunque no se alcance el límite de capacidad de rastreo, si la demanda de rastreo es baja, el robot de Google rastreará menos tu sitio.

¿Cuándo es un problema el presupuesto de rastreo?

El presupuesto de rastreo no es un problema si Google tiene que rastrear muchas URL en su sitio y  ha asignado muchos rastreos. Pero, digamos que su sitio tiene 300.000 páginas y Google rastrea 3.000 páginas en este sitio en particular cada día. Rastreará algunos (como la página de inicio) más que otros. Si no actúa, pueden pasar hasta 200 días antes de que Google note cambios particulares en sus páginas. El presupuesto de rastreo es un problema ahora. Por otro lado, si rastrea 50.000 al día, no hay ningún problema.

Para determinar rápidamente si su sitio tiene un problema de presupuesto de rastreo, siga los siguientes pasos. Esto supone que su sitio tiene una cantidad relativamente pequeña de URL que Google rastrea pero no indexa (por ejemplo, porque agregó meta noindex).

  1. Determine cuántas páginas tiene en su sitio, el número de sus URL en sus mapas de sitio XML podría ser un buen comienzo.
  2. Vaya a la Consola de búsqueda de Google.
  3. Vaya a «Ajustes» -> «Estadísticas de rastreo» -> «Abrir Informe» y tome nota del promedio de páginas rastreadas por día.
  4. Divida el número de páginas por el número «Promedio rastreadas por día».
  5. Si obtiene un número superior a ~ 10 (por lo que tiene 10 veces más páginas de las que rastrea Google cada día), debe optimizar su presupuesto de rastreo. Si termina con un número menor que 3, puede leer algo más.

¿Qué URL rastrea Google?

Realmente debería saber qué URL rastrea Google en su sitio. La única forma «real» de saberlo es mirando los registros del servidor de su sitio. Para sitios más grandes, personalmente prefiero usar Logstash + Kibana. Para sitios más pequeños, los chicos de Screaming Frog han lanzado una pequeña herramienta bastante agradable, acertadamente llamada SEO Log File Analyzer (tenga en cuenta la S, son británicos).

Obtenga los registros de su servidor y mírelos

Dependiendo de su tipo de alojamiento, es posible que no siempre pueda obtener sus archivos de registro. Sin embargo, si  cree que necesita trabajar en la optimización del presupuesto de rastreo porque su sitio es grande, debería obtenerlos. Si su host no le permite obtenerlos, es hora de cambiar de host.

Arreglar el presupuesto de rastreo de su sitio es muy parecido a arreglar un automóvil. No puedes arreglarlo mirando hacia afuera, tendrás que abrir ese motor. Mirar los registros va a dar miedo al principio. Rápidamente encontrará que hay  mucho  ruido en los registros. Encontrará una gran cantidad de 404 frecuentes que cree que son una tontería. Pero usted  tiene que solucionarlos. Tienes que atravesar el ruido y asegurarte de que tu sitio no se ahogue en toneladas de viejos 404.

Leer más: Mantenimiento del sitio web: compruebe y corrija las páginas de error 404 »

Aumente su presupuesto de rastreo

Veamos las cosas que realmente mejoran la cantidad de páginas que Google puede rastrear en su sitio.

Mantenimiento del sitio web: reduzca los errores

El primer paso para rastrear más páginas es asegurarse de que las páginas rastreadas devuelvan uno de los dos posibles  códigos de retorno : 200 (para «Aceptar») o 301 (para «Ir aquí en su lugar»). Todos los demás códigos de retorno no están bien. Para resolver esto, debe mirar los registros del servidor de su sitio.

Google Analytics y la mayoría de los otros paquetes de análisis solo realizarán un seguimiento de las páginas que sirvieron un 200. Por lo tanto, no encontrará muchos de los errores en su sitio allí.

Una vez que tenga los registros de su servidor, intente encontrar errores comunes y corríjalos. La forma más sencilla de hacerlo es tomando todas las URL que no devolvieron 200 o 301 y luego ordenarlas por la frecuencia con la que se accedió. Corregir un error puede significar que debe corregir el código. O puede que tenga que redirigir una URL a otra parte. Si sabe qué causó el error, también puede intentar corregir la fuente.

Otra buena fuente para encontrar errores y advertencias es Google Search Console. Lea esta publicación de Michiel para obtener más información al respecto. Si tiene Yoast SEO Premium, incluso puede redirigirlos fácilmente usando el administrador de redireccionamientos.

Bloquea partes de tu sitio

Si tiene secciones de su sitio que realmente no necesitan estar en Google, bloquéelas usando robots.txt. Solo haz esto si sabes lo que estás haciendo, por supuesto. Uno de los problemas comunes que veo en los sitios de comercio electrónico más grandes es cuando tienen miles de millones de formas de filtrar productos. Cada filtro puede agregar nuevas URL para Google. En casos como estos, realmente querrás asegurarte de permitir que Google rastre solo uno o dos de esos filtros y no todos.

Reducir las cadenas de redireccionamiento

Cuando redirige una URL 301, sucede algo extraño. Google verá esa nueva URL y agregará esa URL a la lista de tareas pendientes. No siempre lo sigue de inmediato, lo agrega a su lista de tareas pendientes y simplemente continúa. Cuando encadena redireccionamientos, por ejemplo, cuando redirige la versión no www a la versión www, luego http a https, tiene dos redireccionamientos en todas partes, por lo que todo tarda más en rastrear.

Obtenga más enlaces

Esto es fácil de decir, pero difícil de hacer. Obtener más enlaces no es solo una cuestión de ser genial, también es una cuestión de asegurarse de que los demás  sepan que eres genial. Es una cuestión de buenas relaciones públicas y buen compromiso en las redes sociales. Hemos escrito mucho sobre la construcción de enlaces, sugiero leer esta3 publicación:

Si tiene un problema agudo de indexación, definitivamente debe mirar sus errores de rastreo, los errores de rastreo ocurren cuando un motor de búsqueda intenta llegar a una página de su sitio web, pero falla. Bloquear partes de su sitio y corregir primero las cadenas de redireccionamiento. La construcción de enlaces es un método muy lento para aumentar su presupuesto de rastreo. Por otro lado: si tiene la intención de construir un sitio grande, la construcción de enlaces debe ser parte de su proceso.

Prácticas recomendadas

Sigue estas prácticas recomendadas para optimizar la eficacia del rastreo:

  • Gestiona tus URL. Usa las herramientas adecuadas para indicar a Google qué páginas debe rastrear y cuáles no. Si Google pasa demasiado tiempo rastreando URL que no son apropiadas para incluirlas en el índice, es posible que el robot de Google decida que no vale la pena rastrear el resto del sitio ni aumentar el presupuesto para hacerlo.
    • Consolida el contenido duplicado. Elimina el contenido duplicado para que los rastreos se centren en contenido único, y no en URL únicas.
    • Impide que se rastreen URL que no se deben indexar. Hay páginas importantes para los usuarios que no deberían aparecer en los resultados de búsqueda; por ejemplo, páginas con desplazamiento infinito que incluyen la misma información en páginas enlazadas o versiones de una misma página que presentan la información en otro orden. Si no puedes unificar esas páginas tal como se indica en el primer punto, bloquéalas con un archivo robots.txt o con la herramienta de parámetros de URL (si se puede llegar al mismo contenido con distintos parámetros de URL). No incluyas la etiqueta «noindex» en esas páginas, ya que Google las solicitará de todos modos. Detendrá el proceso en cuanto vea la etiqueta, pero ya se habrá perdido tiempo de rastreo. No bloquees páginas temporalmente con el archivo robots.txt para desviar esa parte del presupuesto de rastreo a otras páginas; en este archivo tienes que incluir las páginas o recursos que creas que no deberíamos rastrear nunca. Google no desviará esa parte del presupuesto salvo que haya alcanzado el límite de publicación del servidor de tu sitio.
    • Muestra errores 404 o 410 cuando se soliciten páginas eliminadas de forma permanente. Google no olvida las URL que ya conoce, pero se toma los errores 404 como señales de que no debe rastrear esas URL de nuevo. No obstante, las URL que están bloqueadas permanecen en la cola de rastreo y volverán a rastrearse cuando dejen de estar bloqueadas.
    • Elimina los errores soft 404. Las páginas que devuelven errores soft 404 se siguen rastreando, lo que consume parte del presupuesto. Consulta el Informe de cobertura de indexación para ver si hay errores soft 404.
    • Mantén tus sitemaps actualizados. Google lee tus sitemaps cada cierto tiempo, así que asegúrate de incluir todo el contenido que quieres que rastree. Si en tu sitio se incluye contenido que se va actualizando, te recomendamos que incluyas la etiqueta <lastmod>.
    • Evita las cadenas de redirección largas. Afectan al rastreo.
  • Configura tus páginas para que se carguen de forma eficiente.
  • Monitoriza el rastreo de tu sitio. Comprueba que no haya habido problemas de disponibilidad en tu sitio mientras se rastreaba y busca otras formas de conseguir que el rastreo sea más eficiente.

Mitos y realidades sobre el rastreo. Las respuestas son de Google

Si se comprimen los sitemaps, se puede aumentar el presupuesto de rastreo

  • No es cierto. Los sitemaps comprimidos también tienen que obtenerse del servidor, por lo que no ahorran mucho tiempo de rastreo ni trabajo.

Google prefiere el contenido actualizado, así que es mejor que no pare de modificar mis páginas

  • El contenido se clasifica por calidad, independientemente de cuándo se haya publicado. Crea y actualiza tu contenido según sea necesario, pero ten en cuenta que no aporta ningún valor hacer cambios banales y actualizar la fecha de las páginas para que parezcan estar actualizadas.

Google prefiere el contenido antiguo al nuevo porque tiene más importancia

  • Falso: si tu página es útil, no importa si es nueva o antigua.

Google prefiere las URL claras y no le gustan los parámetros de consulta

Los sitios pequeños no se rastrean tan a menudo como los grandes

  • Falso: si un sitio tiene contenido importante que cambia con frecuencia, lo rastreamos a menudo, independientemente de su tamaño.

Cuanto más cerca esté tu contenido de la página principal, más importante será para Google

  • Cierto, en parte: la página principal se suele considerar la página más importante de un sitio, por lo que es posible que las páginas a las que se puede acceder directamente desde la página principal se consideren más importantes y, por tanto, se rastreen con más frecuencia. No obstante, eso no quiere decir que esas páginas vayan a aparecer en posiciones más altas en comparación con otras páginas de tu sitio. Lea Cómo realizar un seguimiento del posicionamiento.

Cuanto más rápido se carguen y rendericen las páginas, más podrá rastrear Google

  • Cierto: nuestros recursos están limitados por el tiempo y el número de robots de rastreo. Cuantas más páginas puedas mostrarnos en un tiempo limitado, más podremos rastrear. Sin embargo, es posible que dediquemos más tiempo a rastrear un sitio que tenga información más importante, aunque sea más lento. Probablemente te interese más que tu sitio sea más rápido para los usuarios que para aumentar la cobertura de rastreo. Es mucho más sencillo ayudar a Google a rastrear el contenido adecuado que intentar que lo rastree todo cada vez. Lea

    Mejoras en los datos de cobertura del índice

  • Al rastrear un sitio, no solo hay que obtener el contenido, sino también renderizarlo, y el tiempo que se tarda en renderizar la página cuenta tanto como el tiempo que se tarda en solicitarla. Por lo tanto, si las páginas se renderizan más rápido, también aumentará la velocidad de rastreo.

Cambiar las versiones de las URL es una buena forma de animar a Google a volver a rastrear mis páginas

  • Cierto, en parte: si tus páginas tienen URLs con nuevas versiones, es probable que Google las rastree antes; sin embargo, no suele ser necesario y malgastarás recursos de rastreo si la página en realidad no cambia. Por lo general, la mejor forma de indicar a Google que hay contenido actualizado es añadiendo el valor <lastmod> en tu sitemap. Si recurres a URLs con versiones para indicar nuevo contenido, cambia la URL solo cuando hayas modificado considerablemente el contenido de la página.

La velocidad y los errores de un sitio afectan al presupuesto de rastreo

  • Cierto: si un sitio es rápido, la experiencia de los usuarios es mejor y el sitio se rastrea con más frecuencia. El robot de Google considera que, si un sitio es rápido, sus servidores están en buen estado y, por tanto, puede obtener más contenido con el mismo número de conexiones. En cambio, si hay muchos códigos de resultado HTTP 5xx (errores de servidor) o se agota el tiempo de espera de la conexión, reducirá la frecuencia de rastreo.
  • Te recomendamos que prestes atención al informe «Estadísticas de rastreo» de Search Console y que reduzcas al máximo los errores de servidor.

El rastreo es un factor que influye en el posicionamiento

  • Falso: por mucho que aumentes la frecuencia de rastreo, la posición de tu sitio en los resultados de búsqueda no tiene por qué mejorar. Google tiene en cuenta muchos factores a la hora de posicionar los resultados y, aunque es necesario rastrear una página para que aparezca en los resultados, el rastreo no es uno de ellos.

Las URL alternativas y el contenido insertado gastan presupuesto de rastreo

  • Cierto: por lo general, todas las URL que rastrea el robot de Google gastan presupuesto de rastreo de un sitio. Es posible que haya que rastrear URL alternativas, como AMP o hreflang, y contenido insertado, como CSS y JavaScript, incluidas las obtenciones de XHR, lo que consume parte del presupuesto de rastreo.

Puedo controlar el robot de Google con la directiva «crawl-delay»

  • Falso: el robot de Google no procesa la directiva «crawl-delay» no estándar del archivo robots.txt.

La directiva «nofollow» afecta al presupuesto de rastreo

  • Cierto, en parte: se gasta presupuesto de rastreo al rastrear cualquier URL, por lo que, aunque en una de tus páginas se marque una URL con la directiva «nofollow», es posible que la URL se acabe rastreando si está enlazada en otra página del sitio o de Internet sin la directiva «nofollow».

Consejos para mejorar la capacidad de rastreo de su sitio

Para optimizar la eficiencia del rastreo (¡lo adivinó!), Haga lo contrario de los factores que afectan negativamente el rastreo y la indexación. A continuación, le mostramos cómo descubrir áreas para mejorar.

Servidores confiables para mejorar el estado del rastreo
Así como los errores del servidor o las respuestas lentas del servidor pueden reducir su límite de frecuencia de rastreo, un servidor de respuesta rápida puede mejorar su límite de frecuencia de rastreo. Un límite de frecuencia de rastreo aumentado permite que más conexiones rastreen su sitio.

Nota: puede aumentar el «Límite de frecuencia de rastreo» en Google Search Console. Sin embargo, aunque reducirlo disminuye el rastreo de su sitio, aumentarlo no necesariamente aumenta el rastreo.

Velocidad del sitio para aumentar el límite de la frecuencia de rastreo

Si se une al factor anterior, un sitio más rápido es una señal de servidores confiables y aumenta la frecuencia de rastreo. Además, tener un sitio más rápido significa menos tiempos de espera y menos páginas que desperdicien el presupuesto de rastreo de su sitio.

Mapa del sitio y archivos robots.txt para optimizar el presupuesto de rastreo
Mantener un mapa del sitio limpio y directivas actualizadas en su archivo robots.txt reduce el desperdicio de presupuesto de rastreo en páginas que no están destinadas a los resultados de búsqueda. Las URL de los parámetros de búsqueda cuentan para su presupuesto de rastreo si no especifica lo contrario, lo que puede evitar que los bots rastreen páginas más importantes en su sitio.

Aunque Google no ignorará necesariamente su mapa del sitio si hay más del 1% de suciedad (es decir, URL que no devuelven un código de respuesta 200), aún desperdicia el presupuesto de rastreo para enviar estas páginas para que se rastreen. Por otro lado, Bing todavía está en el aire sobre si «confiará menos en su mapa del sitio» si contiene más del 1% de suciedad . Aunque Google es el motor de búsqueda por excelencia, no podemos dejar el 33% del tráfico de búsqueda sobre la mesa con un error tan simple.

La proporción de índice (proporción de páginas enviadas a páginas indexadas) es una gran indicación de la eficiencia con la que se rastrea su sitio. Apunta a una proporción de índice de 1: 1 en Google Search Console. Si ha enviado mapas del sitio y ha notado una proporción baja, busque lo siguiente:

  • Páginas que no son 200 en su mapa del sitio
  • Páginas no canónicas en su mapa del sitio
  • Las trampas de araña no están bloqueadas en su archivo robots.txt
  • Uso inadecuado de etiquetas nofollow o noindex
Nota: dividir un solo mapa del sitio en varios mapas del sitio puede ayudar a identificar áreas de su sitio que no se indexan.

Comprender estos elementos y sus funciones en la capacidad de rastreo y la indexación de su sitio, aunque es elemental, es esencial para una optimización de búsqueda exitosa.

La optimización del presupuesto de rastreo es difícil

La optimización del presupuesto de rastreo es para perseverantes, para quienes reamente desean triunfar con su sitio web. Si está haciendo bien el mantenimiento de su sitio, o si su sitio es relativamente pequeño, probablemente no sea necesario. Si su sitio es de tamaño mediano y está bien mantenido, es bastante fácil de hacer basándose en los trucos anteriores.

Si todo esto le parece demasiado técnico para lograr optimizar su presupuesto de rastro escríbame.

 

Contenido Relacionado:

 

¿De cuánta utilidad te ha parecido este contenido?

¡Haz clic en una estrella para puntuar!

promedio de puntuación

Hasta ahora, ¡no hay votos!. Sé el primero en puntuar este contenido.

¡Siento que este contenido no te haya sido útil!

¡Déjame mejorar este contenido!

Dime, ¿cómo puedo mejorar este contenido?

Sigueme
Últimas entradas de Estela Silva H. (ver todo)

Política de comentarios: Me encantan los comentarios y agradezco el tiempo que los lectores dedican para compartir ideas y para retroalimentación. Sin embargo, todos los comentarios son moderados manualmente y aquellos que considero spam o comentario promocional se eliminarán.

Soporte a su negocio en el campo del posicionamiento web, optimización web y auditorías profesionales. Gracias a mis acciones, los sitios web obtienen un tráfico segmentado que se traduce directamente en ventas y conversiones en el sitio web con  efectos seguros durante muchos años.

Servicios de Comercio electrónicoServicios de e-Marketing y Estrategías
Montar una tiendaPosicionamiento en Goole
Posicionamiento de tiendasMarketing de contenidos
Notificaciones pushAuditorías de Contenido
Auditorías SEO
Páginas Web Gratis
Gestión de Google Ads
Asesoramiento y Consulta
Reparación de Sanciones de Google
Entrenamiento SEO
Reparación de Sitio Hackeado
Acelerar WordPress