Crawl budget

Análisis de logs para optimización de crawl budget: Guía técnica básica para SEO

El análisis de logs permite entender qué páginas rastrea Googlebot, con qué frecuencia y qué errores encuentra. Al identificar URLs innecesarias, redirecciones en cadena o errores 5xx, puedes optimizar tu crawl budget, para que Google indexe lo que realmente importa, es decir, tus páginas comerciales y de contenido clave.

Imagina que gestionas un marketplace con más de 100.000 productos. Cada producto tiene múltiples variantes (color, talla, material), y cada combinación genera una URL única.

Si no controlas el rastreo, Googlebot podría pasar días recorriendo combinaciones que nadie compra, mientras que tus productos estrella, los que generan ventas reales, tardan semanas en actualizarse en los resultados de búsqueda.

El análisis de logs es la única forma de ver este comportamiento en tiempo real y actuar con precisión.

¿Qué es el crawl budget y por qué debería importarte?

Muchos profesionales de SEO caen en la trampa de pensar que, si una página está en el sitemap, Google la rastreará y la indexará. Pero la realidad es más compleja.

Googlebot opera con límites de tiempo y recursos, ya que no puede rastrear millones de URLs diariamente en todos los sitios del mundo. Por eso asigna un presupuesto de rastreo (crawl budget) a cada dominio.

Este presupuesto se define por dos factores:

  • Crawl rate limit: cuántas solicitudes simultáneas puede soportar tu servidor sin ralentizarse.
  • Crawl demand: cuán relevante considera Google tu contenido, basado en factores como actualizaciones frecuentes, enlaces entrantes o tráfico orgánico.

En sitios pequeños (menos de 500 URLs), rara vez hay problemas. Pero en e-commerce, marketplaces o portales de noticias, el crawl budget se vuelve un recurso crítico.

Por ejemplo, una tienda de calzado deportivo mal onfigurada puede consumir hasta el 70% del rastreo de URLs de filtros como /zapatillas?marca=adidas&genero=hombre&talla=42&orden=precio, URLs no solo que no convertían, sino que compiten por atención con las páginas de producto reales.

Al restringirlas estratégicamente, logramos que Googlebot priorice las SKU con inventario activo, lo que se traduce en mejoras de mas de 30% en tráfico orgánico a productos en menos de un mes.

Cómo los logs revelan lo que Googlebot hace

Los archivos de log del servidor web, usualmente llamados access.log, registran cada interacción que ocurre en tu sitio, quién accedió, qué URL solicitó, a qué hora y qué respuesta obtuvo. Esto incluye las visitas de Googlebot, Bingbot y otros crawlers.

Sin embargo, la mayoría de los SEOs nunca han visto un archivo de log. Confían en Google Search Console, que, aunque útil, solo muestra una fracción del comportamiento real.

Por ejemplo, Search Console puede decirte que una página tiene un error 404, pero no te dice cuántas veces Googlebot intentó rastrearla en la última semana, ni si ese error proviene de un enlace interno roto, un redireccionamiento mal configurado o un sitemap obsoleto.

Un caso habitual es que Googlebot rastrea decenas de miles de URLs de categorías “fantasma”, páginas que ya no existían en el frontend, pero que seguían enlazadas desde antiguos feeds XML usados por marketplaces.

El resultado es que Googlebot agotaba todo su presupuesto en páginas muertas. Tras limpiar esos enlaces y bloquear las rutas en robots.txt, la frecuencia de rastreo en páginas de producto activas, puede aumentar hasta en un 50%.

Desde la extracción hasta la interpretación

El proceso comienza con la obtención de los logs. Si usas Apache o Nginx, estos suelen estar en /var/log/apache2/ o /var/log/nginx/.

En entornos gestionados (como SiteGround o AWS), puede que necesites solicitarlos a tu proveedor o usar una herramienta como Cloudflare Logs (si tienes proxy activado).

Una vez que tienes el archivo, el primer paso es filtrar las solicitudes de Googlebot. Puedes hacerlo con comandos como:

grep "Googlebot" access.log > googlebot_only.log

Pero ojo, Google utiliza múltiples user-agents (Googlebot, Googlebot-Mobile, Googlebot-Image). Lo más seguro es validar por IP oficial de Google y luego por user-agent, tal como recomienda Google en su documentación.

Luego, normaliza las URLs. Por ejemplo, /producto?id=123&utm_source=newsletter y /producto?id=123 son la misma página, pero para el log son dos entradas distintas.

Usa herramientas como Screaming Frog o scripts en Python para eliminar parámetros no esenciales y agrupar por URL canónica.

Finalmente, compara lo rastreado con tu estructura ideal:

  • ¿Qué páginas clave (por ventas, tráfico o autoridad) no están siendo rastreadas?
  • ¿Qué URLs sin valor (búsquedas internas, páginas de sesión, duplicados) consumen rastreo?
  • ¿Existen patrones de errores recurrentes (404, 500, timeout)?

Este cruce es donde nace la estrategia.

Herramientas clave más allá de lo teórico

Screaming Frog Log File Analyser es la herramienta más accesible para SEO. Importas el log, seleccionas el rango de fechas y en minutos obtienes un dashboard con:

  • URLs más rastreadas
  • Códigos de estado por frecuencia
  • Comparación con tu último crawl
  • Mapa de calor del comportamiento de Googlebot

En grandes e-commerce, por ejemplo, se suele descubrir que Googlebot rastrea decenas de veces al día la página de “Políticas de cookies”. ¿Por qué? Porque suele enlazarse desde footer de todas las páginas.

Si no puedes pagar Screaming Frog, GoAccess te da una interfaz visual en tiempo real, aunque con menos contexto SEO.

Para equipos técnicos, un script en Python con Pandas permite cruzar logs con datos de Google Analytics o tu base de productos.

De la teoría a los resultados prácticos

En un e-commerce con alrededor de decenas de miles de SKUs, es común observar que las nuevas colecciones reciban muy poco tráfico orgánico durante sus primeras semanas.

La solución habitual consiste en tres acciones coordinadas. Primero bloquear en robots.txt las combinaciones de parámetros complejas o redundantes, aplicar una canonicalización estricta para que todas las variantes apunten a una URL principal y reforzar la visibilidad de los nuevos productos mediante enlaces internos desde secciones de alto authority (como el home o categorías principales).

En escenarios típicos, esta estrategia permite que más del 80% de las nuevas SKU se indexen en menos de 72 horas, frente a los 10–15 días habituales antes de la intervención.

Otro caso frecuente ocurre en blogs corporativos o portales de contenido con decenas de miles de artículos. A menudo, el contenido nuevo tarda varios días en aparecer en los resultados de búsqueda, no porque Google lo rechace, sino porque el crawler gasta su presupuesto en rutas de bajo valor, como perfiles de autores inactivos, páginas de búsqueda interna o incluso recursos estáticos mal configurados.

La optimización en estos entornos suele centrarse en dos frentes. Por un lado, excluir en robots.txt rutas innecesarias que no aportan contenido único; por otro, crear una sección visible en la página de inicio, como “Artículos Recientes” o “Lo último en [tema]”, que enlace directamente a los contenidos nuevos desde una página con alta autoridad y frecuencia de rastreo.

Como resultado, es habitual reducir el tiempo medio de indexación de 7–9 días a menos de 48 horas.

Patrón en los logsQué significaImpacto en el crawl budgetAcción recomendada
Alta frecuencia de rastreo en URLs con parámetros (ej. ?color=rojo&talla=42)Googlebot está explorando combinaciones innecesarias de filtrosAlto desperdicio: consume recursos en URLs de bajo valorBloquear combinaciones complejas en robots.txt; usar canonicalización estricta
Miles de solicitudes a URLs de autores, tags o búsquedas internasContenido dinámico de baja autoridad está accesible y enlazadoRastreo disperso en páginas que rara vez generan tráficoExcluir rutas en robots.txt o desindexar con noindex
Errores 404 recurrentes en URLs rastreadas diariamenteEnlaces internos o sitemaps apuntan a páginas eliminadasGooglebot gasta solicitudes en URLs muertasAuditar enlaces internos; eliminar fuentes de enlaces rotos
Rastreo frecuente de recursos estáticos (CSS, JS, imágenes) bloqueados en robots.txtGooglebot intenta acceder a recursos críticos que no puede renderizarPérdida de oportunidad: Google no puede evaluar el contenido visualPermitir el acceso a recursos esenciales en robots.txt
Páginas clave (productos, artículos nuevos) rastreadas <1 vez por semanaBaja prioridad en la arquitectura de enlaces internosActualizaciones tardan en reflejarse en búsquedaMejorar enlace interno desde home, categorías o bloques destacados

5 errores que desperdician tu crawl budget

1. Redirecciones en cadena

Ejemplo: /antiguo-producto → 301 → /nuevo-producto-temporal → 301 → /producto-oficial. Googlebot consume una solicitud por salto. La solución es redirigir directamente al destino final.

2. URLs con errores 404 en enlaces internos

Si un menú enlaza a una página eliminada, Googlebot sigue perdiendo tiempo. Usa herramientas como Sitebulb o Screaming Frog para auditar enlaces internos y corregirlos.

3. Contenido duplicado sin canonicalización clara

Por ejemplo, una misma camiseta accesible por /camiseta-roja y /roja/camiseta. Sin rel="canonical", Google rastrea ambas. Define una URL canónica y asegúrate de que los enlaces internos apunten a ella.

4. Bloquear recursos críticos en robots.txt

Muchos bloquean /wp-content/ pensando que son solo imágenes. Pero allí están CSS y JS necesarios para renderizar la página. Google no puede evaluar el contenido si no puede ver cómo se ve. Permite el acceso a recursos esenciales.

5. Arquitectura de enlaces internos deficiente

Si tus productos más vendidos están enterrados a 5 clics del home, Googlebot rara vez llega. Usa menús contextuales, bloques de “productos destacados” y enlaces desde categorías superiores.

Cómo medir el impacto post-optimización

No basta con hacer cambios, hay que validar resultados.

  1. En Google Search Console, revisa el informe “Rastreo > Páginas rastreadas por día”. Deberías ver una redistribución: menos rastreo en URLs basura, más en páginas clave.
  2. En “Cobertura de índice”, verifica que las páginas válidas aumenten y los errores disminuyan.
  3. Usa Google Analytics 4 para monitorear tráfico orgánico a segmentos específicos (ej: productos con inventario >0).
  4. Finalmente, repite el análisis de logs cada 30 días. El comportamiento de Googlebot evoluciona con tus correcciones.

Referencias

Preguntas frecuentes (FAQ)

¿Qué es el crawl budget en SEO?

El crawl budget es el número de páginas que Googlebot puede y quiere rastrear en tu sitio durante un período determinado. No es un número fijo, depende de la salud técnica de tu servidor y de cuán valioso considera Google tu contenido. En sitios grandes, optimizarlo es esencial para asegurar que las páginas importantes se indexen rápido.

¿Cómo sé si mi sitio necesita optimizar el crawl budget?

Si tienes más de 10.000 URLs, si Google Search Console muestra muchos errores de rastreo, o si lanzas contenido nuevo que tarda semanas en aparecer en búsqueda, es probable que estés desperdiciando crawl budget. Sitios pequeños o blogs personales rara vez tienen este problema.

¿Puedo ver qué rastrea Googlebot sin acceso a los logs del servidor?

No de forma completa. Google Search Console te da una muestra limitada, pero los logs del servidor son la única fuente que registra cada solicitud real. Sin ellos, estás tomando decisiones basadas en suposiciones.

¿Qué herramienta gratuita puedo usar para analizar logs?

GoAccess es una herramienta open-source que puedes instalar en tu servidor y que ofrece visualizaciones en tiempo real. Para SEO, la versión de prueba de Screaming Frog Log File Analyser (14 días) es suficiente para un diagnóstico inicial.

¿El crawl budget afecta directamente mi posicionamiento en Google?

No es un factor de ranking como las palabras clave o los backlinks. Pero si Googlebot no rastrea tus páginas clave, esas páginas nunca podrán posicionarse. Por eso, en contextos de retail digital o marketplaces, el crawl budget es un pilar técnico invisible pero crítico.

Cotiza nuestros servicios gratis

Nombre
Seleccionar servicios

Carlos Uhart M.

Redactor de contenidos

SEO on-page | off-page | técnico

[email protected]