Screaming Frog SEO Spider: 10 configuraciones avanzadas para una auditoría técnica

Screaming Frog SEO Spider es la herramienta por excelencia para la auditoría técnica de sitios web, actuando como un simulador de rastreo (crawl) que revela la estructura, los problemas de indexación y los desafíos de optimización en el código.

Sin embargo, muchos profesionales se limitan a la configuración predeterminada, obteniendo solo una visión superficial de su ecosistema digital.

Para realizar una auditoría técnica de alto impacto, que trascienda la identificación básica de 404s y títulos duplicados, es imperativo dominar las configuraciones avanzadas de la herramienta.

Una configuración precisa puede simular un rastreo complejo, identificar hubs de contenido débiles o, crucialmente, auditar un sitio en fase de desarrollo (staging) antes de su lanzamiento.

1. Renderización en JavaScript

Para sitios modernos construidos con React, Angular o Vue.js, el rastreo estándar no es suficiente, ya que solo ve el código HTML inicial sin ejecutar el JavaScript que construye el contenido.

La configuración de renderización es crítica para obtener una imagen real de lo que Google indexa.

Pasos de configuración:

Acceda a Configuration > Spider > Rendering.
Seleccione JavaScript en lugar de «Text Only» (texto únicamente).
Ajuste el tiempo de espera (Timeout) si el sitio es lento (ej. 10 a 15 segundos).
Acción técnica: Una vez completado el rastreo, revise la pestaña Rendered Page para verificar que el contenido dinámico se haya cargado correctamente. Un error aquí puede indicar un problema de budget crawl o lentitud de renderización.

Permite identificar etiquetas de título y meta descripciones cargadas por JS que el rastreador tradicional podría omitir, lo que lleva a un informe más preciso sobre la optimización on-page.

2. Simulación de Googlebot y User-Agent

Auditar un sitio replicando el comportamiento de rastreo de Google es fundamental. Screaming Frog permite simular varios User-Agents de Googlebot, e incluso definir uno personalizado para entornos restringidos.

Detalles técnicos:

Vaya a Configuration > User-Agent.
Para auditorías generales, seleccione Googlebot (Desktop) o Googlebot (Smartphone) para simular el rastreo móvil (Mobile-First Indexing).
Uso avanzado (Staging): Si necesita rastrear un entorno de desarrollo protegido por contraseñas o firewalls que solo permiten acceso a un UA específico, ingrese un User-Agent personalizado aprobado previamente por el equipo de desarrollo.

3. Extracción personalizada

Esta es quizás la función más potente para la auditoría avanzada, permitiendo extraer datos específicos del HTML que no se recogen por defecto (ej. IDs de productos, precio, estado de stock o microdatos).

Proceso de configuración (Configuration > Custom > Extraction):

Defina el nombre del campo de extracción (ej. «Precio Producto»).
Seleccione el método: XPath (ideal para estructuras HTML complejas y precisas), CSSPath (más sencillo para clases y IDs) o Regex (para extraer texto dentro de un bloque HTML o JS).
Ingrese la expresión de selección. Ejemplo de XPath para extraer el valor de la etiqueta H1: //h1.

4. Integración de APIs de Google

La integración de datos de rendimiento con los datos de rastreo es esencial para priorizar problemas. Una URL con un error 404 que genera miles de impresiones en GSC es más crítica que una 404 sin tráfico.

Pasos de integración:

Vaya a Configuration > API Access > Google Analytics / Search Console.
Autorice el acceso a sus cuentas.
Asegúrese de seleccionar el intervalo de tiempo relevante para la auditoría (p. ej., últimos 90 días).

Utilice los filtros avanzados para encontrar URLs con «Status Code 200 (OK)» que, sin embargo, tienen cero clics y cero impresiones en Search Console.

Esto indica contenido que está indexando, pero que es totalmente invisible para los usuarios, señalando una posible necesidad de desindexación o reescritura total.

5. Auditoría específica de URLs

En sitios grandes (más de 100,000 URLs), un rastreo completo es ineficiente.

El modo Crawl List permite concentrar el esfuerzo en subconjuntos de URLs estratégicas.

Uso práctico:

Modo: Cambie de «Spider» a «List« en la parte superior.
Fuentes: Importe la lista desde un archivo CSV, o use la opción de pegado masivo para analizar, por ejemplo, todas las URLs de su sitemap de producto o las URLs marcadas como «con errores» en GSC.
Beneficio: Reduce el tiempo de rastreo de horas a minutos y asegura que la auditoría se centre en los puntos de mayor impacto potencial en los ingresos.

6. Ignorar y excluir

Es vital decirle a Screaming Frog qué no debe rastrear para evitar el derroche de recursos (crawl budget) y el sesgo de datos (ej., rastrear parámetros de seguimiento).

Configuración	Uso técnico	Ruta en SF
Exclusión	Bloquea URLs que cumplen con un patrón regex (ej. URLs con parámetros de sesión o filtros).	Configuration > Exclude
Ignorar (robots.txt)	Permite ignorar o seguir las directivas de disallow del archivo robots.txt.	Configuration > Robots.txt
No seguir	Evita que Screaming Frog siga enlaces en URLs específicas (ej. páginas de login).	Configuration > Spider > Advanced

7. Velocidad y límites de rastreo

Para proteger el servidor del cliente y evitar un bloqueo de IP, es crucial limitar la velocidad del rastreo.

Esto es especialmente importante en sitios alojados en servidores compartidos o con infraestructura limitada.

Ajustes de velocidad (Configuration > Rate Limits):

Max Threads (Hilos Máximos): Disminuir el número de hilos (ej. a 5 o 10) reduce la carga simultánea al servidor.
Max Pages/s (Máx Páginas/s): Controla cuántas peticiones se realizan por segundo. Una tasa de 1 a 2 URLs/s es un buen punto de partida seguro para la mayoría de los sitios.
Límite de URLs: En sitios masivos, establezca un límite de rastreo (ej. 500,000 URLs) para manejar la memoria y el tiempo de auditoría.

8. Auditoría de la arquitectura de la información

La profundidad de rastreo (Crawl Depth) es un KPI crítico de la Arquitectura de la Información.

Las URLs más importantes para el negocio deberían estar a 3 clics o menos de la página de inicio (profundidad 3).

En la vista principal, la columna «Crawl Depth» muestra cuántos clics se necesitan desde la URL de inicio.
Filtre para identificar las URLs de categoría o producto con una Profundidad > 5. Estas son las URLs «huérfanas» o mal enlazadas que tienen un bajo PageRank interno y requieren una mejor vinculación interna.

Utilice el informe «Site Structure > Crawl Depth» para visualizar el problema y recomendar la reestructuración del link juice interno.

9. Extracción de datos no vinculados

El modo List, discutido en el punto 5, no solo permite el rastreo de URLs específicas, sino que también es perfecto para la extracción masiva de datos que no están vinculados internamente.

Alimente el modo List con las URLs de una campaña de email marketing o un backlink roto masivo.
Use la opción Bulk Export > Response Codes > Client Error (4xx) Inlinks. Este informe es una lista de oro de los enlaces internos que apuntan a páginas 4xx y que deben ser corregidos inmediatamente para recuperar la autoridad.

10. Guardar y cargar configuraciones

Las auditorías técnicas deben ser repetibles y estandarizadas. Guardar una plantilla de configuración permite al equipo ejecutar auditorías idénticas en el tiempo y comparar resultados de manera objetiva.

Guardar: Vaya a File > Configuration > Save As. Guarde la configuración con un nombre descriptivo (ej. «Plantilla-Auditoria-JS-GSC-v2»).
Cargar: Use File > Configuration > Load para aplicar la configuración a un nuevo rastreo.

Esto es crucial para agencias y equipos internos con múltiples clientes o proyectos.

Asegura que la extracción de datos personalizados (Punto 3) y la simulación del User-Agent (Punto 2) sean consistentes en todos los informes.

Conclusiones clave

Screaming Frog es una navaja suiza. Pasar del modo básico al avanzado es una cuestión de entender cómo las configuraciones impactan directamente la calidad de la información de su auditoría y, por ende, las decisiones estratégicas de SEO.

Siempre audite sitios modernos en modo JavaScript Rendering para asegurar que el rastreador vea el mismo contenido que Google.
La integración de Google Search Console y Analytics transforma un simple listado de problemas en un mapa de prioridades basado en el rendimiento de negocio.
No se limite a los datos predeterminados. Aprenda a extraer datos críticos del e-commerce o schema markup para auditorías hiperespecializadas.
Configure los límites de velocidad y hilos para evitar sobrecargar los servidores del cliente, especialmente en proyectos de gran escala.