Análisis de logs

Log files, archivo de logs, logfile, historial de logs, fichero de logs, registro de logs, archivo de registro del servidor… Todas estas palabras se refieren a lo mismo: un archivo creado por servidor de un sitio web que registra todas las órdenes, solicitudes o procesos que tienen lugar en ese siteweb. En él se recoge todo lo que pasa en una web: quiénes la visitan, durante cuánto tiempo, qué páginas visitan…

¿Análisis de archivos logs ¿por qué es interesante para SEO?

Este archivo, repleto de información, es muy valioso desde la perspectiva SEO ya que de su análisis podemos extraer interesantes conclusiones y detectar áreas de mejora SEO.

Pero para saber qué es un análisis de logs es necesario conocer el concepto de crawl Budget  o presupuesto de rastreo para un sitio web. Para poder analizarlo, extraeremos el archivo de logs de un período: una semana, un mes o un año.

En este punto nos preguntamos: ¿cómo puedo analizar toda la información que proporciona un archivo de logs o Logfile?

Primeramente, necesitarás un programa de tipo “log reader” que lea el tipo de archivos de registro de servidor como es el caso de SEO Log File Analyser (con versión gratuita). Estos programas facilitan el análisis de logs porque permiten cruzarlo con datos de otras fuentes o, simplemente, exportar la información a un Excel.

Áreas de análisis de logs

análisis

A realizar este análisis pueden detectarse ineficiencias de rastreo que, tras solventarlas, mejoran la calidad del rastreo de los bots de Google. Se puede estudiar si el bot está visitando las páginas que nos interesan estratégicamente o si se está desperdiciando al entretenerse rastreando páginas más secundarias.

A continuación, te decimos algunos tipos de análisis e información que se pueden extraer:

 

  • Análisis de URL más rastreadas

En los archivos log tenemos información sobre los rastreos del robot de Google y podemos ver cuáles son las más frecuentemente rastreadas en el período estudiado.

Con esta información podemos inferir qué subdirectorios son los que se llevan la mayor parte del presupuesto y si son los que nos interesan estratégicamente.

 

  • Análisis de tipos de recursos más rastreados

También podemos clasificar las URL por tipo de recurso y si los css, las imágenes o los js están consumiéndose la mayor parte del presupuesto. Esto puede ser un área susceptible de analizar y que nos conduzca a tomar la decisión de optimizar, comprimir, unificar recursos…en aras de evitar que el bot de Google se entretenga rastreando URLs no prioritarias.

 

  • Análisis de URL parametrizadas

Si observamos que buena parte del presupuesto se consume rastreando url con parámetros que no cambian el contenido de la página, puede significar que no tenemos bien configurados los parámetros en Search Console y que además estamos derrochando el presupuesto rastreando contenido duplicado.

  • Análisis de URL con errores 3XX, 4XX o 5XX

Si el bot está perdiendo un alto porcentaje del presupuesto en rastrear URL que devuelven errores es indicativo de que tenemos un problema que optimizar. No obstante, tener un bajo porcentaje de rastreo de errores siempre es normal.

 

  • Análisis de URL no indexables

Si detectamos que Googlebot rastrea URL que hemos definido como no indexables o que tienen canonical a otra url diferente, estaremos ante otro desperdicio de presupuesto sobre el que tomar medidas.

 

  • Detectar problemas de crawl Deep

A veces descubrimos url en el archivo log que no teníamos identificadas y están siendo rastreadas. Puede ser el caso de páginas huérfanas (no enlazadas desde ninguna parte del site) y que está recibiendo tráfico. En este caso, habría que mediar y solucionar su crawl deep.

 

  • Cruzar los datos con otras fuentes

Si probamos a cruzar la información del registro de log con datos de analítica (Google Analytics o Search Console) se pueden detectar páginas que no reciben apenas tráfico y que sí están siendo rastreadas o, al contrario, páginas que sí reciben tráfico y no están siendo rastreadas por los Googlebot. Ambos casos necesitarán acción SEO.

 

  • Picos en el archivo de logs

A veces se observan picos de rastreo por parte del bot de Google y resulta interesante estudiar en qué páginas ha sido y analizar sus posibles causas: una caída del servidor, una subida masiva de nuevos contenidos …

 

Calcular el Crawl Budget que Google dedica a nuestro sitio web

Una de las cosas que más me gusta del análisis de archivo log es que podemos “investigar a Google” calculando crawl Budget que se destina a nuestro sitio web.

Ver si nos visita más Googlebot o Googlebot-Mobile, si nos visitan todos los días, a qué horas, ver cuáles son sus páginas y directorios favoritos, las url que más bytes consumen… son sólo algunas de las conclusiones a las que podemos llegar, todo dependerá de cuánta actitud de detective tengamos.

Y a vosotros me gustaría preguntaros: ¿qué otros análisis y conclusiones sacáis de la información de un archivo log?