Guía para crear un Robots.txt para WordPress

Guía para crear un archivo robots.txt para WordPress.

En primer lugar voy a empezar explicando qué es el archivo robots.txt, para que sirve y posteriormente veremos las posibilidades que nos brinda en WordPress con ejemplos de configuración.

 

¿Qué es el archivo robots.txt?

Un bot o araña es un software cuya función es rastrear sitios web en busca de nuevo contenido.  Cuando estos bots llegan a tu sitio web lo primero que hacen es buscar el archivo robots.txt y en función de lo que hayas introducido en el, actuarán en consecuencia. Gracias a este archivo puedes por ejemplo denegar el acceso a según que bots o denegar el acceso de algún directorio de tu sitio a todos los bots… La configuración dependerá de tus propias necesidades.

robots txt para wordpress

¿Para que sirve el robots.txt?

El archivo robots.txt puede tener muchas aplicaciones, las más utilizadas son:

  • Denegar el acceso a los bots a ciertas páginas, directorios, etc…
  • Bloquear el acceso a determinados bots que sabemos que son perjudiciales
  • Determinar la velocidad de rastreo de los bots
  • Bloquear el acceso a archivos según sus extensiones
  • Determinar el archivo sitemap del sitio web (En formato xml)
  • Impedir la indexación de contenido duplicado

 

Cosas a tener en cuenta del robots.txt

  • Algunos bots (Sobre todo los de tipo malware) pasan de todo y acceden a lo que quieren sin importar las directrices que hayas introducido en el robots.txt
  • El robots.txt es público y accesible, así que no lo utilices para esconder información privada.

 

Los bots más famosos son:

  • Googlebot: La araña de Google.
  • Googlebot-Image: El robot indexador de imágenes de Google.
  • Bingbot: El robor del buscador Bing.
  • YandexBot: Del buscador ruso Yandex.
  • Roger: El bot de Moz, sin duda el más simpático
  • BaiduSpider: El crawler del buscador chino Baidu.
  • ia_archiver: El bot de alexa que también utiliza la famosa Wayback Machine.

 

Parámetros que acepta robots.txt

A pesar de tener pocos parámetros disponibles, un mal uso de ellos puede dar al traste el posicionamiento que tengamos…

Algunos parámetros que podemos añadir en el robots.txt:

  • user-agent : Indica qué tipo de robot debe cumplir con las directivas que se indiquen a continuación. Aquí tienes el listado de algunos de ellos: http://www.robotstxt.org/db.html
  • disallow : Denegar el acceso a un directorio o página en concreto. (Puedes utilizar * a modo de comodín)
  • Allow : Funciona al contrario que la directiva Disallow, permitiendo el acceso a directorios y páginas. Se puede utilizar para sobrescribir la directiva Disallow parcial o totalmente.
  • sitemap : Nos permite especificar donde está el sitemap del sitio web, podemos especificar varios simplemente con añadir varios parámetros sitemap al archivo robots.txt
  • crawl-delay : Permite especificar un número de segundos de espera entre cada página revisada por el bot en cuestión, es útil para evitar excesos por parte de los bots y crawlers, aunque muchos bots ni le hacen caso, como por ejemplo el propio GoogleBot.

Comodines válidos:

  • Asterisco (*) – Vale por una secuencia cualquiera de caracteres. Por ejemplo, todos los directorios que empiezan por “archivos” serían “/archivos*/”
  • Dólar ($) – Indica el final de una URL. Por ejemplo, para indicar cualquier archivo que acabe con la extensión .pdf se utilizaría “/*.pdf$”.

 

Ejemplos de parámetros comunes en robots.txt:

  • User-agent: * (Incluir todos los robots)
  • Disallow: /  (Denegar todo el sitio)
  • Disallow: /directorio/ (Denegar un directorio)
  • Disallow: /pagina-prueba.html (Denegar una página)
  • Disallow: /*.pdf$ (Denegar la extensión .pdf )
  • Allow: /directorio/subdirectorio/ (Permitir un subdirectorio habiendo denegado un directorio en el ejemplo anterior)
  • Sitemap: http://www.midominio.com/sitemap.xml (Señalar el mapa del sitio)

 

Sobre el bloqueo de /wp-admin/

Debes saber que no es necesario bloquear /wp-admin/ en el archivo robots.txt WordPress ya bloquea las páginas del directorio mediante la cabecera HTTP X-Robots-Tag.

Robots.txt para WordPress optimizado

Ya os podéis imaginar que no hay 2 robots.txt iguales pero siguiendo algunas directrices podemos crearnos un robots.txt efectivo.  Una cosa importante es que desde que salió el algoritmo Penguin 4 de Google es recomendable no bloquear el acceso a los CSS, JS, etc.

Entonces no os recomiendo poner:

Disallow: /wp-admin/
Disallow: /wp-content/
Disallow: /wp-includes/

Ya que bloqueamos acceso a CSS, JS. Además sabemos que no es necesario bloquear /wp-admin ya que tal y como comentaba antes ya está bloqueada.

 

Otra cosa a tener en cuenta, las categorías y etiquetas si no las queremos… aplicar noindex en ellas, no hagáis esto:

Disallow: /category/
Disallow: /tag/

 

Bots y crawler tipo malware:

Se pasan el robots.txt por el forro…. así que si encima les dices que quieres bloquearlos pueden tomarlo como que tienes algo que ocultar e incidan más en tu sitio….jejejeje…

 

Así que por fin mi robots.txt perfecto para WordPress es…

 

 

Si utilizas Yoast y activas mapas del sitio XML te indica la ruta así:

 

Estaréis diciendo… pero tanta parafernalia para esto… pues sí, primero tenemos que saber qué es un robots.txt y para que sirve.. y luego os doy mi recomendación… “BLOQUEAR LO INDISPENSABLE”. Como en todo cada sitio web es un mundo… pero a no ser que tengáis algo muy concreto que bloquear apostar por un robots.txt simple y efectivo. Si quieres hacer desaparecer algo de tu web en los buscadores sin que nadie pueda curiosear en tu robots.txt utiliza la meta etiqueta robots.

Espero que os haya podido servir para darle una vuelta a vuestro robots.txt…

Facebook
Google+
Twitter
LinkedIn