Guía para crear un Robots.txt para WordPress

Guía para crear un archivo robots.txt para WordPress.

En primer lugar voy a empezar explicando qué es el archivo robots.txt, para que sirve y posteriormente veremos las posibilidades que nos brinda en WordPress con ejemplos de configuración.

 

¿Qué es el archivo robots.txt?

Un bot o araña es un software cuya función es rastrear sitios web en busca de nuevo contenido.  Cuando estos bots llegan a tu sitio web lo primero que hacen es buscar el archivo robots.txt y en función de lo que hayas introducido en el, actuarán en consecuencia. Gracias a este archivo puedes por ejemplo denegar el acceso a según que bots o denegar el acceso de algún directorio de tu sitio a todos los bots… La configuración dependerá de tus propias necesidades.

robots txt para wordpress

¿Para que sirve el robots.txt?

El archivo robots.txt puede tener muchas aplicaciones, las más utilizadas son:

  • Denegar el acceso a los bots a ciertas páginas, directorios, etc…
  • Bloquear el acceso a determinados bots que sabemos que son perjudiciales
  • Determinar la velocidad de rastreo de los bots
  • Bloquear el acceso a archivos según sus extensiones
  • Determinar el archivo sitemap del sitio web (En formato xml)
  • Impedir la indexación de contenido duplicado

 

Cosas a tener en cuenta del robots.txt

  • Algunos bots (Sobre todo los de tipo malware) pasan de todo y acceden a lo que quieren sin importar las directrices que hayas introducido en el robots.txt
  • El robots.txt es público y accesible, así que no lo utilices para esconder información privada.

 

Los bots más famosos son:

  • Googlebot: La araña de Google.
  • Googlebot-Image: El robot indexador de imágenes de Google.
  • Bingbot: El robor del buscador Bing.
  • YandexBot: Del buscador ruso Yandex.
  • Roger: El bot de Moz, sin duda el más simpático
  • BaiduSpider: El crawler del buscador chino Baidu.
  • ia_archiver: El bot de alexa que también utiliza la famosa Wayback Machine.

 

Parámetros que acepta robots.txt

A pesar de tener pocos parámetros disponibles, un mal uso de ellos puede dar al traste el posicionamiento que tengamos…

Algunos parámetros que podemos añadir en el robots.txt:

  • user-agent : Indica qué tipo de robot debe cumplir con las directivas que se indiquen a continuación. Aquí tienes el listado de algunos de ellos: http://www.robotstxt.org/db.html
  • disallow : Denegar el acceso a un directorio o página en concreto. (Puedes utilizar * a modo de comodín)
  • Allow : Funciona al contrario que la directiva Disallow, permitiendo el acceso a directorios y páginas. Se puede utilizar para sobrescribir la directiva Disallow parcial o totalmente.
  • sitemap : Nos permite especificar donde está el sitemap del sitio web, podemos especificar varios simplemente con añadir varios parámetros sitemap al archivo robots.txt
  • crawl-delay : Permite especificar un número de segundos de espera entre cada página revisada por el bot en cuestión, es útil para evitar excesos por parte de los bots y crawlers, aunque muchos bots ni le hacen caso, como por ejemplo el propio GoogleBot.

Comodines válidos:

  • Asterisco (*) – Vale por una secuencia cualquiera de caracteres. Por ejemplo, todos los directorios que empiezan por “archivos” serían “/archivos*/”
  • Dólar ($) – Indica el final de una URL. Por ejemplo, para indicar cualquier archivo que acabe con la extensión .pdf se utilizaría “/*.pdf$”.

 

Ejemplos de parámetros comunes en robots.txt:

  • User-agent: * (Incluir todos los robots)
  • Disallow: /  (Denegar todo el sitio)
  • Disallow: /directorio/ (Denegar un directorio)
  • Disallow: /pagina-prueba.html (Denegar una página)
  • Disallow: /*.pdf$ (Denegar la extensión .pdf )
  • Allow: /directorio/subdirectorio/ (Permitir un subdirectorio habiendo denegado un directorio en el ejemplo anterior)
  • Sitemap: http://www.midominio.com/sitemap.xml (Señalar el mapa del sitio)

 

Sobre el bloqueo de /wp-admin/

Debes saber que no es necesario bloquear /wp-admin/ en el archivo robots.txt WordPress ya bloquea las páginas del directorio mediante la cabecera HTTP X-Robots-Tag.

Robots.txt para WordPress optimizado

Ya os podéis imaginar que no hay 2 robots.txt iguales pero siguiendo algunas directrices podemos crearnos un robots.txt efectivo.  Una cosa importante es que desde que salió el algoritmo Penguin 4 de Google es recomendable no bloquear el acceso a los CSS, JS, etc.

Entonces no os recomiendo poner:

Disallow: /wp-admin/
Disallow: /wp-content/
Disallow: /wp-includes/

Ya que bloqueamos acceso a CSS, JS. Además sabemos que no es necesario bloquear /wp-admin ya que tal y como comentaba antes ya está bloqueada.

 

Otra cosa a tener en cuenta, las categorías y etiquetas si no las queremos… aplicar noindex en ellas, no hagáis esto:

Disallow: /category/
Disallow: /tag/

 

Bots y crawler tipo malware:

Se pasan el robots.txt por el forro…. así que si encima les dices que quieres bloquearlos pueden tomarlo como que tienes algo que ocultar e incidan más en tu sitio….jejejeje…

 

Así que por fin mi robots.txt perfecto para WordPress es…

 

User-Agent: *

Sitemap: http://tudominio.com/sitemap.xml

 

Si utilizas Yoast y activas mapas del sitio XML te indica la ruta así:

User-Agent: *

Sitemap: http://tudominio.com/sitemap_index.xml

 

Estaréis diciendo… pero tanta parafernalia para esto… pues sí, primero tenemos que saber qué es un robots.txt y para que sirve.. y luego os doy mi recomendación… “BLOQUEAR LO INDISPENSABLE”. Como en todo cada sitio web es un mundo… pero a no ser que tengáis algo muy concreto que bloquear apostar por un robots.txt simple y efectivo. Si quieres hacer desaparecer algo de tu web en los buscadores sin que nadie pueda curiosear en tu robots.txt utiliza la meta etiqueta robots.

<meta name="robots" content="noindex">

Espero que os haya podido servir para darle una vuelta a vuestro robots.txt…

Tutoriales relaccionados

¿Necesitas un desarrollo a medida?

Login para aceder

LOGIN
REGISTRO