Guía para crear un archivo robots.txt para WordPress.
En primer lugar voy a empezar explicando qué es el archivo robots.txt, para que sirve y posteriormente veremos las posibilidades que nos brinda en WordPress con ejemplos de configuración.
¿Qué es el archivo robots.txt?
Un bot o araña es un software cuya función es rastrear sitios web en busca de nuevo contenido. Cuando estos bots llegan a tu sitio web lo primero que hacen es buscar el archivo robots.txt y en función de lo que hayas introducido en el, actuarán en consecuencia. Gracias a este archivo puedes por ejemplo denegar el acceso a según que bots o denegar el acceso de algún directorio de tu sitio a todos los bots… La configuración dependerá de tus propias necesidades.
¿Para que sirve el robots.txt?
El archivo robots.txt puede tener muchas aplicaciones, las más utilizadas son:
- Denegar el acceso a los bots a ciertas páginas, directorios, etc…
- Bloquear el acceso a determinados bots que sabemos que son perjudiciales
- Determinar la velocidad de rastreo de los bots
- Bloquear el acceso a archivos según sus extensiones
- Determinar el archivo sitemap del sitio web (En formato xml)
- Impedir la indexación de contenido duplicado
Cosas a tener en cuenta del robots.txt
- Algunos bots (Sobre todo los de tipo malware) pasan de todo y acceden a lo que quieren sin importar las directrices que hayas introducido en el robots.txt
- El robots.txt es público y accesible, así que no lo utilices para esconder información privada.
Los bots más famosos son:
- Googlebot: La araña de Google.
- Googlebot-Image: El robot indexador de imágenes de Google.
- Bingbot: El robor del buscador Bing.
- YandexBot: Del buscador ruso Yandex.
- Roger: El bot de Moz, sin duda el más simpático
- BaiduSpider: El crawler del buscador chino Baidu.
- ia_archiver: El bot de alexa que también utiliza la famosa Wayback Machine.
Parámetros que acepta robots.txt
A pesar de tener pocos parámetros disponibles, un mal uso de ellos puede dar al traste el posicionamiento que tengamos…
Algunos parámetros que podemos añadir en el robots.txt:
- user-agent : Indica qué tipo de robot debe cumplir con las directivas que se indiquen a continuación. Aquí tienes el listado de algunos de ellos: http://www.robotstxt.org/db.html
- disallow : Denegar el acceso a un directorio o página en concreto. (Puedes utilizar * a modo de comodín)
- Allow : Funciona al contrario que la directiva Disallow, permitiendo el acceso a directorios y páginas. Se puede utilizar para sobrescribir la directiva Disallow parcial o totalmente.
- sitemap : Nos permite especificar donde está el sitemap del sitio web, podemos especificar varios simplemente con añadir varios parámetros sitemap al archivo robots.txt
- crawl-delay : Permite especificar un número de segundos de espera entre cada página revisada por el bot en cuestión, es útil para evitar excesos por parte de los bots y crawlers, aunque muchos bots ni le hacen caso, como por ejemplo el propio GoogleBot.
Comodines válidos:
- Asterisco (*) – Vale por una secuencia cualquiera de caracteres. Por ejemplo, todos los directorios que empiezan por “archivos” serían “/archivos*/”
- Dólar ($) – Indica el final de una URL. Por ejemplo, para indicar cualquier archivo que acabe con la extensión .pdf se utilizaría “/*.pdf$”.
Ejemplos de parámetros comunes en robots.txt:
- User-agent: * (Incluir todos los robots)
- Disallow: / (Denegar todo el sitio)
- Disallow: /directorio/ (Denegar un directorio)
- Disallow: /pagina-prueba.html (Denegar una página)
- Disallow: /*.pdf$ (Denegar la extensión .pdf )
- Allow: /directorio/subdirectorio/ (Permitir un subdirectorio habiendo denegado un directorio en el ejemplo anterior)
- Sitemap: http://www.midominio.com/sitemap.xml (Señalar el mapa del sitio)
Sobre el bloqueo de /wp-admin/
Debes saber que no es necesario bloquear /wp-admin/ en el archivo robots.txt WordPress ya bloquea las páginas del directorio mediante la cabecera HTTP X-Robots-Tag.
Robots.txt para WordPress optimizado
Ya os podéis imaginar que no hay 2 robots.txt iguales pero siguiendo algunas directrices podemos crearnos un robots.txt efectivo. Una cosa importante es que desde que salió el algoritmo Penguin 4 de Google es recomendable no bloquear el acceso a los CSS, JS, etc.
Entonces no os recomiendo poner:
Disallow: /wp-admin/
Disallow: /wp-content/
Disallow: /wp-includes/
Ya que bloqueamos acceso a CSS, JS. Además sabemos que no es necesario bloquear /wp-admin ya que tal y como comentaba antes ya está bloqueada.
Otra cosa a tener en cuenta, las categorías y etiquetas si no las queremos… aplicar noindex en ellas, no hagáis esto:
Disallow: /category/
Disallow: /tag/
Bots y crawler tipo malware:
Se pasan el robots.txt por el forro…. así que si encima les dices que quieres bloquearlos pueden tomarlo como que tienes algo que ocultar e incidan más en tu sitio….jejejeje…
Así que por fin mi robots.txt perfecto para WordPress es…
User-Agent: * Sitemap: http://tudominio.com/sitemap.xml
Si utilizas Yoast y activas mapas del sitio XML te indica la ruta así:
User-Agent: * Sitemap: http://tudominio.com/sitemap_index.xml
Estaréis diciendo… pero tanta parafernalia para esto… pues sí, primero tenemos que saber qué es un robots.txt y para que sirve.. y luego os doy mi recomendación… “BLOQUEAR LO INDISPENSABLE”. Como en todo cada sitio web es un mundo… pero a no ser que tengáis algo muy concreto que bloquear apostar por un robots.txt simple y efectivo. Si quieres hacer desaparecer algo de tu web en los buscadores sin que nadie pueda curiosear en tu robots.txt utiliza la meta etiqueta robots.
<meta name="robots" content="noindex">
Espero que os haya podido servir para darle una vuelta a vuestro robots.txt…