¿Para qué sirve el archivo robots.txt?
Se trata de un archivo de texto que los bots de indexación consultan antes de analizar un sitio web, puesto que, en él se indica qué secciones de la página se deben o no analizar.
Mediante este fichero puedes limitar el acceso de bots de indexación en tu web, creando reglas para denegar el acceso a carpetas concretas, a todo el sitio web, a archivos determinados, además de especificar a qué bots deseas restringir el acceso, entre otros.
El robots.txt debe estar ubicado en la carpeta raíz de tu sitio web.
Reglas del archivo robots.txt
Las dos instrucciones básicas que utiliza el archivo robots.txt son:
User-Agent: Indica el robot al que se va a aplicar la regla que vamos a establecer.
Disallow: Indica el directorio, archivo o extensión al que queremos restringir el acceso.
A continuación, te mostramos algunas reglas para el archivo robots.txt que te pueden ser de utilidad.
Bloquear acceso de todos los bots a todo tu sitio web
User-agent: *
Disallow: /
Bloquear acceso de todos los bots a una carpeta concreta
User-agent: *
Disallow: /nombredelacarpeta/
Bloquear acceso de todos los bots a un archivo específico
User-agent: *
Disallow: /nombredelacarpeta/nombredelarchivo
(El nombre del archivo con su correspondiente extensión)
Bloquear acceso de todos los bots a una extensión de archivo
User-agent: *
Disallow: /*.php$
(En este caso no rastrearían ningún archivo con la extensión .php)
Bloquear acceso de un bot concreto a todo tu sitio web
User-agent: Googlebot
Disallow: /
(Aquí por ejemplo hemos indicado al bot de Google que no rastree nuestra web)
Estos son solo algunos de los ejemplos de las reglas más comunes que se suelen utilizar, puedes jugar con los distintos criterios y combinarlos como necesites.
Ten en cuenta que los bots maliciosos van a hacer caso omiso al archivo robots.txt por lo que, si detectas el acceso de alguno de ellos, puedes hacérnoslo saber para que lo bloqueemos a nivel del servidor.
Síguenos en: