Cómo crear un archivo robots.txt

Archivo Robots.txt: Qué es y Cómo Crear uno

Publicada en Publicada en Qué es SEO

Estar presente en un buscador es algo fundamental para poder recibir tráfico en nuestra web y poder crecer. Esto ya lo explicamos en el post sobre cómo aprender a indexar. Por ello, ahora le dedico al fichero robots.txt este post, pero ¿Qué es el protocolo de robots o robots.txt?

¿Qué es robots.txt?

Es un protocolo que se encarga de dar indicaciones a los agentes, arañas o los crawlers de Google. Estas arañas se encargan de ver cada parte de nuestra web. Los crawlers llegan a la web y buscan el archivo robots.txt, al encontrarlo lee qué archivos puede ver de nuestra web y cuales no.

¿Para qué sirve el robots.txt?

  • Es una manera de limitar la información al buscador Google y personalizar qué información queremos que vea e indexe y cual no. Por lo que usaremos el archivo robots.txt para que Google no indexe. Cuando no encuentra este archivo, se genera un error de tipo 404.
  • Mejora el SEO de nuestro sitio web indicando a las arañas cuales son los apartados que no queremos indexar. Así evitamos penalizaciones en el posicionamiento.
  • Podemos evitar el contenido duplicado para que los buscadores no nos penalicen.
  • Reducen las peticiones ya que reducimos el consumo de nuestro servidor al indicar sitios que no deseamos que indexen.

Por lo que estamos hablando de un elemento fundamental para mejorar el SEO de nuestro sitio web. Una vez sabemos para qué sirve el fichero robots.txt pasamos a ver cómo funciona.

 

¿Cómo crear nuestro fichero robots.txt?

Puede parecer que hablamos de algo muy complejo, pero es simplemente un texto con una serie de líneas de código con las instrucciones que le queremos dar a las “arañas”. Debemos ver si nuestro CMS nos lo ha creado automáticamente. Debemos poner: URL/robots.txt. Con esta web sería http://delcastilloalmarketing.com/robots.txt

Tenemos que estar atentos y tener cuidado a la hora de crear el archivo robots.txt WordPress o para el CMS que sea, ya que un simple fallo puede hacer que perdamos indexación y poscionamiento.

user-agent

Es lo primero que debe aparecer en un archivo robots.txt. El “user-agent” es una directiva importante que indica para qué robot o araña orientaremos las restricciones.

Si deseamos dirigir este archivo de restricciones solo a las arañas de un buscador debemos:

User-agent: “nombre de la araña”

En caso de querer dirigir las restricciones a los crawlers de Google sería:

User-agent: Googlebot

Cuando la finalidad sea añadir restricciones a todos los robots o arañas usamos el asterisco “*”:

User-agent: *

Disallow

Con la etiqueta o directiva “disallow” empezamos a darle indicaciones sobre los archivos que no queremos que indexe el buscador. Para realizar bien el trabajo debemos conocer una serie de símbolos que nos ayudarán a hacer un buen archivo robots.txt:

  • El primero sería la barra “/”. Esta barra hace que cualquier archivo de la carpeta indicada, no sea indexada. Es importante recordar que la barra se pone al final. Sería algo así:

Disallow: /images/ (Así no accederá a ningún archivo del directorio images)

  • Otro elemento es el asterisco. Este lo podemos usar para sustituir una cadena.
  • El símbolo del dolar “$” también nos va a ayudar con nuestro archivo robots.txt disallow. Este se encarga de indicar que tras él no hay nada más.

Disallow:/*.png$ (Para que las imágenes “.png” no sean indexadas)

Craw-delay

La directiva “Craw-delay” es la manera que tenemos de decirle al robot o crawlers, el tiempo que tiene que transcurrir desde un acceso a otro. Si por ejemplo queremos decirle la araña de Google que use solamente 20 segundos entre cada acceso, sería:

User-agent: Googlebot

Crawl-delay: 20

Visit-time

Esta directiva se usa para indicar el intervalo de tiempo en el que queremos que se analice nuestra web. Si por ejemplo queremos que solo sea entre las 1:00 am y 9:00 am sería:

Visit-time: 0100-0900

Request-rate

Esta directiva nos ayuda a elegir la cantidad de archivos que pueden ser analizados por la “araña” cada tiempo que le indiquemos. Si queremos que nos analice 3 archivos cada 20 minutos sería:

Request-rate: 3/20m

Cómo crear un archivo robots.txt

¿Cómo quedaría nuestro robots.txt? Ejemplos

Si usamos algunos de los ejemplos que he ido poniendo en cada apartado, nuestro archivo robots.txt WordPress (o de cualquier CMS) quedaría de la siguiente manera:

User-agent: *

Disallow:/*.png$

Crawl-delay: 20

Visit-time: 0100-0900

User-agent: Googlebot

Disallow: /images/

¿Cómo modificar el archivo robots.txt?

Google Search Console

Imagino que conoceréis la herramientas Search Console de Google (antigua Webmasters). Dentro de esta herramienta de Google podemos probar nuestro fichero y modificarlo. ¿Dónde encontramos el archivo? rastreo -> Probador de robots.txt

Probador robots.txt Search Console Google

Es un probador de los bots o arañas de Google y es muy fácil e intuitivo. En cada herramienta de “Webmaster” de cada buscador podrás probar tu archivo.

Plugin Yoast SEO

Dentro del plugin Yoast SEO podemos modificar nuestro archivo Robots.txt WordPress y añadir todas aquellas directivas que deseemos. En la guía Yoast SEO, en el apartado herramientas podrás modificar tu fichero.

Ejemplos de algunos ficheros robots.txt

Hay muchas instrucciones que podemos darle a robots. También encontramos muchos mensajes dentro del archivo que no solo van dirigidos a las arañas, también a los usuarios. Os dejo algunos ejemplos de ficheros robots.txt:

Tripadvisor

Archivo Robots.txt Tripadvisor

Si nos fijamos, lo primero que nos dice es que si has encontrado este archivo y quieres ser uno de los mejores SEO, manda un correo al que te facilitan. Es una manera de buscar trabajadores cualificados. Tras ello, encontramos todas las directivas de no indexión. Hay muchas más en su fichero. Si quieres verlo todo, visita su archivo http://tripadvisor.es/robots.txt

Twitter

Archivo Robots.txt Twitter

Con el fichero de Twitter podemos ver otro ejemplo completo con directivas propias de la web.

Un ejercicio bueno es ir mirando todos los ficheros de páginas que nos interesan y se parezcan a la nuestra. Debéis tener en cuenta que cada fichero Robots.txt es único y personalizado según la web y preferencias.

Trucos para tener un archivo robots.txt perfecto

  • Que no sea un archivo complejo. Es importante que sea simple para su rápida lectura.
  • Buena organización de las directivas.
  • Coge ideas y directivas que te puedan ayudar desde http://www.robotstxt.org/robotstxt.html.
  • No olvides añadir la url del sitemap a la hoja del fichero Robots.txt.

Aprende a crear un fichero Robots.txt no tiene por qué ser difícil con Del Castillo al Marketing

 

 

3 comentarios en “Archivo Robots.txt: Qué es y Cómo Crear uno

Deja aquí tu comentario