Estar presente en un buscador es algo fundamental para poder recibir tráfico en nuestra web y poder crecer. Esto ya lo explicamos en el post sobre cómo aprender a indexar. Por ello, ahora le dedico al fichero robots.txt este post, pero ¿Qué es el protocolo de robots o robots.txt?
Tabla de contenidos
¿Qué es robots.txt?
Es un protocolo que se encarga de dar indicaciones a los agentes, arañas o los crawlers de Google. Estas arañas se encargan de ver cada parte de nuestra web. Los crawlers llegan a la web y buscan el archivo robots.txt, al encontrarlo lee qué archivos puede ver de nuestra web y cuales no.
¿Para qué sirve el robots.txt?
- Es una manera de limitar la información al buscador Google y personalizar qué información queremos que vea e indexe y cual no. Por lo que usaremos el archivo robots.txt para que Google no indexe. Cuando no encuentra este archivo, se genera un error de tipo 404.
- Mejora el SEO de nuestro sitio web indicando a las arañas cuales son los apartados que no queremos indexar. Así evitamos penalizaciones en el posicionamiento.
- Podemos evitar el contenido duplicado para que los buscadores no nos penalicen.
- Reducen las peticiones ya que reducimos el consumo de nuestro servidor al indicar sitios que no deseamos que indexen.
Por lo que estamos hablando de un elemento fundamental para mejorar el SEO de nuestro sitio web. Una vez sabemos para qué sirve el fichero robots.txt pasamos a ver cómo funciona.
¿Cómo crear nuestro fichero robots.txt?
Puede parecer que hablamos de algo muy complejo, pero es simplemente un texto con una serie de líneas de código con las instrucciones que le queremos dar a las «arañas». Debemos ver si nuestro CMS nos lo ha creado automáticamente. Debemos poner: URL/robots.txt. Con esta web sería http://delcastilloalmarketing.com/robots.txt
Tenemos que estar atentos y tener cuidado a la hora de crear el archivo robots.txt WordPress o para el CMS que sea, ya que un simple fallo puede hacer que perdamos indexación y poscionamiento.
user-agent
Es lo primero que debe aparecer en un archivo robots.txt. El «user-agent» es una directiva importante que indica para qué robot o araña orientaremos las restricciones.
Si deseamos dirigir este archivo de restricciones solo a las arañas de un buscador debemos:
User-agent: «nombre de la araña»
En caso de querer dirigir las restricciones a los crawlers de Google sería:
User-agent: Googlebot
Cuando la finalidad sea añadir restricciones a todos los robots o arañas usamos el asterisco «*»:
User-agent: *
Disallow
Con la etiqueta o directiva «disallow» empezamos a darle indicaciones sobre los archivos que no queremos que indexe el buscador. Para realizar bien el trabajo debemos conocer una serie de símbolos que nos ayudarán a hacer un buen archivo robots.txt:
- El primero sería la barra «/». Esta barra hace que cualquier archivo de la carpeta indicada, no sea indexada. Es importante recordar que la barra se pone al final. Sería algo así:
Disallow: /images/ (Así no accederá a ningún archivo del directorio images)
- Otro elemento es el asterisco. Este lo podemos usar para sustituir una cadena.
- El símbolo del dolar «$» también nos va a ayudar con nuestro archivo robots.txt disallow. Este se encarga de indicar que tras él no hay nada más.
Disallow:/*.png$ (Para que las imágenes «.png» no sean indexadas)
Craw-delay
La directiva «Craw-delay» es la manera que tenemos de decirle al robot o crawlers, el tiempo que tiene que transcurrir desde un acceso a otro. Si por ejemplo queremos decirle la araña de Google que use solamente 20 segundos entre cada acceso, sería:
User-agent: Googlebot
Crawl-delay: 20
Visit-time
Esta directiva se usa para indicar el intervalo de tiempo en el que queremos que se analice nuestra web. Si por ejemplo queremos que solo sea entre las 1:00 am y 9:00 am sería:
Visit-time: 0100-0900
Request-rate
Esta directiva nos ayuda a elegir la cantidad de archivos que pueden ser analizados por la «araña» cada tiempo que le indiquemos. Si queremos que nos analice 3 archivos cada 20 minutos sería:
Request-rate: 3/20m
¿Cómo quedaría nuestro robots.txt? Ejemplos
Si usamos algunos de los ejemplos que he ido poniendo en cada apartado, nuestro archivo robots.txt WordPress (o de cualquier CMS) quedaría de la siguiente manera:
User-agent: *
Disallow:/*.png$
Crawl-delay: 20
Visit-time: 0100-0900
User-agent: Googlebot
Disallow: /images/
¿Cómo modificar el archivo robots.txt?
Google Search Console
Imagino que conoceréis la herramientas Search Console de Google (antigua Webmasters). Dentro de esta herramienta de Google podemos probar nuestro fichero y modificarlo. ¿Dónde encontramos el archivo? rastreo -> Probador de robots.txt
Es un probador de los bots o arañas de Google y es muy fácil e intuitivo. En cada herramienta de «Webmaster» de cada buscador podrás probar tu archivo.
Plugin Yoast SEO
Dentro del plugin Yoast SEO podemos modificar nuestro archivo Robots.txt WordPress y añadir todas aquellas directivas que deseemos. En la guía Yoast SEO, en el apartado herramientas podrás modificar tu fichero.
Ejemplos de algunos ficheros robots.txt
Hay muchas instrucciones que podemos darle a robots. También encontramos muchos mensajes dentro del archivo que no solo van dirigidos a las arañas, también a los usuarios. Os dejo algunos ejemplos de ficheros robots.txt:
Tripadvisor
Si nos fijamos, lo primero que nos dice es que si has encontrado este archivo y quieres ser uno de los mejores SEO, manda un correo al que te facilitan. Es una manera de buscar trabajadores cualificados. Tras ello, encontramos todas las directivas de no indexión. Hay muchas más en su fichero. Si quieres verlo todo, visita su archivo http://tripadvisor.es/robots.txt
Con el fichero de Twitter podemos ver otro ejemplo completo con directivas propias de la web.
Un ejercicio bueno es ir mirando todos los ficheros de páginas que nos interesan y se parezcan a la nuestra. Debéis tener en cuenta que cada fichero Robots.txt es único y personalizado según la web y preferencias.
Trucos para tener un archivo robots.txt perfecto
- Que no sea un archivo complejo. Es importante que sea simple para su rápida lectura.
- Buena organización de las directivas.
- Coge ideas y directivas que te puedan ayudar desde http://www.robotstxt.org/robotstxt.html.
- No olvides añadir la url del sitemap a la hoja del fichero Robots.txt.
Aprende a crear un fichero Robots.txt no tiene por qué ser difícil con Del Castillo al Marketing
3 comentarios en “Archivo Robots.txt: Qué es y Cómo Crear uno”