931 003 672 - 910 911 944

La mejor guía sobre el archivo robots.txt para SEO

robots-txt-seo
5/5 - (5 votos)

Un archivo robots.txt contiene directivas para los motores de búsqueda. Puedes utilizarlo para evitar que los motores de búsqueda rastreen partes específicas de tu website y para dar a los motores de búsqueda consejos útiles sobre cómo pueden rastrear mejor la web. Además, el archivo robots.txt juega un papel importante en el SEO.

Aunque los especialistas en SEO ponen la mayor parte de su esfuerzo en mejorar la visibilidad de las páginas para sus correspondientes palabras clave, en algunos casos es necesario ocultar ciertas páginas a los motores de búsqueda.

Conozcamos un poco más sobre este tema.

Contenido

¿Qué es un archivo robots.txt?

Robots.txt es un archivo que contiene las áreas de un sitio web que los robots de los motores de búsqueda tienen prohibido (o permitido) rastrear. Enumera las URL que el webmaster no quiere que Google o cualquier motor de búsqueda indexe y les impide visitar y rastrear las páginas seleccionadas.

Cuando un bot encuentra un sitio web en Internet, lo primero que hace es comprobar el archivo robots.txt para saber qué puede explorar y qué debe ignorar durante el rastreo.

Para poner un ejemplo de robots.txt, esta es su sintaxis:

User-agent: *  # Todos los robots - Viejas URLs  Allow: /  Disallow: /admin/*

Aunque lo veremos más a fondo a continuación, adelantarte que cada vez que veas una línea de texto antecedida por el símbolo #, esa línea será ignorada por el robot que lo lea. Por ese motivo estas líneas de texto se utilizan para realizar comentarios internos que ayuden a entender el código que tenemos delante.

robots.txt y SEO

Las etiquetas que implementamos en el archivo robots.txt son necesarias y esenciales en el ámbito del SEO porque:

  • El archivo Robots.txt es una buena forma de forzar la indexación de las páginas, señalándolas.
  • Ayudan a optimizar los recursos del robot, ya que el crawler solo visitará lo que es realmente relevante y aprovechará mejor el tiempo rastreando una página. Un ejemplo de página que no se desearías que Google encontrara es una «página de agradecimiento».
  • Los archivos Robots.txt controlan el acceso de los rastreadores a determinadas áreas de tu web.
  • Robots.txt puede ocultar archivos que no deben ser indexados, como PDFs o algunas imágenes.
  • Pueden mantener seguras secciones enteras de una website, ya que se pueden crear archivos robots.txt separados por dominios raíz. Un buen ejemplo es la página de detalles de pago, como ya habrás imaginado.
  • También se pueden bloquear las páginas internas de resultados de búsqueda para que no aparezcan en las SERP.

¿Por qué robots.txt es tan importante?

Como hemos comentado, el robots.txt desempeña un papel esencial desde el punto de vista del SEO, ya que indica a los motores de búsqueda cómo pueden rastrear mejor tu sitio web. Ya hemos visto que con el archivo robots.txt puedes impedir que los motores de búsqueda accedan a determinadas partes de su sitio web, evitar el contenido duplicado y dar a los motores de búsqueda consejos útiles sobre cómo pueden rastrear su sitio web de forma más eficiente.

No obstante, ¡ojo al realizar cambios en el archivo robots.txt! Este archivo puede hacer que grandes partes de tu sitio web sean inaccesibles para los motores de búsqueda.

Robots.txt se utiliza a menudo en exceso para reducir el contenido duplicado, matando así los enlaces internos, por lo que hay que tener mucho cuidado con él. Es aconsejable que solo lo utilices para los archivos o páginas que los motores de búsqueda no deberían ver nunca, o que pueden afectar significativamente al rastreo si se les permite entrar. Por ejemplo: áreas de inicio de sesión que generan muchas urls diferentes, áreas de prueba o donde puede existir una navegación con múltiples facetas o parámetros. Y es importante asegurarse de supervisar el archivo robots.txt para detectar cualquier problema o cambio.

Problemas comunes con el archivo

La mayoría de los problemas que podemos encontrar con los archivos robots.txt se dividen en tres categorías:

  • El mal manejo de los comodines. Es bastante común ver que se bloquean partes de la web que estaban destinadas a no ser bloqueadas. A veces, si no se tiene cuidado, las directivas pueden entrar en conflicto entre sí. Alguien, por ejemplo, un desarrollador, ha hecho un cambio de la nada (a menudo al introducir nuevo código) y ha alterado súbitamente el robots.txt sin que lo sepas.
  • Inclusión de directivas que no pertenecen a un archivo robots.txt. El archivo Robots.txt es un estándar de la web y es algo limitado. A menudo los desarrolladores crean directivas que simplemente no funcionan (al menos para la mayoría de los rastreadores).

Ilustremos esto con un ejemplo:

Imagina que tienes un ecommerce y los visitantes pueden utilizar un filtro para buscar rápidamente entre tus productos. Este filtro genera páginas que básicamente muestran el mismo contenido que otras páginas. Esto funciona muy bien para los usuarios, pero confunde a los motores de búsqueda porque crea contenido duplicado.

No es conveniente que los motores de búsqueda indexen estas páginas filtradas y pierdan su valioso tiempo en estas URLs con contenido filtrado. Por lo tanto, debes establecer reglas de desautorización para que los motores de búsqueda no accedan a estas páginas de productos filtradas.

La prevención del contenido duplicado también se puede llevar a cabo utilizando la URL canónica o la etiqueta meta robots, sin embargo, estas no permiten que los motores de búsqueda solo rastreen las páginas importantes.

El uso de una URL canónica o una etiqueta meta robots no impedirá que los motores de búsqueda rastreen estas páginas. Solo evitará que los motores de búsqueda muestren estas páginas en los resultados de búsqueda. Dado que los motores de búsqueda tienen un tiempo limitado para rastrear un sitio web, este tiempo debe ser invertido en las páginas que quieras que aparezcan en los motores de búsqueda.

  • Se trata de una herramienta muy sencilla, pero un archivo robots.txt puede causar muchos problemas si no está configurado correctamente, sobre todo en los sitios web más grandes. Es muy fácil cometer errores como bloquear un sitio entero después de un nuevo diseño o CMS, o no bloquear secciones de un sitio que deberían ser privadas. Para los sitios web más grandes, es muy importante asegurarse de que Google rastrea de forma eficiente, y un archivo robots.txt bien estructurado es una herramienta esencial en ese proceso. Es necesario dedicar tiempo a entender qué secciones de tu sitio es mejor mantener alejadas de Google para que dedique la mayor parte posible de sus recursos a rastrear las páginas que realmente te interesan.

¿Qué aspecto tiene un archivo robots.txt?

Un ejemplo de cómo puede ser un simple archivo robots.txt para un sitio web de WordPress:

User-agent: *  Disallow: /wp-admin/

Explicaremos la anatomía de un archivo robots.txt basándonos en el ejemplo anterior:

  • User-agent: el user-agent indica para qué motores de búsqueda están destinadas las directivas que se ponen inmediatamente después.
  • *: indica que las instrucciones están destinadas a todos los motores de búsqueda.
  • Disallow: es una directiva que indica qué contenido no es accesible para el user-agent.
  • /wp-admin/: esta es el path (parte de la URL) que es inaccesible para el user-agent.

En resumen: este archivo robots.txt que hemos puesto de ejemplo indica a todos los motores de búsqueda que no entren en el directorio /wp-admin/.

Análisis de los diferentes componentes de los archivos robots.txt

User-agent en robots.txt

Cada motor de búsqueda debe identificarse con un user-agent. Por ejemplo: los robots de Google se identifican como Googlebot, los de Yahoo como Slurp y los de Bing como BingBot, etc.

El registro de user-agent define el inicio de un grupo de directivas. Todas las directivas entre el primer user-agent y el siguiente registro de user-agent se tratan como directivas para el primer user-agent.

Las directivas pueden aplicarse a user-agent específicos, pero también pueden aplicarse a todos los user-agent. En ese caso, se utiliza un comodín: user-agent: *.

Directiva Disallow en robots.txt

Puedes indicar a los motores de búsqueda que no accedan a determinados archivos, páginas o secciones de tu sitio web. Esto se hace utilizando la directiva Disallow. La directiva Disallow va seguida del path al que no se debe acceder. Si no se define ninguna path, la directiva se ignora.

Por ejemplo:

User-agent: *  Disallow: /wp-admin/

En este ejemplo se indica a todos los motores de búsqueda que no accedan al directorio /wp-admin/.

Directiva Allow en robots.txt

La directiva Allow se utiliza para contrarrestar una directiva Disallow. La directiva Allow está admitida por Google y Bing. Utilizando las directivas Allow y Disallow juntas, indicas a los motores de búsqueda que pueden acceder a un archivo o página específicos dentro de un directorio que, de otro modo, no está permitido. La directiva Allow va seguida del path al que se puede acceder. Si no se define ningún path, la directiva se ignora.

Ejemplo:

User-agent: *  Allow: /media/terminos-condiciones.pdf  Disallow: /media/

En el ejemplo anterior, todos los motores de búsqueda no podrían acceder al directorio /media/, excepto el archivo /media/terms-and-conditions.pdf.

Importante: cuando se utilicen juntas las directivas Allow y Disallow, asegúrate de no utilizar comodines, ya que esto puede dar lugar a directivas que entren en conflicto.

Ejemplo de directivas que pueden crear conflicto:

User-agent: *  Allow: /directorio  Disallow: *.html

Los motores de búsqueda no sabrán qué hacer con la URL http://www.tudominio.com/directorio.html. No tienen claro si se les permite el acceso. Cuando las directivas no están claras para Google, se decantarán por la directiva menos restrictiva, lo que en este caso significa que, de hecho, accederán a http://www.tudominio.com/directorio.html.

A tener en cuenta:

Las reglas de desautorización en el archivo robots.txt de una web son increíblemente poderosas, por lo que deben manejarse con cuidado. Para algunos sitios, evitar que los motores de búsqueda rastreen patrones de URL específicos es crucial para permitir que se rastreen e indexen las páginas correctas, pero el uso inadecuado de las reglas de desautorización puede dañar gravemente el SEO de una página.

Una línea separada para cada directiva

Si las directivas no están en líneas separadas, los motores de búsqueda pueden confundirse al analizar el archivo robots.txt.

Este es un ejemplo de archivo robots.txt incorrecto que debes evitar a toda costa:

User-agent: * Disallow: /directorio-1/ Disallow: /directorio-2/ Disallow: /directorio-3/

Curiosamente robots.txt es uno de los archivos que más veces veo implementado incorrectamente. Muchas veces  no estás bloqueando lo que querías bloquear o estás bloqueando más de lo que esperabas y tendrás un impacto negativo en tu sitio web.

Utilización de comodines *

El comodín no solo puede usarse para definir el user-agent, sino también para hacer coincidir las URLs. El comodín es compatible con Google, Bing, Yahoo y Ask.

Por ejemplo:

User-agent: *  Disallow: *?

En el ejemplo anterior, no se permite a los motores de búsqueda acceder a las URL que incluyen un signo de interrogación (?).

Los desarrolladores o propietarios de sitios web tienden a pensar que pueden utilizar todo tipo de expresiones regulares en un archivo robots.txt, cuando en realidad solo es válida una cantidad muy limitada de coincidencias de patrones, por ejemplo, los comodines (*). No es raro ver cómo  de vez en cuando se confunde el archivo .htaccess con el archivo robots.txt, intercambiando su sintaxis. Un error, en muchos casos, catastrófico.

Utilizar el final de la URL con $

Para indicar el final de una URL, puedes utilizar el signo de dólar ($) al final del path.

Ejemplo:

User-agent: *  Disallow: *.php$

En el ejemplo anterior, los motores de búsqueda no pueden acceder a todas las URL sque terminan en .php. Las URLs con parámetros, por ejemplo https://tudominio.com/pagina.php?lang=en, no serían rechazadas, ya que la URL no termina después de .php.

Añadir el sitemap a robots.txt

Aunque el archivo robots.txt se inventó para indicar a los motores de búsqueda qué páginas no deben rastrear, el archivo robots.txt también puede utilizarse para dirigir a los motores de búsqueda al sitemap XML. Esto lo admiten Google, Bing, Yahoo y Ask.

El sitemap XML debe ser referenciado como una URL absoluta. La URL no debe estar en el mismo host que el archivo robots.txt.

Hacer referencia al sitemap XML en el archivo robots.txt es una de las mejores prácticas que te aconsejamos hacer siempre, aunque ya hayas presentado tu sitemap XML en Google Search Console o Bing Webmaster Tools. Recuerda que hay más motores de búsqueda.

Ten en cuenta que es posible hacer referencia a varios sitemaps XML en un archivo robots.txt. Por ejemplo, estos son varios sitemaps XML definidos en un archivo robots.txt:

User-agent: *  Disallow: /wp-admin/  Sitemap: https://www.tudominio.com/sitemap1.xml  Sitemap: https://www.tudominio.com/sitemap2.xml

El ejemplo que acabamos de mostrar indica a todos los motores de búsqueda que no accedan al directorio /wp-admin/ y que hay dos sitemaps XML que se encuentran en https://www.tudominio.com/sitemap1.xml y https://www.tudominio.com/sitemap2.xml.

Un único sitemap XML definido en un archivo robots.txt sería:

User-agent: *  Disallow: /wp-admin/  Sitemap: https://www.tudominio.com/sitemap_index.xml

El ejemplo anterior indica a todos los motores de búsqueda que no accedan al directorio /wp-admin/ y que el sitemap XML se encuentra en https://www.tudominio.com/sitemap_index.xml.

Comentarios

Como vimos más arriba, los comentarios van precedidos de un # y pueden colocarse al principio de una línea o después de una directiva en la misma línea. Todo lo que se encuentre después del # será ignorado. Estos comentarios están pensados solo para los humanos. Aquí tienes dos ejemplos que comunican el mismo mensaje:

Ejemplo número 1:

# No se permite el acceso al directorio /wp-admin/ a ningún robot.  User-agent: *  Disallow: /wp-admin/

Ejemplo número 2:

User-agent: * # Se aplica a todos los robots  Disallow: /wp-admin/ # No se permite el acceso al directorio /wp-admin/

Crawl-delay en robots.txt

La directiva Crawl-delay es una directiva no oficial que se utiliza para evitar la sobrecarga de los servidores con demasiadas peticiones. Si los motores de búsqueda son capaces de sobrecargar un servidor, añadir Crawl-delay a tu archivo robots.txt es solo una solución temporal. El hecho es que tu web se está ejecutando en un entorno de alojamiento deficiente y/o tu web está configurada de forma incorrecta, y debes solucionarlo lo antes posible.

La forma en que los motores de búsqueda manejan el Crawl-delay varía. A continuación, explicamos cómo lo gestionan los principales motores de búsqueda.

Crawl-delay y Google

El rastreador de Google, Googlebot, no admite la directiva Crawl-delay, así que no te molestes en definir un crawl-delay para Google.

Sin embargo, Google sí admite la definición de una tasa de rastreo (o «tasa de solicitud», si se quiere) en Google Search Console.

Crawl-delay y Bing, Yahoo y Yandex

Bing, Yahoo y Yandex admiten la directiva Crawl-delay para acelerar el rastreo de un sitio web. Sin embargo, su interpretación del crawl-delay es ligeramente diferente, así que asegúrate de consultar sus normas.

La directiva Crawl-delay debe ponerse justo después de las directivas Disallow o Allow. Por ejemplo:

User-agent: BingBot  Disallow: /privado/  Crawl-delay: 10

Crawl-delay y Baidu

Baidu no admite la directiva crawl-delay, sin embargo, es posible registrar una cuenta de Baidu Webmaster Tools en la que se puede controlar la frecuencia de rastreo, de forma similar a Google Search Console.

¿Cuándo es mejor usar Robots.txt?

Siempre recomendamos utilizar archivos robots.txt. No hay nada malo en tener uno, y es un magnífico lugar para dar a los motores de búsqueda directivas sobre cómo pueden rastrear mejor tu sitio web.

El archivo robots.txt puede ser útil para evitar que ciertas áreas o documentos de tu sitio sean rastreados e indexados. Ejemplos de ello son sitios en producción o archivos PDF.

Recomendación:

Planifica cuidadosamente lo que debe ser indexado por los motores de búsqueda y ten en cuenta que el contenido que se ha hecho inaccesible usando robots.txt todavía podría ser encontrado por los rastreadores de los motores de búsqueda si se enlaza desde otras zonas del sitio web.

Las mejores prácticas de Robots.txt 

A continuación, vamos a ver cuáles son las mejores prácticas de robots.txt.

Ubicación y nombre del archivo

El archivo robots.txt debe colocarse siempre en la root de un sitio web (en el directorio de nivel superior del host) y llevar el nombre de archivo robots.txt, por ejemplo: https://www.tudominio.com/robots.txt. Ten en cuenta que la URL del archivo robots.txt, como cualquier otra URL, distingue entre mayúsculas y minúsculas.

Si el archivo robots.txt no se encuentra en la ubicación predeterminada, los motores de búsqueda asumirán que no hay directivas y rastrearán el sitio web.

Orden de precedencia

Es importante tener en cuenta que los motores de búsqueda gestionan los archivos robots.txt de forma diferente. Por defecto, siempre gana la primera directiva que coincida.

Sin embargo, con Google y Bing gana la especificidad. Por ejemplo: una directiva Allow gana a una directiva Disallow si su longitud de caracteres es mayor.

Ejemplo:

User-agent: *  Allow: /nosotros/empresa/  Disallow: /nosotros/

En el ejemplo de arriba, todos los motores de búsqueda, incluidos Google y Bing, no podrán acceder al directorio /nosotros/, excepto el subdirectorio /nosotros/empresa/.

Otro ejemplo:

User-agent: *  Disallow: /nosotros/  Allow: /nosotros/empresa/

En este último ejemplo, ningún motor de búsqueda, excepto Google y Bing, podrán acceder al directorio /nosotros/. Eso incluye el directorio /nosotros/empresa/.

A Google y Bing se les permite el acceso porque la directiva Allow es más larga que la directiva Disallow.

Solo un grupo de directivas por robot

Solo puedes definir un grupo de directivas por motor de búsqueda. Tener varios grupos de directivas para un motor de búsqueda los confunde.

Sé lo más específico posible 

La directiva Disallow también se activa en caso de coincidencias parciales. Sé lo más específico posible a la hora de definir la directiva Disallow para evitar que se deniegue involuntariamente el acceso a los archivos. Por ejemplo:

User-agent: *  Disallow: /directorio

El ejemplo anterior no permitirá que los motores de búsqueda accedan a:

/directorio  /directorio/  /directorio-nombre-1  /directorio-nombre.html  /directorio-nombre.php  /directorio-nombre.pdf

Directivas para todos los robots, pero también directivas para un robot específico

Para un robot solo es válido un grupo de directivas. Si las directivas destinadas a todos los robots van seguidas de directivas para un robot específico, solo se tendrán en cuenta estas directivas específicas. Para que el robot específico también siga las directivas para todos los robots, es preciso repetir estas directivas para el robot específico.

Veamos un ejemplo que lo aclare:

User-agent: *  Disallow: /secreto/  Disallow: /test/  Disallow: /no-publicado-todavia/    User-agent: googlebot  Disallow: /no-publicado-todavia/

En el ejemplo anterior, para todos los motores de búsqueda, a excepción de Google, les será imposible acceder a /secreto/, /test/ y /no-publicado-todavia/. A Google no se le permitirá acceder a /no-publicado-todavia/, pero sí a /secreto/ y /test/.

Si no deseas que googlebot acceda a /secreto/ y /no-publicado-todavia/, tendrás que repetir estas directivas para googlebot específicamente:

User-agent: *  Disallow: /secreto/  Disallow: /test/  Disallow: /no-publicado-todavia/    User-agent: googlebot  Disallow: /secreto/  Disallow: /no-publicado-todavia/

Ten en cuenta que tu archivo robots.txt es público. El hecho de no permitir el acceso a determinadas secciones del sitio web puede ser utilizado como un vector de ataque por personas con intenciones maliciosas.

Robots.txt puede ser peligroso. No solo estás diciendo a los motores de búsqueda dónde no quieres que miren, sino que estás diciendo a la gente dónde escondes tus “secretos”.

Archivo Robots.txt para cada (sub)dominio

Las directivas Robots.txt solo se aplican al (sub)dominio en el que está alojado el archivo. Por ejemplo:

http://tudominio.com/robots.txt es válido para http://tudominio.com, pero no para http://www.tudominio.com o https://tudominio.com.

Una buena práctica sería tener solo un archivo robots.txt disponible en el (sub)dominio.

En caso de que tengas varios archivos robots.txt disponibles, asegúrate de que devuelvan un estado HTTP 404 o de redirigirlos 301 al archivo canónico robots.txt.

Directivas contradictorias: robots.txt frente a Google Search Console

Si tu archivo robots.txt entra en conflicto con la configuración definida en Google Search Console, Google suele optar por la configuración definida en Google Search Console en lugar de las directivas definidas en el archivo robots.txt.

Supervisa el archivo robots.txt

Es importante supervisar el archivo robots.txt para detectar cambios. Suelo ver muchas complicaciones por culpa de casos en que las directivas incorrectas y los cambios repentinos en el archivo robots.txt causan importantes problemas de SEO.

Esto ocurre sobre todo cuando se lanzan nuevas funciones o se trata de un sitio web nuevo que se ha preparado en un entorno de prueba, ya que suelen contener el siguiente archivo robots.txt:

User-agent: *  Disallow: /

No utilices noindex en tu robots.txt

Durante años, Google ha recomendado abiertamente no utilizar la directiva no oficial noindex. De hecho, desde el septiembre de 2019, Google dejó de admitirla.

La mejor manera de indicar a los motores de búsqueda que las páginas no deben ser indexadas es utilizando la etiqueta meta robots o X-Robots-Tag.

Evita el BOM UTF-8 en el archivo robots.txt

BOM significa Byte Order Mark (marca de orden de bytes), un carácter invisible al principio de un archivo que se utiliza para indicar la codificación Unicode de un archivo de texto.

Aunque Google afirma que ignora BOM Unicode al principio del archivo robots.txt, recomiendo evitar el «UTF-8 BOM» porque he visto que causa problemas con la interpretación del archivo robots.txt por parte de los motores de búsqueda.

Aunque Google dice que puede solucionarlo, aquí hay dos razones por las que evitar el UTF-8 BOM:

  • No queremos que haya ninguna ambigüedad sobre nuestras preferencias en cuanto al rastreo para los motores de búsqueda.
  • Hay otros motores de búsqueda que pueden no ser tan indulgentes como Google dice ser.

Ejemplos de robots.txt

A partir de aquí, analizaremos una amplia gama de ejemplos de archivos robots.txt:

Permitir a todos los robots el acceso a todo

Hay varias formas de indicar a los motores de búsqueda que pueden acceder a todos los archivos:

User-agent: *  Disallow:

También sirve tener un archivo robots.txt vacío o no tener un robots.txt.

No permitir a ningún robot el acceso a todo

El ejemplo de robots.txt que aparece a continuación indica a todos los motores de búsqueda que no pueden acceder a todo el sitio:

User-agent: *  Disallow: /

Ten en cuenta que un solo carácter adicional puede cambiarlo todo.

Ningún robot de Google tiene acceso

User-agent: googlebot  Disallow: /

Ten en cuenta que, al desautorizar a Googlebot, esto se aplica a todos los robots de Google. Esto incluye a los robots de Google que buscan, por ejemplo, noticias (googlebot-news) e imágenes (googlebot-images).

Todos los robots de Google tienen acceso excepto Googlebot news

User-agent: googlebot  Disallow: /    User-agent: googlebot-news  Disallow:

Googlebot y Slurp no tienen acceso

User-agent: Slurp  User-agent: googlebot  Disallow: /

Ningún robot tiene acceso a dos directorios

User-agent: *  Disallow: /admin/  Disallow: /privado/

Ningún robot tiene acceso a un archivo específico

User-agent: *  Disallow: /directorio/archivo-pdf.pdf

Googlebot no tiene acceso a /admin/ y Slurp no tiene acceso a /private/

access to /privado/  User-agent: googlebot  Disallow: /admin/    User-agent: Slurp  Disallow: /privado/

Archivo Robots.txt para WordPress

El archivo robots.txt que aparece a continuación está optimizado específicamente para WordPress, suponiendo que:

  • No quieras que tu sección de administración sea rastreada.
  • No quieras que se rastreen tus páginas de etiquetas y de autor.
  • No quieras que tu página 404 sea rastreada.
  • No quieras que se rastreen tus páginas de resultados de búsqueda internos.
User-agent: *    Disallow: /wp-admin/ #bloquear el acceso a la sección de administración  Disallow: /wp-login.php #bloquear el acceso a la sección de administración  Disallow: /search/ #bloquear el acceso a las páginas de resultados de búsqueda interna  Disallow: *?s=* #bloquear el acceso a las páginas de resultados de búsqueda interna  Disallow: *?p=* #bloquear el acceso a las páginas en las que fallan los enlaces permanentes  Disallow: *&p=* #bloquear el acceso a las páginas en las que fallan los enlaces permanentes  Disallow: *&preview=* #bloquear el acceso a las páginas de vista previa  Disallow: /tag/ #bloquear el acceso a las páginas de etiquetas  Disallow: /author/ #bloquear el acceso a las páginas del autor  Disallow: /404-error/ #bloquear el acceso a la página 404    Sitemap: https://www.tudominio.com/sitemap_index.xml

Hay que tener en cuenta que este archivo robots.txt funcionará en la mayoría de los casos, pero siempre deberás ajustarlo y probarlo para asegurarte de que se aplica a tu situación concreta.

Archivo Robots.txt para Magento

El archivo robots.txt que se muestra a continuación está optimizado específicamente para Magento, y hará que los resultados de la búsqueda interna, las páginas de inicio de sesión, los identificadores de sesión y los conjuntos de resultados filtrados que contienen criterios de precio, color, material y tamaño sean inaccesibles para los rastreadores.

User-agent: *  Disallow: /catalogsearch/  Disallow: /search/  Disallow: /customer/account/login/  Disallow: /*?SID=  Disallow: /*?PHPSESSID=  Disallow: /*?price=  Disallow: /*&price=  Disallow: /*?color=  Disallow: /*&color=  Disallow: /*?material=  Disallow: /*&material=  Disallow: /*?size=  Disallow: /*&size=    Sitemap: https://www.tudominio.com/sitemap_index.xml

Este archivo robots.txt funcionará para la mayoría de las tiendas Magento, pero siempre deberás ajustarlo y probarlo para asegurarte de que se aplica a tu caso exacto.

Limitaciones del archivo Robots.txt

Por último, vamos a ver cuáles son los aspectos que limitan la función del archivo robots.txt:

Las páginas seguirán apareciendo en los resultados de búsqueda

Aquellas páginas que son inaccesibles para los motores de búsqueda debido al archivo robots.txt pero que tienen enlaces a ellas pueden seguir apareciendo en los resultados de búsqueda desde una página rastreable.

Sólo contiene directivas 

Google respeta mucho el archivo robots.txt, pero sigue siendo una directiva y no un mandato.

Tamaño del archivo

Google admite un límite de 521 kilobytes para los archivos robots.txt, y si el contenido supera este tamaño, puede ignorarlo. No sabemos si otros motores de búsqueda también establecen un límite para estos archivos.

Robots.txt. se almacena en caché durante 24 horas

Según Google, el archivo robots.txt suele almacenarse en caché durante un máximo de 24 horas. Algo que hay que tener en cuenta al realizar cambios en el archivo.

No está del todo claro cómo gestionan otros motores de búsqueda el archivo en caché, pero es mejor evitar el almacenamiento en caché de robots.txt para que los motores de búsqueda no tarden más en detectar los cambios.