Esta información funciona para los robots de cualquier página web, pero en este caso nos vamos a centrar en los robots para Joomla. Hay plugins específicos para hacer este servicio, pero a veces preferimos hacerlo nosotros mismos, para tener controlado mejor que rastrean los robots y que no, sobre todo cuando hay apartados específicos que no deben ser incluidos en buscadores.
Para evitar que ciertos robots visiten nuestro Joomla o eviten cierto contenido, debemos usar el fichero robots.txt en el raíz de nuestra hospedaje. Este fichero indica a los buscadores que páginas del sitio pueden rastrear para indexarlas. Al utilizar el archivo robots.txt, nos permite obtener mejores resultados en SEO.
Este fichero no se usa para bloquear o como medida de seguridad, es mas bien como “recomendaciones” a los motores de búsqueda. Ciertos buscadores se saltan estas recomendaciones y si lo que queremos es bloquear permanentemente, debemos utilizar el htaccess.
En Joomla podemos encontrar el archivo de la siguiente forma:
Indica que las reglas se aplican para todos los robots:
User-agent: *
Indica las carpetas a las que los robots no pueden acceder:
Disallow: /administrator/
Disallow: /cache/
Disallow: /cli/
Disallow: /components/
Disallow: /images/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /logs/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Algunas sugerencias que aquí mostramos valen para otros sitios aunque no estén montados bajo joomla, seria ajustar las rutas correctas.
- La carpeta de imágenes viene excluida, podemos cambiarla a Allow: /images/ para que se indexen las imágenes del sitio Web.
- También podemos agregar el o los mapas de sitio a Sitemap: https://www.hrtuweb.es/sitemap.xml
- Para bloquear el acceso a todas las direcciones URL que incluyan un signo de interrogación, como https://www.hrtuweb.es/component/search/?searchword se puede utilizar la siguiente entrada: Disallow: /*?
6. Si Joomla se instala en una subcarpeta del tipo https://www.hrtuweb.es/joomla, entonces el archivo robots.txt que viene en la instalación debe moverse a la raíz del sitio y modificar las rutas dentro del mismo.
Disallow: /joomla/administrator/
Disallow: /joomla/cache/
Disallow: /joomla/cli/
Disallow: /joomla/components/
Disallow: /joomla/images/
Disallow: /joomla/includes/
. . . . . .
Algunas herramientas online
http://www.sxw.org.uk/computing/robots/check.html
https://developers.google.com/webmasters/control-crawl-index/docs/robots_txt
Un Generador de robots.txt
https://www.internetmarketingninjas.com/seo-tools/robots-txt-generator/