Estándar de exclusión de robots

El estándar de exclusión de robots, también conocido como el protocolo de la exclusión de robots o protocolo de robots.txt es un método para evitar que ciertos bots que analizan los sitios Web u otros robots que investigan todo o una parte del acceso de un sitio Web, público o privado, agreguen información innecesaria a los resultados de búsqueda. Los robots son de uso frecuente por los motores de búsqueda para categorizar archivos de los sitios Webs, o por los webmasters para corregir o filtrar el código fuente.

El archivo robots.txt

Un archivo robots.txt en un sitio web funcionará como una petición que especifica que determinados robots no hagan caso a archivos o directorios específicos en su búsqueda. Esto puede realizarse, por ejemplo, para dejar fuera de una preferencia los resultados de una búsqueda avanzada, o de la creencia que el contenido de los directorios seleccionados puede ser engañoso o inaplicable a la clasificación del sitio en su totalidad.

Lo que de sedebe de hacer es un nuevo fichero /robots.txt en lel razia de la web y poner el contenido que se desee

en est ejemplo vamos a denegar tan solo al robot Linguee

User-agent: Linguee Bot
Disallow: /

pero si fuese otro el roboe deberíamos de eliminar o nombrar al otro

se pueden nombrar a varios robot dentro dle mismo fichero, permitiendo o denegando acceso a distintas carpetas de nuestra web

más información en:

http://www.robotstxt.org/

http://www.robotstxt.org/robotstxt.html

https://es.wikipedia.org/wiki/Est%C3%A1ndar_de_exclusi%C3%B3n_de_robots