Estándar de exclusión de robots
El estándar de exclusión de robots, también conocido como el protocolo de la exclusión de robots o protocolo de robots.txt es un método para evitar que ciertos bots que analizan los sitios Web u otros robots que investigan todo o una parte del acceso de un sitio Web, público o privado, agreguen información innecesaria a los resultados de búsqueda. Los robots son de uso frecuente por los motores de búsqueda para categorizar archivos de los sitios Webs, o por los webmasters para corregir o filtrar el código fuente.
El archivo robots.txt
Un archivo robots.txt en un sitio web funcionará como una petición que especifica que determinados robots no hagan caso a archivos o directorios específicos en su búsqueda. Esto puede realizarse, por ejemplo, para dejar fuera de una preferencia los resultados de una búsqueda avanzada, o de la creencia que el contenido de los directorios seleccionados puede ser engañoso o inaplicable a la clasificación del sitio en su totalidad.
Lo que de sedebe de hacer es un nuevo fichero /robots.txt en lel razia de la web y poner el contenido que se desee
en est ejemplo vamos a denegar tan solo al robot Linguee
User-agent: Linguee Bot
Disallow: /
pero si fuese otro el roboe deberíamos de eliminar o nombrar al otro
se pueden nombrar a varios robot dentro dle mismo fichero, permitiendo o denegando acceso a distintas carpetas de nuestra web
más información en: