El estándar de exclusión de robots, también conocido como el protocolo de la exclusión de robots o protocolo de robots.txt es un método para evitar que ciertos bots que analizan los sitios Web u otros robots que investigan todo o una parte del acceso de un sitio Web, público o privado, agreguen información innecesaria a los resultados de búsqueda. Los robots son de uso frecuente por los motores de búsqueda para categorizar archivos de los sitios Webs, o por los webmasters para corregir o filtrar el código fuente.
El archivo robots.txt
Desventajas
Este protocolo es consultivo. Confía en la cooperación de los robots del sitio Web, de modo que marca una o más áreas de un sitio fuera de los límites de búsqueda con el uso de un archivo robots.txt, aunque éste no necesariamente garantice aislamiento completo. Algunos administradores de sitios Web utilizan el archivo robots.txt para hacer algunas secciones privadas, invisibles al resto del mundo, pero dado que los archivos están disponibles en forma pública, su contenido podría ser visto de todas maneras por cualquier persona con un navegador Web y conocimientos medianamente avanzados.
Cuerpo o estándar RFC oficial para el protocolo de robots.txt. Fue creado por consenso en junio de 1994 por los miembros de robots que enviaban la lista (robots-request@nexor.co.uk). La información que especifíca las piezas que no deben ser alcanzadas se especifica en un archivo llamado robots.txt en el directorio de nivel superior del sitio Web. Los patrones de robots.txt son emparejados por comparaciones simples de subsecuencia, así que se debe tomar cuidado para cerciorarse de que los directorios tengan concordancia con el modelo, y que tengan añadido el carácter “/” al final, si no todos los archivos con nombres comenzando con esa subsecuencia emparejarán, más bien que apenas ésos en el directorio previsto.
Fuente: Wikipedia http://es.wikipedia.org/wiki/Estándar_de_exclusión_de_robots
Les recomendamos entrar en en este link donde encontraran un generador automatico de archivos robot txt : http://www.lawebera.es/recursos/herramientas/generador_robots_txt.php
No hay comentarios:
Publicar un comentario