Estoy pasando por el proceso de averiguar cómo escribiría un rastreador web para Wikileaks.

Cuando llegué a https://wikileaks.org/robots.txt todo lo que puedo ver es lo que aparece para ser un montón de HTML de aspecto inocuo que parece que podría definir una página de inicio o algo así.

¿Estoy haciendo algo mal? ¿Hay alguna razón por la cual alguien pondría esto en su robots.txt?

3
Umibozu 8 mar. 2017 a las 02:06

2 respuestas

La mejor respuesta

Este es un error, probablemente alguna configuración incorrecta del servidor. Un buen archivo robots.txt es lo más fácil posible para asegurarse de que incluso el rastreador más barato lo obtenga.

1
Sebastian Schmied 7 mar. 2017 a las 23:13

El 2016-01-03, Wikileaks 'robots.txt era:

User-Agent: *
Disallow: /talk/

El 2016-01-05, era un documento HTML servido como texto sin formato.

Todos los rastreos de las siguientes fechas en 2016 y en 2017 parecen mostrar este mismo contenido no válido (solo hice verificaciones puntuales).

Entonces, hablando formalmente, todo se puede rastrear ahora. Pero como esto obviamente es un error de su parte, sería cortés honrar su último archivo robots.txt en funcionamiento: se permite rastrear todo excepto las URL con una ruta que comience con /talk/.

3
unor 22 mar. 2017 a las 06:24