Parece que estoy luchando con un archivo robots.txt en el siguiente escenario. Me gustaría que todos los archivos de la carpeta raíz * .php se indexen excepto uno (exception.php) y me gustaría que no se indexe todo el contenido de todos los subdirectorios de la carpeta raíz.

He intentado lo siguiente, pero permite acceder a archivos php en subdirectorios aunque los subdirectorios en general no estén indexados.

....

# robots.txt 
User-agent: *
Allow: /*.php
disallow: /*
disallow: /exceptions.php

....

¿Alguien puede ayudar con esto?

1
JustJeffy 3 oct. 2019 a las 17:46

1 respuesta

La mejor respuesta

Para los rastreadores que interpretan * en Disallow valores como comodines (no forma parte de la especificación de robots.txt, pero muchos rastreadores lo admiten de todos modos), esto debería funcionar:

User-agent: *
Disallow: /exceptions.php
Disallow: /*/

Esto no permite URL como:

  • https://example.com/exceptions.php
  • https://example.com//
  • https://example.com/foo/
  • https://example.com/foo/bar.php

Y permite URL como:

  • https://example.com/
  • https://example.com/foo.php
  • https://example.com/bar.html

Para los rastreadores que no interpretan * en los valores Disallow como comodines, tendría que enumerar todas las subcarpetas (en el primer nivel):

User-agent: *
Disallow: /exceptions.php
Disallow: /foo/
Disallow: /bar/
1
unor 7 oct. 2019 a las 18:34