viernes, 10 de diciembre de 2010

OT: Eliminar páginas, documentos y/o sitios completos de las búsquedas y/o caché de Google

Me pidieron hace un tiempo que borrara un documento de un sitio web que administro. Accedí a ello y, además, eliminé la referencia de la página que lo linkeaba. Sin embargo, en Google seguía apareciendo el documento y la página, además de estar el contenido en el caché, en donde se podía acceder al documento de manera completa (aunque ya no existía el original online). Así el asunto, investigué sobre cómo se podía eliminar de las búsquedas de Google estos respaldos e impedir también que saliera el documento en la búsqueda. A continuación detallo cómo hacerlo.

Prácticamente todo el procedimiento viene en una página de ayuda del foto de webmaster de Google. Ahora lo transcribo de manera libre, modificando y agregando algunos detalles:
  1. Acceder al sitio de Herramientas de Webmaster con tu cuenta del correo Gmail https://www.google.com/webmasters/tools/home?hl=es .
  2. Ya dentro se añade sitio con el botón correspondiente.
  3. Luego se tiene que demostrar la propiedad, administración y/o acceso como tal al sitio. Para ello se pueden elegir varias opciones. En lo personal, elegí la tercera opción del menú que aparece, la cual es "Subir un archivo HTML al servidor".
  4. Verificar la propiedad usando el botón correspondiente.
  5. Ya verificado, se tiene que subir al directorio raíz del sitio (vía web o ftp) un archivo nombrado "robots.txt", el cual debe contener lo siguiente:
    • Para desindexar una WEB completa:
    • User-Agent: *
      Disallow: /
    • Para borrar un directorio:
    • User-Agent: *
      Disallow: /directorio/subdirectorio
    • Para borrar una pagina html, imagen o documento:
      User-Agent: *
      Disallow: /directoriorioluegoderaiz/otrodirectorio/archivoborrar.extension
    • Nota: Si hay espacios en blanco en el nombre de directorios o archivos se reemplaza este por "%20" (veinte por ciento).

  6. En la página principal de Webmaster (https://www.google.com/webmasters/tools/home?hl=es) clickear en el nombre del sitio que hemos registrado.
  7. Ingresar a la opción de acceso a rastradores (menú izquierdo, Información del sitio/Acceso de rastreadores).
  8. Clickear el botón nueva solicitud de eliminación.
  9. Finalmente, seguir las instrucciones de acuerdo a lo que se desea, que puede ser la eliminación de contenido de las búsquedas, del caché, etcétera.
De esta manera, en menos de 6 horas se tendría la solicitud procesada y el documento, página y/o sitio, fuera del caché y/o búsquedas de Google, según se desee.

No hay comentarios:

Publicar un comentario