lunes, 27 de diciembre de 2010

Unir varios archivos numerados en Linux

A veces uno encuentra en Internet archivos de gran tamaño divididos en varios más pequeños, cada uno con una extensión numérica, iniciando en 001 (algo como archivo.001, archivo.002, etcétera). Para juntar estos archivos se usa el programa Hjsplit. Este programa se encuentra disponible para plataformas GNU/Linux. En el caso de Ubuntu Maverick no tuve problemas en usar el programa, el cual entrega un menú gráfico (ver imagen abajo) con varias opciones en inglés como split (dividir), join (unir), compare (comparar) y checksum (supongo que chequeo del md5 del archivo en cuestión).



Otra alternativa que evita bajar archivos de lugares extraños (eventualmente peligrosos) es utilizar "Lxsplit", una opción en consola al programa anterior, el cual se encuentra disponible en los repositorios de Ubuntu Maverick (por lo menos). El proceso para instalar es tan sencillo como abrir terminal y escribir "sudo apt-get install lxsplit" o "sudo aptitude install lxsplit". Es muy fácil su uso: por ejemplo, para unir los archivos en consola que están divididos con Hjsplit se escribe "lxsplit -j 'ruta_archivo'/nombre_archivo.001", estando los demás archivos en la misma carpeta el programa une todos en el directorio correspondiente.

Para mayor información sobre el uso de esta herramienta se puede consultar el siguiente post en Taringa!.
Leer más...

viernes, 10 de diciembre de 2010

OT: Eliminar páginas, documentos y/o sitios completos de las búsquedas y/o caché de Google

Me pidieron hace un tiempo que borrara un documento de un sitio web que administro. Accedí a ello y, además, eliminé la referencia de la página que lo linkeaba. Sin embargo, en Google seguía apareciendo el documento y la página, además de estar el contenido en el caché, en donde se podía acceder al documento de manera completa (aunque ya no existía el original online). Así el asunto, investigué sobre cómo se podía eliminar de las búsquedas de Google estos respaldos e impedir también que saliera el documento en la búsqueda. A continuación detallo cómo hacerlo.

Prácticamente todo el procedimiento viene en una página de ayuda del foto de webmaster de Google. Ahora lo transcribo de manera libre, modificando y agregando algunos detalles:
  1. Acceder al sitio de Herramientas de Webmaster con tu cuenta del correo Gmail https://www.google.com/webmasters/tools/home?hl=es .
  2. Ya dentro se añade sitio con el botón correspondiente.
  3. Luego se tiene que demostrar la propiedad, administración y/o acceso como tal al sitio. Para ello se pueden elegir varias opciones. En lo personal, elegí la tercera opción del menú que aparece, la cual es "Subir un archivo HTML al servidor".
  4. Verificar la propiedad usando el botón correspondiente.
  5. Ya verificado, se tiene que subir al directorio raíz del sitio (vía web o ftp) un archivo nombrado "robots.txt", el cual debe contener lo siguiente:
    • Para desindexar una WEB completa:
    • User-Agent: *
      Disallow: /
    • Para borrar un directorio:
    • User-Agent: *
      Disallow: /directorio/subdirectorio
    • Para borrar una pagina html, imagen o documento:
      User-Agent: *
      Disallow: /directoriorioluegoderaiz/otrodirectorio/archivoborrar.extension
    • Nota: Si hay espacios en blanco en el nombre de directorios o archivos se reemplaza este por "%20" (veinte por ciento).

  6. En la página principal de Webmaster (https://www.google.com/webmasters/tools/home?hl=es) clickear en el nombre del sitio que hemos registrado.
  7. Ingresar a la opción de acceso a rastradores (menú izquierdo, Información del sitio/Acceso de rastreadores).
  8. Clickear el botón nueva solicitud de eliminación.
  9. Finalmente, seguir las instrucciones de acuerdo a lo que se desea, que puede ser la eliminación de contenido de las búsquedas, del caché, etcétera.
De esta manera, en menos de 6 horas se tendría la solicitud procesada y el documento, página y/o sitio, fuera del caché y/o búsquedas de Google, según se desee.
Leer más...