Metadatos

metadatos

La palabra metadatos surge como siempre del griego, donde meta quiere decir «después de». Por lo tanto serian datos más allá de los datos y más pequeños que estos. En informática se usa para englobar al conjunto de pequeños datos que definen un documento, imagen, etc.

Metadatos de Matrix

Estos datos en general son pequeñas indexaciones en las cabeceras de los documentos donde se guardan las características de estos. Pequeños textos con versiones, coordenadas, propietarios, permisos, direcciones de red, etc. Cada tipo de documento añade un cierto tipo de metadatos.

Aunque esta información, almacenada pero no visible, puede parecer inofensiva, no lo es. Puede que un documento de Microsoft Office con la versión con que se generó no suponga un problema para la documentación de un particular. Pero para una empresa, si un documento es público, y no consta registro de adquisición de esa versión por parte de la empresa, puede suponer una cuantiosa multa.

Otro ejemplo son los metadatos indexados en las fotografías. En estas se añade no solo la versión de la cámara con la que son tomadas, sino la fecha, latitud y longitud de la posición. Esta información puede ser utilizada para verificar una foto o para destapar una falsificación. Incluso, con la actualización de los sistemas de comunicación por voz a sistemas digitales como los VoIP (Voz por IP), puede obtenerse no solo nuestras conversaciones, sino otros datos como las horas en las que las realizamos, Con los que se pueden generar patrones de conducta.

La recopilación de este tipo de datos que producen todos los sistemas digitales ha sido el germen del BigData, ya que cada usuario genera una gran cantidad de información sin ser consciente, que es recopilada por las empresas para hacer estudios de mercado, o prestarnos servicios específicos para nuestras necesidades.

La importancia de los metadatos es tal que incluso en 2009 se empieza a legislar sobre el uso de esta información y se publica un Decreto en el que se define los metadatos como:

“Cualquier tipo de información en forma electrónica asociada a los documentos electrónicos, de carácter instrumental e independiente de su contenido, destinada al conocimiento inmediato y automatizable de alguna de sus características, con la finalidad de garantizar la disponibilidad, el acceso, la conservación y la interoperabilidad del propio documento”.

Por otro lado existe otro tipo de metadatos. Son los datos perdidos o información oculta. Este tipo de datos son por ejemplo, en un documento de tipo texto como Word, la información que no se ve por los márgenes o la que se queda en las cabeceras o pies de pagina. Este tipo de información si se genera accidentalmente se denomina datos perdidos, pero si se utiliza el procedimiento para ocultar información sensible, se denomina información oculta. Es común oír hablar de ocultación de información dentro de imágenes. Pero no solo se puede añadir información entre los pixels de estas, podemos ocultar desde pequeños textos a tablas entre los datos no imprimibles de una documento. Para ello solo necesitamos un editor de texto hexadecimal.

A continuación vamos a enumerar algunos casos de creación intencionada o no de metadatos según el tipo de documento.

Tipos de metadatos:

  • Imágenes: Además de, como ya hemos comentado, poder incrustar información entre los datos de los pixels o las cabeceras, este tipo de datos nos ofrece una gran oportunidad de manipulación de metadatos con los ficheros EXIF. Estos ficheros, normalmente ocultos, son generados por las herramientas de edición y tratamiento de imágenes para almacenar la información relativa a una imagen. Es parecida a la cabecera pero de tamaño ilimitado y no afecta directamente al archivo original. En estos archivos se guardan cosas como las thumbnails o imágenes en miniatura que se utilizan para las vistas previas.
    Un ejemplo de ocultación de información es añadir o modificar estas pequeñas imágenes. Y uno de perdida o exposición de datos es lo que pasa cuando añadimos las imanes a un documento de texto y luego lo leemos en formato hexadecimal. La información contenida en los EXIF se indexa en el documento y se puede leer.
Información EXIF de una foto tomada para este artículo.
  • Office: Quizás es el formato que más información genera. Ya sea oculta, metadatos de cabeceras o información perdida. En los documentos de tipo Office se guarda una gran cantidad de información de nuestro paso por ellos. Cuando abrimos, copiamos, guardamos o simplemente imprimimos un documento se guarda toda la información el la cabecera del documento. Usuarios, direcciones, características de la impresora, etc. Si lo editamos se queda guardado en el control de cambios la edición (Podemos activar el modo de visualización para ver estos cambios fácilmente). Si borramos un hiperbínculo, este no se borra de los metadatos quedando registrado la indexación aunque haya sido un error. De la misma forma ocurre con instrucciones relacionadas con las gestiones de bases de datos como SELECT, etc. Estos son algunos ejemplos de metadatos que se generan por el uso de estos documentos. Si a esto añadimos la cantidad de espacio «no imprimible» que podemos utilizar entre cabeceras y margenes, estos documentos son, como ya hemos dicho, las mayores fuentes de metadatos.
  • OpenOffice: Este formato de edición de texto, estándar y libre, genera una serie de ficheros anexos con información sensible como la configuración, la versión o los ajustes. Los ficheros suelen tener extensión .XML y no están controlados por los mecanismos de seguridad como el cifrado y se pueden leer con un cualquier editor de texto.
  • HTML/XML: Este es un claro ejemplo de metadatos intencionados. Cada vez se utilizan más los metadatos en el contexto web para «ayudar» a los buscadores. Los propios desarrolladores introducen patrones para búsquedas, información de copyright, etc. La información más sensible es la referente a las rutas de imágenes o las redirecciones.
Muestra de los metadatos en la cabecera de una de las páginas de este blog.
  • PDF: Aunque tiene un mayor control sobre los datos indexados al ser un formato imprimible, sigue conteniendo metadatos recuperables.
  • Apple: Las herramientas de Apple no se libran de este «mal». Tanto los editores de texto como de imagen están sujetos a uno u otro tipo de generación de metadatos intencionados y no intencionados.

En nuestro día a día generamos una gran cantidad de metadatos que quedan expuestos de forma publica. Cuando subimos una foto a una red social o añadimos un documento a una web. La información por si sola no es potencialmente perjudicial, pero si que debemos empezar a plantearnos cuanto queremos «publicar» de esa información que puede ser recogida por personas con malas intenciones.

Hay algunos métodos para encontrar y eliminar metadatos en los documentos. Incluso se pueden configurar los programas para reducir la información almacenada pero nunca estaremos 100% seguros de eliminar toda la información sensible. Es muy difícil eliminar toda las huellas digitales que dejamos pero si que debemos empezar a hacernos una idea de la cantidad que migas de pan que dejamos.




Referencias:

Deja un comentario