Creando las bases de datos científicas más grandes

TEL: 3 min. 23 seg.

Se llevó cabo una reunión anual sobre bases de datos extremadamente grandes donde se continuó discutiendo la creación de un nuevo motor de bases de datos open source llamado SciDB, específicamente para fines científicos.

La tercera reunión anual de Bases de datos Extremadamente Grandes (XLDB) tuvo lugar en Francia a fines de agosto, organizado por el ingeniero Jacek Becla y miembros de su equipo en SLAC, junto con la 35º conferencia sobre Bases de datos Muy Grandes.

Este año la reunión XLDB se enfocó en alcanzar a comunidades fuera de Estados Unidos y comunidades científicas relacionadas con las geociencias, radio astronomía y biología que no habían estado representadas en las reuniones anteriores.
Hace dos años, Becla estableció la invitación a dos grupos que tenían poco contacto: usuarios científicos y comerciales de bases de datos enormes. También invitó a miembros de la comunidad académica y la industria para discutir los avances en la tecnología y escuchar sus problemas y requerimientos (casos de uso).
Las reuniones anteriores de XLDB llevaron a la creación de un proyecto para realizar un motor de bases de datos llamado SciDB, pensado específicamente para los complejos análisis científicos en escalas descomunales. Según Becla, cuando se finalice, SciDB revolucionará la manera en que se realizan los análisis científicos. La iniciativa ya atrajo a muchos profesionales de todo el mundo para diseñar y crear el software. Se incluye a dos pioneros en el campo como Michael Stonebraker y David DeWitt. El grupo demostró un prototipo de SciDB a varios cientos de personas en ambas conferencias.

Arquitectura de SciDB

"El sistema que estamos creando es muy diferente [de las bases de datos comerciales]. Finalmente entendemos bien las necesidades de la ciencia y estamos creando un motor que realizará bien estas necesidades, tomando ventaja de numerosas similaridades entre cómo los diferentes campos de la ciencia quieren analizar sus conjuntos de datos", señaló Becla.

Las bases de datos extremas son medidas, actualmente, en petabytes. Un petabyte son 10¹⁵ bytes. Para tomar conciencia pongámoslo en un contexto conocido: los discos rígidos de las computadoras de escritorio modernas pueden tener entre 80 y 320 GB normalmente. Un petabyte son un millón de GB. ¡Un millón de GB son mil billones de bytes!
(Es posible hoy en día adquirir discos de 1 TB, ya sea que escondan dos de 500 GB o uno realmente de esa capacidad y se anunciaron discos de 300 TB para el próximo año. Algún lector y amigo estará guardando esta página en el caché de su disco de 1TB...Un petabyte son MIL Terabytes).

SciDB banner

Podemos tratar de comprender la capacidad enorme que representa con otro enfoque, del blogger Daniel Abadi según dice en su blog DBMS Musings:

...si cada letra en este blog es de unos 3 milímetros de ancho en tu pantalla y cada letra es guardada en un caracter ASCII, de 1 byte y, asumiendo que todo el contenido está en una sola línea, ¿cuán larga (en distancia) sería hacer que este post alcanzara 1 petabyte de datos?
¿Un kilómetro? ¿100? ¿Cruzaría el Océano Atlántico? NO! Este post llegaría a la Luna. Y volvería. Y luego lo haría 3.400 veces más. O serían 10 idas y vueltas hasta el Sol!!!

En el mundo tan informatizado que vivimos, existen varias agrupaciones que ya coleccionan petabytes de datos. Google o eBay son dos ejemplos a la mano. El equipo de Becla creó la base de datos del detector BaBar y ahora son responsables del diseño de la base para el Large Synoptic Survey Telescope, estimando que generará más de 100 petabytes de datos.
Más y más disciplinas científicas están adquiriendo semejantes cantidades de datos y necesitan software para almacenarlos y procesarlos, pero los fabricantes comerciales no producen sistemas que puedan manipular estas cantidades a costos y niveles de rendimiento razonables. Como resultado, las Bases de Datos Extremadamente Grandes son creadas por los propios usuarios, pero eso las convierte en muy costosas de desarrollar y mantener.
La astronomía, a través de sus variados y cada vez más potentes observatorios, viene recolectando una cantidad ingente de datos. Y todo hace pensar que esa cantidad se irá incrementando con las nuevas instalaciones. Que los investigadores posean un motor de bases de datos acorde es, sin duda, imprescindible.

Presentación en Slideshare de SciDB (abre en página nueva)

Inspirado y dedicado a Jim Gray
El proyecto SciDB está dedicado a Jim Gray, quien se perdió en el mar mientras navegaba en enero de 2007. Fue uno de los más distinguidos científicos en el área. Sus numerosas contribuciones fueron reconocidas con membresías en la Academia Nacional de Ciencias, la Academia de Ingenieros, la IEEE y el premio Turing en 1998.

Fuentes y links relacionados

Building the biggest scientific databases

3º XLDB

XLDB Workshop Goes International

Sobre las imágenes

Logo y banner de SciDB

Presentación de SciDB en Slideshare

Etiquetas:
Astronomía en Blogalaxia-Software-Ciencia en Bitácoras.com

Páginas

20/9/09 - DJ: