La ciencia ante "El cuarto paradigma"

TEL: 6 min. 18 seg.

La ciencia enfrenta, en sus diversas disciplinas, un cambio mayúsculo: manejar una ingente cantidad de datos, almacenarlos, curarlos, analizarlos y compartirlos.
Portada de El cuarto paradigma

"El cuarto paradigma". Así se llama un nuevo libro de Microsoft Research (MR) en el que se recopilan artículos de diferentes autores, sobre la cantidad y el tratamiento de los datos científicos. Dedicado a la memoria de Jim Gray. El libro se puede descargar como PDF completo desde la página especial de MR sobre El cuarto paradigma.
Contiene un artículo ⁽¹⁾ de una conferencia dada por Gray en enero de 2007 en el Consejo Nacional de Investigación para la Comisión de Ciencias Computacionales y Telecomunicaciones, sobre lo que se denomina "eScience", la ciencia de la nueva era informática.
Allí aboga por la creación de nuevas herramientas que apoyen todo el ciclo de la investigación, desde la captura de datos, la curación y análisis hasta la visualización de los mismos. Lo que ocurre, dice Gray, es que los datos que finalmente se publican son sólo la punta del iceberg. Los datos recolectados por los científicos son cada vez mayores. Luego de quitar lo que no sirve y analizar los datos, lo que se termina publicando son algunas pocas columnas en una publicación científica. En su artículo habla de cómo todo el proceso de "peer review" (revisión por pares) debe cambiar.

Los paradigmas de la ciencia
Hace mil años, la ciencia era empírica: describía los fenómenos naturales.
Los últimos siglos, pasó a ser teórica: usando modelos y generalizaciones
En las últimas décadas, llegó la era computacional: simulación de complejos fenómenos
Hoy, el cuarto paradigma implica la exploración de datos: la eScience.

Paradigmas de la ciencia

eScience es donde la Tecnología de la Información (TI) se encuentra con la ciencia. Los investigadores están usando muchos métodos para recolectar datos, desde sensores y CCDs a supercomputadoras y colisionadores de partículas. Pero, ¿qué hacemos con todos esos datos cuando finalmente los tenemos en la pantalla del ordenador? Ya no alcanzan las planillas de cálculo para la ingente cantidad de datos recolectados.

Las dos ramas
Gray indica que estamos ante la evolución de dos ramas para cada disciplina. Existe la ecología computacional, que realiza simulaciones, y la eco-informática, que recolecta y analiza información. La meta de muchos científicos es compartir la información, pero para eso hay que codificarla en una forma algorítmica. Para esto, necesitas una representación estándar de lo que es un gen o una galaxia o una medida de temperatura.

En la siguiente diapositiva de su presentación, Gray muestra los problemas de información, X-Info, donde X es cualquier disciplina:
La evolución de la x-info y comp-x para cada disciplina x se enfrenta a la necesidad de cómo codificar y representar nuestro conocimiento. Los problemas genéricos son:
x-info vs comp-info

Ingesta de datos
Manejar un Petabyte
Esquema común
Cómo organizar, reorganizar y compartir los datos
Herramientas de consulta y visualización
Crear y ejecutar modelos
Integrar datos y literatura
Documentar experimentos
Curación y preservación de los datos

Presupuestos experimentales: 1/4 a 1/2 del software
Dice Gray que estuvo trabajando con los astrónomos durante una década. Algo que le impresionó, cuenta, es lo increíble que son los telescopios, de 15 a 20 millones de dólares, manejados por 20 a 50 personas. Pero luego apreció que hay literalmente cientos de personas escribiendo código para lidiar con la información generada por el instrumento y hay millones de líneas de código que deberán escribirse para analizar la información. De hecho, el costo del software domina por sobre el capital. Al menos dice que es cierto para el Sloan Digital Sky Survey (SDSS) y seguirá siendo así para los sondeos del cielo de gran escala o para los experimentos del LHC.

Los proyectos piramidales
Hay algunos proyectos internacionales, hay más proyectos multi-campus, y luego hay muchos proyectos de laboratorios (single-lab). Básicamente tenemos instalaciones piramidales jerarquizadas. Los científicos que trabajan en proyectos en la cima de la pirámide cuentan con suficientes recursos para hardware y software.
Pero si eres un científico en el fondo de la pirámide, ¿qué presupuesto tendrás? Comprarás MATLAB y Excel o software similar.
Lo que se necesita es un "Sistema de Manejo de Información de Laboratorio" (LIMS en inglés) que provean una arquitectura pipeline para la instrumentación o simulación de los datos en un archivo y se está cerca de lograr en un número de ejemplos. Así es posible tomar datos de varios instrumentos, filtrarlos y limpiarlos y finalmente ponerlos en una base que se puede publicar en la web.
Todo el proceso, desde un instrumento a un navegador web, requiere un cantidad de talentos, pero la idea es ir a algo similar a los CMS, los sistemas de manejo de contenidos. Eso se puede lograr también respecto de la investigación científica, con prototipos bien documentados, que conviertan a todo el proceso en algo más "amigable".
Según Gray, ya existen LIMS comerciales, pero parecen tener dos problemas: son muy específicos, para tal o cual tarea, y son muy caros.

La cantidad no es lo de menos
La otra cuestión es la cantidad de datos y su análisis. Se necesitan mejores algoritmos para analizar los datos en grillas de clusters que permitan descubrir patrones ocultos en la información. Esencialmente es minería de datos.
Mucho del análisis estadístico tiene que lidiar con la creación de muestras uniformes, filtrar datos, incorporar o comparar alguna simulación, etc, lo que genera una gran cantidad de archivos que sólo contienen un conjunto de bytes. La diferencia con una base de datos relacional es que los datos en esos archivos no dicen nada, hay que trabajar duro para saber qué significan. La comunidad científica inventó un conjunto de formatos que califican como del tipo "base de datos". HDF (Hierarchical Data Formal) y NetCDF (Network Common Data Form) son dos de los formatos usados, pero se necesitan, según Gray, mejores herramientas.
La otra cuestión es el almacenamiento de conjuntos de datos: ya no es posible usar simplemente un FTP cuando hablamos de Petabytes. Se necesitan índices y acceso en paralelo.

La computación distribuída
Lo que Gray dijo en aquella conferencia es que se necesitan clusters Beowulf que permitan combinar muchas computadoras "baratas". Hay un software llamado Condor que permite cosechar ciclos de procesamiento de máquinas departamentales. Similarmente, existe BOINC que permite tomar ciclos de PC como en SETI@Home y otros proyectos.
También tenemos Linux y FreeBSD Unix. Existe LabVIEW también, pero es necesario crear muchos otros sistemas.

La revolución en camino
La segunda parte de su charla es acerca de la comunicación académica. Comienza diciendo que los Estados (USA, UK) tienen leyes ya, y están por tener más, sobre la obligatoriedad de publicación de los datos científicos de proyectos subvencionados por los gobiernos. Lo que conlleva a tener los datos en la web, de público acceso (Aquí juega su parte ScienceCommons, iniciativa de la que hablaremos en el futuro). Así, será posible estar leyendo un artículo y luego ir y ver los datos originales. E incluso rehacer el análisis. Eso incrementará la velocidad de información de las ciencias y mejorará la productividad de los investigadores.

Peer review, a revisión
Ejemplo: alguien que trabaja en el Instituto Nacional de Salud produce un reporte. Descubre algo acerca de la enfermedad X. Vas al doctor y le dices que te sientes mal. Te hace varias pruebas y te dice que no tenés nada. Tres años después, te llama y te dice que tenés la enfermedad X. No sabe qué es, pero se enteró que alguien en tal lugar sabe todo acerca de eso. Buscás en Google los síntomas como parámetros de búsqueda. En la primera página de resultados hay un artículo de una publicación especializada "Todo sobre la enfermedad X. Si quiere leerlo debe pagar tantos dólares". El autor del artículo es quien trabaja en el Instituto Nacional de Salud. ¿Y para qué pago los impuestos? La información científica se pone en el domino público pero no siempre es gratuita. Leamos un artículo en Science o Nature. ¿Estás suscripto? ¿No? Lo lamento, aquí tienes un resumen, buena suerte.

Hacia la nueva librería digital
Es gratis y simple poner un artículo o página en la web. Pero no podemos poner "cualquier cosa" en el ámbito académico. Debe ser revisado. De allí surge parte de su importancia. En este blog, cuando comentamos algún descubrimiento, enlazamos al paper publicado o a publicarse. Si no existe, no hay nota. Que exista una publicación revisada por expertos nos da cierta tranquilidad. Pero eso tiene un costo, de dinero o de tiempo. Para eso es necesario automatizar todo el proceso. Un ejemplo de Gray es un sistema creado en Microsoft Research llamado Conference Management Tool (CMT). Es una herramienta que permite manejar todo el flujo de trabajo para una conferencia.
Todo apunta a que los datos y la literatura estará en acceso público y manejado por sistemas semi-automatizados.
La ciencia está cambiando por el impacto de la TI. Las ciencias experimental, teórica y computacional están siendo afectadas por el diluvio de datos y un cuarto paradigma de "intensidad de datos" está emergiendo. El objetivo es tener un mundo en el cual toda la literatura científica esté en línea, al igual que los datos, y que sea factible la interoperatividad gracias a nuevas y más poderosas herramientas.

La ciencia está entrando en una nueva era, e-Science, a través de un nuevo paradigma, el manejo de un diluvio de datos. Seguiremos con el tema en la segunda parte de esta nota, específicamente sobre la astronomía.

Fuentes y links relacionados

Microsoft Research: "El cuarto paradigma"

⁽¹⁾: Jim Gray on eScience: A Transformed Scientifc Method
The Fourth Paradigm, Jim Gray, págs. XXVII-XXXI

Sobre las imágenes

Figuras 1-3 y portada de "The Fourth Paradigm", Jim Gray

Etiquetas:
Astronomía en Blogalaxia-Ciencia en Bitácoras.com

Páginas

27/10/09 - DJ: