"Big data" es un concepto esquivo.
Denota a una cantidad de información digital
incómoda de almacenar,
transportar
o analizar.
Son cantidades tan cuantiosas
que sobrepasan a las tecnologías actuales
y nos desafían a crear la próxima generación
de herramientas y técnicas
de almacenamiento de datos.
"Big data" no es una idea nueva.
De hecho, los físicos del CERN
han estado riñendo
con el desafío de esta expansión
creciente de datos durante décadas.
Hace 50 años, los datos
del CERN podían almacenarse
en una sola computadora.
Claro, no era la computadora común,
sino una computadora central
que ocupaba todo un edificio.
Para analizar los datos,
físicos de todo el mundo viajaban al CERN
para conectarse a la enorme máquina.
En los años 70, los datos
cada vez más voluminosos
se distribuían en diferentes
grupos de computadoras,
que proliferaron en el CERN.
Cada grupo se reunía
en redes caseras, dedicadas.
Pero los físicos colaboraban
sin tener en cuenta
los límites existentes entre los grupos
ya que necesitaban acceder 
a todos los datos.
Por eso se tendieron puentes
entre las redes independientes
de la propia CERNET.
En los años 80 otras redes aisladas similares
con diferentes dialectos
surgieron en toda Europa y EE.UU.,
y eso permitió el acceso remoto,
pero era tortuoso.
Para facilitar el acceso
de los físicos de todo el mundo
a los volúmenes de datos siempre crecientes
almacenados en el CERN,
sin tener que viajar,
las redes tenían que hablar
el mismo idioma.
Adoptamos la incipiente norma
de trabajo en Internet de EE.UU.,
seguidos por el resto de Europa,
y establecimos el enlace principal en el CERN
entre Europa y EE.UU. en 1989,
¡y la red Internet comenzó 
a hacerse realmente global!
Los físicos podían acceder fácilmente entonces
a los terabytes de datos
en forma remota desde todo el mundo,
generar resultados,
y escribir artículos
en sus instituciones locales.
Luego, quisimos compartir los hallazgos
con todos los colegas.
Para facilitar este intercambio de información,
creamos la Web a principios de los 90.
Los físicos ya no necesitaban saber
dónde estaba almacenada la información
para encontrarla y accederla desde la red;
una idea que prendió en todo el mundo
y ha transformado la forma de comunicarnos
en nuestras vidas cotidianas.
A principios del 2000
el continuo crecimiento
de nuestros datos
superaba nuestra capacidad
de análisis en el CERN,
a pesar de tener edificios
repletos de computadoras.
Tuvimos que empezar a distribuir
los petabytes de datos
a los socios que colaboraban con nosotros
para usar capacidad local
de almacenamiento y cómputo
en cientos de instituciones diferentes.
Para organizar estos recursos interconectados
con sus diversas tecnologías,
desarrollamos una red de computadoras
que permite el intercambio irrestricto
de recursos informáticos en todo el mundo.
Esto se basa en relaciones de confianza
y de intercambio mutuo.
Pero este modelo de red no podía transferirse
fuera de nuestra comunidad tan fácilmente,
pues no todos tienen recursos para compartir
ni puede esperarse que las empresas
tengan el mismo nivel de confianza.
En cambio, un enfoque alternativo, más empresarial
para el acceso "a la carta" de los recursos,
floreció recientemente,
y se llama computación en la nube;
algo que otras comunidades
están explotando ahora
para analizar sus grandes
volúmenes de datos.
Puede resultar paradójico
que en un lugar como el CERN,
un laboratorio que estudia
lo inimaginablemente pequeño
que constituye la materia,
sea la fuente de grandes
volúmenes de datos [big data].
Pero la forma en que estudiamos
las partículas fundamentales,
así como las fuerzas mediante
las que interactúan,
implica crearlas fugazmente,
hacer colisionar protones
en nuestros aceleradores
y capturar sus rastros
a casi la velocidad de la luz.
Para ver esos rastros,
nuestro detector,
con 150 millones de sensores,
funciona como una cámara 3D gigante,
que toma fotos de cada colisión.
Esto ocurre unas 14 millones
de veces por segundo.
Eso genera muchos datos.
Pero si este volumen de datos
existe desde hace tanto,
¿por qué de repente cobra
tanta notoriedad ahora?
Bueno, como dice la vieja metáfora,
el todo es más grande que la suma de sus partes,
y ya no es solo la ciencia
que lo está usando.
Poder obtener más conocimiento
uniendo información relacionada
y detectando correlaciones
puede iluminar y enriquecer numerosos
aspectos de la vida cotidiana,
sea en tiempo real,
como el estado del tránsito
o de las finanzas,
o en evoluciones de corto plazo,
como las médicas o meteorológicas,
o en situaciones predictivas,
como las tendencias en el comercio,
el crimen y las enfermedades.
Se está recopilando ingentes volúmenes
de datos en todas las áreas,
con redes de sensores móviles
que abarcan el mundo,
cámaras en la tierra y en el aire,
archivos que almacenan información
publicada en la web,
y registran las actividades
de los internautas de todo el mundo.
El desafío consiste en inventar
nuevas herramientas y técnicas
para analizar estos vastos repositorios,
para iluminar la toma de decisiones,
mejorar los diagnósticos médicos,
y, en otras palabras, responder
a las necesidades y deseos
de la sociedad del futuro
de formas, hoy, inimaginables.
