Antiguo y abandonado blog de Ricardo Galli :-(

Monday 7/8/2006

Google libera cantidades masivas de datos

Filed under: Software, Educación — gallir @ 3:35

Google anunció que pondría a disposición de la comunidad científica grandes volúmenes de datos derivados de el análisis de n-gramas (secuencias de n palabras) de más de un billón (con b) de palabras.

Creo que ya lo he escrito alguna vez que la “ciencia informática” esta sufriendo profundos cambios en sus principios fundamentales. Antes era primordial la precisión y reducción de la complejidad –entre otras cosas–. Ahora es cada vez más importante el tratamiento de cantidades masivas de datos –aunque se pierda “precisión”–. Esto ya es muy palpable en todos los estudios e investigaciones en lo que se conoce genéricamente como bio informática.

El anuncio de Google, además de ser muy interesante para la comunidad científica y la informática en particular (estoy seguro que en menos de un año empezaremos a ver resultados impresionantes –apuesto por el equipo de la pequeña Universidad de Notre Dame en EEUU–) también nos pondrá en aprietos a muchos profesores y departamentos de informática.

¿Estamos preparados mental, técnica y materialmente para abarcar con comodidad este nuevo campo? No lo creo, estuvimos tan enfrascados en otros problemas –agobiantes, cansinos– y la adecuación al “nuevo espacio europeo” que se ha discutido y hablado poco sobre estos cambios que se avecinan.

PS: gràcies Toni.

5 Comments

  1. Antes de que comience la deriva dialéctica, me gustaría apuntar dos casos ya “viejos”; la secuenciación del genoma humano por una empresa privada, Celera, de Craig Venter, y la secuenciación del entonces famoso Corona virus del SARS, neumonía atípica asiática, que apareció por noviembre de 2002, procedente de Asia, y que fue secuenciada usando software libre en clusters, con la misma metodología de Craig Venter. Añadir que se desarrollaron incluso iniciativas de tratamiento de datos y computación distribuida en este ultimo caso, con lo que con un proyecto similar al SETI at Home (menos idiota) y se consiguió avanzar en la cura de esta enfermedad sin recurrir a la empresa privada pero, utilizando metodologías propias del sector privado. Yo siempre he creído que la universidad tiene que aprender del sector privado tanto como a la inversa, pero claro eso es solo mi opinión.

    Y de spain, mejor no hablar. Me acuerdo cuando llegaban, a Madrid, los universitarios americanos y preguntaban “pero, ¿donde esta la sala de ordenadores de los alumnos? ¡Toda mi vida esta en un diskette!”

    Comment by Peanut — Monday 7/8/2006 @ 9:29

  2. Voy a precisar un poco el comentario anterior que es muy correcto. En realidad las diferencias entre la secuenciación de celera y el consorcio público no son solo de tratamiento de datos. Son aproximaciones completamente distintas. La técnica de shot-gun se había usado en genomas pequeños anteriormente, el triunfo de celera fue arriesgarse a usar esta técnica (en el fondo muy simple) en el genoma humano pronosticando que el avance de potencia de calculo sería suficiente para procesar los datos obtenidos.

    Comment by fenris — Monday 7/8/2006 @ 16:36

  3. Sí, la velocidad que consiguió Celera confiaba en la mayor capacidad de procesado de la información de su sistema informático, que proporcionaba una mayor información procedente de una técnica de PCR novedosa, la Shotgun que aludes. Pero sin la capacidad de proceso de la información, hubiesen estado parejos el proyecto publico del que partía Celera y esta empresa, ya que se debían verificar todos los resultados antes de darlos por validos, y en ese terreno, el Software fue decisivo, y no solo la técnica de PCR. La clusterización era de la información, no de los sistemas.

    La técnica de PCR se limitaba fragmentar la información ya obtenida del proyecto público y procesarla en partes más pequeñas a mayor velocidad. La aproximación al problema de Celera fue determinante en conseguir resultados, aunque no aporto gran cosa en la identificación de cada parte del genoma.

    ¿Lo peor? uso Windows…:) y su intención era patentar material genético de forma indiscriminada, algo que fue impedido por la comunidad científica. Pero desde luego el abordaje del problema, fue muy eficiente.

    Esta técnica hubiese sido imposible de llevar a cabo por el proyecto publico, aunque dispusieran de las mismas secuenciadotas de genoma, porque el proceso de cruce de datos estaba estancado y no había la fluidez necesaria entre los diferentes participantes del proyecto genoma. Esta fue una de las razones de que Venter abandonara el proyecto público, cuando se llego al punto en el que el mayor obstáculo era el proceso unificado de toda la información.

    Puedo suponer que muchos investigadores tenían sus propios intereses en dar con secuencias de código concretas…

    Comment by Peanut — Monday 7/8/2006 @ 18:07

  4. Bueno, la verdad es que si que estamos enfrascados en cosas anodinas e improductivas. Pero tanto como decir que no esperabamos esto. Por aquí, en los ambientes europeos y más en los provincianos cualquier idea inovadora es tachada de locura.

    Claro a cualquier loco se le ocurre algo como … mejor no lo digo pues no será la primera vez que nos copian:-)

    Saluditos

    Comment by RAM — Tuesday 8/8/2006 @ 0:49

  5. Cada vez se investiga más sobre la imagen que tenemos de la realidad que sobre la realidad en si misma, que hoy en día resulta tan vasta que está fuera del alcance de nuestra capacidad.

    Comment by Osvid — Tuesday 8/8/2006 @ 14:27

RSS feed for comments on this post.

Sorry, the comment form is closed at this time.

Powered by WordPress