Facebook Twitter Gplus LinkedIn RSS

More than 100 Supercomputer experts gather in Barcelona this week

Published on 29/01/2015

bdec-headerBSC is participating actively in the workshop series on Big Data and Extreme-scale Computing (BDEC) is premised on the idea that we must begin to systematically map out and account for the ways in which the major issues associated with Big Data intersect with, impinge upon, and potentially change the national (and international) plans that are now being laid for achieving exascale computing. The goal is to help the international community develop a plan for building a partnership to provide the next generation of HPC software to support big data and extreme computing for scientific discovery.

The third meeting in this series of 2-day workshops will be held in Barcelona, on January 29th and 30th, Thursday and Friday, with a reception on Wednesday, January 28th. Along with application leaders confronting diverse big data challenges, attendees will include members from industry, academia, and government, with expertise in algorithms, computer system architecture, operating systems, workflow middleware, compilers, libraries, languages and applications.

Meeting details are available here.

 

Some pictures with all the group and … “the boss”!

IMG_0806

IMG_0807

 
 Share on Facebook Share on Twitter Share on Reddit Share on LinkedIn

Portal Tecnonews: ¿Y después del Big Data?

Published on 29/01/2015

303x74xlogo_tecnonews.png.pagespeed.ic.XBsU4gUHb9El portal TecnoNews acaba de publicar mi visión sobre lo que se está ya cocinando en los laboratorios de investigación y cómo puede afectar al sector.  Lo pueden encontrar en este link.  Espero que sea de su interés.

 
 Share on Facebook Share on Twitter Share on Reddit Share on LinkedIn

Próximo Barcelona Spark Meetup en la Universitat Pompeu Fabra

Published on 20/01/2015

campusUPFTodo un record para nosotros: más de 100 inscritos en el próximo meetup y más de 400 sparkers en  poco más de medio año de vida. Podemos decir con toda certeza que el Barcelona Spark Meetup ya se ha consolidado cómo un punto de encuentro en el entorno de Barcelona. Gracias a todos por apoyar el pequeño impulso que realizamos desde el BSC y UPC para lanzar este punto de encuentro entre las personas interesadas en esta tecnología Big Data en el area de Barcelona.

Cómo ya anunciamos el próximo jueves 22/Enero uno de los ingenieros del BSC-CNS que trabaja ya con esta tecnología, Jordi Aranda (@Jordi_Aranda), co-fundador del meetup y sin duda un gran conocedor de la tecnología va ha presentar “MLlib: Apache Spark’s machine learning library” (conferencia en Castellano/Catalán).

Debido al gran interés suscitado por esta ponencia hemos buscado un espacio com mayor capacidad en la Universidad Pompeu Fabra (UPF) gracias al apoyo a este nuevo meetup del department of Information and Communication Technologies (DTIC) de la UPF. ¡Gracias!.

 

Día: Jueves 22/enero Hora: 19:00
Lugar: itnig , àlaba 61, 5-2 . Barcelona  Roc Boronat 138. Edificio 52, planta baja (room 52.023), Barcelona
¡HEMOS VUELTO A ABRIR ASISTENCIA! IMPORTANTE: Hace falta inscribirse en la web Barcelona Spark Meetup para poder asistir al evento.

 

Para el próximo meetup estamos preparando una presentación  del trabajo que estamos llevando a cabo en nuestro grupo de investigación en el BSC con Spark en el supercomputador Marenostrum. Aprovecharemos para contar las última “news”  del Spark Summit 2015 del próximo Marzo que se celebra en New York donde el BSC presenta la ponencia “multi-modal big data analysis within the Spark ecosystem in Marenostrum supercomputer” además de contar también nuestra experiencia de colaboración con un grupo de investigación de Databricks con quien estamos ejecutando un benchmark de referencia sobre el supercomputador Marenostrum.  La fecha está pendiente de decidir a la espera de tener reservada la sala (seguramente la semana siguiente de semana santa)

Title: Big data analytics applications  on Marenostrum Supercomputer
Abstract: Conventional high-end computing systems like Marenostrum supercomputer are constructed based on the compute-centric paradigm while big data analytics applications prefer a data-centric paradigm such as Spark. We will present our experiences in deploying Spark on Marenostrum supercomputer.
By Jordi Torres
(Pendiente decidir si inglés/castellano/catalán)

 

 

logo-2015e

Apache Spark es uno de los proyectos más activos del mundo Big Data del que venimos hablando hace un tiempo  y que les recomiendo que no lo pierdan de vista para sus negocios. Por ello les propongo que se unan al grupo (en este link) y sigan las actividades del grupo a través de @SparkBarcelona en twitter. Nos vemos el jueves.

 
 Share on Facebook Share on Twitter Share on Reddit Share on LinkedIn

Are you interested to join our research group? International PhD program fellowships BSC-La Caixa

Published on 15/01/2015

caixa-logo

If yes, please check the “International PhD program fellowships BSC-La Caixa“. If you could be interested  to join our group through this program you can contact me at jordi.torres@bsc.es.

 

Closing Date:  15 February, 2015

Since 1982, the “la Caixa” Foundation has offered several fellowship programmes aimed at allowing students to undertake postgraduate studies in Spain and abroad. Over the years, thousands of students have advanced their training thanks to “la Caixa” Foundation fellowship. In 2008, the “la Caixa” Foundation launched a new programme addressed to national and international students. As part of this programme, each year fellowships are awarded to students who wish to complete work toward their doctoral degrees.

BSC-CNS is at the service of the international scientific community and industry that require High Performance Computing resources. The multidisciplinary research team and the computational facilities –including MareNostrum – make BSC-CNS an international center of excellence in e-Science.

Under a collaborative Framework Agreement, the Ministry of Economy and Competitiveness and the “la Caixa” Foundation continue the fellowship programme with a 3rd call. This programme aims to help the recruitment of talented students from across the world by doing their doctoral thesis work in one of the accredited “Severo Ochoa”  centres of excellence. The objective of this joint activity is to boost the research capacity of the best research institutions in Spain. For this year, the “la Caixa” Foundation has selected the Barcelona Supercomputing Center (BSC-CNS) to offer 2 grants more for the academic year 2015-2016 addressed to PhD students. This grant is renewable up to four years.

BSC-CNS is looking for young scientists from the national and international community who wish to do their PhD in a stimulating environment, rich in technological resources and campus life. We encourage applications from highly motivated engineers and computer scientists with outstanding qualifications. Successful candidates will join research groups with top-level scientists and will carry out their research in cutting-edge areas of Computer Sciences, Life Sciences, Earth Sciences and Computer Applications in Sciences and Engineering.

Conditions and benefits

The training programme will last 4 years to complete the PhD thesis. The grant will be renewable on a yearly basis and will last 2 + 2 years. Therefore the first two years will be covered by a fellowship, after which this initial period will be evaluated for renewal for a maximum of two more years through an employment contract.

The grant will be 18,069 € gross per year during the first two years and 26,700 € gross per year during the following 2-year employment contract, will include the social security systems contributions during the 4 years.

BSC-“la Caixa” fellows will benefit from the Training Programme and BSC staff benefits:

  • International multidisciplinary scientific environment.
  • Advanced research training
  • Advanced computational facilities

Additional funds

The awardees of “la Caixa” grants will receive additional funding of 1500€ per year during the grant period and 1700€ per year during the contract period. This funding is assigned to cover the PhD tuition fees, in addition to expenses derived from congress attendance, training sessions or any other activity related to the scientific or academic activity of the awarded.

Requirements:

The programme is addressed to students (european and international) who have completed one of the following options by September 2015:

  1. studies that lead to an official Spanish (or from another country of European higher Education Area) university degree in Computer Sciences, Biology, Chemistry, Physics, Environmental Sciences or related areas and that have 300 credits (ECTS) of an official university degree, of which at least 60 must correspond to master level.
  1. degree in a non-Spanish university not adapted to the European Higher Education Area with access to doctoral studies in Computer Sciences, Biology, Biochemistry, Physics, Environmental Sciences or related areas.

Applicants should not be PhD students at BSC-CNS. Candidates are selected exclusively on merit, on the basis of their curricula. The academic grades and curricula of applicants are evaluated, as well as recommendation and motivation letters. No selection criteria for positive or negative discrimination are applied.

Skills Specifications:

  • Ability to take initiative, prioritize and work under set deadlines and pressure
  • Ability to work independently and in a team
  • Excellent written and verbal communication skills
  • High level of English.
  • Skills in programming

Interested candidates, please submit:

  • Curriculum vitae
  • A motivation letter
  • A scanned copy of the student’s certified Academic Record. These documents must show the grades attained in exam periods.
  • Two recommendation letters from university lecturers or scientists with who the applicant has studied or worked.
  • Any additional files considered relevant to the application

Students will be required to provide a brief summary of work experience and to request letters of recommendation from two scientists who are familiar with their academic work and who can judge their potential as a PhD student. Only letters with official letterhead and signature will be accepted.

Applicants should indicate up to two research programmes in which they would like to work, in order of preference. Moreover, if candidates have interest in a particular research group, they should indicate it in the motivation letter. More information on the research activities of each group can be found on the BSC-CNS web pages.

Applicants should submit information wherever possible in English (CV, motivation letter, summary of work experience). If the certified academic records are not in Catalan, Spanish or English applicants should also attach a sworn translation in one of the above mentioned languages.

Selection procedure

December 23th Call Opening
February 15th Call Deadline
February 16-28 Pre-selection of Candidates and documentation correction
March 1-31 First Interviews
April 1-15 Final Interviews and presentation with Recruitment Committee
April 15-29 Final Decision
April 30th Notification to candidates
Sept/Oct 2015 Start date of fellowships

Students are selected from a pool of highly qualified international applicants on the basis of academic and technical excellence.

Applicants who have not been successful but have received a positive evaluation will be put on a waiting list to cover possible renunciations.

.
 
 Share on Facebook Share on Twitter Share on Reddit Share on LinkedIn

Nuestro equipo gana el InnovaChallenge BBVA

Published on 15/01/2015

Son unos cracks!  Cinco investigadores de nuestro grupo de investigación han ganado la competición InnovaChallenge, organizado por BBVA, con una aplicación que ayuda a las empresas a decidir su plan de marketing.

Concretamente, Jordi Nin, Jordi Aranda, Joan Capdevila, Jose A. Cordero y  David Solans han ganado el primer premio concedido a la aplicación PEAR Campaigns pensada para ayudar a las empresas a decidir su plan de marketing que consiste  en cruzan datos anónimos de operaciones bancarias con datos procedentes de fuentes públicas para ayudar a decidir qué tipo de campaña puede resultar más eficiente para el usuario.

Sin querer parecer condescendiente … me siento orgulloso de vosotros! De mayor quiero ser como vosotros!

Felicitats companys!

team-img

report

 
Tags: , ,
 Share on Facebook Share on Twitter Share on Reddit Share on LinkedIn

Nuevo encuentro del Barcelona Spark Meetup

Published on 08/01/2015

sparkmeetupCon poco más de medio año de vida podemos decir con toda certeza que el Barcelona Spark Meetup se ha consolidado cómo un punto de encuentro. Gracias a todos por apoyar el pequeño impulso que realizamos desde el BSC y UPC para lanzar este punto de encuentro entre las personas interesadas en esta tecnología Big Data en el area de Barcelona.

Para celebrarlo organizamos el próximo jueves 22/Enero una presentación de uno de los ingenieros del BSC-CNS que trabaja ya con esta tecnología, Jordi Aranda, co-fundador del meetup y sin duda un gran conocedor de la tecnología.  El título de su presentación será “MLlib: Apache Spark’s machine learning library” (conferencia en Castellano/Catalán).

Les recuerdo que Apache Spark es uno de los proyectos más activos del mundo Big Data del que vengo hablando hace un tiempo en este blog y que les recomiendo que no lo pierdan de vista para sus negocios. Por ello les propongo que se unan al grupo (en este link) y sigan las actividades del grupo a través de @SparkBarcelona en twitter.

 

Día: Jueves 22/enero
Hora: 19:00
Lugar: itnig , àlaba 61, 5-2 . Barcelona (map)
IMPORTANTE: Hace falta inscribirse en la web Barcelona Spark Meetup para poder asistir al evento.

 

 
 Share on Facebook Share on Twitter Share on Reddit Share on LinkedIn

2015: Cognitive Computing + Apache Spark + Marenostrum, la nueva ola del Big Data

Published on 31/12/2014

No me siento autorizado para realizar una predicción exhaustiva de lo que se avecina para el 2015 en la escena global del Big Data. En todo caso me atrevo a expresar algunas reflexiones y, en concreto, algunas de las apuestas de nuestro grupo de investigación en el BSC para el 2015. Espero que sólo con estas lineas pueda aportarles valor dándoles inspiración para vislumbrar cómo les puede afectar su futuro tecnológico (igual que las reflexiones de hace justo hoy 3 años que apuntaban a la llegada del Big Data).

En este contexto puedo decir que está claro que el procesado y la gestión de los datos “Big” han ocupado parte importante de nuestro trabajo de investigación en el BSC y parte importante del trabajo de los colegas de la comunidad científica durante estos últimos años. ¿Y a partir de ahora?. Durante el 2015 lo serán también los análisis predictivos y prescriptivos de estas grandes cantidades de datos que en general no van acompañados de ningún tipo de metadato para interpretarlos.

No tengo duda de que el principal enfoque para abordar este nuevo reto será aplicar técnicas de inteligencia artificial que se basen por ejemplo en machine learning, deep learning, bayesian networks, procesado de lenguaje natural, además de otros muchos enfoques estadísticos para detectar automáticamente patrones, por decirlo de alguna manera, en grandes volúmenes de datos que de otra manera podrían pasar absolutamente desapercibidos.

Sin duda hemos llegado a un punto en que la lógica de procesamiento se deriva de los datos en lugar de tener que ser programada en las aplicaciones. Podríamos decir que se trata de un análisis de datos “superior” al que hasta ahora se ha venido realizando. Por ello, y para distinguir este nuevo paradigma de análisis, hay quien le llama Cognitive Computing. A falta de un nombre mejor, de momento en nuestro grupo de investigación también lo llamaremos de este modo durante el 2015.

Para nosotros la fotografía completa de nuestra investigación en Big Data se compone principalmente de tres ejes. Primero del procesado (por ejemplo con modelos de programación como map-reduce) , segundo de la gestión distribuida de los datos (por ejemplo con bases de datos NoSQL) y tercero del análisis (con técnicas cómo las que hemos comentado anteriormente). Nuestra visión es que esta nueva capacidad de análisis será prestada a las aplicaciones, de manera coordinada con el procesado y la gestión, a través del mismo stack de software que conformarán el middleware de los sistemas informáticos venideros (representado en forma de abstracciones en capas en el diagrama adjunto).

JordiTorres.SoftwareStack

Ahora bien, en este escenario del Big Data se ha constatado que ninguna plataforma es óptima para todos los roles: Hadoop, massively parallel enterprise data warehouses (EDW), in-memory processing and storage, streamming computing, NoSQL Data Bases, Document Data Bases, etc. Por ello se está evolucionando hacia un paradigma hibrido donde conviven varias tecnologías o plataformas.

En este escenario, nuestra apuesta cómo grupo de investigación sobre qué plataforma usar como banco de pruebas en 2015 será sin duda Apache Spark, que está ganando terreno gracias a su convergencia de diferentes tecnologías: Modelo de programación MapReduce(Hadoop), streaming processing, procesado in-memory, analytics integrado, estructura de datos en grafo, etc. A mi modo de ver (no compartido de momento por todos los investigadores séniors de nuestro grupo :-) ) Apache Spark está empujando Hadoop fuera de la foto a pesar de su actual impulso comercial. ¡Veremos quién gana la apuesta!.

Todo esto además lo combinaremos con la infraestructura que dispone el BSC en estos momentos, el supercomputador Marenostrum III ( 94TB de memoria conectada a través de una Infiniband de 40Gb/s, 48.448 cores, 2 PB de almacenamiento centralizado, 1,5 PB de almacenamiento distribuido, etc.) para experimentar con procesados a gran escala.

Cómo he dicho, ni que quisiera podría hacer una predicción para el 2015 sobre el fabuloso mundo del Big Data. Es tan inmenso, vibrante y marcado por la constante innovación que ya se ha convertido en una galaxia con infinidad de estrellas que ya brillaran en el 2015. Algunas que se me ocurren, sin pretender ser exhaustivo, podrían ser: in-memory processing and analytics; Cloud-based Big Data everything-as-a-service; innovaciones para móviles en áreas cómo business intelligence; nuevas formas de generar, consumir y explorar datos en las redes sociales; estructura masivas de datos en forma de grafo y su análisis; machine learning y analytics incrustado en dispositivos y procesos; automatización del marketing digital, descubrimiento automatizado (y consumo de sus datos streaming) de sensores en el mundo de la Internet of Things (y Internet of Everything); Gamification, Crowdsourcing; Lo que se conoce cómo Personalized Everything en multitud de ámbitos tan importantes como medicina, educación, experiencia de usuario, retail, etc. ; Smart Everything aplicado a ciudades, cadenas de suministros, autopistas, distribución de servicios como electricidad o gas, etc.

Pero la investigación de nuestro grupo en el 2015 no se limitará a lo contado aquí, pues comparto equipo de investigación con un brillante grupo de investigadores séniors que continuarán liderando durante el 2015 proyectos ya alineados con alguna de estas brillantes estrellas de la galaxia Big Data. Les invito a que visiten nuestra página web de grupo en el BSC (www.bsc.es/autonomic) donde encontrarán enlaces a diferentes proyectos y páginas personales de los séniors del grupo: David Carrera quién recientemente ha recibido un prestigioso reconocimiento, Jordi Guitart, Yolanda Becerra, Jordi Nin y Ruben Tous. Todos ellos profesores del departamento de Arquitectura de Computadores de la Universitat Politècnica de Catalunya, UPC Barcelona Tech. Pero no me puedo olvidar del resto de compañeros y compañeras del grupo de investigación que harán realidad lo anteriormente explicado:

Además de las muchísimas colaboraciones con otros grupos dentro del departamento de Computer Science del BSC, destacaría  nuestra estrecha colaboración con el grupo de operaciones del BSC a través de Carlos Tripiana que sin ellos no podríamos avanzar en nuestro trabajo alineado con el supercomputador Marenostrum III. Gracias a todos y cada uno de ellos.

Para acabar, como no podía ser de otra manera dado el día en que nos encontramos hoy…. les deseo a todos un próspero año nuevo 2015 cargado de avances Big Data para ustedes y sus empresas!!!!

Nota del autor: He intentado hacer un post en español para que sea accesible a más gente (cómo me ha pedido alguno de los lectores del blog) pero les pido una cierta tolerancia por mantener ciertos términos en inglés. Sinceramente  no me resulta fácil su traducción, y nuevamente no me siento la persona más autorizada para sugerir ciertas traducciones nada evidentes (¡que luego mis amigos filólogos se me quejan!).
 
 Share on Facebook Share on Twitter Share on Reddit Share on LinkedIn

Apache Spark 1.2 is out!

Published on 20/12/2014

apacheSpark 1.2 is out! More than 172 contributions! Check it at http://spark.apache.org/news/spark-1-2-0-released.html. Yesterday Databricks announced this new in his blog. Congratulations!  This release contains more than 1000 patches from 172 contributors.  Spark 1.2 introduces many new features along with scalability, usability and performance improvements:

  • Optimizations in Spark’s core engine: Spark 1.2 includes several cross-cutting optimizations focused on performance for large scale workloads. Two new features Databricks developed for their world record petabyte sort with Spark are turned on by default in Spark 1.2. The first is a re-architected network transfer subsystem that exploits Netty 4’s zero-copy IO and off heap buffer management. The second is Spark’s sort based shuffle implementation. They say that these features give as much as 5X performance improvement for workloads with very large shuffles.

 

  • Spark SQL data sources and Hive 13: Until now, Spark SQL has supported accessing any data described in an Apache Hive metastore, along with a small number of native bindings for popular formats such as Parquet and JSON. This release introduces a standard API for native integration with other file formats and storage systems. The API supports low level optimizations such as predicate pushdown and direct access to Spark SQL’s table catalog. Any data sources written for this API are automatically queryable in Java, Scala and Python.

 

  • Spark Streaming H/A and Python API:
    In this release, Spark Streaming adds a full H/A mode that uses a persistent Write Ahead Log (WAL) to provide recoverability for input sources if nodes crash. This feature removes any single-point-of-failure from Spark Streaming. The WAL mechanism is supported out-of-the-box for Apache Kafka, and the more general API for third-party connectors has been extended with durability support. In addition, this release adds a Python API for Spark Streaming, letting us create and transform streams entirely in Python. Excellent  in my opinion!

 

  • Machine learning pipelines: They have extended Spark’s machine learning library with a new, higher-level API for constructing pipelines, in the spark.ml package. In practice, most machine learning workflows involve multiple preprocessing and featurization steps, as well as training and evaluating multiple models. The ML pipelines API provides first-class support for these types of pipelines, including the ability to search for parameters and automatically score models. It is modeled after high-level machine learning libraries like SciKit-Learn, and brings the same ease of use to learning on big data.

 

  • Stable GraphX API: The GraphX project graduates from alpha in this release, providing a stable API. This means applications written against GraphX can be safely migrated to future Spark 1.X versions without code changes. Coinciding with API stabilization, a handful of issues have been fixed which affect very large scale and highly iterative graphs seen in production workloads.

 

 
 Share on Facebook Share on Twitter Share on Reddit Share on LinkedIn

Beca para hacer el doctorado en el Barcelona Supercomputing Center

Published on 17/12/2014

Becas de ”la Caixa” para estudios de doctorado en universidades españolas (ref. BSC-Autonomic 01/2015)

bigpicture_banner-1024x196_v2

Acaba de abrirse la convocatoria de Becas para estudios de doctorado en universidades españolas de la obra social la Caixa y nuestro grupo de investigación tiene una posición de investigador/investigadora para cursar el doctorado en el contexto del Barcelona Supercomputing Center (BSC-CNS) y dentro del programa de doctorado Arquitectura de Computadores de la UPC Barcelona Tech (que cumple con el requisito de mención de calidad requerido en la convocatoria), para un candidato o candidata que consiga esta beca.

Para optar a esta beca hace falta la nacionalidad española y cumplir todos los requisitos de acceso a un programa oficial de doctorado en septiembre de 2015 (la incorporación al programa de doctorado se haría entre Septiembre de 2015 y Enero de 2016).

El trabajo de doctorado se centraría en el estudio de sistemas, algoritmos y estructuras de datos para el procesamiento de flujos masivos de datos altamente dimensionales, como pueden ser las fotos y los vídeos provenientes de redes sociales, sobre arquitecturas de altas prestaciones como el supercomputador Marenostrum. Esta posición se enmarcará dentro del área del multimedia big data computing dentro del grupo de investigación Autonomic Systems and eBusiness Platforms, sin duda un apasionante mundo de investigación multidisciplinar con grandes aplicaciones de futuro.

Las dotación económica de la beca así como otros detalles (duración, incompatibilidades, etc.) está descrita en las bases de la convocatoria.

Para superar la competitiva selección de estas becas se precisa que el candidato disponga de un buen expediente y de un excelente conocimiento del idioma inglés (que, en caso de ser finalmente nuestro candidato a estas becas, deberá acreditar mediante alguno de los certificados especificados en las bases de la convocatoria).

Además, de cara al proceso de selección, se valorarán los siguientes conocimientos:

  1. Conocimientos de programación con diversos lenguajes (Scala, Java, C++, Python, etc.) además de dominar entornos Linux y sus lenguajes de scripting.
  2. Conocimientos de sistemas y arquitecturas altamente paralelas y distribuidas.
  3. Conocimientos de teoría de la probabilidad, álgebra lineal y análisis matemático.
  4. Conocimientos de sistemas Big Data (Hadoop, Cassandra, Apache Spark, etc.).
  5. Conocimientos de técnicas de análisis de datos (clustering, aprendizaje automático, etc.).
  6. Conocimientos de técnicas de visión por computador (OpenCV, etc.).

De todos los interesados solo uno podrá ser nuestro candidato a estas becas. Por ello proponemos que los interesados que cumplan con todas las condiciones mencionadas anteriormente se pongan cuanto antes en contacto con nosotros con un plazo máximo del 24 de Enero 2015, con confirmación por nuestra parte antes del 27 de enero, con el objetivo de poder posteriormente disponer de tiempo suficiente para preparar correctamente la candidatura y a su vez los no elegidos tener tiempo para encontrar otras oportunidades (el deadline de las becas es el 23 de Febrero de 2015).Los interesados pueden enviar un correo electrónico con una breve carta de presentación (<300 palabras) a rtous@ac.upc.edu (Profesor Rubèn Tous) y torres@ac.upc.edu (Profesor Jordi Torres) con el subject “position autonomic 01/2015″ e incluyendo los siguientes documentos (en formato .pdf, todos comprimidos dentro de un único fichero .zip):

  • Expediente académico del grado o licenciatura que incluya nota media y a ser posible posición relativa dentro de la promoción.
  • Expediente académico del máster (si aplica).
  • Breve curriculum vitae (2 páginas suficiente, 4 máximo) que incluya como mínimo:
    • Información personal básica (lugar de residencia, fecha de nacimiento, género y fotografía reciente).
    • Historial académico.
    • Experiencia profesional.
    • Proyectos relevantes para la candidatura (por ejemplo proyectos de final de grado y máster).
    • Estancias en otros centros durante los estudios (dado el caso).
    • Experiencia profesional.
    • Detalle de conocimientos y habilidades relevantes para la candidatura (los indicados en la anterior lista de 6 puntos). Indicar el nivel de conocimiento y de qué manera se ha obtenido.
    • Otros méritos destacados: Premios, publicaciones, etc.

Dada la complejidad del proceso las solicitudes que no incluyan toda la información requerida o que no la presenten en el formato indicado serán consideradas.

 
 Share on Facebook Share on Twitter Share on Reddit Share on LinkedIn

David Carrera selected for ERC Starting Grant

Published on 17/12/2014

ercDavid Carrera, one of the senior researchers in our research group, have been selected for a prestigious European Research Council (ERC) Starting Grant, for his project Holistic Integration of Emerging Supercomputing Technologies (Hi-EST). This first Starting Grant competition under the EU’s Horizon 2020 programme awards early-career talent to develop their ambitious high-risk, high-gain research projects.

David received the MS degree in 2002 and his PhD in 2008 and since then he has been leading several EU and industrial research projects in our group. David is an outstanding researcher, a Messi in our research group!. Congratulations David! Et mereixies aquest reconeixement! Ets el millor!

 

 
 Share on Facebook Share on Twitter Share on Reddit Share on LinkedIn

A new start-up that does deep learning

Published on 06/12/2014

bengio“Deep learning is a rapidly growing branch of artificial intelligence. It comprises a set of techniques that don’t require domain experts to program knowledge into algorithms. Instead, these techniques can learn by observing data.” This is the definition that we can found in the web of  MetaMind. The Palo Alto startup called MetaMind launched on Friday that uses deep learning to analyze their images, text and other data. The company has raised $8 million!. Yoshua Bengio (picture) of the University of Montreal, considered for us one of the handful of deep learning masters, are MetaMind’s advisers.  Professor Bengio say “Metamind is one of the few deep learning startups with recognized and strong academic credentials in the deep learning research community, in both areas of visual data and natural language (and their combination), as well as regarding algorithms and architectures. They have achieved state-of-the-art performance on difficult academic benchmarks in both of these areas and are committed in advancing the research in difficult and exciting challenges for deep learning ahead of us”.

More details about this  important new can be found in GIGAOM web and the MetaMind web page.

 

 
 Share on Facebook Share on Twitter Share on Reddit Share on LinkedIn

Programa “Big Data, el petroli del segle XXI” a RTVE-Catalunya

Published on 30/11/2014

RTVE a Catalunya, dins del seu programa #tincunaidea a realitzat un reportatge sobre el BIG DATA titulat “Big Data, el petroli del segle XXI” en el que varen venir a demanar l’opinió també de la UPC Barcelona Tech i del Barcelona Supercomputing Center (BSC-CNS) hi hem participat. Gràcies a l’equip del programa per l’agradable estona que varem passar mentre feiem l’enregistrament. Espero que aquest programa ajudi a divulgar el coneixement d’aquesta nova tecnologia que ens canviarà la vida a tots, ens agradi o no!

link al video: http://www.rtve.es/alacarta/videos/tinc-una-idea/tinc-idea-projectes-big-data-petroli-del-segle-xxi/2878007/

 
Tags: ,
 Share on Facebook Share on Twitter Share on Reddit Share on LinkedIn

Building a Unified Data Pipeline in Spark

Published on 24/11/2014

Excellent reception of sparkers to the last session of  Barcelona Spark meetup featured by Aaron Davidson (Apache Spark committer and Software Engineer at Databricks) speaking about ‘Building a Unified Data Pipeline in Spark’ .

If you missed the presentation or want to revisit it, check out the video recorded here  (talk in English). Enclosed you will find some pictures of the session.

Thank you very much to Aaron Davidson for accepting our invitation and also to Paco Nathan, Alex Sicoe, Sameer Farooqui  and Olivier Girardot for their support for this meetup. I hope you enjoyed barcelona and you come back soon.

Screen Shot 2014-11-24 at 18.47.41 Screen Shot 2014-11-24 at 18.47.00 Screen Shot 2014-11-24 at 18.46.22 Screen Shot 2014-11-24 at 18.45.21

 

 
 Share on Facebook Share on Twitter Share on Reddit Share on LinkedIn

Strata + Hadoop World in Barcelona 2014: Videos & Slides

Published on 22/11/2014

Strata+Hadoop Barcelona 2014The conference is over, and in my point of view it was a great success. The program of the conference were very good, with great networking opportunities and a good sponsor pavilion. I really enjoyed it.

Let me say to the organisers that Barcelona is delighted to welcome conferences like Strata+Hadoop. And all attendees with whom I spoke were excited to be in Barcelona.  Congratulations for choosing Barcelona!

If you missed the conference or want to revisit the main presentations or keynotes, check out the keynote videos or speaker slides. You can also check out the official photos.

 
 Share on Facebook Share on Twitter Share on Reddit Share on LinkedIn

BSC releases COMPSs version 1.2 at SC14

Published on 20/11/2014

compss_vertical_1The Grid Computing and Clusters group of Barcelona Supercomputing Center is proud to announce the release of COMPSs version 1.2 during Supercomputing Conference 2014. COMPSs is a framework for easily implement distributed applications.

This release implements the following main features:

* N implementations for task methods, each with its own constraints.

* Constraint-aware resource management.

* Support for multicore tasks.

* Pluggable schedulers: facilitate the addition of new schedulers and policies.

* Extended support for objects in C/C++ binding.

* Extended IDE for N implementations and deployment through PMES.

* Update cloud connector for rOCCI to work with rocci-cli v4.2.5.

* Enhance rOCCI connector to compute the real VM creation times.

* Extended resources schema to support Virtual Appliances pricing.

* New LSF GAT adaptor.

For more details and downloads please visit COMPSs webpage: http://compss.bsc.es

Install the IDE through the Eclipse Marketplace:

http://marketplace.eclipse.org/content/comp-superscalar-integrated-development-environment

 
 Share on Facebook Share on Twitter Share on Reddit Share on LinkedIn

Get certified for Apache Spark in Barcelona

Published on 13/11/2014

Screen Shot 2014-11-13 at 21.17.32As all my students know I think that Hadoop is showing its age and Apache Spark is exploding. Let me share with you an important opportunity to get the Developer Certification for Apache Spark in Barcelona. Yes, I said in Barcelona!,  at the upcoming Strata + Hadoop World  next week in the CCIB – Centre Convencions Internacional de Barcelona.  If you want to learn more you can visit this web page. it is a good opportunity!  I hope to see you in the Strata + Hadoop World event!.

Also you are invited to attend our next meeting of Barcelona Spark Meetup.  This fourth meeting will feature Aaron Davidson (Apache Spark committer and Software Engineer at Databricks) and Paco Nathan (Community Evangelism Director  at Databricks) speaking about ‘Building a Unified Data Pipeline in Spark’ (talk in English). The talk will start next Thursday 20th November, 18:30 at sala de actos de la FIB (campus Nord – UPC).  It is necessary to register here. We will wait for all you!

 

 
 Share on Facebook Share on Twitter Share on Reddit Share on LinkedIn

APIs that make it easier to create predictive models

Published on 04/11/2014

PAPIS_Pic1-1024x672Our research group is working in Data Analytics, where predictive modelling play an important role.

Predictive modelling is an important process by which a model is created or chosen to try to best predict the probability of an outcome. Most often the event one wants to predict is in the future, but predictive modelling can be applied to any type of unknown event, regardless of when it occurred. Now, you can use an increasing number of API products offering predictive analytics services that make it easier to create and deploy predictive models in your business or in your app.

Last year I invited as a guest lecture in one of my courses one of them,BigML. Together with  Google Prediction API were the only ones I knew. However, as Louis Dorard explains in his blog, there are many more great tools actually in this space (some of which only came out this year) DatagamiDataikuIndicoIntuiticsGraphlabOpenscoring,PredicionIORapidminerYhat… 

What better way to learn how to use them than from the very people who made them, through hands-on sessions illustrated with concrete case studies? Well, that’s what’s waiting for you at PAPIs.io on 17 and 18 November at UPC campus in Barcelona — right before Strata conference.

The Predictive APIs and Apps conference — PAPIs.io —  is the first of its kind, aimed at giving voice to the increasing number of API products offering predictive analytics services. Our research group is collaborating in the organisation of this important workshop.  Check out the full schedule and list of speakers on Lanyrd or you can download the PDF with the information. If you are interested to attend you  can register online.

Hoping to meet you in person soon in Barcelona!

 
 Share on Facebook Share on Twitter Share on Reddit Share on LinkedIn

La computación cognitiva en el diario El País

Published on 01/11/2014

Screen Shot 2014-11-01 at 17.14.26Hoy en el diario El País (tecnología) sale el artículo “Ordenadores que entienden a los humanos para buscar petróleo” escrito por el periodista Daniel Mediavilla, con quien tuve la oportunidad de intercambiar impresiones tal cómo se desprende del artículo sobre una de las “últimas tendencias en computación” llamada  computación cognitiva (cognitive computing).

En breve intentaré explicar en este blog lo que se entiende y que estamos haciendo en este campo de la computación en el BSC+UPC. Saben que soy de los que cree en la obligación que tenemos los investigadores de explicar lo que hacemos si queremos que la sociedad nos de soporte, pero el día a día es tan tremendo que últimamente me cuesta encontrar momentos para dedicar a esta pequeña ventana de divulgación.

De momento les adjunto el artículo de Daniel y les propongo que lo lean. Creo que Daniel ha sabido explicar de manera muy llana a que nos referimos cuando hablamos de computación cognitiva. Estoy seguro de que les gustará. Yo, además de que me encontré muy cómodo cuanto estuvimos conversando, he encontrado su artículo muy divulgativo y acertado de enfoque (no siempre tengo la misma sensación al ver el filtro/esfuerzo hecho por el periodista de hacer comprensible un tema de investigación sobre el cual hemos estado conversando previamente). !Disfrutenlo!

 

Ordenadores que entienden a los humanos para buscar petróleo

por DANIEL MEDIAVILLA 30 OCT 2014 – 17:29 CET
Repsol presenta un acuerdo con IBM para desarrollar sistemas de computación cognitiva que interpreten cantidades ingentes de datos para detectar yacimientos de petróleo y gas

1414686554_028577_1414688664_noticia_normalLas compañías energéticas como Repsol tienen un problema de escasez y otro de abundancia. El gas y el petróleo, esas masas subterráneas de energía acumuladas durante millones de años en cadáveres vegetales, ya no se encuentran a flor de tierra como en los buenos tiempos. En 1949, la profundidad media de un pozo en Estados Unidos era de 1.171 metros; en 2008, 1926. Los combustibles fósiles se acaban, y lo hacen justo ahora, cuando decenas de millones de personas en países de África o Asia están logrando acceder a la clase media, con sus utilitarios, su aire acondicionado y su apetito por la carne. Si nada cambia, en 2035 el consumo energético del planeta será un 50% superior y un 65% de esa voracidad será saciada con hidrocarburos.

Para hacer frente a este reto, encontrar el combustible en los escondrijos donde se oculta y seguir haciendo crecer su negocio, compañías como Repsol cuentan con un recurso que, al contrario que las materias primas que busca, es muy abundante. El conocimiento en torno a todos los aspectos que rodean la compleja tarea de extraer hidrocarburos es más abundante que nunca. Tanto, que no hay cerebro humano capaz de aprovecharlo, y los ordenadores empleados para ampliar nuestras capacidades de gestión de datos empiezan a resultar insuficientes.

Hoy, Repsol ha anunciado un acuerdo con IBM para no ahogarse en la abundancia de información y ponerla a su servicio. Entre las dos compañías, dentro de un proyecto bautizado como Pegasus, están desarrollando dos aplicaciones de lo que se conoce como computación cognitiva para mejorar la capacidad estratégica de la corporación energética a la hora de seleccionar nuevos campos petrolíferos en los que invertir y optimizar el uso de sus reservas. El proyecto se llevará a cabo de forma conjunta por un equipo mixto de Repsol e IBM, que trabajará en las instalaciones más avanzadas que existen en este campo, como el primer laboratorio cognitivo del mundo, propiedad de IBM y situado en Nueva York, y en el Centro de Tecnología Repsol, en Móstoles (Madrid).

Ordenadores que hacen preguntas

Con los sistemas de computación actuales, un ingeniero podría plantear una hipótesis, enseñarle al ordenador a ponerla a prueba y, teniendo en cuenta una gran cantidad de datos, comprobar si se cumple. “Los nuevos sistemas serán capaces de aprender y plantear nuevas preguntas”, explica Jordi Torres, investigador del Centro de Supercomputación de Barcelona. “Estos sistemas permiten tomar una gran cantidad de datos de diferente procedencia, desde artículos científicos a noticias de periódico o imágenes, analizarlos dentro de un contexto y, por ejemplo, descubrir una correlación que ni se te había ocurrido y plantearte una nueva pregunta”, añade.

“De alguna manera, Watson emula la forma de razonar de las personas”, señala Elisa Martín Garijo, directora de Innovación y Tecnología de IBM España. “Ante una pregunta, formula hipótesis y escoge la respuesta en la que tienen un mayor nivel de confianza, muestra los pasos para llegar a esa respuesta, muestra un razonamiento y aprende de su experiencia”, continúa. “Estas máquinas no te ofrecen la respuesta correcta, te dan la mejor respuesta posible teniendo en cuenta el contexto; son capaces de gestionar la ambigüedad de la vida real”, añade Torres.

“Como humano no tienes capacidad de acceso y procesamiento de una cantidad tan ingente de datos”, señala Santiago Quesada, director de Tecnología de Exploración y Producción de Repsol. “Con el nuevo sistema, al ordenador le podrías decir cuántos yacimientos del mundo explotan en terrenos de carbonatos o areniscas y darle información para plantear el contexto geológico”, prosigue. “Entonces, el ordenador combinaría esos datos con el acceso a información en toda la web, a bases de datos asociadas, informes… Y después proporcionaría su conclusión a los técnicos que serían siempre los responsables de tomar la decisión”, concluye Quesada. “Más que ofrecerte una respuesta final, funciona como un asistente, que te hace recomendaciones”, puntualiza Torres.

Según Quesada, el desarrollo de esta tecnología ayudaría a minimizar el número de prospecciones erróneas, incrementando los beneficios de la compañía y limitando el impacto ambiental de perforaciones inútiles. Antes, la compañía ya había colaborado con científicos del CSIC, la Universidad de Standford e IBM para desarrollar proyectos tecnológicos como Caleidoscopio. Este sistema, que hace posible procesar imágenes sísmicas con mayor rapidez y de una forma más fiable, incrementa las posibilidades de encontrar petróleo y gas a miles de metros bajo el suelo y habría desempeñado, según la compañía, un importante papel en sus más de 50 descubrimientos de yacimientos de hidrocarburos en los últimos ocho años.

Las capacidades de la computación cognitiva no solo tendrán aplicaciones en la extracción de combustibles fósiles. IBM también trabaja en el campo de la salud para gestionar la gran cantidad de información que está proporcionando la genómica para ofrecer a los especialistas la capacidad de interpretarla y ponerla a disposición de los pacientes. Con estos asesores informáticos, las posibilidades de análisis que ahora solo están a disposición de los hospitales con los mejores especialistas se podrá acercar a centros de salud con menos recursos.

En una combinación de la capacidad de los ordenadores para procesar lenguaje natural, gestionar la ambigüedad y comprender contextos, Jordi Torres cuenta que alguno de sus alumnos está aplicando este conocimiento a las redes sociales para predecir el futuro. “A través de los tuits, sería posible prever, por ejemplo, si hay mucha gente que se va a presentar a un evento en una plaza, y con esa información se podría planificar la presencia policial necesaria o informar a los taxistas”, explica. Como en el caso de la explotación de recursos naturales, la capacidad de acercar el modo de razonar de los ordenadores al de los humanos, puede cambiar a la humanidad misma.

Extraído de http://elpais.com/elpais/2014/10/30/ciencia/1414686554_028577.html

 
 Share on Facebook Share on Twitter Share on Reddit Share on LinkedIn

El BSC vuelve a abrir sus puertas para el 48h Open House Barcelona

Published on 23/10/2014

openhouseEl Barcelona Supercomputing Center se adhiere por tercer año a las jornadas 48h Open House Barcelona, que tienen como objetivo la divulgación del patrimonio arquitectónico de la ciudad.

Torre Girona, concretamente la capilla que alberga el supercomputador MareNostrum, estará abierta al público el sábado 25 de octubre de 11 a 19 horas para mostrar a los visitantes el interior de la capilla y para explicar la investigación que se desarrolla en el BSC-CNS.

La visita contará, además, con la participación de 4 investigadores que harán una presentación del centro y de la labor científica que se desarrolla. No es necesario reservar cita, las visitas se harán cada media hora aproximadamente.

No os perdáis la oportunidad de visitar este espacio singular. ¡Os esperamos!

 
 Share on Facebook Share on Twitter Share on Reddit Share on LinkedIn

Databricks-Spark comes to Barcelona!

Published on 09/10/2014

Screen Shot 2014-05-22 at 23.54.05¡Lo hemos conseguido, un meetup con ingenieros llegados de USA para contarnos de primera mano lo que se cuece sobre Spark en la empresa Databricks!

Este cuarto meeting contará con Aaron Davidson (Apache Spark committer e Ingeniero de Software en Databricks) y Paco Nathan (Community Evangelism Director  at Databricks) que nos hablarán acerca de ‘Building a Unified Data Pipeline in Spark’ (conferencia en Inglés).

La charla se realizará el próximo jueves 20/Noviembre a las 18.30, en la sala de actos de la FIB, en el campus Nord de la UPC. Os esperamos a todos, seguro que va a ser impresionante!

Si estáis interesados es muy importante que os apuntéis lo antes posible  en la lista de asistentes  confirmados del meetup puesto que la capacidad de la sala de actos es de 80 personas y en ningún caso esta vez podremos incrementar el aforo. (Tal como se decidió conjuntamente entre los asistentes del anterior meetup, a partir de ahora vamos a probar con un pequeño fee de 2 euros para sufragar pequeños gastos).

This fourth meeting will feature Aaron Davidson (Apache Spark committer and Software Engineer at Databricks) and Paco Nathan (Community Evangelism Director  at Databricks) speaking about ‘Building a Unified Data Pipeline in Spark’ (talk in English). The talk will start next Thursday 20th November, 18:30 at sala de actos de la FIB (campus Nord – UPC). We will wait for all you!

Abstract: One of the promises of Apache Spark is to let users build unified data analytic pipelines that combine diverse processing types. In this talk, we’ll demo this live by building a machine learning pipeline with 3 stages: ingesting JSON data from Hive; training a k-means clustering model; and applying the model to a live stream of tweets. Typically this pipeline might require a separate processing framework for each stage, but we can leverage the versatility of the Spark runtime to combine Shark, MLlib, and Spark Streaming and do all of the data processing in a single, short program. This allows us to reuse code and memory between the components, improving both development time and runtime efficiency. Spark as a platform integrates seamlessly with Hadoop components, running natively in YARN and supporting arbitrary Hadoop InputFormats, so it brings the power to build these types of unified pipelines to any existing Hadoop user.

This talk will be a fully live demo and code walkthrough where we’ll build up the application throughout the session, explain the libraries used at each step, and finally classify raw tweets in real-time.

 
 Share on Facebook Share on Twitter Share on Reddit Share on LinkedIn