Menu

Il Botto di IBM: per i Big Data e gli Analytics punta forte su Spark e lo rende un servizio Cloud!

Sfruttando la vetrina dello Spark Summit 2015, IBM lancia un nuovo servizio Cloud incentrato sul componente Open Source di Apache, utilizzabile in modo alternativo o complementare a Hadoop, per l'elaborazione direttamente in memoria di grandi quantità di dati...

Partiamo dal principio: nato nel 2009 presso gli AMPLab dell'Università di Berkeley, Spark è un Framework Open Source per l'elaborazione parallela in Cluster di computer connessi tra loro, che opera direttamente in memoria utilizzando proprie primitive in grado di migliorare anche di due ordini di grandezza le prestazioni dei sistemi nell'elaborazione di grandi quantità di dati. Costituisce di fatto un'alternativa al modello di Hadoop basato sul paradigma MapReduce che è basato su un impiego sofisticato dei dati memorizzati su disco. Infatti, in tal modo, evita le fasi di scrittura su disco per le operazioni intermedie svolte di norma da MapReduce.

Logo SparkDonato quindi alla comunità Open Source, Spark è divenuto un progetto Apache che è in grado di erogare le proprie funzioni anche in modo complementare a quelle di Hadoop, ma non solo. E' infatti in grado di gestire dati YARN (Hadoop), Mesos (Apache) e di interfacciarsi con HDFS (Hadoop Distributed File System), Cassandra, OpenStack Swift, BLOB (Microsoft Azure) e anche con S3 di Amazon S3.

Spark, che è arrivato alla versione 1.4.0 grazie al contributo di oltre 200 sviluppatori e i Feedback di quasi 500 utenti, conta già oggi centinaia di installazioni, molte delle quali entrate in produzione, in aziende che comprendono: t of metadataAlibaba Taobao, Amazon, Autodesk, eBay Inc., Groupon, Hitachi Solutions, InfoObjects, Kelkoo, MyFitnessPal, Nokia Solutions and Networks, NTT DATA, Shopify, Yahoo!.

L'annuncio di IBM: Spark come servizio per le Imprese

Beth SmithIn occasione dello Spark Summit tenutosi a San Francisco dal 15 al 17 giugno 2015, con grande enfasi e parole molto forti, Beth Smith, General Manager per le piattaforme Analytics di IBM, ha annunciato che: "Per IBM, Apache Spark è potenzialmente il più significativo progetto Open Source di questo decennio, per cui IBM ha deciso di investirvi pesantemente tanto sul fronte dello sviluppo, quanto sulla realizzazione di nuovi servizi basati su di esso."

Rivelatosi molto utile per la gestione dei Big Data e degli Analytics, per IBM Spark risulta un passaggio cruciale verso un nuovo modello di elaborazione dati grazie al fatto di essere aperto, rapido, accurato e sufficientemente flessibile da esser utilizzabile in vari contesti.

IBM intende quindi integrare Spark all'interno dei propri Analytics e nelle piattaforme di e-Commerce, offrendolo tanto come licenza d'uso quanto comee servizio Cloud su Bluemix.

Al progetto Spark, IBM ha assegnato in questa fase iniziale circa 3.500 propri collaboratori tra ricercatori e sviluppatori, distribuiti in una dozzina di laboratori di varie parti del mondo, ma è pronta a moltiplicarvi gli sforzi anche formando persone al di fuori della sua organizzazione interna.

Una delle prime aree nelle quali IBM utilizzerà Spark fa capo al progetto Watson Health Cloud, finalizzato all'accelerazione dello sviluppo e all'incremento della qualità dei nuovi farmaci da immettere sul mercato, mentre uno dei primi clienti del servizio potrà essere la Optibus che ha messo a punto un'applicazione software per l'ottimizzazione in tempo reale delle linee di trasporto pubblico.

La storia di IBM con Apache Spark ha comunque radici antiche, visto che big blue è una delle quattro aziende che hanno fondato gli AMPLab, il luogo dove Spark è stato concepito e ha visto la luce. Ora si tratterà di trasformarlo da progetto di ricerca in servizio commerciale, richiedendo ben altri livelli di affidabilità e precisione.

Ultima modifica ilGiovedì, 18 Giugno 2015 17:37

Aggiungi commento


Codice di sicurezza
Aggiorna

Torna in alto