Menu

Big Data Analytics: le piattaforme migliori!

Sull'ultimo numero di InformationWeek, firmata da Doug Henschen, è apparso un'interessante confronto tra le migliori piattaforme per effetturare analisi predittive sui Big Data. Qui ne offro uno stralcio riponderato sulla base della realtà del mercato italiano dei Big Data.

Diciamo subito tre cose:

  1. Non tutte le 16 aziende prese in esame da Henschen nella sua analisi delle piattaforme di Big Data Analitics operano in Italia, per cui le sue considerazioni, seppur valide, vanno in ogni caso calate nel nostro Paese;
  2. I Big Data sono ormai "main stream" - ovvero priorità elevata - negli USA e in molti altri Paesi del mondo, mentre in Italia sono ancora in fase di affermazione. Questo, associato alle ridotte dimensioni del nostro mercato fa sì che l'offerta da noi sarà forzatamente ridotta - con i Leader da farla da padrone, con alcune nicchie specializzate a far loro da valido contraltare - per cui non è detto che presto o tardi anche tutti gli operatori che ancora non ci sono arriveranno in Italia. E' più facile che alcuni di essi spariscano, assorbiti da aziende con maggiori disponibilità finanziarie e coperture territoriali, per cui vale comunque la pena di analizzare il settore e l'offerta nella sua interezza e con visione prospettica, prima di prendere qualche pericolosa scorciatoia.
  3. Uno degli aspetti più critici in assoluto nell'area dei Big Data e degli Analytics non sono le tecnologie - che comunque vi hanno un ruolo rilevante - ma le capacità di utlizzarle, per le quali, specie nelle attività di analisi predittiva, occorrono competenze multidisciplinari che vanno dall'informatica alla statistica, dall'analisi matematica all'esperienza nel Marketing. Di conseguenza, la scelta non può limitarsi alla piattaforma, ma al suo ecosistema fatto di varie figure professionali che devono affiancarsi alle competenze interne alle aziende. In particolare, poi, a meno di non avere dimensioni aziendali veramente grandi, occorrerà avvalersi di supporto tecnico specialistico di elevata qualità e a costi ragionevoli, per non compromettere il risultato economico dei progetti, risparmiando qualcosa in fase di acquisto, per poi trovarsi in condizioni precarie nella risoluzione di problemi tecnici capaci di far naufragare l'intero progetto.

Infine, un'ultima premessa: è inutile raccogliere grandi quantità di dati ed effettuarvi analisi molto sofisticate se la loro qualità non è eccellente. Il che vuol dire che prima di avviare progetti di analisi dei Big Data occorrerà rivedere le proprie basi dati, i processi di aggiornamento, responsabilizzarvi gli utenti, assicurarsi che i sistemi di alimentazione dei dati siano affidabili ed efficienti. Passi preliminari indispensabili per assicurarsi il successo dei progetti. E veniamo ora alla rassegna offertaci da Doug Henschen.

Le 16 piattaforme di Analytics per Big Data

Analytics-e-Big-DataNella sua rassegna, Henschen ha incluso i seguenti Tool di Analytics per Big Data:

1. Il Database colonnare (verticale) di 1010data, società di New York attiva nel settore dei servizi Cloud dal 2000 e con installazioni in vari settori merceologici: grandi banche, grande distribuzione, sanità, telecomunicazioni, società della pubblica amministrazione. Date le origini, del suo fornitore, si tratta di una soluzione erogata in forma di servizio Cloud che al momento non è presente sul nostro mercato.

2. L'innovativa soluzione di Actian scaturisce dalla combinazione tra il DBMS Actian Matrix, frutto dell'acquisizione di ParAccel fatta nel 2013, e Actian Vector, la più recente evoluzione di Vectorwise. Ma chi è Actian? Di fatto è il nome assunto nel 2011 dalla Ingres Corportation - toh, chi si rivede - che dopo molte vicissitudini societarie, a cavallo tra l'Open Source e le più classiche forme di vendita di software, si ripresenta sul mercato in una veste estremamente avanzata, così come sempre fatto anche nel passato. Nel corso della sua trasformazione, l'azienda ha acquisito anche Versant, uno dei pionieri dei Database a Oggetti sui quali Ingres tentò - invano - di innestare una nuova generazione di motori DBMS. Al proposito, due commenti: sebbene Ingres sia stato uno dei primissimi produttori di Database relazionali ad apparire sul mercato oltre una trentina di anni fa, l'azienda è sempre vissuta in uno stato semi-permanente di Start-Up cavalcando di volta in volta le nuove tecnologie e con lo spirito di ricercatore universitario alla base dell'anima dei suoi fondatori. Salvo una breve parentesi, le politiche di Ingres sono sempre state orientate a creare reti di partner indipendenti sul territorio, cosa che avvenne a suo tempo nel nostro Paese dove la gloriosa Mesarteam ne guidò le attività per parecchio tempo, raccogliendone significativi risultati.

3. Per chi pensa che Amazon sia un fornitore di libri, se non lo avesse ancora fatto, è giunto il momento di aggiornarsi. E alla svelta! Oltre ad avere allargato la sua gamma di prodotti a ogni genere di settore e aver aperto un centro di distribuzione anche in Italia - dalle parti di Piacenza, per la precisione - con i suoi servizi Cloud Amazon si è conquistata una posizione di primo piano anche nell'area dei servizi Cloud. In particolare, nell'area delle piattaforme per Big Data e di Analytics, Amazion offre i servizi chiamati Redshift, basati sul motore di ParAccel e integrati da varie strumenti di terze parti tra i quali Altibase, SAP Hana e ScaleOut. Nell'area Hadoop Amazon dispone di una propria soluzione - Amazon Elastic MapReduce - che si integra con quelle di Cloudera e MapR. In questo caso, la rete di supporto in Italia è ancora in gestazione, ma la soluzione sta riscuotendo molto successo ed è sostenuta da un'azienda ormai indiscutibile in fatto di stabilità finanziaria e affidabilità.

4. Cloudera propone la piattaforma integrata The Enterprise Data Hub specializzata nell'elaborazione dei dati Hadoop, per la quale è stata sviluppato anche la soluzione esclusiva - chiamata Impala - per effettuarvi Query SQL. La filosofia di Cloudera, che è una Start Up del 2008, è tutta "Open Source", con un forte abbinamento a tutte le componenti della Apache Foundation, oltre naturalmente che su Hadoop. Quanto a supporto, il problema è quello tipico dell'Open Source: tutto è possibile, sebbene pressoché nulla sia garantito. Per migliorare la situazione, Cloudera ha dato vita ad un programma di formazione e certificazione dei partner che a oggi conta già su scala mondiale oltre 15.000 individui pronti a supportarne le installazioni.

5. La rassegna di Henschen prosegue quindi con la soluzioni di HP - HAVEn, acronimo di Hadoop, Autonomy, Vertica, Enterprise Security - che tuttavia assieme a quelle di IBM, Microsoft, Oracle e Sap, data la loro importanza per il nostro mercato, mi riservo di esaminare con maggior dettaglio in un prossimo post.

6. Fondata nel 2011 da 24 progettisti del Team di Yahoo! autori delle prime versioni di Hadoop, Hortonworks tiene moltissimo a specificare di essere l'unica piattaforma al 100% Open Source e di avere al proprio interno la maggior quantità di esperti ed esperienze su Hadoop di qualsiasi altra organizzazione sul mercato. Basata a Palo Alto - come poteva esser diversamente? - e con una filiale in Inghilterra, seguendo i più classici modelli dell'Open Source persegue una strategia territoriale demandata a partner. A tale scopo, hanno istituito un processo di certificazione, corredato di appositi corsi di formazione, e creato un pacchetto - Hortonworks Sandbox - che stando ai suoi ideatori dovrebbe consentire di allestire la piattaforma in soli 15 minuti.

7. InfiniDB è il nuovo nome assunto da Calpont, azienda texana attiva nel mercato dei Database Verticali dal 2009, con soluzioni Open Source scaricabili dal sito www.infinidb.org. Specializzatasi nel settore del "massively parallel processing", Calpont sta rilanciandosi nel mondo dei Big Data e degli Analytics con la quarta generazione di propri Tool, basati su Hadoop e MySQL.

8. Anche Infobright è nata su Database Verticali (o colonnari), sebbene sia canadese, con filiali in USA e UK, ma nessuna presenza in Italia. Ha sviluppato un Database capace di opera simultaneamente su svariati Server Multiprocessor, con un'architettura diversa dal classico MPP (Massively Parallel Processing), ed un sofisticato algoritmo di compressione dei dati (da 10 a 1, a 40 a 1), grazie ai quali è in grado di assicurare buone prestazioni senza richiedere grandi potenze di elaborazione.

9. MapR è indubbiamente un altro significativo punto di riferimento per tutte le piattaforme di gestione Big Data e analisi predittiva, ma come altre non è attualmente ancora attivo nel nostro Paese, sebbene abbia ormai filiali dirette in Francia, Germania, Svezia, Giappone, India, oltre al suo quartier generale in Texas, e questo la dice ancora una volta lunga sul valore del mercato informatico italiano rispetto a quelli del resto del mondo... La scelta di MapR è molto chiara: partendo da Hadoop, sostituirne le varie componenti, mantenendone l'architettura generale e le interfacce, con l'obiettivo di crearne un'alternativa con prestazioni nettamente migliori e arricchirne le funzionalità di base. Così, ne ha stato sostituito il File System con uno sviluppato in proprio e basato su NFS, via ha introdotto con la versione M7 del 2013 funzionalità di "stream processing" e risolto alcune limitazioni di HBase, aggiungendovi anche capacità di Disaster Recovery. Indubbiamente una piattaforma da valutare, ma solo se si dispone di buone competenze interne per risolversi da soli i problemi di installazione, configurazione, messa a punto e manutenzione. 

10. Pivotal nasce da uno spinoff di EMC, offrendo un'infrastruttura pressoché completa, integralmente costruita su Hadoop e fruibile anche in modalità Cloud tramite Cloud Foundry. In particolare, si indirizza principalmente alla comunità degli sviluppatori offrendo un'architettura con diversi livelli di astrazione che rendono la piattaforma usabile in svariati contesti, olte ad un ambiente di sviluppo basato su SpringSource. Presente anche a Milano, vanta una buona integrazione con gli strumenti di analisi di SAS, con le tecnologie di elaborazione in memoria di GemFire e con le funzionalità HAWQ (Hadoop With Query).

Come scegliere la piattaforma di Big Data Analytics

Ciò che accomuna gran parte delle piattaforme indicate è l'uso a diversi livelli di Apache Hadoop, il motore Open Source che si avvicina al suo decimo compleanno, divenuto ormai uno standard nella gestione di dati da molti big del mondo Internet, a cominciare da Yahoo, Facebook e  Google. In sempre più stretto accoppiamento ad Hadoop vediamo affermarsi le soluzioni di elaborazione "in memory", con SAP come "apripista" con il suo HANA, ora pressata da vicino da Oracle, Microsoft e molti altri ancora. Il terzo tassello sono i DBMS verticali, ovvero quelli che "impilano" i dati in sequenze di campi, anziché di record. Da ultimo c'è da monitorare lo spostamento delle soluzioni dai Data Center degli utenti agli ambienti di Cloud Computing capaci di abbattere i costi di gestione e di affrontare in modo semplice i picchi di carico tipici delle elaborazioni e delle analisi di grandi masse di dati.

Gli ultimi due elementi da monitorare sono da un lato la presenza di supporto di qualità nel nostro Paese, dall'altro la solidità finanziaria e la base installata dei produttori che si affacciano sul mercato. Il supporto per non trovarsi in difficoltà nel momento in cui si presentano problemi che non si è in grado di risolvere da soli, le capacità finanziare e la base installata per capire quale potrà essere il futuro della piattaforma che si sta esaminando.

Torneremo preso sull'argomento, approfondendo alcune delle soluzioni qui presentate.

Ultima modifica ilMartedì, 04 Febbraio 2014 11:21

Aggiungi commento


Codice di sicurezza
Aggiorna

Torna in alto