開源大數(shù)據(jù)框架Apache Hadoop已經(jīng)成了大數(shù)據(jù)處理的事實標準,同時也幾乎成了大數(shù)據(jù)的代名詞,雖然這多少有些以偏概全。
根據(jù)Gartner的估計,目前的Hadoop生態(tài)系統(tǒng)市場規(guī)模在7700萬美元左右,2016年,該市場規(guī)模將快速增長至8.13億美元。
但是在Hadoop這個快速擴增的藍海中游泳并非易事,不僅開發(fā)大數(shù)據(jù)基礎設施技術產(chǎn)品這件事很難,銷售起來也很難,具體到大數(shù)據(jù)基礎設施工具如 Hadoop、NoSQL數(shù)據(jù)庫和流處理系統(tǒng)則更是難上加難。客戶需要大量培訓和教育,付費用戶需要大量支持和及時跟進的產(chǎn)品開發(fā)工作。而跟企業(yè)級客戶打 交道往往并非創(chuàng)業(yè)公司團隊的強項。此外,大數(shù)據(jù)基礎設施技術創(chuàng)業(yè)通常對風險投資規(guī)模也有較高要求。
盡管困難重重,Hadoop創(chuàng)業(yè)公司依然如雨后春筍冒出,除了Cloudera、Datameer、DataStax和MapR等已經(jīng)功成名就的 Hadoop創(chuàng)業(yè)公司外,最近CIO雜志評出了2014年十大最值得關注的Hadoop創(chuàng)業(yè)公司,了解這些公司的產(chǎn)品和商業(yè)模式對企業(yè)大數(shù)據(jù)技術創(chuàng)業(yè)者和 大數(shù)據(jù)應用用戶來說都非常有參考價值:
一、Platfora

業(yè)務:所提供的大數(shù)據(jù)分析解決方案能夠?qū)adoop中的原始數(shù)據(jù)轉(zhuǎn)換成可互動的,基于內(nèi)存計算的商業(yè)智能服務。
簡介:創(chuàng)立于2011年,迄今已募集6500萬美元。
入選理由:Platfora的目標是簡化復雜難用的Hadoop,推動Hadoop在企業(yè)市場的應用。Platfora的做法是簡化數(shù)據(jù)采集和分析 流程,將Hadoop中的原始數(shù)據(jù)自動轉(zhuǎn)化成可以互動的商業(yè)智能服務,無需ETL或者數(shù)據(jù)倉庫。(參考閱讀:Hadoop只是窮人的ETL)
二、Alpine Data Labs

業(yè)務:提供基于Hadoop的數(shù)據(jù)分析平臺
簡介:創(chuàng)立于2010年,迄今累計融資2350萬美元。
入選理由:復雜的高級分析和機器學習應用通常都需要腳本和代碼開發(fā)高手實現(xiàn),這進一步推高了數(shù)據(jù)科學家的技術門檻。實際上大數(shù)據(jù)企業(yè)高管和IT經(jīng)理都沒時間也沒興致學習編程技術,或者去了解復雜的Hadoop。Alpine Data通過SaaS服務的方式大幅降低了預測分析的應用門檻。
三、Altiscale

業(yè)務:提供Hadoop即服務(HaaS)
簡介:創(chuàng)立于2012年3月,迄今融資1200萬美元。
入選理由:大數(shù)據(jù)正在鬧人才荒,而通過云計算提供Hadoop相關服務無疑是普及Hadoo的一條捷徑,根據(jù)TechNavio的估計,2016年 HaaS市場規(guī)模將高達190億美元,是塊大蛋糕。但是HaaS市場的競爭已經(jīng)日趨激烈,包括亞馬遜EMR、微軟的Hadoop on Azure,以及Rackspace的Hortonworks云服務等都是重量級玩家,Altiscale還需要與Hortonworks、 Cloudera、Mortar Data、Qubole、Xpleny展開直接競爭。
四、Trifacta

業(yè)務:提供平臺幫助用戶將復雜的原始數(shù)據(jù)轉(zhuǎn)化成干凈的結構化格式供分析使用。
簡介:創(chuàng)立于2012年,迄今融資1630萬美元。
入選理由:大數(shù)據(jù)技術平臺和分析工具之間存在一個巨大的瓶頸,那就是數(shù)據(jù)分析專家需要花費大量精力和時間轉(zhuǎn)化數(shù)據(jù),而且業(yè)務數(shù)據(jù)分析師們往往也并不 具備獨立完成數(shù)據(jù)轉(zhuǎn)化工作的技術能力。為了解決這個問題Trifacta開發(fā)出了“預測互動”技術,將數(shù)據(jù)操作可視化,而且Trifacta的機器學習算 法還能同時觀察用戶和數(shù)據(jù)屬性,預測用戶意圖,并自動給出建議。Trifata的競爭對手是Paxata、Informatica和CirroHow。
五、Splice Machine

業(yè)務:提供面向大數(shù)據(jù)應用的,基于Hadoop的SQL兼容數(shù)據(jù)庫。
簡介:創(chuàng)立于2012年,迄今融資1900萬美元。
入選理由:新的數(shù)據(jù)技術使得傳統(tǒng)關系型數(shù)據(jù)庫的一些流行功能如ACID合規(guī)、交易一致性和標準的SQL查詢語言等得以在廉價可擴展的Hadoop上 延續(xù)。Splice Machine保留了NoSQL數(shù)據(jù)庫所有的優(yōu)點,例如auto-sharding,容錯、可擴展性等,同時又保留了SQL。
六、DataTorrent

業(yè)務:提供基于Hadoop平臺的實時流處理平臺
簡介:創(chuàng)立于2012年,2013年6月獲得800萬美元A輪融資。
入選理由:大數(shù)據(jù)的未來是快數(shù)據(jù),而DataTorrent正是要解決快數(shù)據(jù)的問題。
七、Qubole

業(yè)務:提供大數(shù)據(jù)DaaS服務,基于“真正的自動擴展Hadoop集群”。
簡介:創(chuàng)立于2011年,累計融資700萬美元。
入選理由:大數(shù)據(jù)人才一將難求,對于大多數(shù)企業(yè)來說,像使用SaaS企業(yè)應用一樣使用Hadoop是一個現(xiàn)實的選擇。
八、Continuuity

業(yè)務:提供基于Hadoop的大數(shù)據(jù)應用托管平臺
簡介:創(chuàng)立于2011年,累計獲得1250萬美元融資,創(chuàng)始人兼CEO Todd Papaioannou曾是雅虎副總裁云架構負責人,去年夏天Todd離開Continuuity后,聯(lián)合創(chuàng)始人CTO Jonathan Gray接替擔任CEO一職。
入選理由:Continuuity的商業(yè)模式非常聰明也非常獨特,他們繞過非常難纏的Hadoop專家,直接向Java開發(fā)者提供應用開發(fā)平臺,其 旗艦產(chǎn)品Reactor是一個基于Hadoop的Java集成化數(shù)據(jù)和應用框架,Continuuity將底層基礎設施進行抽象處理,通過簡單的Java 和REST API提供底層基礎設施服務,為用戶大大簡化了Hadoop基礎設施的復雜性。Continuuity最新發(fā)布的服務——Loom是一個集群管理方案,通 過Loom創(chuàng)建的集群可以使用任意硬件和軟件堆疊的模板,從單一的LAMP服務器和傳統(tǒng)應用服務器如JBoss到包含數(shù)千個節(jié)點的大規(guī)模的Hadoop集 群。集群還可以部署在多個云服務商的環(huán)境中(例如Rackspace、Joyent、Openstack等)而且還能使用常見的SCM工具。
九、Xplenty

業(yè)務:提供HaaS服務
簡介:創(chuàng)立于2012年,從Magma風險投資獲得金額不詳?shù)娜谫Y。
入選理由:雖然Hadoop已經(jīng)成了大數(shù)據(jù)的事實工業(yè)標準,但是Hadoop的開發(fā)、部署和維護對技術人員的技能依然有著極高要求。Xplenty 的技術通過無需編寫代碼的Hadoop開發(fā)環(huán)境提供Hadoop處理服務,企業(yè)無需投資軟硬件和專業(yè)人才就能快速享受大數(shù)據(jù)技術。
十、Nuevora

業(yè)務:提供大數(shù)據(jù)分析應用
簡介:創(chuàng)立于2011年,累計獲得300萬早期投資。
入選理由:Nuevora的著眼點是大數(shù)據(jù)應用最早啟動的兩個領域:營銷和客戶接觸。Nuevora的nBAAP(大數(shù)據(jù)分析與應用)平臺的主要功 能包括基于最佳時間預測算法的定制分析應用,nBAAP基于三個關鍵大數(shù)據(jù)技術:Hadoop(大數(shù)據(jù)處理)、R(預測分析)和Tableau(數(shù)據(jù)可視 化)