擁有MongoDB的大數據創業公司10gen日前宣布升級Hadoop連接器的版本(ben),新增了很(hen)多(duo)重要的功(gong)能。其中包括對Hive(Hadoop的類SQL查詢語言)的支持(chi)和Hadoop對本(ben)地MongoDB文(wen)件的存儲能力(li),以及在同一MongoDB數據集運行增量MapReduce作業的能力(li)。
據10gen產品(pin)營(ying)銷(xiao)總監Kelly Stirman介紹,MongoDB的(de)(de)Hadoop連接(jie)器已(yi)經(jing)發(fa)布一段時間了,應用也十分廣泛。上(shang)週(zhou)二(8月20日(ri))的(de)(de)升(sheng)級(ji)是(shi)自2012年4月Hadoop連接(jie)器正式發(fa)布以來(lai)最重要的(de)(de)一次更新(xin)。
也許很(hen)多人沒有(you)發現,MongoDB和(he)Hadoop在過去幾(ji)年裡已經變得非常流行(xing)。 MongoDB之所以成為(wei)很(hen)多網絡和(he)移動應用的(de)業務(wu)數據(ju)庫,是因為(wei)它支持JSON文件類型;Hadoop也成為(wei)很(hen)多公司(si)大(da)數據(ju)處理和(he)分(fen)析的(de)平臺,尤(you)其(qi)是大(da)型網絡公司(si)和(he)財富500強企業。 Kelly Stirman稱這兩種技術往(wang)往(wang)同時部署在企業中。
▲上圖的(de)右側部分目前(qian)已加(jia)入(ru)Hive
Kelly Stirman 補充道,MongoDB連接器目(mu)前已(yi)經(jing)很受歡(huan)迎(ying),因為它實際上(shang)(shang)是讓(rang)用(yong)戶在(zai)MongoDB數據(ju)庫中(zhong)處理數據(ju),而(er)不是把數據(ju)傳送(song)到Hadoop中(zhong)進行處理。在(zai)現有的(de)(de)(de)(de)對(dui)MapReduce和Pig的(de)(de)(de)(de)支持的(de)(de)(de)(de)基礎(chu)之上(shang)(shang)新(xin)增(zeng)了(le)對(dui)Hive的(de)(de)(de)(de)支持,能(neng)夠讓(rang)MongoDB更受歡(huan)迎(ying)。因為Hive擁有類(lei)SQL查詢(xun)語言的(de)(de)(de)(de)本質(zhi),通過這種連接器的(de)(de)(de)(de)方(fang)式(shi)可以使公(gong)司更好的(de)(de)(de)(de)利用(yong)Hadoop中(zhong)的(de)(de)(de)(de)數據(ju)。數據(ju)庫創新(xin)公(gong)司Drawn to Scale也曾增(zeng)加(jia)過一個類(lei)似(si)的(de)(de)(de)(de)功能(neng)——基於MongoDB數據(ju)的(de)(de)(de)(de)SQL查詢(xun)(SQL queries on MongoDB data)——但在(zai)今年初夏時,該公(gong)司已(yi)經(jing)倒閉。
在(zai)Hadoop分佈式文(wen)件系統(HDFS)中(zhong)新增對MongoDB本地(di)BSON文(wen)件的支持,意味著用戶可以將數(shu)據庫文(wen)件備份到(dao)Hadoop中(zhong),同時可以在(zai)Hadoop里處理(li)這些數(shu)據,避(bi)免在(zai)MongoDB集群中(zhong)增加(jia)回撤的負載。
Kelly Stirman將MongoDB集(ji)合(he)上運(yun)(yun)行(xing)增量MapReduce更新(xin)的(de)(de)能力稱為“濃縮處理”。在這(zhe)(zhe)之前,用戶只能運(yun)(yun)行(xing)存儲在數(shu)據庫(ku)全新(xin)集(ji)合(he)中的(de)(de)MapReduce作業。這(zhe)(zhe)一名為“MongoUpdateWriteable”的(de)(de)新(xin)功能,能夠讓用戶在現有集(ji)合(he)中運(yun)(yun)行(xing)MapReduce作業。這(zhe)(zhe)種快捷的(de)(de)方式能夠捕捉MongoDB集(ji)合(he)每天的(de)(de)變化,而不是在每次(ci)運(yun)(yun)行(xing)MapReduce作業時都對(dui)比輸(shu)出的(de)(de)變化或(huo)者查詢新(xin)的(de)(de)集(ji)合(he)。
數據(ju)庫行業專家可能會質(zhi)疑(yi)這(zhe)些(xie)特(te)性僅僅是改(gai)善現有(you)(you)MongoDB-Hadoop生態環境的(de)功(gong)能性,或(huo)者(zhe)它們是否將以某種(zhong)方式影響MongoDB的(de)市場份(fen)額。 Kelly Stirman認為(wei)可能是後(hou)者(zhe),至少(shao)對於已經使用Hadoop的(de)公司來說(shuo),MongoDB更有(you)(you)吸引(yin)力(li)。 10gen公司在銷售週期中(zhong)常常陷入與Cassandra和HBase的(de)競爭中(zhong),但(dan)是現在“從(cong)本質(zhi)上說(shuo),這(zhe)三種(zhong)數據(ju)庫對於Hadoop而(er)言(yan)地位相當。”
地(di)位相當?或許(xu)是這樣(yang)的(de),至少人們(men)願意用(yong)Hadoop的(de)規模性彌(mi)補數據庫較(jiao)低的(de)可(ke)擴展性。當然(ran)根據不同應用(yong)的(de)特點,企業用(yong)戶仍有(you)充足的(de)理由選擇(ze)MongoDB以外其他的(de)NoSQL數據庫。
燦達連接器,HR鴻儒連接器