星環(huán)科技通關(guān)TPC-DS!中國(guó)數(shù)據(jù)庫(kù)領(lǐng)域首破紀(jì)錄誕生!

鎂客 8年前 (2018-05-15)

我們不能盲目崇信跑分,但跑分的確是一種比較直觀反映軟硬件性能的方式。不過(guò),相比手機(jī)跑個(gè)分,數(shù)據(jù)庫(kù)性能測(cè)試卻要復(fù)雜的多

導(dǎo)語(yǔ):“不服跑個(gè)分?”是一個(gè)老梗了。雖然,我們不能盲目崇信跑分,但跑分的確是一種比較直觀反映軟硬件性能的方式。不過(guò),相比手機(jī)跑個(gè)分,數(shù)據(jù)庫(kù)性能測(cè)試卻要復(fù)雜的多……

最近,一家小公司顛覆了我們的認(rèn)知!它完整的通過(guò)數(shù)據(jù)庫(kù)界最難的一個(gè)測(cè)試標(biāo)準(zhǔn)TPC-DS,說(shuō)是登頂了數(shù)據(jù)庫(kù)領(lǐng)域的最高峰,并不為過(guò),因?yàn)椋饲暗?2年里,全球還沒(méi)有任何一家公司成功過(guò)。

基準(zhǔn)測(cè)試結(jié)果可以在這里找到http://www.tpc.org/tpcds/results/tpcds_advanced_sort.asp。

5月3日,這家公司還在自家的用戶大會(huì)上發(fā)布了一系列創(chuàng)新產(chǎn)品:人工智能平臺(tái)智子;一站式大數(shù)據(jù)平臺(tái)產(chǎn)品:TDH6.0,分布式圖數(shù)據(jù)庫(kù)StellarDB,分布式閃存數(shù)據(jù)庫(kù)ArgoDB;大數(shù)據(jù)云平臺(tái)產(chǎn)品Data Cloud。

這家公司叫“星環(huán)科技”,創(chuàng)始人團(tuán)隊(duì)均出自Intel,或許Intel都不曾想到,五年前被砍掉的一個(gè)項(xiàng)目,居然成就了今天這個(gè)估值超過(guò)20億,年?duì)I收超過(guò)2個(gè)億,騰訊都搶著投錢下注的公司。

星環(huán)科技通關(guān)TPC-DS!中國(guó)數(shù)據(jù)庫(kù)領(lǐng)域首破紀(jì)錄誕生!

TPC測(cè)試委員會(huì)主席Raghu

我們首先回顧下事情的經(jīng)過(guò),5月3日,全球知名的數(shù)據(jù)管理系統(tǒng)評(píng)測(cè)基準(zhǔn)標(biāo)準(zhǔn)化組織TPC宣布,星環(huán)TDH平臺(tái)成為全球首個(gè)經(jīng)過(guò)TPC官方審核的TPC-DS基準(zhǔn)測(cè)試的數(shù)據(jù)平臺(tái),打破了該領(lǐng)域十二年來(lái)沒(méi)有公司通過(guò)該項(xiàng)測(cè)試的局面,在世界范圍內(nèi)填補(bǔ)了該項(xiàng)技術(shù)的空白。

該基準(zhǔn)測(cè)試使用思科UCS集成基礎(chǔ)架構(gòu)用于大數(shù)據(jù)和分析以及Transwarp Data Hub v5.1。

也許很多人不清楚TPC是個(gè)什么組織,TPC-DS是個(gè)什么測(cè)試,我們先行腦補(bǔ)。

眾所周知,用戶在選用平臺(tái)時(shí),面對(duì)的是一個(gè)繽紛繁雜的世界。用戶希望有一種度量標(biāo)準(zhǔn),能夠量化計(jì)算機(jī)系統(tǒng)的性能,以此作為選型的依據(jù)。因此,誕生了眾多標(biāo)準(zhǔn)化組織,而TPC就是其中之一。

TPC (事務(wù)性能管理委員會(huì))是目前全球最知名的數(shù)據(jù)管理系統(tǒng)評(píng)測(cè)基準(zhǔn)標(biāo)準(zhǔn)化組織。它的功能是制定商務(wù)應(yīng)用基準(zhǔn)程序(Benchmark)的標(biāo)準(zhǔn)規(guī)范、性能和價(jià)格度量,并管理測(cè)試結(jié)果的發(fā)布。

在過(guò)去二十多年間,該機(jī)構(gòu)發(fā)布了多項(xiàng)數(shù)據(jù)庫(kù)評(píng)測(cè)基準(zhǔn),如TPC-A、TPC-D、TPC-H和TPC-DS,在業(yè)界得到了廣泛應(yīng)用,相對(duì)而言,TPC在學(xué)術(shù)界和工業(yè)界擁有更強(qiáng)的影響力。

TPC-DS最早是用來(lái)衡量數(shù)據(jù)庫(kù)分析性能的基準(zhǔn)測(cè)試。它是2006年在第32屆VLDB數(shù)據(jù)庫(kù)會(huì)議上提出,有99個(gè)測(cè)試。但基準(zhǔn)測(cè)試不僅僅涉及這些查詢。測(cè)試過(guò)程和指標(biāo)包括以下六個(gè)步驟(更多詳細(xì)信息,請(qǐng)參閱TPC-DS規(guī)范):

數(shù)據(jù)負(fù)載測(cè)試(LD)。

功耗測(cè)試(PT),在一個(gè)流中運(yùn)行99個(gè)查詢。

吞吐量測(cè)試1(TT1),它在多個(gè)流中運(yùn)行99個(gè)查詢。

維護(hù)測(cè)試1(DM1),它使用刷新功能更新數(shù)據(jù)庫(kù)。

吞吐量測(cè)試2(TT2),在多個(gè)流中重新運(yùn)行99個(gè)查詢。

維護(hù)測(cè)試(DM2),使用刷新功能重新更新數(shù)據(jù)庫(kù)。

這99個(gè)查詢被定義為模板。每個(gè)查詢都有幾個(gè)參數(shù),這些參數(shù)由dsqgen和SEED確定,具體為“被選為用格式mmddhhmmsss”表示的數(shù)據(jù)庫(kù)加載時(shí)間結(jié)束時(shí)間(加載結(jié)束時(shí)間)的時(shí)間戳。這個(gè)時(shí)間戳“保證查詢替換參數(shù)值在運(yùn)行之前是未知的”。除參數(shù)外,不同流的查詢順序也不相同。圖1顯示了執(zhí)行順序。

星環(huán)科技通關(guān)TPC-DS!中國(guó)數(shù)據(jù)庫(kù)領(lǐng)域首破紀(jì)錄誕生!

TPC-DS的性能結(jié)果取決于每個(gè)步驟的時(shí)間(生成SQL的時(shí)間不是結(jié)果的一部分)。根據(jù)TPC-DS測(cè)試流程,SQL語(yǔ)法和事務(wù)支持,優(yōu)化,穩(wěn)定性和可伸縮性被確定為DBMS的關(guān)鍵因素。

自從這個(gè)標(biāo)準(zhǔn)提出到今天,12年來(lái),一直沒(méi)有一個(gè)產(chǎn)品能通過(guò)。因此,被視為數(shù)據(jù)庫(kù)界最難的一個(gè)測(cè)試標(biāo)準(zhǔn),每隔一兩年都會(huì)在數(shù)據(jù)庫(kù)頂級(jí)會(huì)議上被討論,但遺憾的是一直沒(méi)有人能通過(guò)。

而TPC-DS測(cè)試模擬場(chǎng)景的數(shù)據(jù)量都比較大,一般10TB起步,傳統(tǒng)數(shù)據(jù)庫(kù)廠商多年都未通過(guò),如IBM、Oracle、Teradata都曾做過(guò)嘗試,但并沒(méi)有成功。而大數(shù)據(jù)庫(kù)廠商出現(xiàn)以后,為了衡量SQL和Hadoop誰(shuí)更好,從 2014年開(kāi)始,主流Hadoop廠商(如Cloudera, Hortonworks,Databricks)也開(kāi)始試圖攻破這一難題,每年都會(huì)去測(cè)上一次,也依然沒(méi)有取得什么實(shí)質(zhì)進(jìn)展。

星環(huán)科技創(chuàng)始人、董事長(zhǎng)孫元浩在接受筆者采訪時(shí)表示:“我們參與測(cè)試的目的,并不是為了測(cè)試而測(cè)試,最初,我們的目的只是為了衡量我們的產(chǎn)品處于什么樣的水平階段,同時(shí)看看能不能通過(guò)測(cè)試。”

孫元浩說(shuō):“實(shí)際上,我們?cè)?014年底就通過(guò)了第一階段測(cè)試,而后面的步驟花了三年多的時(shí)間,去年7月,我們把測(cè)試結(jié)果提交給TPC組織,他們花了五個(gè)月的時(shí)間去審計(jì)結(jié)果。審計(jì)完以后再把所有測(cè)試結(jié)果和過(guò)程的全部公開(kāi)在網(wǎng)上,接受質(zhì)疑,所以它的難度是非常高的。”

目前,國(guó)外廠商對(duì)TPC-DS的攻關(guān)還處在第一階段,孫元浩補(bǔ)充道。

由于SQL或事務(wù)支持限制,大多數(shù)基于Hadoop的廠商無(wú)法運(yùn)行完整的TPC-DS基準(zhǔn)測(cè)試。由于架構(gòu)和優(yōu)化限制,傳統(tǒng)數(shù)據(jù)庫(kù)廠商難以通過(guò)測(cè)試或無(wú)法取得良好結(jié)果,尤其是在大數(shù)據(jù)環(huán)境下,比如傳統(tǒng)數(shù)據(jù)庫(kù)由于架構(gòu)限制,當(dāng)有大量數(shù)據(jù)交換時(shí),會(huì)導(dǎo)致單個(gè)節(jié)點(diǎn)瓶頸。為了降低影響,一些廠商會(huì)引入了特殊設(shè)備來(lái)處理數(shù)據(jù)交換,這使得系統(tǒng)的成本很高。

而星環(huán)能通過(guò)完整測(cè)試,毫無(wú)疑問(wèn)的證明,在某些領(lǐng)域星環(huán)已經(jīng)超越國(guó)外廠商了,技術(shù)的差距總體來(lái)說(shuō)已經(jīng)很小了,甚至在某些方面已經(jīng)超過(guò)了國(guó)外廠商。

最后,記得關(guān)注微信公眾號(hào):鎂客網(wǎng)(im2maker),更多干貨在等你!

鎂客網(wǎng)


科技 | 人文 | 行業(yè)

微信ID:im2maker
長(zhǎng)按識(shí)別二維碼關(guān)注

硬科技產(chǎn)業(yè)媒體

關(guān)注技術(shù)驅(qū)動(dòng)創(chuàng)新

分享到