Smartbi支持多(duo)種(zhong)數(shu)(shu)(shu)據(ju)源(yuan)輕松(song)接(jie)入(ru),基本涵蓋了市面(mian)上所有主流的(de)數(shu)(shu)(shu)據(ju)庫。無(wu)可否認多(duo)元的(de)數(shu)(shu)(shu)據(ju)連(lian)(lian)接(jie)能(neng)(neng)力(li)使Smartbi能(neng)(neng)快速(su)連(lian)(lian)接(jie)現(xian)有數(shu)(shu)(shu)據(ju)源(yuan),構建統一(yi)的(de)數(shu)(shu)(shu)據(ju)分析(xi)平臺。但在項目(mu)實施過程中,往(wang)往(wang)會遇到以(yi)下的(de)問題:
我(wo)們企業數(shu)據(ju)(ju)存(cun)儲在不(bu)同(tong)(tong)甚至不(bu)同(tong)(tong)類型的數(shu)據(ju)(ju)庫(ku)里面(mian),當用戶查詢(xun)(xun)數(shu)據(ju)(ju)的范(fan)圍比較廣,并不(bu)限于一(yi)個(ge)數(shu)據(ju)(ju)庫(ku)時,需要(yao)跨多個(ge)數(shu)據(ju)(ju)庫(ku)進(jin)行(xing)關聯查詢(xun)(xun)分(fen)(fen)析,如果按照(zhao)傳統的方式:先抽取到要(yao)通過(guo)ETL把數(shu)據(ju)(ju)都抽取到統一(yi)的庫(ku)中,就會十分(fen)(fen)費力。或是對現(xian)有業務(wu)代碼進(jin)行(xing)重構(gou),分(fen)(fen)別從兩個(ge)數(shu)據(ju)(ju)庫(ku)查詢(xun)(xun)數(shu)據(ju)(ju),然后在業務(wu)代碼中進(jin)行(xing)join關聯。數(shu)據(ju)(ju)庫(ku)可能是分(fen)(fen)布在不(bu)同(tong)(tong)實(shi)例和不(bu)同(tong)(tong)的主機(ji)上,join關聯將變得非常麻煩。
針對這(zhe)種(zhong)問(wen)題(ti),smartbi提(ti)供跨庫聯合數(shu)(shu)據(ju)源(yuan)(yuan)(smartbiUnionDB):是系統內置數(shu)(shu)據(ju)源(yuan)(yuan),用于實現跨庫查詢的需要。應對不同接(jie)口數(shu)(shu)據(ju)統一訪問(wen)問(wen)題(ti),無需再進行數(shu)(shu)據(ju)抽(chou)取。比如將Oracle和SQLServer兩種(zhong)數(shu)(shu)據(ju)源(yuan)(yuan)關聯,讓不同接(jie)口數(shu)(shu)據(ju)統一訪問(wen),無需再進行數(shu)(shu)據(ju)抽(chou)取。
圖:數(shu)據跨庫整合架構圖
跨(kua)庫聯合數(shu)(shu)據(ju)源(smartbiUnionDB):是系(xi)(xi)統內置數(shu)(shu)據(ju)源,用于(yu)實現跨(kua)庫查詢(xun)的(de)需要(yao)。系(xi)(xi)統自動將新建的(de)關(guan)系(xi)(xi)數(shu)(shu)據(ju)源信息添加(jia)到(dao)該跨(kua)庫聯合數(shu)(shu)據(ju)源中(zhong),或通過數(shu)(shu)據(ju)庫關(guan)聯界面將需要(yao)的(de)數(shu)(shu)據(ju)源手動添加(jia),進(jin)行跨(kua)庫查詢(xun)時(shi)使(shi)用。
目前支持做跨庫的數據源(yuan)類型包括:高速緩(huan)存(cun)庫、Hadoop_Hive、星環、Vertica、CH、Greenplum、Infobright、Oracle、DB2 V9、MySQL、MS SQL Server、Spark SQL、Teradata_v12、Informix、IMPALA、PostgreSQL。
圖:跨庫(ku)示意(yi)圖
1. 無需落(luo)地
Smartbi提供直接(jie)的(de)跨(kua)庫(ku)查詢,并且內(nei)置了(le)數據(ju)(ju)跨(kua)庫(ku)查詢引(yin)擎,在內(nei)存中進行關(guan)聯,數據(ju)(ju)無(wu)需落地。省(sheng)去了(le)中間抽取環節,保證(zheng)查詢數據(ju)(ju)的(de)實時性(xing)。
2. 快速部署,開箱即用
系統(tong)內置(zhi)跨庫(ku)引擎,不(bu)需(xu)額外安裝部署。
3. 快速(su)處(chu)理、良好擴展(zhan)
對于(yu)海量大數據(ju)跨(kua)庫(ku)查(cha)詢,內置(zhi)的(de)跨(kua)庫(ku)引擎能通過線性擴充,并行處理的(de)方案,滿(man)足(zu)企業成長需要。
4. 高性能的應(ying)用
跨庫數(shu)(shu)據(ju)(ju)(ju)(ju)(ju)源支持應用(yong)在數(shu)(shu)據(ju)(ju)(ju)(ju)(ju)集(ji)定義中(zhong),通常在可(ke)視化數(shu)(shu)據(ju)(ju)(ju)(ju)(ju)集(ji)和自助數(shu)(shu)據(ju)(ju)(ju)(ju)(ju)集(ji)中(zhong)應用(yong)比(bi)較(jiao)廣泛。我(wo)們(men)(men)常規的(de)(de)(de)(de)(de)這(zhe)個(ge)數(shu)(shu)據(ju)(ju)(ju)(ju)(ju)分析(xi)底層結構是基于數(shu)(shu)據(ju)(ju)(ju)(ju)(ju)源直(zhi)接(jie)連我(wo)們(men)(men)的(de)(de)(de)(de)(de)數(shu)(shu)據(ju)(ju)(ju)(ju)(ju)連接(jie)進行數(shu)(shu)據(ju)(ju)(ju)(ju)(ju)的(de)(de)(de)(de)(de)分析(xi)展現,那這(zhe)種(zhong)情況如果我(wo)們(men)(men)的(de)(de)(de)(de)(de)數(shu)(shu)據(ju)(ju)(ju)(ju)(ju)量比(bi)較(jiao)少的(de)(de)(de)(de)(de)情況下一般是沒有什么(me)問題(ti),但是我(wo)們(men)(men)的(de)(de)(de)(de)(de)數(shu)(shu)據(ju)(ju)(ju)(ju)(ju)一旦達到某個(ge)級別(bie)之后我(wo)們(men)(men)的(de)(de)(de)(de)(de)報(bao)表性(xing)能就會(hui)出(chu)現很大的(de)(de)(de)(de)(de)一個(ge)瓶頸,甚至說導致我(wo)們(men)(men)的(de)(de)(de)(de)(de)這(zhe)個(ge)報(bao)表長(chang)時(shi)間刷不出(chu)來,以(yi)至于我(wo)們(men)(men)的(de)(de)(de)(de)(de)系統(tong)崩潰,那這(zhe)個(ge)時(shi)候就可(ke)以(yi)直(zhi)接(jie)使用(yong)高速緩存庫機制,以(yi)保(bao)證系統(tong)具(ju)有較(jiao)長(chang)的(de)(de)(de)(de)(de)生(sheng)命力和擴展能力最重要保(bao)障(zhang)。
將(jiang)數據(ju)抽取到高(gao)(gao)速緩存庫后(hou),之后(hou)的查詢直接(jie)從(cong)高(gao)(gao)速緩存庫取數,來提(ti)高查詢性能。如(ru)在(zai)體驗中心的(de)“體驗式場(chang)景5”在(zai)分(fen)析某公司的(de)emplyees數據情(qing)況(kuang)時,其(qi)中的(de)雇員表(biao)(300,024條(tiao)記(ji)錄)與薪(xin)資表(biao)(2,844,047條(tiao)記(ji)錄)進行跨庫關聯,使(shi)用前(qian)高速(su)緩存之前(qian)刷新數據至少要20秒;當數據抽取到高速(su)緩存庫后,切換(huan)年份刷新僅需2秒,甚(shen)至更快(kuai)。