近年來,數據(ju)挖掘引起了信息產業界(jie)的極大關注(zhu),其主要(yao)原因是(shi)存在大量數據(ju),可以廣(guang)(guang)泛使(shi)用,并(bing)且迫切需要(yao)將這些數據(ju)轉(zhuan)換成有用的信息和知(zhi)識(shi)。獲取的信息和知(zhi)識(shi)可以廣(guang)(guang)泛用于各種(zhong)應用,包括商務(wu)管理、生(sheng)產控制、市場分(fen)析(xi)、工(gong)程設(she)計和科學探索等。
數據挖掘,就是(shi)(shi)從大(da)量(liang)數據(包括文本)中挖掘出隱含的(de)(de)、未(wei)知(zhi)的(de)(de)、對決策(ce)有潛(qian)在(zai)價值的(de)(de)關(guan)系(xi)、模(mo)式和(he)(he)趨勢,并用這(zhe)些知(zhi)識和(he)(he)規則建立用于決策(ce)支(zhi)持的(de)(de)模(mo)型,提(ti)供預測(ce)性決策(ce)支(zhi)持的(de)(de)方法、工具和(he)(he)過程;是(shi)(shi)利(li)用各種分析工具在(zai)海量(liang)數據中發現模(mo)型和(he)(he)數據之間關(guan)系(xi)的(de)(de)過程。這(zhe)些模(mo)型和(he)(he)關(guan)系(xi)可以(yi)被企(qi)業用來(lai)分析風(feng)險、預測(ce)未(wei)來(lai)。
數(shu)(shu)據挖(wa)掘的(de)目(mu)的(de)就是(shi)(shi)(shi)(shi)從數(shu)(shu)據中“淘(tao)金”,是(shi)(shi)(shi)(shi)從數(shu)(shu)據中獲取價值(zhi)的(de)過程。數(shu)(shu)據挖(wa)掘是(shi)(shi)(shi)(shi)提(ti)供了(le)從數(shu)(shu)據到價值(zhi)的(de)解決方(fang)案,“機器學習”是(shi)(shi)(shi)(shi)數(shu)(shu)據挖(wa)掘的(de)基(ji)石,“建模”是(shi)(shi)(shi)(shi)數(shu)(shu)據挖(wa)掘過程中最關(guan)鍵(jian)的(de)一(yi)個環節。
Smartbi Mining以互聯(lian)網(wang)式用戶體(ti)驗為目標(biao)的(de)(de)全新產品設計,極簡風格的(de)(de)流式建模(mo),快速(su)實(shi)現各(ge)種(zhong)類型的(de)(de)數據挖掘應用,為個人、團隊和企業所做的(de)(de)決策提供預測性(xing)智能。
平臺具備流程化(hua)、可視(shi)化(hua)的(de)建模界面(mian),內(nei)置實用(yong)的(de)、經典(dian)的(de)統計(ji)挖掘算法和(he)深度學(xue)習算法,這些算法配置簡單(dan)降低了機(ji)器學習的(de)(de)使(shi)用(yong)門(men)檻,大大節省了成本,業務人員可(ke)通過輕松(song)拖拉拽組件的(de)(de)操作,進行可(ke)視化建(jian)模(mo),完成模(mo)型流程的(de)(de)搭建(jian),并(bing)能將(jiang)模(mo)型發布(bu)管理(li)。
該平臺(tai)將機器學習系(xi)統做成更加通用的、簡單易用的平臺(tai),可以幫助(zhu)企業將相(xiang)(xiang)關業務輕易接入該平臺(tai),從而幫助(zhu)企業利用機器學習的手段(duan)挖掘分析企業數據和解決(jue)相(xiang)(xiang)關的業務問題(ti)。
圖:拖拉拽建模示例
Smartbi Mining匯集50+種數據挖(wa)掘算(suan)(suan)法(fa)組件,靈活建立業(ye)務(wu)模(mo)型(xing)流程,主要包(bao)含(han)基本的數據特征處理、分類、聚類、關聯、回歸、深度(du)學習算(suan)(suan)法(fa),以及支持(chi)Java和Python算(suan)(suan)法(fa)擴展。
l 操作簡單
該平臺(tai)通過直觀易用(yong)的(de)拖(tuo)拽式操(cao)作可(ke)(ke)輕松(song)實(shi)現數據準備(bei),數據預處理、特(te)征工程(cheng)、模(mo)型訓練、模(mo)型預測與評(ping)估的(de)全流程(cheng),讓用(yong)戶輕松(song)使用(yong)機(ji)器學習技(ji)術。除此,用(yong)戶可(ke)(ke)通過對數據預處理操(cao)作、特(te)征工程(cheng)以及模(mo)型配(pei)置不同參數實(shi)現不同的(de)任務(wu)需(xu)求(qiu)。
l 豐富的數據預處理操作
該平臺支(zhi)持(chi)并行(xing)化(hua)的預處理操作,并支(zhi)持(chi)多種(zhong)數據預處理操作,例如:合并行(xing)、去除重復值(zhi)、過濾空值(zhi)、增加(jia)序列(lie)號、類型轉換、隨機(ji)采樣、加(jia)權采樣、分層采樣、拆分等。
l 大量的實用算法
該平臺支持(chi)多(duo)種高效(xiao)實用的機器學習算(suan)法,包含(han)了分類、聚類、回歸等算(suan)法,其中包含(han)了多(duo)種可訓(xun)練的模(mo)(mo)型(xing):邏輯回歸、漸(jian)進梯(ti)度(du)決策樹(shu)、決策樹(shu)、隨機森(sen)林、樸(pu)素貝葉(xie)斯、支持(chi)向量機、線性回歸、漸(jian)進梯(ti)度(du)回歸樹(shu)、K均值、DBSCAN、高斯混合模(mo)(mo)型(xing)。
l 支持文本分析
面對(dui)生活中海量以文本(ben)形式存在的(de)數據,抽取出未知的(de)、重(zhong)要(yao)的(de)、有(you)價值的(de)知識,如(ru)詞頻分析(xi),分析(xi)用戶偏好、幫(bang)助知識管理、提升客戶服務等。
l 數據可視化
該平臺提(ti)供多(duo)種可(ke)(ke)視化效果,包括數據可(ke)(ke)視化、模(mo)型可(ke)(ke)視化和(he)模(mo)型評估(gu)結果可(ke)(ke)視化。
l 挖掘模型自學習
平臺可以自動(dong)補充新數據重新訓練,保(bao)證模型(xing)預測準確性,極大減輕運(yun)維人員的(de)工(gong)作(zuo)量。
l 模型集中管理,一鍵發布
該平臺(tai)實現(xian)對模(mo)型(xing)的集中管理,與商(shang)(shang)業(ye)智能(neng)平臺(tai)完(wan)美整合,使商(shang)(shang)業(ye)智能(neng)平臺(tai)擁(yong)有(you)數據挖掘的功能(neng)。