什么是數(shù)據(jù)集成?
在企業(yè)大數(shù)據(jù)項目中有80%的工作都和數(shù)據(jù)集成相關(guān),數(shù)據(jù)集成是將零散的數(shù)據(jù)整合在一起,形成一個新的數(shù)據(jù)集,從而為企業(yè)提供全面的數(shù)據(jù)共享。
企業(yè)為什么要進行數(shù)據(jù)集成?
由于企業(yè)各部門之間數(shù)據(jù)不互通,數(shù)據(jù)彼此獨立、相互封閉,很難使得數(shù)據(jù)進行融合與共享,導(dǎo)致企業(yè)形成“數(shù)據(jù)孤島”,企業(yè)想要徹底消除數(shù)據(jù)孤島,需要集成現(xiàn)有數(shù)據(jù),實現(xiàn)數(shù)據(jù)一體化,充分利用數(shù)據(jù)資源,為企業(yè)提供決策與支持。
您的數(shù)據(jù)是否遇到以下幾種情況
1.缺乏全面的數(shù)據(jù)梳理,無法準確掌握數(shù)據(jù)整體狀況。
2.數(shù)據(jù)來源多種多樣、含義、口徑不一,數(shù)據(jù)質(zhì)量低下。
3.零散數(shù)據(jù)眾多,無法進行數(shù)據(jù)整合。
4.缺乏數(shù)據(jù)共享有效監(jiān)管,上下游數(shù)據(jù)出現(xiàn)不一致情況。
吉佳通達數(shù)據(jù)集成技術(shù)簡介
1.實體對齊
實體對齊是判斷兩個或者多個不同信息來源的實體是否為指向真實世界中同一個對象,如果找到多個實體表征同一個對象,則需要在這些實體之間構(gòu)建對齊關(guān)系,同時對實體包含的信息進行融合和聚集。我們來舉個簡單的例子,如“王明”一詞,在不同來源中指向同一對象,所以在實體對齊的過程中需要將不同來源的實體信息進行對齊融合,以避免“王明”在知識圖譜中重復(fù)出現(xiàn)或?qū)嶓w的信息不完整。
2.記錄鏈接
記錄鏈接是在數(shù)據(jù)集中查找跨越不同數(shù)據(jù)源,它基于在可用數(shù)據(jù)集中匹配的單個標識符的數(shù)量來生成鏈接。每個源包含若干記錄,而記錄包含一定數(shù)量的列。一般,每個記錄對應(yīng)于一個實體,而列是標識實體的屬性,例如名字、地址、年齡和性別。
3.投影、篩選
投影是“選擇”列,篩選是“選擇”行。
篩選是按條件,投影是指選擇一個屬性的數(shù)據(jù),如有一個患者表包含屬性:姓名、年齡、性別,當(dāng)選擇姓名為“王明”的患者,會選擇出所有患者姓名為“王明”的患者。
4.數(shù)據(jù)集
將篩選之后的數(shù)據(jù),融合在一起,形成新的數(shù)據(jù)集。
吉佳通達數(shù)據(jù)集成基于領(lǐng)域知識圖譜集成數(shù)據(jù),可保證數(shù)據(jù)概念模式的科學(xué)性,實現(xiàn)多種數(shù)據(jù)類型的關(guān)聯(lián),通過對各個數(shù)據(jù)源的數(shù)據(jù)交換格式進行一一映射,從而實現(xiàn)數(shù)據(jù)的流通與共享。
17743467638
長春市朝陽區(qū)衛(wèi)星路7440號遠創(chuàng)國際A座401室
版權(quán)所有?長春市吉佳通達信息技術(shù)有限責(zé)任公司 吉ICP備08100182號-1
微信咨詢
17743467638
郵箱
jijiatongda@163.com