本發(fā)明涉及檔案管理,具體涉及一種基于云檔案庫的檔案管理系統(tǒng)。
背景技術(shù):
1、云檔案庫是將傳統(tǒng)紙質(zhì)或本地化電子檔案,遷移到云計算架構(gòu)中的一種數(shù)字化信息管理模式。它借助分布式存儲、彈性計算與多重備份技術(shù),把海量檔案數(shù)據(jù)集中托管在云端,實現(xiàn)了隨時隨地的訪問與協(xié)同。
2、數(shù)據(jù)分區(qū)是指在云檔案庫中,依據(jù)部門、業(yè)務(wù)域或用戶身份等維度,把云端的存儲與計算資源按邏輯單元進(jìn)行隔離劃分的一種管理策略。通過為每個用戶開設(shè)對應(yīng)的數(shù)據(jù)分區(qū),可以在同一套分布式存儲與彈性計算架構(gòu)上實現(xiàn)檔案數(shù)據(jù)的物理-邏輯雙重隔離、精細(xì)化權(quán)限控制與多副本獨立備份。然而在訪問檔案庫的人員數(shù)量較多時,會開設(shè)較多的數(shù)據(jù)分區(qū),導(dǎo)致占用較多的存儲空間及系統(tǒng)資源。
技術(shù)實現(xiàn)思路
1、本發(fā)明的目的在于提供一種基于云檔案庫的檔案管理系統(tǒng),解決上述技術(shù)問題。
2、本發(fā)明的目的可以通過以下技術(shù)方案實現(xiàn):
3、一種基于云檔案庫的檔案管理系統(tǒng),包括:
4、采集處理模塊:當(dāng)用戶進(jìn)入云檔案庫時,將其標(biāo)記為進(jìn)入用戶,基于所述進(jìn)入用戶的訪問關(guān)鍵詞序列生成待定向量;將已開設(shè)數(shù)據(jù)分區(qū)且在線的進(jìn)入用戶標(biāo)記為目標(biāo)用戶,獲取所述目標(biāo)用戶的對比向量;
5、獲取所述待定向量和所述對比向量間的余弦相似度a,并設(shè)置余弦相似度閾值ays;
6、第一分區(qū)模塊:當(dāng)所述余弦相似度a>ays時,將對應(yīng)的所述目標(biāo)用戶作為合并用戶,將補(bǔ)充內(nèi)容b加入所述合并用戶的數(shù)據(jù)分區(qū)中得到數(shù)據(jù)分區(qū)x,將所述數(shù)據(jù)分區(qū)x作為所述合并用戶和所述進(jìn)入用戶共同的數(shù)據(jù)分區(qū),所述補(bǔ)充內(nèi)容b∈b1且b?b2,b1、b2分別表示所述進(jìn)入用戶和所述合并用戶的被允許訪問內(nèi)容;
7、第二分區(qū)模塊:當(dāng)所述余弦相似度a≤ays時,基于所述進(jìn)入用戶在云檔案庫中的瀏覽記錄獲取目標(biāo)關(guān)鍵詞,基于所述目標(biāo)關(guān)鍵詞為所述進(jìn)入用戶開設(shè)單獨的數(shù)據(jù)分區(qū)。
8、作為本發(fā)明進(jìn)一步的方案:獲取待定向量和對比向量包括:
9、對于所述進(jìn)入用戶,將對應(yīng)的所述訪問關(guān)鍵詞序列中的單個關(guān)鍵詞轉(zhuǎn)換為詞向量,對全部的所述詞向量進(jìn)行tf-idf加權(quán)平均得到目標(biāo)向量,記作待定向量;
10、獲取所述目標(biāo)用戶的目標(biāo)向量,記作對比向量。
11、作為本發(fā)明進(jìn)一步的方案:為所述進(jìn)入用戶開設(shè)單獨的數(shù)據(jù)分區(qū)包括:
12、獲取所述進(jìn)入用戶在預(yù)設(shè)監(jiān)測周期內(nèi)的瀏覽記錄,將單個所述瀏覽記錄中的檔案標(biāo)記為目標(biāo)檔案,將單個所述目標(biāo)檔案中被瀏覽的部分作為目標(biāo)部分;
13、基于所述目標(biāo)部分確定目標(biāo)關(guān)鍵詞,將云檔案庫中包含所述目標(biāo)關(guān)鍵詞的種類和數(shù)量均超過預(yù)設(shè)值的檔案標(biāo)記為分區(qū)檔案,開設(shè)數(shù)據(jù)分區(qū)y,所述數(shù)據(jù)分區(qū)y中存儲所述分區(qū)檔案,將所述數(shù)據(jù)分區(qū)y作為所述進(jìn)入用戶的數(shù)據(jù)分區(qū)。
14、作為本發(fā)明進(jìn)一步的方案:確定目標(biāo)關(guān)鍵詞包括:
15、提取所述目標(biāo)部分中的關(guān)鍵詞,記作待定詞,對所述待定詞進(jìn)行分組,不同的所述分組中待定詞的數(shù)量和/或種類不同;
16、確定分組j中包含的目標(biāo)部分i中的待定詞的數(shù)量n,計算分組j與目標(biāo)部分i間的契合度kij=n/nj,nj表示所述分組j中的待定詞的數(shù)量,計算分組j的總契合度kj;
17、生成總契合度集合kjh=(k1,k2,…,km),m表示分組的總數(shù)量,將最大總契合度kmax=max(kjh)對應(yīng)的分組中的待定詞作為目標(biāo)關(guān)鍵詞。
18、作為本發(fā)明進(jìn)一步的方案:當(dāng)所述合并用戶對應(yīng)的數(shù)據(jù)分區(qū)對應(yīng)其余的目標(biāo)用戶時,執(zhí)行以下步驟:
19、將所述合并用戶對應(yīng)的數(shù)據(jù)分區(qū)對應(yīng)的其余的目標(biāo)用戶標(biāo)記為待定用戶,當(dāng)存在任意一個所述待定用戶的對比向量與所述待定向量之間的余弦相似度小于所述余弦相似度閾值時,不再將該合并用戶作為合并用戶。
20、作為本發(fā)明進(jìn)一步的方案:當(dāng)兩個及兩個以上所述余弦相似度大于所述余弦相似度閾值時,發(fā)送提示信息進(jìn)行上報。
21、作為本發(fā)明進(jìn)一步的方案:當(dāng)不存在所述目標(biāo)用戶時,執(zhí)行所述第二分區(qū)模塊中的步驟,為所述進(jìn)入用戶開設(shè)數(shù)據(jù)分區(qū)。
22、作為本發(fā)明進(jìn)一步的方案:當(dāng)所述進(jìn)入用戶的注冊時間小于預(yù)設(shè)的時長時,不執(zhí)行后續(xù)步驟,并發(fā)送提示信息到預(yù)設(shè)的管理人員,由管理人員手動開設(shè)該進(jìn)入用戶的數(shù)據(jù)分區(qū)。
23、本發(fā)明的有益效果:相較于現(xiàn)有技術(shù):
24、1)本發(fā)明通過計算進(jìn)入用戶與在線用戶間的向量余弦相似度,在滿足閾值條件時將兩者合并到同一數(shù)據(jù)分區(qū),并僅補(bǔ)充差異化內(nèi)容,避免為每位新用戶重復(fù)開辟獨立分區(qū);該動態(tài)合并機(jī)制使分區(qū)數(shù)量隨相似需求自適應(yīng)收斂,顯著降低磁盤劃分和元數(shù)據(jù)開銷,從根本上減輕存儲空間與系統(tǒng)資源被無謂占用的風(fēng)險,保持檔案庫結(jié)構(gòu)精煉可控;
25、2)當(dāng)相似度不足以觸發(fā)合并時,基于用戶在監(jiān)測周期內(nèi)的實際瀏覽片段自動抽取目標(biāo)關(guān)鍵詞,再按關(guān)鍵詞密集度從全庫篩選相關(guān)檔案,為用戶即時建立專屬分區(qū),該內(nèi)容驅(qū)動的分區(qū)生成方式能夠精準(zhǔn)貼合用戶的真實檢索興趣;與此同時,關(guān)鍵詞與檔案的對應(yīng)關(guān)系可隨用戶行為持續(xù)更新,系統(tǒng)自動調(diào)整分區(qū)內(nèi)容,無需頻繁手動遷移或重建,實現(xiàn)檔案資源與業(yè)務(wù)需求的動態(tài)對齊,保持高效、精細(xì)且可持續(xù)的管理粒度,并顯著縮短搜索路徑,提高響應(yīng)靈活性。
1.一種基于云檔案庫的檔案管理系統(tǒng),其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的一種基于云檔案庫的檔案管理系統(tǒng),其特征在于,獲取待定向量和對比向量包括:
3.根據(jù)權(quán)利要求1所述的一種基于云檔案庫的檔案管理系統(tǒng),其特征在于,為所述進(jìn)入用戶開設(shè)單獨的數(shù)據(jù)分區(qū)包括:
4.根據(jù)權(quán)利要求3所述的一種基于云檔案庫的檔案管理系統(tǒng),其特征在于,確定目標(biāo)關(guān)鍵詞包括:
5.根據(jù)權(quán)利要求1所述的一種基于云檔案庫的檔案管理系統(tǒng),其特征在于,當(dāng)所述合并用戶對應(yīng)的數(shù)據(jù)分區(qū)對應(yīng)其余的目標(biāo)用戶時,執(zhí)行以下步驟:
6.根據(jù)權(quán)利要求1所述的一種基于云檔案庫的檔案管理系統(tǒng),其特征在于,當(dāng)兩個及兩個以上所述余弦相似度大于所述余弦相似度閾值時,發(fā)送提示信息進(jìn)行上報。
7.根據(jù)權(quán)利要求1所述的一種基于云檔案庫的檔案管理系統(tǒng),其特征在于,當(dāng)不存在所述目標(biāo)用戶時,執(zhí)行所述第二分區(qū)模塊中的步驟,為所述進(jìn)入用戶開設(shè)數(shù)據(jù)分區(qū)。
8.根據(jù)權(quán)利要求1所述的一種基于云檔案庫的檔案管理系統(tǒng),其特征在于,當(dāng)所述進(jìn)入用戶的注冊時間小于預(yù)設(shè)的時長時,不執(zhí)行后續(xù)步驟,并發(fā)送提示信息到預(yù)設(shè)的管理人員,由管理人員手動開設(shè)該進(jìn)入用戶的數(shù)據(jù)分區(qū)。