-
當(dāng)前位置:首頁(yè) > 創(chuàng)意學(xué)院 > 技術(shù) > 專題列表 > 正文
元數(shù)據(jù)可分為哪三類
大家好!今天讓創(chuàng)意嶺的小編來(lái)大家介紹下關(guān)于元數(shù)據(jù)可分為哪三類的問(wèn)題,以下是小編對(duì)此問(wèn)題的歸納整理,讓我們一起來(lái)看看吧。
開(kāi)始之前先推薦一個(gè)非常厲害的Ai人工智能工具,一鍵生成原創(chuàng)文章、方案、文案、工作計(jì)劃、工作報(bào)告、論文、代碼、作文、做題和對(duì)話答疑等等
只需要輸入關(guān)鍵詞,就能返回你想要的內(nèi)容,越精準(zhǔn),寫(xiě)出的就越詳細(xì),有微信小程序端、在線網(wǎng)頁(yè)版、PC客戶端
官網(wǎng):https://ai.de1919.com。
創(chuàng)意嶺作為行業(yè)內(nèi)優(yōu)秀的企業(yè),服務(wù)客戶遍布全球各地,如需了解SEO相關(guān)業(yè)務(wù)請(qǐng)撥打電話175-8598-2043,或添加微信:1454722008
本文目錄:
一、DC 元數(shù)據(jù)在成果地質(zhì)資料編目中的應(yīng)用
李 磊 李效廣 張良軍 鄭錦娜 王心華
(天津地質(zhì)調(diào)查中心)
摘 要 本文主要研究了 DC 元數(shù)據(jù)和成果地質(zhì)資料編目之間的映射關(guān)系,探討了如何在此基礎(chǔ)上基于 XML schema 技術(shù)對(duì)生成的地質(zhì)資料核心元數(shù)據(jù)進(jìn)行建模,并利用其來(lái)構(gòu)建分布式共享平臺(tái)體系。
關(guān)鍵詞 DC Dublin Core XML schema OAI 地質(zhì)資料 編目
0 引言
成果地質(zhì)資料是指各類地質(zhì)工作或?qū)n}研究項(xiàng)目完成時(shí),按相應(yīng)技術(shù)規(guī)范的規(guī)定和原項(xiàng)目設(shè)計(jì)要求,以文字、圖、表等形式提供的一整套科技文件材料。我國(guó)地質(zhì)資料館成果地質(zhì)資料案卷級(jí)目錄庫(kù)多采用國(guó)土資源部頒布的《地質(zhì)資料電子目錄著錄格式規(guī)定(試行)》或中國(guó)地質(zhì)調(diào)查局發(fā)展研究中心制訂的規(guī)則標(biāo)準(zhǔn)而建,文件級(jí)編目采用《原始地質(zhì)資料清理數(shù)據(jù)庫(kù)》系統(tǒng)標(biāo)準(zhǔn)。以這些標(biāo)準(zhǔn)完成的編目,在實(shí)現(xiàn)資料檢索、傳播、共享、服務(wù)、利用方面一直起著非常重要作用。然而,此類編目與地學(xué)數(shù)據(jù)庫(kù)元數(shù)據(jù)抑或其他文獻(xiàn)編目平臺(tái)無(wú)法實(shí)現(xiàn)交換。事實(shí)上,成果地質(zhì)資料作為一種地質(zhì)專業(yè)文獻(xiàn),具有文獻(xiàn)的共性,與其他文獻(xiàn)目錄庫(kù)互為交換是必要的,特別是與地學(xué)信息元數(shù)據(jù)實(shí)現(xiàn)共享是必要的。
元數(shù)據(jù)是關(guān)于數(shù)據(jù)的數(shù)據(jù),是關(guān)于信息資源的形式、主要內(nèi)容、存放位置等信息的綜合。目前,元數(shù)據(jù)技術(shù)研究已經(jīng)深入到各個(gè)領(lǐng)域,有專業(yè)領(lǐng)域的元數(shù)據(jù),如關(guān)于地理空間數(shù)據(jù)的數(shù)字地理空間元數(shù)據(jù)、圖書(shū)館文獻(xiàn)館藏資源的機(jī)讀目錄。也有適用范圍廣泛的元數(shù)據(jù),如都柏林核心元數(shù)據(jù)。筆者經(jīng)過(guò)對(duì)比各種元數(shù)據(jù),認(rèn)為成果地質(zhì)資料作為地質(zhì)信息資源的重要載體,雖然有空間信息,但是其結(jié)構(gòu)和內(nèi)容并不符合空間數(shù)據(jù)的標(biāo)準(zhǔn)。成果地質(zhì)資料作為一類文獻(xiàn)資源,雖然可以以機(jī)讀目錄編目,然而機(jī)讀目錄由于其字段復(fù)雜,對(duì)錄入人員專業(yè)要求較高,適用類型狹窄,故考慮到與其他類型資源的交換問(wèn)題,其并不適于作為通用的元數(shù)據(jù)標(biāo)準(zhǔn)。而都柏林核心元數(shù)據(jù)(Dublin Core,DC)簡(jiǎn)單易用,其最初是為描述網(wǎng)絡(luò)資源,現(xiàn)已發(fā)展成可以描述任何信息資源的元數(shù)據(jù)標(biāo)準(zhǔn),應(yīng)用范圍廣泛,便于組織與數(shù)據(jù)交換,可以提高檢索數(shù)據(jù)的準(zhǔn)確性。
筆者通過(guò)研究認(rèn)為,利用都柏林核心元數(shù)據(jù)(DC 元數(shù)據(jù))編目成果地質(zhì)資料,可很好地解決異地多源數(shù)據(jù)共享的問(wèn)題,會(huì)更有利于促進(jìn)成果地質(zhì)資料社會(huì)化服務(wù)。
1 成果地質(zhì)資料編目與 DC 元數(shù)據(jù)的映射
1.1 成果地質(zhì)資料編目
成果地質(zhì)資料是指物理上的一套地質(zhì)資料,除了其具有檔案的基本編目信息外,還有具體的文件級(jí)資料內(nèi)容信息。根據(jù)其內(nèi)容形式的不同,成果地質(zhì)資料文件由 8 類資源組成:正文、審批、附圖、附表、附件、數(shù)據(jù)庫(kù)和軟件、多媒體和其他。這些資源信息全部以表的形式存儲(chǔ)在成果資料目錄數(shù)據(jù)庫(kù)中[1]。
以原始地質(zhì)資料清理數(shù)據(jù)庫(kù)為例,成果地質(zhì)資料案卷級(jí)編目主要字段包括館藏機(jī)構(gòu)編號(hào)、館藏機(jī)構(gòu)名稱、資料編號(hào)、資料名稱、資料類別、資料類型、語(yǔ)種、編寫(xiě)報(bào)告單位、編著者、形成(提交)時(shí)間、工作程度、密級(jí)、關(guān)鍵詞、關(guān)鍵詞(礦產(chǎn))、地理坐標(biāo)、行政區(qū)劃、內(nèi)容提要、工作時(shí)段,共計(jì) 18 個(gè)字段;文件級(jí)編目的所有 8 類資源的共有字段包括:資料編號(hào)和資料名稱,其中審批需要增加審批機(jī)構(gòu)和審批日期,附圖則需要增加比例尺。
1.2 DC 元數(shù)據(jù)字段
都柏林核心元數(shù)據(jù)產(chǎn)生于 1995 年,經(jīng)過(guò) 10 年不斷擴(kuò)展和完善,形成了 15 個(gè)基本核心元素,通過(guò)限定詞對(duì)元素進(jìn)行細(xì)化和修飾的元數(shù)據(jù)方案,用于描述越來(lái)越豐富的網(wǎng)絡(luò)信息。DC 元素依據(jù)其所描述內(nèi)容的類別和范圍,可分為三組[2]:①資源內(nèi)容描述類元數(shù)據(jù)項(xiàng) 7 個(gè):分別為 Title、Subject、Description、Language、Source、Relation、Coverage;②知識(shí)產(chǎn)權(quán)描述類元數(shù)據(jù)項(xiàng) 4 個(gè):Creator、Publisher、Contributor、Rights;③外部屬性描述類。元數(shù)據(jù)項(xiàng) 4 個(gè):Date、Type、Format、Identifier。具體字段的定義參見(jiàn)表 1。
DC 限定詞是對(duì) 15 個(gè)元素的語(yǔ)義進(jìn)行限定和修飾的詞。它的制訂遵循著名的向下兼容原則,即修飾詞的語(yǔ)義包含于未修飾詞中,在范圍上對(duì)未修飾詞的語(yǔ)義進(jìn)行限定,在深度上對(duì)未修飾詞的語(yǔ)義進(jìn)行延伸[3]。
1.3 映射關(guān)系
筆者通過(guò)對(duì)比研究,認(rèn)為:
(1)案卷級(jí)編目字段除了Format(格式)外,其余14個(gè)基本元素皆可與DC核心元素建立起對(duì)應(yīng)關(guān)系。在覆蓋范圍(Coverage)元素中,由于地質(zhì)資料兼具時(shí)間特征與空間特征,故采用限定詞spatial(空間范圍)和 temporal(時(shí)間范圍)對(duì)覆蓋范圍進(jìn)行描述;此外,由于成果地質(zhì)資料部分元素具有行業(yè)特殊性,需要增加三個(gè)自定義字段作為補(bǔ)充,分別為Districts(行政區(qū)劃)、DataCategory(資料類別)和WorkingDegree(工作程度)。而Relation(關(guān)聯(lián))與Contributor(其他責(zé)任者)在成果資料目錄庫(kù)中無(wú)對(duì)應(yīng)字段,需要單獨(dú)填寫(xiě)。其中Relation(關(guān)聯(lián))填寫(xiě)的內(nèi)容為成果地質(zhì)資料所含的所有文件級(jí)內(nèi)容的唯一標(biāo)識(shí)碼,關(guān)系為部分為(HasPart),即所描述的案卷級(jí)資源在物理或邏輯上包含被參照文件級(jí)資源,Contributor(其他責(zé)任者)填寫(xiě)數(shù)據(jù)庫(kù)錄入人員姓名。
(2)文件級(jí)的各類資源中,由于各自屬性內(nèi)容有所差別,最終分為三類資源:第一類資源為正文、附表、附件、數(shù)據(jù)庫(kù)和軟件、多媒體和其他這六類文件級(jí)資源,均與 DC 核心元素建立起 4 個(gè)對(duì)應(yīng)關(guān)系,其中 Format(格式)和 Relation(關(guān)聯(lián))這兩個(gè)元素在庫(kù)中無(wú)對(duì)應(yīng)字段。需要說(shuō)明的是:這里 Format(格式)填寫(xiě)的是地質(zhì)資料的媒體類型和資源大小。在這六類資源中,數(shù)據(jù)庫(kù)和軟件、多媒體資源只有源電子文件[1],其余均有源電子文件和存檔電子文件。Relation(關(guān)聯(lián))填寫(xiě)的是文件級(jí)資料所對(duì)應(yīng)案卷級(jí)資料的唯一標(biāo)識(shí)碼,關(guān)系為部分于(is part of)。第二類資源為審批資源,其在第一類資源的基礎(chǔ)上增加了Creator(創(chuàng)建者)和 Date(日期)兩個(gè)元素來(lái)表示審批機(jī)構(gòu)和審批日期。第三類資源為附圖資源,其在第一類資源的基礎(chǔ)上增加了自定義字段比例尺(Scale)。
通過(guò)將 DC 字段的定義和原始地質(zhì)資料清理數(shù)據(jù)庫(kù)中的字段定義進(jìn)行比對(duì),最終得出了 DC 元數(shù)據(jù)與該數(shù)據(jù)庫(kù)字段的映射關(guān)系,案卷級(jí)編目對(duì)應(yīng)關(guān)系如表 1 所示,文件級(jí)編目對(duì)應(yīng)關(guān)系如表 2、3、4 所示,由此確定了成果地質(zhì)資料核心元數(shù)據(jù)的元素集。在該核心元素集中,如果映射關(guān)系成立,則沿用 DC 元數(shù)據(jù)的元素名稱,若未找到對(duì)應(yīng)關(guān)系,則采用自定義元素名稱。
表 1 DC 元數(shù)據(jù)與成果地質(zhì)資料案卷級(jí)編目映射關(guān)系表
續(xù)表
表 2 DC 元數(shù)據(jù)與成果地質(zhì)資料文件級(jí)正文、附表、附件、數(shù)據(jù)庫(kù)和軟件、多媒體和其他資源編目的映射關(guān)系表
表 3 DC 元數(shù)據(jù)與成果資料文件級(jí)審批資源編目的映射關(guān)系表
表 4 DC 元數(shù)據(jù)與成果資料文件級(jí)附圖資源編目的映射關(guān)系表
2 實(shí)現(xiàn)方法
XML(Extensible Makeup Language)是一種結(jié)構(gòu)化與半結(jié)構(gòu)化數(shù)據(jù)的標(biāo)志語(yǔ)言,由互聯(lián)網(wǎng)聯(lián)合組織(W3C)所開(kāi)發(fā)和創(chuàng)建,其目的不僅在于滿足不斷增長(zhǎng)的網(wǎng)絡(luò)應(yīng)用需求,更是為了確保在通過(guò)網(wǎng)絡(luò)進(jìn)行交互合作時(shí),具有良好的可靠性和互操作性,XML 作為一種獨(dú)立于系統(tǒng)的表達(dá)數(shù)據(jù)信息的標(biāo)記語(yǔ)言,更適合于元數(shù)據(jù)在網(wǎng)絡(luò)系統(tǒng)中進(jìn)行數(shù)據(jù)交換。
XML Schema 是采用 XML 語(yǔ)法描述,提供描述和控制 XML 文檔的一種規(guī)范。用于定義 XML 文檔中使用的元素、屬性和數(shù)據(jù)類型,簡(jiǎn)單地講,就是利用一個(gè)通用模式,生成具有不同數(shù)據(jù)但相同結(jié)構(gòu)的XML 數(shù)據(jù)文檔。Schema 與 XML 文檔的關(guān)系,相當(dāng)于類和對(duì)象之間的關(guān)系。有了 XML Schema,XML 文檔的寫(xiě)法就有了限制,利用 XML Schema 對(duì)成果地質(zhì)資料核心元數(shù)據(jù)進(jìn)行建模生成的 XML 元數(shù)據(jù),可以便于資源在網(wǎng)絡(luò)系統(tǒng)中進(jìn)行數(shù)據(jù)管理,從而更好地實(shí)現(xiàn)傳輸。
具體實(shí)現(xiàn)過(guò)程中可以使用 altova 公司的 XML spy 工具完成成果地質(zhì)資料核心元數(shù)據(jù)的建模,生成HTML 或者 Word 形式的 XML schema 文檔?;诮N臋n,開(kāi)發(fā)人員可以依托相關(guān) xml 技術(shù),比如apache 公司的 XMLBeans[4],實(shí)現(xiàn)查詢成果資料目錄數(shù)據(jù)庫(kù)中的對(duì)應(yīng)數(shù)據(jù),通過(guò) Schema 來(lái)修飾生成需要的 XML 文檔,整個(gè)過(guò)程皆可以用代碼實(shí)現(xiàn),無(wú)需多次錄入數(shù)據(jù)。最終將生成的 XML 元數(shù)據(jù)文檔以 XML混合數(shù)據(jù)庫(kù)(hybird database)形式存儲(chǔ)。經(jīng)過(guò)對(duì)比研究,作者認(rèn)為基于 XML schema 技術(shù)可很好地實(shí)現(xiàn)成果地質(zhì)資料核心元數(shù)據(jù)表達(dá)。
3 實(shí)例
以下是基于 xml 來(lái)描述的一條地質(zhì)資料案卷級(jí)目錄元數(shù)據(jù):
第八屆全國(guó)地質(zhì)檔案資料學(xué)術(shù)研討會(huì)文集
“內(nèi)蒙古阿拉善地區(qū)礦產(chǎn)資源潛力評(píng)價(jià)綜合研究”項(xiàng)目是中國(guó)地質(zhì)調(diào)查局 1999 年 10 月下達(dá)的地質(zhì)調(diào)查綜合研究項(xiàng)目(任務(wù)書(shū)編號(hào):0499201021;項(xiàng)目編號(hào):K1.1.4.4;科研項(xiàng)目編號(hào):DK9902033)。在前人工作基礎(chǔ)上,該項(xiàng)目以板塊構(gòu)造、邊緣成礦和成礦系統(tǒng)理論為指導(dǎo),緊緊圍繞本區(qū)礦產(chǎn)資源評(píng)價(jià)工作的部署,以野外地質(zhì)調(diào)查為基礎(chǔ),從本區(qū)實(shí)際出發(fā),重點(diǎn)開(kāi)展了工作區(qū)已知礦點(diǎn)和重要物化探異常區(qū)的野外地質(zhì)調(diào)查;開(kāi)展了區(qū)域地球化學(xué)背景、層控型朱拉扎嘎式金礦、火山巖型銅金礦和與花崗巖有關(guān)的金礦床等的研究工作,進(jìn)一步厘定了各類礦床的成礦地質(zhì)條件和控礦因素,明確了找礦標(biāo)志,歸納了區(qū)域成礦規(guī)律,篩選了物化遙異常,并在此基礎(chǔ)上圈定了找礦有利的預(yù)測(cè)區(qū),編制了阿拉善地區(qū) 1∶50萬(wàn)區(qū)域成礦預(yù)測(cè)圖,提出了下一步工作部署建議。
第八屆全國(guó)地質(zhì)檔案資料學(xué)術(shù)研討會(huì)文集
第八屆全國(guó)地質(zhì)檔案資料學(xué)術(shù)研討會(huì)文集
4 成果地質(zhì)資料數(shù)據(jù)共享技術(shù)探討
基于網(wǎng)絡(luò)的成果地質(zhì)資料數(shù)據(jù)共享,主要存在兩個(gè)問(wèn)題:首先,成果地質(zhì)資料分布比較分散,服務(wù)方式不盡相同;其次,用戶是分布的,其背景、教育程度、熟練程度等相差很大。因此必須研究一種合適的分布式數(shù)據(jù)的共享體系來(lái)整合這些分散的數(shù)據(jù)資源,為互聯(lián)網(wǎng)用戶提供統(tǒng)一的數(shù)據(jù)共享服務(wù)[5]。
作者經(jīng)過(guò)比較國(guó)內(nèi)外常用的分布式共享平臺(tái)體系,認(rèn)為 OAI(open archives initiative)數(shù)據(jù)資源整合模式比較適合成果地質(zhì)資料數(shù)據(jù)共享。OAI 對(duì)外提供了開(kāi)放文檔元數(shù)據(jù)采集協(xié)議(OAIMH)。它最主要的目標(biāo)就是通過(guò)元數(shù)據(jù)采集模式來(lái)實(shí)現(xiàn)網(wǎng)絡(luò)上發(fā)布信息的不同組織之間的互操作,為其提供一個(gè)與應(yīng)用無(wú)關(guān)的元數(shù)據(jù)互操作框架。OAIMH 基于 HTTP 協(xié)議,返回的數(shù)據(jù)采用 XML 格式,所有的存儲(chǔ)必須為自己的資源產(chǎn)生 Dublin Core 的元數(shù)據(jù)以供交換,由此來(lái)實(shí)現(xiàn)各個(gè)節(jié)點(diǎn)之間的網(wǎng)絡(luò)互操作。數(shù)據(jù)生產(chǎn)者無(wú)需完全開(kāi)放自己的本地資源,只需共享元數(shù)據(jù),這樣既不用改變本地存儲(chǔ)數(shù)據(jù)的軟件結(jié)構(gòu),又能輕松實(shí)現(xiàn)聯(lián)合檢索和數(shù)據(jù)共享。不失為一種經(jīng)濟(jì)的互操作模式,故將成果地質(zhì)資料目錄轉(zhuǎn)換為 DC 元數(shù)據(jù)能在更大范圍內(nèi)與其他科學(xué)數(shù)據(jù)實(shí)現(xiàn)共享交換。由于篇幅限制,對(duì)共享平臺(tái)如何實(shí)現(xiàn)不做進(jìn)一步的論述。
5 結(jié)論
用 DC 標(biāo)準(zhǔn)來(lái)設(shè)計(jì)成果地質(zhì)資料核心元數(shù)據(jù)完全可行,基于 XML schema 技術(shù)可以實(shí)現(xiàn)建模,最終生成 XML 元數(shù)據(jù)文檔。最終在基于 OAI 協(xié)議的數(shù)據(jù)資源整合模式下構(gòu)建分布式共享平臺(tái),交換生成的地質(zhì)資料核心元數(shù)據(jù),將能更好地實(shí)現(xiàn)成果地質(zhì)資料的共享與服務(wù),進(jìn)而能最大限度地發(fā)揮地質(zhì)資料信息的潛在價(jià)值,服務(wù)整個(gè)社會(huì)。
參 考 文 獻(xiàn)
[1] 李效廣等 . 機(jī)讀目錄在成果地質(zhì)資料管理中的應(yīng)用前瞻 . 中國(guó)地質(zhì)學(xué)會(huì)第二屆學(xué)術(shù)研討會(huì)論文集,[C]. 2010
[2] 劉芳,朱沙 . 數(shù)字圖書(shū)館中基于 XML_RDF 的 DC 元數(shù)據(jù)描述體系 [J]. 大學(xué)圖書(shū)情報(bào)學(xué)刊,2005
[3] 盛劍鋒 . 電子期刊 MARC 與 DC 編目數(shù)據(jù)比較 . 圖書(shū)館論壇 [J],2008,(2):104 ~ 107
[4] 楊典華,楊志剛 . 基于 XML 和 DC 元數(shù)據(jù)標(biāo)準(zhǔn)研究教育資源的元數(shù)據(jù)及其數(shù)據(jù)傳播 . 現(xiàn)代教育技術(shù) [J],2006,(16):57 ~ 67
[5] 諸云強(qiáng) . 地球系統(tǒng)科學(xué)數(shù)據(jù)共享關(guān)鍵技術(shù)研究 M. 北京:科學(xué)出版社, 2009:36 ~ 57
二、Ceph RGW:數(shù)據(jù)的存儲(chǔ)及尋址
RGW是一個(gè)對(duì)象處理網(wǎng)關(guān)。數(shù)據(jù)實(shí)際存儲(chǔ)在ceph集群中。利用librados的接口,與ceph集群通信。RGW主要存儲(chǔ)三類數(shù)據(jù):元數(shù)據(jù)(metadata)、索引數(shù)據(jù)(bucket index)、數(shù)據(jù)(data)。這三類數(shù)據(jù)一般存儲(chǔ)在不同的pool中,元數(shù)據(jù)也分多種元數(shù)據(jù),存在不同的ceph pool中。
1、 Metadata
元數(shù)據(jù)信息包括:user,bucket,以及bucket.instance。其中:
user: 主要是對(duì)象存儲(chǔ)的用戶信息
bucket:主要維護(hù)bucket name與bucket instance id之間的映射信息
bucket.instance:維護(hù)了bucket instance信息
查看user的元數(shù)據(jù)如下:
radosgw-admin metadata list user:
radosgw-admin metadata get user:testid:
radosgw-admin metadata list bucket:
radosgw-admin metadata get bucket:first:
radosgw-admin metadata list bucket.instance:
radosgw-admin metadata get bucket.instance:first:{bucket_id}
2、Bucket Index
bucket index主要維護(hù)的是一個(gè)bucket中object的索引信息。一個(gè)bucket對(duì)應(yīng)一個(gè)或多個(gè)rados object(開(kāi)啟bucket shards下)。維護(hù)的是一個(gè)key-val的map結(jié)構(gòu),map存放在object的omap(rocksdb)中,key對(duì)應(yīng)的rgw object,val是關(guān)于rgw object的一些元數(shù)據(jù)信息,檢索bucket的存放的object時(shí),需要這些信息。omap也包含一個(gè)Header,其存放的是bucket account info,如此bucket中Object的個(gè)數(shù),總的size等。
3、Data
rgw object內(nèi)容,存放在一個(gè)或多個(gè)rados object中。rados object分為header和tail部分,header最多可以容納512KB的數(shù)據(jù),如果一個(gè)rgw object的大小小于512KB,那么只有header。否則剩余的數(shù)據(jù)會(huì)按照集群rados object的大小條帶化分割成多個(gè)rados object。
在Pool: {zone}.rgw.meta利用namespace隔離多個(gè)存儲(chǔ)空間:
對(duì)于Pool: {zone}.rgw.log也包含多個(gè)namespace:
當(dāng)檢索對(duì)象存儲(chǔ)中的一個(gè)object時(shí),會(huì)包含三個(gè)要素:user,bucket,object。user主要是RGW用于獲取user id驗(yàn)證ACL;bucket及obejct用于確定object在pool中的位置。
User
user數(shù)據(jù)存儲(chǔ)在 {zone}.rgw.meta:users.uid 中,如下:
包含兩部分: ups3: user本身信息; ups3.buckets: 用戶所屬的bucket。
ups3: 用戶的基本信息,及ACL/Bucekt Quota/User Quota等;對(duì)應(yīng)struct RGWUserInfo, 定義于rgw_common.h。
ups3.buckets:用戶所屬的Buckets,key-value結(jié)構(gòu),存放于omap結(jié)構(gòu)中;對(duì)應(yīng)struct cls_user_bucket_entry,定義于rgw_common.h,數(shù)據(jù)操作如下:
通過(guò){uid}.buckets查到用戶具有哪些buckets,并且這些bucket以下基本數(shù)據(jù)。
Bucket
Bucket信息存在在 {zone}.rgw.meta:root 中,如下:
first: 記錄了bucket與bucket_instance_id的對(duì)應(yīng)關(guān)系,其對(duì)應(yīng)于數(shù)據(jù)結(jié)構(gòu):struct RGWBucketEntryPoint
.bucket.meta.first:1c60b268-0a5d-4718-ad02-e4b5bce824bf.44166.4: bucket instance;尋址方式:.bucket.meta.{tenant}:{bucket.name}:{bucket_id};對(duì)應(yīng)結(jié)構(gòu)體:struct RGWBucketInfo。
其中Bucket ACL及IAM Policy存放在bucket instance object的attr中。如下:
獲取Bucket ACL及IAM Policy數(shù)據(jù)如下:
Object
Bucket Index: Bucket中包含的Object信息,都存放在一個(gè)或多個(gè)Object的 omap 中。此omap為一個(gè)key-value結(jié)構(gòu),key為object的名稱,value對(duì)應(yīng) struct rgw_bucket_dir_entry : cls_rgw_types.h 。
Bucket Index Object:
如下:
在此bucket下,有一個(gè)object: ntp.conf:
檢索value:
omap header記錄了以下統(tǒng)計(jì)信息:
對(duì)象存儲(chǔ)object的數(shù)據(jù)存放在pool: {zone}.rgw.buckets.data 中。object的構(gòu)成及尋址分為以下兩類:
一個(gè)RGW Object可以由一個(gè)或多個(gè)rados object構(gòu)成。其中第一個(gè) object 是此RGW 的 head 對(duì)象,主要包含一些元數(shù)據(jù)信息,如 manifest, ACLs, content type, ETag, and user-defined metadata 。這些metadata存放在此head 對(duì)象的xattr中。其中 manifest 描述了此rgw object在分布情況。同時(shí),此head對(duì)象,最多可額外容納 4MB 數(shù)據(jù),如果RGW Object大小下于 4MB ,那么此 RGW Object就不會(huì)分片,只有此 head 對(duì)象。
如下檢索:
目前bucket下有一個(gè) ntp.conf , <4MB 。檢索其 manifest :
如上:
max_head_size: 表示head對(duì)象最大size;
head_size: 表示當(dāng)前head 對(duì)象size;
prefix: 用于在rados中分片object的尋址。
RGW OBject ACL:
上傳一個(gè) >4MB 的 RGW Object,檢索其 manifest 信息:
Manifest信息:
根據(jù) manifest 檢索對(duì)象:
對(duì)于一個(gè)大的RGW Object,會(huì)被切割成多個(gè)獨(dú)立的RGW Object上傳,稱為multipart。multipar的優(yōu)勢(shì)是斷點(diǎn)續(xù)傳。s3接口默認(rèn)切割大小為15MB。
在此,上傳一個(gè)60MB大小的Object。
分成了四個(gè)部分上傳,查看rados對(duì)象:
包含了三類對(duì)象, head,multipart,shadow 。
multipart 下的 manifest :
所有的object的檢索是根據(jù)上述manifest信息構(gòu)建object index:
在上以上的信息中,此RGW Object大小為48128000字節(jié),分為4段,三段15MB,最后一段為920KB。同時(shí)每段存儲(chǔ)在rados集群中的條帶化大小為4MB。因此15MB大小的分段,也分為4個(gè)rados object,一個(gè)multipart首部,及3個(gè)shadow分片。920KB大小的分段只有一個(gè)multipart首部。
.rgw.root :
包含的都是zone,zonegroup,realm等信息
三、3、元數(shù)據(jù)信息采用哪兩個(gè)文件進(jìn)行保存?
(1)規(guī)則庫(kù)
規(guī)則是數(shù)據(jù)質(zhì)量檢查的具體標(biāo)準(zhǔn),主要包括大數(shù)據(jù)的約束規(guī)則、合理性規(guī)則和檢查規(guī)則等。規(guī)則分為三類:約束規(guī)則、計(jì)算規(guī)則和條件規(guī)則。
約束規(guī)則描述了一種必須為真或假的強(qiáng)制規(guī)則。這種約束可以是結(jié)構(gòu)化約束,也可以是行為約束。
➢ 結(jié)構(gòu)化約束:當(dāng)創(chuàng)建術(shù)語(yǔ)或者改變術(shù)語(yǔ)之間的關(guān)系時(shí),結(jié)構(gòu)化約束能夠保證術(shù)語(yǔ)的完整性。
➢ 行為約束:典型地被定義為“前置條件”和“后置條件”。只有在符合“前置條件”的情況下,操作才能夠正確地執(zhí)行;“后置條件”保證了操作結(jié)果的正確性,“后置條件”表示該行為是否滿足了其預(yù)期的結(jié)果。例如,客戶在開(kāi)戶時(shí)余額為0,在能夠使用移動(dòng)業(yè)務(wù)之前,必須先充值,這里的前置條件就是必須先充值,而后置條件是指所辦理的業(yè)務(wù)是否成功辦理。
(2)算法庫(kù)
算法庫(kù)主要是指支撐上述規(guī)則所需要的基本算法的集合,這些算法結(jié)合具體的規(guī)則由數(shù)據(jù)質(zhì)量檢查相關(guān)功能調(diào)用。
3)度量信息
度量信息是數(shù)據(jù)質(zhì)量檢查的基本依據(jù),它反映了數(shù)據(jù)質(zhì)量的衡量標(biāo)準(zhǔn),也是元數(shù)據(jù)管理模塊技術(shù)元數(shù)據(jù)的一個(gè)重要組成部分。
度量信息是經(jīng)驗(yàn)的積累,需要在數(shù)據(jù)質(zhì)量不斷建設(shè)的過(guò)程中逐步精確化。隨著衡量標(biāo)準(zhǔn)的不斷細(xì)化和精確,大數(shù)據(jù)系統(tǒng)的數(shù)據(jù)質(zhì)量也會(huì)不斷提高。
四、數(shù)據(jù)庫(kù)和元數(shù)據(jù)的關(guān)系是什么,怎樣來(lái)區(qū)分它倆?
元數(shù)據(jù),就是表示數(shù)據(jù)的數(shù)據(jù),只要不是我們存儲(chǔ)到數(shù)據(jù)庫(kù)里的數(shù)據(jù),大多都可以理解為元數(shù)據(jù)。描述數(shù)據(jù)庫(kù)的任何數(shù)據(jù)—作為數(shù)據(jù)庫(kù)內(nèi)容的對(duì)立面—是元數(shù)據(jù)。因此,列名、數(shù)據(jù)庫(kù)名、用戶名、版本名以及從SHOW語(yǔ)句得到的結(jié)果中的大部分字符串是元數(shù)據(jù)。數(shù)據(jù)庫(kù)就是存放數(shù)據(jù)的倉(cāng)庫(kù)。
以上就是關(guān)于元數(shù)據(jù)可分為哪三類相關(guān)問(wèn)題的回答。希望能幫到你,如有更多相關(guān)問(wèn)題,您也可以聯(lián)系我們的客服進(jìn)行咨詢,客服也會(huì)為您講解更多精彩的知識(shí)和內(nèi)容。
推薦閱讀:
北京市作家協(xié)會(huì)主席(北京市作家協(xié)會(huì)會(huì)員名單)