69一区二三区好的精华液,中文字幕无码av波多野吉衣,亚洲精品久久久久久无码色欲四季,日本不卡高字幕在线2019

【筆記】初識知識圖譜
來源: 朱穎慧/
華南師范大學
1779
1
0
2020-08-14

基于清華大學李涓子教授“知識圖譜研究綜述”一文的閱讀筆記

根據論文大概分為幾個模塊

一、概念

    知識圖譜旨在描述客觀世界的概念、實體、事件及其間的關系

  • 概念是指人們認識世界過程中形成的對客觀事物的概念化,如人、動物、組織機構等;

  • 實體是客觀世界中的具體事物,如籃球運動員姚明、互聯網公司騰訊等;

  • 事件是客觀世界的活動,如地震、買賣行為等;

  • 關系描述概念、實體事件之間客觀存在的關聯,如畢業學院描述了個人及其所在院校的關系,運動員和籃球運動員之間的概念和子概念的關系等。

        知識圖譜是將互聯網的信息表達成更接近人類認知世界的形式,提供了一種更好地組織、管理和理解互聯網信息的能力。涉及的技術:認知計算、知識表示和推理、信息檢索與抽取、自然語言處理和語義web、數據挖掘與機器學習等, 知識圖譜技術具體地包括知識表示、知識圖譜構建和知識圖譜的應用三方面。

  • 知識表示研究客觀世界知識的建模,從知識的表示和存儲,以及知識的使用和計算來使得知識便于機器的識別和理解;

  • 知識圖譜的構建解決如何建立計算機算法從客觀世界或者或聯網的各種數據資源中獲取客觀世界的知識,主要研究使用何種數據和方法抽取何種知識;

  • 知識圖譜應用主要研究如何利用知識圖譜建立基于知識的智能服務系統,更好地解決實際應用問題。

二、現有的知識圖譜資源

  • 人工構建(英文wordNet和Cyc項目以及中文的HowNet,Cyc是世界知識庫)

  • 群體智慧構建(維基百科是至今利用群體智能建立的互聯網上最大的知識資源,因此出現了很多使用維基百科構建知識庫的項目,如DBpedia、YAGO和Freebase等。)

  • 基于互聯網鏈接 數 據 構 建 的 知 識 資 源(國際萬維網組織W3C 于2007年發起的開放互聯數據項目(LOD)

  • 基于機器學習和信息抽取構建的知識圖譜(從互聯網數據自動獲取知識是建立可持續發展知識圖譜的發展趨勢。這類知識圖譜構建的特點是面向互聯網的大規模、開放、異構環境,利用機器學習和信息抽取技術自動獲取 Web上的信息構建知識庫。如華盛頓大學圖靈中心的KnowItAll和TextRunner)

三、知識表示

  • 基于符號邏輯的表示(與人類的自然語言比較接近,是最早使用的一種知識表示方法,但在大數據時期不能很好的解決知識表示的問題)

  • 萬維網內容的知識表示(XML,基于萬維網資源語義元數據描述框架RDF,基于描述邏輯的本體描述語言OWL,XML通過內容標記,便于數據交換;(重點)RDF通過三元組(主體,謂詞,客體)描述互聯網資源之間的語義關系;OWL構建在RDF之上,具有更強的表達及解釋能力的語言。)

  • 表示學習(通過機器學習或深度學習,將研究對象的語義信息表示為稠密低維的實值向量。對不同粒度的知識單元進行隱式的向量化表示,來支持大數據環境下知識的快速計算)

三、知識圖譜的構建技術

      互聯網上分布、異構的海量資源 ->概念層次學習,事實學習;已有的結構化異構語義資源->異構資源的語義集成

    1.概念層次學習通過合理的技術,抽取知識表示中的概念,確定其上下位關系

    2.事實學習:

  • 有監督的事實知識獲取方法需要有已標注文檔作為訓練集,可以分為基于規則學習、基于分類標注和基于序列標注方法等?;谝巹t學習的語義標注方法從帶語義標注的語料中自動學習標注規則,利用規則對數據資源進行語義標注,適合比較規范資源上的知識獲?。换诜诸惖闹R獲取方法將知識獲取轉化為分類問題,根據確定的標注特征從標注語料中學習標注模型;基于序列模式標注的方法同時考慮多個語義標注之間的關系,可以提高標注的準確率。

  • 半監督的知識獲取方法主要包括自擴展方法和弱監督方法。自擴展方法需要初始的種子實體對,根據這些種子實體對,發現新的語義模板,再對語料進行迭代抽取以發現新的實體對,其主要問題是語義漂移;弱監督方法使用知識庫中的關系啟發式地標注文本,其主要問題在于訓練實例中本身帶有大量噪音。

  •  無監督的知識獲取方法主要是開放信息抽取,使用自然語言處理方法,無須預先給定要抽取的關系類別,自動將自然語言句子轉換為命題,這種方法在處理復雜句子時效果會受到影響

    3.語義集成,就是在異構知識庫之間,發現實體間的等價關系,從而實現知識共享。主要方法包括:  

  • 基于文本的方法主要利用本體中實體的文本信息,例如實體的標簽和摘要。通過計算兩個實體字符串之間的相似度來確定實體之間是否具有匹配關系。

  • 基于結構的 方 法 主 要 利 用 本 體 的 圖 結 構 信 息 對 本 體 進 行 匹 配。利用本體的圖結構,對實體間的相似度進行傳播,從而提高對齊的效果。 

  • 基于背景知識的方法一般使用DBpedia或WordNet等已有的大規模領域無關知識庫作為背景知識來提高匹配效果。 

  • 基于機器學習的方法將本體匹配問題視為機器學習中的分類或優化問題,從而采取機器學習方法獲得匹配結果。

四、知識圖譜的應用

    語義搜索、知識問答,以及基于知識的大數據分析與決策


登錄用戶可以查看和發表評論, 請前往  登錄 或  注冊。
SCHOLAT.com 學者網
免責聲明 | 關于我們 | 聯系我們
聯系我們:
主站蜘蛛池模板: 宾阳县| 中西区| 左云县| 宝应县| 土默特右旗| 大名县| 三亚市| 黎城县| 吉林市| 汝城县| 桓仁| 莱芜市| 离岛区| 黄骅市| 玉林市| 手游| 霍山县| 越西县| 房山区| 大同县| 科技| 砀山县| 法库县| 余干县| 汉川市| 久治县| 阿勒泰市| 上杭县| 博爱县| 平南县| 威远县| 万山特区| 融水| 津南区| 区。| 霍山县| 宁武县| 叶城县| 伽师县| 黔江区| 确山县|