語義分析技術:知識工程平臺的基石

[加入收藏][字號: ] [時間:2014-03-03  來源:全球石油化工網  關注度:0]
摘要:   摘要:知識工程旨在面向企業業務應用需求,通過一系列以知識為對象的工程實踐達到海量信息中的知識挖掘、知識的高效組織應用。其中知識的表示,以及如何大規模地獲取知識是支撐其目標達成的關鍵技術,也是技術難點。而語義分析為知識的獲取和應用提...

  摘要:知識工程旨在面向企業業務應用需求,通過一系列以知識為對象的工程實踐達到海量信息中的知識挖掘、知識的高效組織應用。其中知識的表示,以及如何大規模地獲取知識是支撐其目標達成的關鍵技術,也是技術難點。而語義分析為知識的獲取和應用提供了一種有效的方法和手段。

 

  從企業層面講,企業開展知識工程建設旨在面向企業業務應用需求,通過一系列以知識為對象的工程實踐達到海量信息中的知識挖掘、知識的高效組織應用。主要包括三大要素:知識獲取、知識組織表示和知識應用。想要獲取知識和實現知識的應用,首先要知道知識長什么樣,當前主要的知識表示形式為一個包含多種不同類型的結點和邊的知識圖以及圖結點之間的關系集合。那么如何獲得這個結點以及如何獲得這個邊(關系)就是知識獲取所要做的工作。



圖1 知識圖示例
 

  當前知識獲取主要有三種方式:非自動知識獲取、知識抽取、機器學習知識。非自動知識獲取常采用直接編輯知識、利用大眾智慧等手段,效率較低,無法應用于大規模的知識獲取;完全機器學習的難度較大;知識抽取是目前最有效的方式。

 

  所謂知識抽取,指的是通過對文本資料進行內容分析處理,對蘊含于文本中的知識進行識別、理解和篩選,抽取出每個知識點,并以一定的形式存入知識庫中。那么如何通過對文本資料進行內容分析從而達到識別并抽取出知識的目的呢?語義分析就是有效的手段和方法。

 

  語義,又稱語意,指的是話語所包含的意義,在計算機科學領域,可以稱之為數據對應現實世界中事物所代表概念的含義。簡單來說,語義分析的根本目的是為了讓計算機理解自然語言,一旦計算機擁有了這種能力,就可以從文本信息中識別并抽取出知識。

 

  對于特定領域來說,完全句法分析和深入的語義理解一方面在技術上還達不到,而且也是沒有必要的。只要從輸入的文本中抽取關注的信息,填寫在預定義好的模板的屬性槽中,即可完成特定領域文本的知識抽取的第一步。

 

  如這段文字:2005年11月1日,周杰倫發行了第六張國語專輯《十一月的蕭邦》,包含了《夜曲》、《發如雪》等十二首動聽的歌,大家可以在專輯當中,嗅出他潛藏的浪漫古典因子。



          圖2 主體與事件抽取示例

 

  圖2就是典型的通過主體和事件將這段文字轉化為一張圖的例子,其中主體是指某種具體事物的個體或集合體,事件是指與主體所施行的或主體被施加的動作、過程等等。如前所說,這只是知識抽取的第一步,如果只停留在這個層面,我們只能稱之為信息抽取,而非知識抽取。將N篇這樣的文章進行信息抽取處理,然后建立它們之間的關聯,形成一個網絡。以新聞為例,經過抽取和管理,我們可以看到某個地點發生的各類新聞,發現在某個人物身上的各類新聞,甚至于可以抽取到兩個新聞之間內在的關聯(比如這兩個新聞所述對象是某某關系)等等,而這些可以稱之為關聯類的知識。

 

  目前,這種基于語義的半自動抽取技術在特定產業領域商業化、工程化應用較少,這是因為如果想獲得高質量的語言分析結構,就需要構建面向特定領域的成熟語料。

 

  北京億維訊科技有限公司依托基于語義的知識抽取技術及其知識工程平臺在石化等特定領域的應用,是目前為數不多的領域化應用。億維訊將“業務對象”和“業務主題”作為文本中的抽取點,編寫該產業領域不同知識類型的知識模板框架,在文本分析挖掘時首先進行知識類別識別,根據類別調用相應的框架。圖3為從億維訊知識工程軟件界面中截取的方法類知識模板,其中摘要是半自動提取,關鍵詞、分類、業務主題、知識來源、提供者等為自動提取。據了解,目前億維訊正在設計更加細化、具有針對性的可配置摘要,即形成摘要的模板框架。

 

  通過將知識模板中知識的相關屬性進行關聯,則可以構建關于某一特定業務主題或其它屬性的知識網絡。



圖3 知識模板示例
 

  將語義分析落實到大量的具體的篇章文本上,形成熟語料庫,其中包括詞匯級別的義素、語義特征的標注、實體標注,句子級別的語義角色標注,還有語法句法范圍的詞性標注、句法功能標注等等。我們可以想象,當大量文章(一般來說至少100萬字的量級)進行了這樣的標注后,我們需要什么知識,就可以從中抽取出一些信息后進行加工和關聯而得到。在未來,或者說已經有人在做,當標注好的熟語料已經達到一定量級,我們甚至可以通過機器學習的方式對其他未標注的文章進行自動標注,那么也就實現了自然語言計算機自動處理的最終目標,也就解決了知識自動獲取的難題。

 

  不僅如此,基于語義的知識獲取與表示因為使知識具有了良好定義的語法和語義,所以有充分的表達能力,能清晰的表達有關領域的各種知識;便于有效的檢索和共享;容易管理,易于維護知識庫的完整性和一致性。而這些正是知識工程的應有之義。因此,我們說,語義分析是知識工程建設中非常關鍵的支撐技術,是知識工程平臺的基石。



[復制 收藏
]
關于我們 | 會員服務 | 電子樣本 | 郵件營銷 | 網站地圖 | 誠聘英才 | 意見反饋
Copyright @ 2012 m.tolkopozitiv.com Inc All Rights Reserved 全球石油化工網 版權所有
京ICP證120803號 京ICP備05086866號-8 京公網安備110105018350
主站蜘蛛池模板: 三中文乱码视频| 美女大黄三级视频在线观看| 亚洲AV永久无码天堂网| 国产粉嫩白浆在线观看| 最近中文字幕在线中文视频 | 曰批免费视频播放60分钟| 欧美色图校园春色| 久久婷五月综合| 午夜DV内射一区区| 国产精品白浆在线观看无码专区| 秋霞免费乱理伦片在线观看| 亚洲小视频网站| 久久人人爽人人爽av片| 4455永久在线观免费看| 亚洲第一页综合图片自拍| 国产精品入口麻豆免费观看| 最近中文字幕高清中文字幕电影二| 91制片厂(果冻传媒)原档破解| 亚洲国产成人久久综合碰碰动漫3d| 国产桃色无码视频在线观看| 春日野结衣女女| 精品久久久久久久免费加勒比| 91av最新地址| 久久老色鬼天天综合网观看| 国产一区二区三区久久| 国自产拍亚洲免费视频| 日韩精品无码一区二区三区不卡| 精品女同一区二区三区免费站| 18av黄动漫在线观看| 中国陆超帅精瘦ktv直男少爷| 亚洲欧美精品一中文字幕| 国产一区二区精品人妖系列| 国内精品一区二区三区app | 久久国产午夜一区二区福利| 国产va免费精品观看精品| 99国产精品视频久久久久| 台湾佬在线观看| a级毛片100部免费观看| 校花的好大的奶好爽漫画| 国产乱码精品一区二区三区中 | 青娱乐在线视频观看|