語義分析技術(shù):知識工程平臺的基石

[加入收藏][字號: ] [時間:2014-03-03  來源:全球石油化工網(wǎng)  關(guān)注度:0]
摘要:   摘要:知識工程旨在面向企業(yè)業(yè)務應用需求,通過一系列以知識為對象的工程實踐達到海量信息中的知識挖掘、知識的高效組織應用。其中知識的表示,以及如何大規(guī)模地獲取知識是支撐其目標達成的關(guān)鍵技術(shù),也是技術(shù)難點。而語義分析為知識的獲取和應用提...

  摘要:知識工程旨在面向企業(yè)業(yè)務應用需求,通過一系列以知識為對象的工程實踐達到海量信息中的知識挖掘、知識的高效組織應用。其中知識的表示,以及如何大規(guī)模地獲取知識是支撐其目標達成的關(guān)鍵技術(shù),也是技術(shù)難點。而語義分析為知識的獲取和應用提供了一種有效的方法和手段。

 

  從企業(yè)層面講,企業(yè)開展知識工程建設旨在面向企業(yè)業(yè)務應用需求,通過一系列以知識為對象的工程實踐達到海量信息中的知識挖掘、知識的高效組織應用。主要包括三大要素:知識獲取、知識組織表示和知識應用。想要獲取知識和實現(xiàn)知識的應用,首先要知道知識長什么樣,當前主要的知識表示形式為一個包含多種不同類型的結(jié)點和邊的知識圖以及圖結(jié)點之間的關(guān)系集合。那么如何獲得這個結(jié)點以及如何獲得這個邊(關(guān)系)就是知識獲取所要做的工作。



圖1 知識圖示例
 

  當前知識獲取主要有三種方式:非自動知識獲取、知識抽取、機器學習知識。非自動知識獲取常采用直接編輯知識、利用大眾智慧等手段,效率較低,無法應用于大規(guī)模的知識獲取;完全機器學習的難度較大;知識抽取是目前最有效的方式。

 

  所謂知識抽取,指的是通過對文本資料進行內(nèi)容分析處理,對蘊含于文本中的知識進行識別、理解和篩選,抽取出每個知識點,并以一定的形式存入知識庫中。那么如何通過對文本資料進行內(nèi)容分析從而達到識別并抽取出知識的目的呢?語義分析就是有效的手段和方法。

 

  語義,又稱語意,指的是話語所包含的意義,在計算機科學領(lǐng)域,可以稱之為數(shù)據(jù)對應現(xiàn)實世界中事物所代表概念的含義。簡單來說,語義分析的根本目的是為了讓計算機理解自然語言,一旦計算機擁有了這種能力,就可以從文本信息中識別并抽取出知識。

 

  對于特定領(lǐng)域來說,完全句法分析和深入的語義理解一方面在技術(shù)上還達不到,而且也是沒有必要的。只要從輸入的文本中抽取關(guān)注的信息,填寫在預定義好的模板的屬性槽中,即可完成特定領(lǐng)域文本的知識抽取的第一步。

 

  如這段文字:2005年11月1日,周杰倫發(fā)行了第六張國語專輯《十一月的蕭邦》,包含了《夜曲》、《發(fā)如雪》等十二首動聽的歌,大家可以在專輯當中,嗅出他潛藏的浪漫古典因子。



圖2 主體與事件抽取示例    

 

  圖2就是典型的通過主體和事件將這段文字轉(zhuǎn)化為一張圖的例子,其中主體是指某種具體事物的個體或集合體,事件是指與主體所施行的或主體被施加的動作、過程等等。如前所說,這只是知識抽取的第一步,如果只停留在這個層面,我們只能稱之為信息抽取,而非知識抽取。將N篇這樣的文章進行信息抽取處理,然后建立它們之間的關(guān)聯(lián),形成一個網(wǎng)絡。以新聞為例,經(jīng)過抽取和管理,我們可以看到某個地點發(fā)生的各類新聞,發(fā)現(xiàn)在某個人物身上的各類新聞,甚至于可以抽取到兩個新聞之間內(nèi)在的關(guān)聯(lián)(比如這兩個新聞所述對象是某某關(guān)系)等等,而這些可以稱之為關(guān)聯(lián)類的知識。

 

  目前,這種基于語義的半自動抽取技術(shù)在特定產(chǎn)業(yè)領(lǐng)域商業(yè)化、工程化應用較少,這是因為如果想獲得高質(zhì)量的語言分析結(jié)構(gòu),就需要構(gòu)建面向特定領(lǐng)域的成熟語料。

 

  北京億維訊科技有限公司依托基于語義的知識抽取技術(shù)及其知識工程平臺在石化等特定領(lǐng)域的應用,是目前為數(shù)不多的領(lǐng)域化應用。億維訊將“業(yè)務對象”和“業(yè)務主題”作為文本中的抽取點,編寫該產(chǎn)業(yè)領(lǐng)域不同知識類型的知識模板框架,在文本分析挖掘時首先進行知識類別識別,根據(jù)類別調(diào)用相應的框架。圖3為從億維訊知識工程軟件界面中截取的方法類知識模板,其中摘要是半自動提取,關(guān)鍵詞、分類、業(yè)務主題、知識來源、提供者等為自動提取。據(jù)了解,目前億維訊正在設計更加細化、具有針對性的可配置摘要,即形成摘要的模板框架。

 

  通過將知識模板中知識的相關(guān)屬性進行關(guān)聯(lián),則可以構(gòu)建關(guān)于某一特定業(yè)務主題或其它屬性的知識網(wǎng)絡。



圖3 知識模板示例
 

  將語義分析落實到大量的具體的篇章文本上,形成熟語料庫,其中包括詞匯級別的義素、語義特征的標注、實體標注,句子級別的語義角色標注,還有語法句法范圍的詞性標注、句法功能標注等等。我們可以想象,當大量文章(一般來說至少100萬字的量級)進行了這樣的標注后,我們需要什么知識,就可以從中抽取出一些信息后進行加工和關(guān)聯(lián)而得到。在未來,或者說已經(jīng)有人在做,當標注好的熟語料已經(jīng)達到一定量級,我們甚至可以通過機器學習的方式對其他未標注的文章進行自動標注,那么也就實現(xiàn)了自然語言計算機自動處理的最終目標,也就解決了知識自動獲取的難題。

 

  不僅如此,基于語義的知識獲取與表示因為使知識具有了良好定義的語法和語義,所以有充分的表達能力,能清晰的表達有關(guān)領(lǐng)域的各種知識;便于有效的檢索和共享;容易管理,易于維護知識庫的完整性和一致性。而這些正是知識工程的應有之義。因此,我們說,語義分析是知識工程建設中非常關(guān)鍵的支撐技術(shù),是知識工程平臺的基石。



          您的分享是我們前進最大的動力,謝謝!
關(guān)于我們 | 會員服務 | 電子樣本 | 郵件營銷 | 網(wǎng)站地圖 | 誠聘英才 | 意見反饋
Copyright @ 2012 m.tolkopozitiv.com Inc All Rights Reserved 全球石油化工網(wǎng) 版權(quán)所有
京ICP證120803號 京ICP備05086866號-8 京公網(wǎng)安備110105018350
主站蜘蛛池模板: 亚洲AV无码国产精品永久一区| 免费一级毛片在线播放傲雪网| heyzo亚洲精品日韩| 欧美另类精品xxxx人妖换性| 国产人妖在线观看| se94se欧美综合色| 欢愉电影完整版免费观看中字 | 国产高清在线看| 久久精品成人欧美大片免费| 精品一区二区三区免费毛片爱| 国产真实乱人偷精品| 中国高清xvideossex| 欧美日韩一区二区在线视频| 国产一区日韩二区欧美三区| 中文字幕日韩一区二区三区不卡 | 精品无码中出一区二区| 国产高清在线免费视频| 久久人人爽人人爽人人片av不| 狠狠躁夜夜人人爽天96 | 久久精品中文字幕无码绿巨人| 男人边摸边吃奶边做下面| 国产女人和拘做受视频免费| chinese中国农村夫tube| 日韩欧美亚洲综合| 作者不详不要…用力呢| 香港黄色碟片黄色碟片| 大陆年轻帅小伙飞机gay| 久久精品中文字幕| 毛片a级三毛片免费播放| 国产l精品国产亚洲区在线观看| 2023av在线播放| 性做久久久久久久| 亚洲AV无码成人网站在线观看| 白嫩极品小受挨cgv| 国产在线乱码在线视频| 99re热视频这里只精品| 插我舔内射18免费视频| 五月天色婷婷综合| 污网站在线观看| 农村妇女色又黄一级毛片不卡| 亚洲av成人片在线观看|