《移動端智能交互命名實體標注規范》_第1頁
《移動端智能交互命名實體標注規范》_第2頁
《移動端智能交互命名實體標注規范》_第3頁
《移動端智能交互命名實體標注規范》_第4頁
《移動端智能交互命名實體標注規范》_第5頁
已閱讀5頁,還剩16頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

35.240.99

L70CES

團體標準

T/CESXXX-XXXX

移動端智能交互命名實體標注規范

MobileIntelligentInteractiveNamedEntity

AnnotationSpecification

(征求意見稿)

XXXX-XX-XX發布XXXX-XX-XX實施

1

T/CESXXXXXXX

-

1范圍

本標準規定了移動端智能交互訓練時命名實體(包括狹義和廣義命名實體)標注的基本

要求、流程和規范。

本標準適用于各單位進行移動端智能交互命名實體模型開發時的樣本標注和樣本入庫

的統一管理,包括樣本的質量管控、樣本標注的技術管控和流程管控。

2規范性引用文件

下列文件對于本文件的應用是必不可少的。凡是注日期的引用文件,僅注日期的版本適

用于本文件。凡是不注日期的引用文件,其最新版本(包括所有的修改單)適用于本文件。

GB/T5271.28—2001信息技術詞匯第28部分人工智能基本概念與專家系統

T/CESA1040—2019信息技術人工智能面向機器學習的數據標注規程

Q/GDW12118.1~12118.3—2021人工智能平臺架構及技術要求

GB/T18521—2001我國地名分類與分類代碼編制規則

2007.3.12命名實體語料標注規范

3術語和定義

下列術語和定義適用于本文件。

3.1

命名實體namedentity

1)狹義講,命名實體是唯一個體的專有名稱。狹義命名實體具備三個充要屬性。屬性

a.符號性:命名實體是一個區別性稱謂,具有代號性質;命名實體并不排除蘊含義,但蘊

含義不是命名實體的必然屬性。屬性b.個體性:命名實體所指稱的事物不可向下分類,因

為類是對群體區分的結果(但任何事物都是一個過程,都是一個和合態,所以,既可以按階

段劃分,也可以分解成部分)。屬性c.唯一性:命名實體所指稱的事物是世上獨一無二的,

通常不以數量詞修飾;一旦飾以數量詞,命名實體便轉義了。

2)廣義講,除狹義命名實體之外,命名實體還包括對一類事物的非概念性稱謂。對一

類事物的命名可劃分為概念性命名和非概念性命名兩種方式。概念性命名是通過自然語義和

構詞法來規定事物內涵的,如:月門、拱橋;非概念性命名是通過不表明事物內涵的飾詞(一

般充當命名實體飾名)來指稱一類事物的,如:“丁達爾現象,一二次設備”。廣義命名實

體一般只具備符號性,不具備個體性和唯一性。

3.2

樣本數據sampledata

其具備的特征能夠反映總體數據情況的一部分個體數據。

[Q/GDW12118.1—2021定義3.5]

3.3

標注corpusannotation

采用人工或計算機自動方式對樣本的屬性或特征進行描述,可用于實用的目的,如客戶

服務或資訊獲取等。

[Q/GDW1906—2013定義3.5]

3.4

標簽label

標識數據的特征、類別和屬性等內容,可用于建立數據及深度學習訓練要求所定義的機

器可讀數據編碼間的聯系。

[T/CESA1040—2019定義3.2]

1

T/CESXXXXXXX

-

3.5

分詞participle

將連續的字符序列切分成一個個單獨的詞。

3.6

標注工具annotationtool

標注人員執行標注任務生成標注結果的過程中使用的工具和軟件。標注工具按照自動化

程度分手動、半自動和自動三種。

[T/CESA1040—2019定義3.5]

4縮略語

下列縮略語適用于本文件。

BIOES:BIOES標注模式(B-begin,I-inside,O-outside,E-end,S-single)

JSON:JavaScript對象表示法(JavaScriptObjectNotation)

WAV:窗波(WindowsWave)

XML:可擴展的標記語言(ExtensibleMarkupLanguage)

5總則

本文件共分為樣本基本要求、樣本標注規范、標注任務流程三部分。總則內容概要參見

表1:

表1總則內容概要

序號內容概要

樣本基本要

1體現文本類樣本要求規范

樣本標注要

2包括文本類樣本詞性、關系、命名等標注規范

標注任務流根據業務需求和給出的人名、職名、地名等常見實體分類標準進行

3

程要求標注

6樣本基本要求

6.1文本文件存儲格式要求

文本數據應采用txt、csv、JSON、xls、xlsx、XML存儲格式。

6.2文本文件命名要求

文本文件名稱應由四個部分組成:

a)第一部分為項目命名詞或文本來源;

b)第二部分為當前文本文件的專業信息;

c)第三部分為原始源文件生成時的日期,日期格式:YYYY-MM-DD;

d)第四部分為文件唯一性編號,從1開始計數。

e)這四部分用下劃線連接,且文件名稱長度和擴展名在內最大長度不超過100個字符

(包含中英文字符和特殊字符);

6.3文本類樣本質量要求

文本類樣本質量應滿足下述要求:

a)應支持計算機正常讀取,文本內容無亂碼;

b)內容應滿足相關業務需求;

2

T/CESXXXXXXX

-

c)應使用UTF-8編碼。

6.4文本樣本描述文件

每批次文本樣本集應有一個描述文件,應滿足下述要求:

a)存儲格式應為txt格式;

b)命名應由三個部分組成:

1)項目命名詞或樣本來源;

2)本文件創建的日期,日期格式:YYYY-MM-DD;

3)文件唯一性編號,從1開始計數;

4)這四部分用下劃線連接,且文件名稱長度和擴展名在內最大長度不超過100個

字符(包含中英文字符和特殊字符);

c)文檔內容應描述本樣本集的基本信息,應包括樣本所屬項目、樣本來源、創建日期、

樣本上傳單位及聯系人、樣本量、樣本用途等信息。

7樣本標注要求

7.1基本要求

應滿足標注對象范圍、標注方式、標注文件命名要求。具體要求包括:

a)文本類樣本標注應支持詞、句子、整個文本等不同范圍的標注;

b)文本類樣本標注應支持序列標注、指針標注、多頭標注等多種標注方式;

c)序列標注應采用B、I、E、O、S標簽列表,宜采用BIO、BIOES標簽方案進行標注。

7.2單類詞詞性標注要求

對于單類詞,在標注時應確定其詞性。

7.3多類詞詞性標注要求

對于多類詞,應滿足多種多類詞標注規則。

7.4實體抽取樣本標注要求

實體抽取樣本標注應滿足下述要求:

a)樣本標注前應定義實體語義類型,包含實體名稱與層次結構;

b)若實體包含屬性,應定義屬性名稱與屬性值。

7.5實體關系抽取樣本標注要求

實體關系抽取應滿足下述要求:

a)樣本標注前應定義實體語義類型與關系;

b)關系定義應包含關系類型與相關實體信息,起始實體與目標實體,關系為單向或雙

向等信息。

7.6事件抽取樣本標注要求

事件抽取樣本應滿足下述要求:

a)樣本標注前應定義實體語義類型與事件類型;

b)事件抽取樣本應包含事件;

c)文本樣本應具有正確的詞性分析,事件觸發詞宜為名詞或動詞;

d)若事件具有屬性,應定義屬性名稱與屬性值。

7.7標注文件命名與存儲要求

標注文件應由兩部分組成,第一部分與對應標注文本命名一致,第二部分為“-bz”,

應保存為txt格式。

8樣本標注流程

8.1總體要求

3

T/CESXXXXXXX

-

樣本標注應包含樣本檢查、安全管控、標注工具選擇、標注任務開展、標注結果收集和

標注結果檢查環節。

8.2樣本檢查

在樣本標注前應按照本文標注樣本要求對待標注樣本進行檢查,應根據業務需求和樣本

的數量采用全量檢查或抽樣檢查,方式如下:

a)全量檢查應對指定范圍內的所有樣本進行逐條檢查;

b)抽樣檢查可采用隨機抽樣或分層抽樣,方式如下:

1)隨機抽樣,即:針對不同業務類型的數據樣本采用隨機抽樣進行檢查;

2)分層抽樣,即:針對同一業務類型的樣本數據,根據樣本類型不同采取分層抽

樣的方式進行檢查。

8.3安全管控

應滿足對標注環境及標注人員的安全管控要求。具體要求包括:

a)標注過程應在內網環境下的指定機器中進行,機器應開啟防火墻,安裝殺毒軟件,

并禁用USB接口功能。機器中的所有數據文件需定期做好數據備份,不得擅自拷貝、傳輸,

防止數據丟失或泄露;

b)標注人員應經過標注工作培訓并簽署樣本標注保密協議后才可上崗操作。

8.4標注工具

應使用滿足移動端智能交互命名實體模型開發要求的標注工具或與其格式相兼容的標

注工具進行標注。

8.5樣本標注結果收集

標注結果收集應滿足以下具體要求:

a)樣本標注結果應由統一的人員進行回收和存放,防止文件外泄;

b)標注結果收集人員應對樣本標注結果的相關信息(包括任務名稱、任務類型、任務

開始時間、任務結束時間、任務描述進行核對)進行檢查,防止文件遺漏;

c)標注結果收集人員,宜按照樣本類型(圖像視頻,語音和文字)和標注方式(圖像

標注包括圖像分類、圖像目標檢測、圖像分割;文本標注包括文本分類、文本標注;音頻標

注包括音頻分類、音頻標注)進行分類保存。

8.6樣本標注結果檢查

在樣本標注結果收集后應按照本文第7章要求對標注結果進行檢查,應根據業務需求和

樣本標注的數量采用全量檢查或抽樣檢查,方式如下:

a)全量檢查應對指定范圍內的所有樣本進行逐條檢查;

b)抽樣檢查可采用隨機抽樣或分層抽樣,方式如下:

1)隨機抽樣,即:針對不同業務類型的數據樣本采用隨機抽樣進行檢查;

2)分層抽樣,即:針對同一業務類型的樣本數據,根據樣本類型不同采取分層抽

樣的方式進行檢查。

9標注任務開展

9.1基本要求

應根據業務需求和命名實體分類進行標注。

9.2人名標注規范

9.2.1人名相關定義

狹義人名即個人專有名稱,如:李華。廣義人名指含有姓或名的個人稱謂,如:大志先

生。人名全稱:指應有的姓、名的全稱。人名簡稱,指省略了應有的姓、名構件或部分的所

4

T/CESXXXXXXX

-

有人名稱謂方式。人名擴展:與人名右緊鄰、被人名直接或間接修飾,并與人名一起表人稱

的詞或緊密短語。如:小明媽媽,居里夫人。

根據項目研究目的,可以按照人名的文字特征、稱謂方式及人的工作信息三個標準對人

名進行分類。按文字特征和稱謂方式對人名分類有助于人名自動識別。

9.2.2按文字特征對人名分類

按文字特征對人名進行分類,分為漢字人名、非漢字人名、混合人名。詳細分類見附表

A.1。

9.2.3按稱謂方式對人名分類

根據稱謂方式對人名分類可以從實語料中統計得到人的稱謂模式。人的稱謂模式是某些

稱謂構件的組合方式。現將漢字人名的常用稱謂構件歸納為17種:姓、名男、名女、性、

職、敬、昵、親、諱、序、諢、化、字、帝、譯、符、其他。詳見附表A.2。

9.2.4按職業對人名分類

根據職業對人名分類可主要依據由勞動和社會保障部、國家質量技術監督局、國家統計

局聯合組織編制、1999年5月正式頒布的《中華人民共和國職業分類大典》進行。該書將

我國職業歸為8個大類,66個中類,413個小類,1838個細類(職業),每個職業都已經

編碼。2005年新增10項職業。8個大類分別是:第一大類:國家機關、黨群組織、企業、

事業單位負責人,其中包括5個中類,16個小類,25個細類:第二大類:專業技術人員,

其中包括14個中類,115個小類,379個細類;第三大類:辦事人員和有關人員,其中包括

4個中類,12個小類,45個細類:第四大類:商業、服務業人員,其中包括8個中類,43

個小類,147個細類;第五大類:農、林、牧、漁、水利業生產人員,其中包括6個中類,

30個小類,121個細類;第六大類:生產、運輸設備操作人員及有關人員,其中包括27個

中類,195個小類,1119個細類;第七大類:軍人,其中包括1個中類,1個小類,1個細

類:第八大類:不便分類的其他從業人員,其中包括1個中類,1個小類,1個細類。在今

后使用中,可以此為母本進行適用性改造。

9.3職名標注規范

9.3.1職名定義及相關說明

職名:職務、職稱、職業、職位名稱的合稱。

職務名稱:組織機構中有職權的崗位名稱。如:教務長、處長、秘書長、主席、經理等。

職業名稱:表明所從事行業的人的職能身份名稱。如:教師、公務員、程序員、商人、

秘書、運動員等。“公司職員”、“職工”“白領”等不表明所從事行業,“商業”、“教

育”、“體育”等不表明人的職能身份,這些都不是職業名稱。

職稱名稱:有統一規范的職業級別的細分名稱。如:教授、講師、研究員等。職位名稱:

表示某機構的某個崗位的名稱。職位名規則:機構名+職務名:澗量公司總經理;或機構名+

職稱名:澗量公司研究員。

職名并不屬于命名實體范疇,雖然它能充當命名實體的構件和屬性;但由于它和命名實

體聯系密切且具有重要的情報價值,所以將職名特別地在命名實體標注中同時予以標注。

9.3.22.職名分類、構件、代碼、歸類標準、標注原則與式樣

職名可分為職業名稱、職務名稱、職稱名稱。根據各自定義,職務名稱不必須表明所從

事行業、職業,但必須標志一定的職權,如:秘書長。職業名稱則必須表明所從事行業和人

的職能,且不表明職權,如:秘書。職稱是職業的技術等級細分,與職務差別比較明顯,但

有時與職業不易區分。如:圖書館員本身既是職業名稱,又是一級職稱名稱。若不明確指出

職稱、職業與職稱同名的情況統一視為職業名稱。詳見附表A.3。

9.4地名標注規范

9.4.1地名相關定義

5

T/CESXXXXXXX

-

地名(geographicalnames):人們對各地理實體賦予的專有名稱。

標準地名(standardgeographicalnames):使用規范的語言文字書寫的地名全稱。

地名簡稱(shortenedformsofgeographicalnames):經過官方認可或約定俗成的地

名的簡單稱謂。

地名別名(aliasofgeographicalnames):某一地理實體的標準地名及其簡稱以外的

其他現行名稱。

現今地名(underusinggeographicalnames):目前正在使用的地名。

歷史地名(formergeographicalnames):過去曾經使用過、目前已不再使用的地名。

地名擴展:與地名右緊鄰、被地名直接或間接修飾,并與地名一起表處所的詞或緊密短

語。如:長江以南、李村村西小河。

9.4.2地名分類、構件、歸類標準

根據該項目研究目的,可以按照地名的文字特征、地名所指代地理實體的空間位置、地

名所指代地理實體的地理屬性、地名的使用時間、地名的表示方式五項指標作為地名類別劃

分的標準。按照文字特征對地名進行分類有助于地名的自動識別。地名所指代地理實體的地

理屬性、地名的使用時間、地名的表示方式五項指標是地名最基本、最穩定的屬性,以此作

為地名類別劃分的標準能保證分類體系的穩定性。這也是我國對地名分類所采用的標準。

按照地名所指代地理實體的空間位置、地名所指代地理實體的地理屬性、地名的使用時

間、地名的表示方式對地名進行分類可直接依據我國地名分類與分類代碼編制規則

[GB/T18521—2001]進行。其分類原則如下:A.選擇地名最基本、最穩定的屬性為分類依據,

保證分類體系的穩定性。B.以地名學、地理學的學科分類為基礎,盡可能采用相關國際、國

家、行業分類標準,充分吸收新的科研成果,體現分類體系的科學性、繼承性、兼容性。C.

在體現科學性的前提下,按地名及相關行業對地名分類的習慣,以及不同類別地名的數量和

使用頻率,在具體分類時作適當調整,提高分類體系的實用性、通俗性。D.在同一層面使用

統一的分類方法,保證分類體系的系統性、完整性。其分類方法見我國地名分類與分類代碼

編制規則[GB/T18521—2001]。

以上國家對地名的分類與編碼方法能夠將地名按照地名通名的類別聚類,在此基礎上可

以對地名專名、地名飾名進行統計分析。

9.4.3地名分類標注原則與式樣

地名內部構件可分為地名通名、地名專名和地名飾名三大類。地名通名是表示該地的地

理屬性、功能屬性、行政區劃級別、建筑類別等屬性的詞或短語。如地名中的“澗峽/瀑布/

島/澗/湖/高原/濕地/省/市/村/堡/公園/自然保護區/碑/塔/墻”等,它與我國對地名的標

準分類具有一定的對應關系。地名專名和地名飾名是含相同通名的地名命名實體的區別性構

件;其中,可作為地名簡稱而獨立運用的區別性構件稱為地名專名,如“石家莊市”;反之

稱為地名飾名,如“青縣”。

地名標注原則如下:

a.地名標注的總原則是選取有助于提高地名自動識別、自動聚類能力和檢索效率的內容

進行標注,同時為信息抽取做必要準備。

b.在不打亂原文語法關系的前提下,將與地名相關的緊湊的處所表達標注出來。

c.地名識別語料標注范圍為地名、地名擴展及旬內地名屬性。地名和地名擴展分別標注。

國家地名代碼及旬外地名屬性暫不標注。

d.地名需根據相應分類、編碼、格式對地名整體及其通名、專名、飾名進行全面標注。

e.非命名實體的地名擴展原則上不做細標。

分層整體標注原則:當兩層以上地名、組織名嵌套出現時,通常后者隸屬于前者,此

時其間隸屬關系缺省不予標注,但各層需分別標注為地名或組織機構的地名屬。

6

T/CESXXXXXXX

-

按照地名實體特征對地名通名分類結果詳見附表A.4。按照文字特征對地名專名分類結果詳

見附表A.5。按照語義關系對地名飾名分類結果詳見附表A.6。

9.5組織機構名標注規范

9.5.1組織機構名相關定義

組織機構:是按照一定的宗旨和系統建立起來的集體。主要包括機關、企事業單位、社

會團體、民辦非企業單位、國際組織及其內部機構(其他組織定義參照7)。組織一般側重

于整體指向,機構一般側重于局部指向,這點區別是相對。

組織機構名:人們給組織機構賦予的專有名稱。

標準組織機構名:使用規范的語言文字書寫的組織機構名全稱。

組織機構名簡稱:經過官方認可或約定俗成的組織機構名的簡單稱謂。

組織機構別名:某一組織機構的標準組織機構名及其簡稱以外的其他現行名稱。現今組

織機構名:目前正在使用的組織機構名。

歷史組織機構名:過去曾經使用過、目前已不再使用的組織機構名。

組織機構名擴展:與組織機構名右緊鄰、被組織機構名直接或間接修飾,并與組織機構

名一起表組織機構的詞或短語。如:寶鋼銷售部門。

9.5.2組織機構名構件分類、歸類標準及其標注式樣

組織機構名內部構件可分為組織機構通名、組織機構專名和組織機構飾名三大類。組織

機構通名是表示該組織機構類型的構件,如組織機構名中的“公司/集團有限公司/大學/政

府/養老院/聯合會/局”等,它與組織機構按功能屬性分類的結果具有一定的對應關系。組

織機構專名和組織機構飾名是含有相同通名的組織機構命名實體的區別性構件。其中,可作

為組織機構的簡稱而獨立運用的區別性構件成為組織機構專名。如:國家電網有限公司、清

華大學。反之稱為組織機構飾名,是組織機構名中通名、專名以外的語詞構件。如“北京大

學”。

組織機構通名可按照組織機構類型分類,詳見附表A.7。

組織機構專名可按照其文字特征分類,詳見附表A.8。

組織機構飾名可按語義功能分類,詳見附表A.9。

9.5.3組織機構標注原則

a.組織機構名標注的總原則是選取有助于提高組織機構名自動識別、自動聚類能力和檢

索效率的內容進行標注,同時為信息抽取做必要準備。

b.在不打亂原文語法關系的前提下,將緊鄰織機構名且表組織機構的文字標注出來。

c.組織機構名識別語料標注范圍為組織機構名、組織機構名擴展及旬內組織機構名屬

性。組織機構名和組織機構名擴展分別標注。旬外組織機構屬性暫不標注。

d.組織機構名需根據相應分類、編碼、格式對組織機構名整體及其通名、專名、飾名進

行全面標注。

e.非命名實體的組織機構名擴展原則上不做細標。

f.分層整體標注原則:

1.當兩層以上組織機構名嵌套出現時,通常后者隸屬于前者,此時其間隸屬關系缺

省不予標注,但各層需分別標注為組織機構名。

2.通名不能作為一級機構整體標注,必須與其前一級機構進行整體標注。參見組織

機構名通名分類編碼使用規則。

g.組織機構名簡稱、別稱及歷史組織機構名部分分別整體標注,組織機構名簡稱、別稱

內部暫不作細標,歷史組織機構名內部細標。現今組織機構名、組織機構名全稱缺省不標。

h.組織機構名作為其他命名實體構件時,將每層組織機構名整體標注為構件,內部不細

標。

7

T/CESXXXXXXX

-

i.當其他命名實體充當組織機構名構件時,對該命名實體整體標注,內部不細標。

j.當旬中使用的是組織機構名的組織機構屬性時,該屬性缺省不標。

k.兩標原則:當組織機構飾名中的部分與其后組織機構通名構成最小指稱、甚至詞典詞

時:

1.如果構成的是詞典詞,則該詞典詞標為通名,將其前內容標注為組織機構飾名即

可。該類詞典詞代日后對詞典進行深化標注時統一處理。

2.如果構成的是最小指稱,則將該組織機構飾名按照最小指稱的分割位置分標成兩

部分,組織機構通名與最小指稱照常標注。

9.6產品名標注規范

9.6.1產品名相關定義

產品名:狹義產品名是指作為貨物(可運輸產品)、服務及資產(不可運輸產品)名稱的

狹義命名實體。如:司母戊方鼎。廣義產品名是指含有產品專名或品牌、商標、規格等標志

性產品飾名的一類貨物(可運輸產品)、服務及資產(不可運輸產品)的專有名稱(有些產

品、商品、服務的名稱本身就是品牌)。

對于產品的貨物、資產和服務三大門類十大部類,我們為所有產品設立產品公共屬性,

為每個產品門類設立門類屬性,為每個產品部類設立部類屬性,為產品部類下設的各類產品

設立產品種類屬性。產品公共屬性是指所有產品通常都具備的產品屬性,產品門類屬性是指

該門類產品通常都具備的公共屬性之外的產品屬性;產品部類屬性是指該部類產品通常都具

備的公共屬性和門類屬性之外的產品屬性;產品種類屬性是指該類產品所具備的公共屬性、

門類屬性和部類屬性制外的產品屬性。

9.6.2貨物飾名分類、歸類標準及其標注式樣

貨物飾名是指貨物專名中修飾貨物通名的詞或短語。詳見附表A.10。

9.7品牌標注規范

“品牌”不是商標,更不是產品,是企業或品牌主體(包括城市、個人等)一切無形資

產總和的全息濃縮,而“這一濃縮”又可以以特定的“符號”來識別;它是主體與客體,主

體與社會,企業與消費者相互作用的產物。

品牌符號是區別產品或服務的基本手段,包括名稱、標志、基本色、口號、象征物、代

言人、包裝等。這些識別元素形成一個有機結構,對消費者施加影響。它是形成品牌概念的

基礎,成功的品牌符號是公司的重要資產,在品牌與消費者的互動中發揮作用。

在命名實體標注研究中,品牌能夠作為處理對象的只能是品牌符號,而且只能是品牌符

號中的名稱、口號、代言人,更實際地講,只是名稱。而組織機構名是作為獨立的命名實體

進行標注,商標名本身很少單獨出現,多數是出現在產品名中,這樣在產品名中商標已經被

標注了。如果仍嫌不足,可以將商標獨立作為標注對象。

9.8事件標注規范

9.8.1事件相關概念

事件名:主述結構的,文字連續的短語或旬子。事件名具有嵌套性。

主語:具體事物,人/動物/植物/自然物及其部件:大熊貓贈港,豬肉漲價等。

機構團體:政府采購流標公司狀告財政部一審勝訴,澳大利亞向中國移交沒收的吉林疑

犯贓款。注:不一定是命名實體,即人名/地名/組織機構名

述語:動詞及其組成部分。

事件動詞:在語義上表示動態行為的動詞,包括下述13類:

1變化(change):死病下降長高縮小變暗

8

T/CESXXXXXXX

-

2氣象(weather):下雨刮風打雷起霧

3身體活動(bodilycareandfunctions):蹬跳推笑咳嗽游泳

4五官感覺(perception):看見聽到聞著品嘗

5消耗(consumption):吃喝飲

6位移(motion):跑走散步飛過來回去拉來

7創造(creation):制作畫炒寫創建修筑

8接觸(contact):觸摸撞擊打中系挖掘

9領屬轉移(possession):買賣贈送給轉讓借

10信息交流(communication):告訴詢問請求轉達叮囑說

11比賽(competition):競賽賽跑打仗摔跤辯論

12社會活動(socialbehavior):改革調價開會聯歡

13其他行為(otherevent)

9.8.2事件的命名方式

考慮字長的原因,事件不一定由事件名來命名。

命名方式:用文中一組強文本表示功能的詞或短語來表示事件。

{參與者,事件動詞,(時間),(地點),(子事件)}

{Participants,EventVerb,(Time),(Location),(sub-event)}

Participants:事件的參與者。名詞和基本名詞短語。

Event

Verb:表示動態行為的動詞

Time:事件發生的時間

Location:事件發生的地點

9.9時間結構標注規范

9.9.1時間結構相關定義

時間結構:用紀時法(廣義)紀錄時間的完整實詞短語。具有四個特征:1.時序性:所

表時間具有指定性,指定該時間在時間之流中的位置;2.規范性:通過通用、規范的紀時法

表達時間,而不是通過一般敘事來表達時間;3.實詞短語型:是不包含虛詞的短語;4.完整

性:是文中完整的時間表達。

紀時法:紀年法、紀月法、紀日法、紀時法(狹義)等紀錄時間的系統、規范的方法。

時間結構與時間性數量結構的區別:時間性數量結構是表達時間長短的數量結構。時間

結構所表時間具有指定性,即指定該時間在時間之流中的位置,而時間性數量結構表達時間

不具有指定性,僅表示時間長短。如:3個月、兩星期。

時間結構與時間詞的區別:時間詞是一個實詞,時間結構是一個實詞短語。

9.9.2時間結構分類及歸類標準

根據表達時間的特定程度,時間結構可分為絕對時間結構和相對時間結構。絕對時間結

構是表絕對時間的時間結構。如:2007年、2007年5月5日凌晨1點。相對時間結構是表

相對時間的時間結構。該短語或者缺省絕對時間的限制,如:9點50分、5月5日;或者以

相對時間代替絕對時間表達時間限制,如:當年5月、本月12日。

時間結構根據表達形式可分為五類:1.單點敘述式;2.單點符號式;3.起止敘述式;4.

起止符號式;5.多點縮略式。詳見附表A.11。

9.9.3時間結構構件分類及其標注式樣

時間結構構件分類及其標注式樣詳見附表A.12。

9.10數量結構標注規范

9

T/CESXXXXXXX

-

9.10.1數量結構相關定義

數量結構:指形式完整的數量短語或含名數量短語。如:八九個人。

含數量短語:包含了被修飾核心名詞的完整數量短語。如:20個人出頭。

數詞:表示事物的數目或順序的詞。如:一、第一、-1.5。

量詞:表示事物、動作或時空計量單位的詞。如:個、位。

9.10.2數詞細分與示例

根據數詞的構成特點及其與量詞的搭配特點,將其分為三類:單純數詞、兼量數詞、復

合數詞。復合數詞是由兩個以上相鄰的單純數詞構成的完整數詞短語。數詞細分結果詳見附

表A.13。

9.10.3數量結構分類

根據數量結構的構成特征,將數量結構分為定指數量結構(表確定值的完整數量結構)、

概指數量結構(表不確定值的完整數量結構)和含名數量結構(包含了被修飾核心名詞的完

整數量結構)三類。詳見附表A.14。

9.11數碼標注規范

9.11.1數碼定義

數碼是根據統一編制規則產生的,由數字(必備)輔以字母、符號、漢字等組成的,表

達數字以外含義的代碼。

數碼與數詞的根本差別在于數碼具有數字以外的含義或所指,可指人、指物、指事等,

是一種代碼。如身份證號、學號、單位代碼、電話號碼、專利號碼、國家標準號碼、圖書

ISBN號碼、期刊ISSN號碼等都是數碼。

9.11.2數碼的分類

根據數碼與其他命名實體間的構成關系,數碼可分為兩類。一類是數碼本身就是其他命

名實體或其構件(專名、飾名或通名),例如,數碼指人的化名,如:007;指組織,如91765

(部隊番號);指地點,如:798;指產品,如101;指時間,如:2007-05-01。我們將這

類充當其他命名實體或其構件的數碼稱為別名數碼。

另一類數碼稱為獨立數碼,是與其他命名實體不具有構成關系的數碼。獨立數碼包括很

多種類,如身份證號、學號、單位代碼、電話號碼、專利號碼、國家標準號碼、圖書ISBN號

碼、期刊ISSN號碼等。我們將根據具體應用需求來設定我們要標注的獨立代碼種類。

根據編制規則,典型獨立數碼的種類有以下三種:

1.順序碼:又稱系列碼,是一種用連續數字代表編碼對象的碼,例如,用1代表男性,

2代表女性。

2.區間碼:區間碼是把整個編碼分成多個分組,形成多個區間,每個區間是一組,每組

的碼值和位置都代表一定意義。典型的區間碼是郵政編碼。區間碼又可分為以下三種類型:

a)多面碼。一個數據項可能具有多方面的特性。如果在碼的結構中,為這些特性各

規定一個位置,就形成多面碼。

b)上下關聯區間碼。上下關聯區間碼由兒個意義上相互有關的區間碼組成,其結構

一般由左向由排列。

c)十進制碼。此法相當于圖書分類中沿用已久的十進制分類碼,它是由上下關聯區

間碼發展而成的。如610.736,小數點左邊的數字組合代表主要分類,小數點右邊的指

出子分類。

3.自檢碼:由原來的代碼(本體部分)和一個附加碼組成。附加碼用來檢查代碼的錄入

和轉錄過程中是否有差錯,附加碼又叫校驗碼,它和代碼本體部分有某種唯一的關系,它是

通過一定的數學算法得到的。

9.11.3數碼標注規則

10

T/CESXXXXXXX

-

1)別名數碼依據各類命名實體的標注規范進行標注。

2)獨立數碼進行整體標注,基本標注代碼為:ma。對于未被列入標注范圍的獨立代碼,

均不予以標注。

3)當獨立代碼充當其他命名實體屬性或與其他命名實體發生關系時,按照各自的標注范

式進行標注。

11

T/CESXXXXXXX

-

附錄A

(資料性附錄)

表A.1按文字特征人名分類表

類名定義歸類標準標注示例備注

漢族、回族人

含外國

姓名以漢語語義命的漢名及其

漢語人名[陳輝]人取的

名的人名。他漢語漢字

中文名

人名。

含化名構件的漢語

漢語化名依定義。[白玫瑰小姐]

漢字人名。

超自然的漢語人物

漢語虛擬人名依定義。[孫悟空]

專名。

包括新加坡、

姓名符合漢字方式越南、朝鮮、

類漢語人名[李惠利]

漢字人名的外國人名。韓國的非音

譯漢字人名。

少數民族漢字人

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論