文件編碼組織 文件編碼交換格式指引 選錄版
TEI Lite: An Introduction to Text Encoding for Interchange


11. 名稱、日期、數字及縮寫

TEI架構中定義了標誌「具資料性」特性的元素,它們可能出現在任何文件的任何位置。這些特性在某些原則之下特別令人感興趣:它們與文本之外的物件相關,例如:人名、地名、數字及日期。在許多自然語言處理的應用中它們造成特別的問題,因為在文件中它們會以各種不同方式的表現。本章節所描述的元素,是為了使這些特質更為明確,以降低包含這些特性的文本在處理時的複雜度。

11.1. 名稱與關聯字串

關聯字串,是一個關係到某人、某地、某物的詞彙。可使用以下兩個元素來標誌這類的字串:

<關聯字串>/<rs>
標誌一般性質的名稱或是關聯字串。屬性包括:
類型/type
標示關聯字串所指的特殊物件。屬性值可為人物、地點、船舶、元素等。
 
<名稱>/<name>
標誌一個正式的名稱或名詞片語。屬性包括:
類型/type
標示由詞彙名命的物件的類型。

屬性類型(type)用來分辨名稱屬於(例如)人名、地名、組織名或是其他可能者:


<引句>我親愛的<關聯字串 類型="人物">班奈特先生</關聯字串>,</引句>有一
天他的妻子跟他說,<引句>你聽說了嗎<關聯字串 類型="地點">尼特菲爾德園
</關聯字串>終於租出去了? </引句>


這是<關聯字串 類型="機構">債務辦公室</關聯字串>的原則之一,絕不,任何客
戶都一樣,給簡單明瞭的答案,<關聯字串 類型="人物">巴納可先生</關聯字串>
說,<引句>或許吧。</引句>

下例顯示,元素<關聯字串>(<rs>)可作為任何與人、地及其他種類的參考,且不必為正式的名稱或是片語。


<引句>我親愛的<關聯字串 類型="人物">班奈特先生</關聯字串>,</引句>有一
天<關聯字串 類型="人物">他的妻子</關聯字串>跟他說…

相對於元素<關聯字串>(<rs>),元素<名稱>(<name>)為關聯字串中的特殊狀況,僅供正式名稱使用。可視為與元素<關聯字串>(<rs>)同義,或是在關聯字串包含正式名稱的混用狀況中,在元素<關聯字串>(<rs>)內層使用。

簡單地將某些東西標誌成名稱,通常並不足自動處理以全名為參考檢索詞的人名。出現在文本中的人名,或許拼字不全、僅含部分或是曖昧模糊。甚至人名的前置詞如「van」或「de la」,頭銜的來源可能因語言及國家的不同,未被納入人名的參考格式中。

下列屬性可以在上述兩個或是其他類似的元素中使用,來協助克服類似的困擾:

其他識別/key
為已命名過的物件提供另一組識別代碼,如資料庫中的資料鍵。
 
採用格式/reg
為使用名稱提供標準或規範的格式。

屬性其他識別(key)相當有用,可整合四散在整個文獻中所有指向同一人或同一地的參考點:


<引句>我親愛的<關聯字串 類型="人物" 其他識別="BENM1">班奈特先生</關聯字串>,
</引句>有一天<關聯字串 類型="人物" 其他識別="BENM2">他的妻子</關聯字串>跟他
說,<引句>你聽說了嗎<關聯字串 類型="地點" 其他識別="NETP1">尼特菲爾德園</關
聯字串>終於租出去了? </引句>

這種用法與屬性採用格式(reg)有所區別,屬性採用格式(reg)提供關聯字串的標準格式的義意,如例下所示:


<名稱> 類型="人物" 其他識別="WADLM1" 採用格式="德•拉•馬瑞,華爾特>華爾特•
德•拉•馬瑞</名稱> 1837年生於<名稱> 其他識別="KT1" 類型="國家">肯特</名稱>
的<名稱> 其他識別="Ch1" 類型="地點">查爾頓</名稱>。

使用名稱與日期的附加標誌集,可以標誌更多正式名稱組件的細節。

11.2. 日期與時間

標誌更多日期與時間細節的標誌包含:

<日期>/<date>
標誌任何格式的日期,屬性包括:
曆法系統/calendar
標示日期使用的曆法系統
標準格式值/value
為日期賦與某種標準格式值,通常使用yyyy-mm-dd。
 
<時間>/<time>
標誌定義一天之內時間的詞彙。屬性包括:
標準格式值/value
為時間賦與某種標準格式值。

屬性標準格式值(value)的值可使用經認證的格式,如ISO 8601,來規格化日期或時間的標準格式。不完整的日期或時間(如1990、1990年9月、12日),通常可以簡單的略去未使用到的部分,不明確的日期與時間(例如:早秋、十點到十二點之間)可以日期或時間的間距的來表現。如果日期的結束或是時間的間距難以確認(例如,1230年前的某一時間、萬聖節後幾日),可使用屬性確定(exact)來說明。

範例:


<日期 標準格式值="1980-02-21">1980年2月21日</日期>
<日期 標準格式值="1990">1990</日期>
<日期 標準格式值="1990-09">1990年9月</日期>


於<日期 標準格式值="1977-06-12">(史丹佛)大學第八十六週年、美國建國
二百零一年,耶穌基督一千九百七十七年,六月的第二十一日</日期>授證。


<詩行>特別是在距午夜零時還有九個鐘點</詩行>
<詩行>與<時間 標準格式值="15:00">下午的三點</時間></詩行>

11.3. 數字

數字可以正體或位數表現(二十一、xxi、21),且這些數字的表現方式與使用的語言有關(例如:英文的5th,希臘文寫成5.;英文的123,456.78,法文寫成123.456,78)。在自然語言或機器翻譯的應用上,將文件中的數字與其他較「字彙的」部分區分開來相當有用。在其他應用上,用標準數記法記錄數值的能力很重要。元素<數字>(<num>)提供的用法:

<數字>/<num>
標誌數字,不論其書寫形式。屬性包括:
類型/type
標示數值的類型,建議的屬性值包括:分數(fraction)、序數(ordinal,例如,第二十一)、百分比(percentage)、基數(cardinal,實數,例如21、21.5等)
標準格式值/value
以應用的標準格式說明數字的值。

範例


<數字標準格式值="33">xxxiii</數字>
<數字 類型="基數" 標準格式值="21">二十一</數字>
<數字 類型="百分比" 標準格式值="10">百分之十</數字>
<數字 類型="百分比" 標準格式值="10">10%</數字>
<數字 類型="序數" 標準格式值="5">第五</數字>

11.4. 縮寫與全稱

就像名稱、日期及數字,縮寫也可以轉錄它的狀態或是全稱,縮寫可以不處理,或是以下列的元素來標誌:

<縮寫>/<abbr>
標誌任何形態的縮寫。屬性包括:
全稱/expan
標示縮寫的全稱
類型/type
允許編碼者以方便的類別為縮寫分類。簡單的屬性值包含:合併、刪節、圖略、及頭縮字。屬性類型(type)的值也可以使用標頭、圖形、組織等,描述物件所指的本質。

元素<縮寫>(<abbr>)是分辨半字彙的項目的義意時很有用的方式,例如頭縮字或專業術語:


上述的討論可歸結如下:<縮寫>CC</縮寫>的識別由口徑定義,它激發每一個元素
<縮寫>GSP</縮寫>的頻譜。每一個<縮寫>3GL</縮寫>或 <縮寫>4GL</縮寫>製造者
的目前的標記訂在<縮寫>OOP</縮寫>的擴大部分。

屬性類型(type)也可以功能來區分縮寫字的類型,屬性全稱(expan)可以用來說明全稱:


<名稱><縮寫 類型="頭銜" 全稱="Doctor">Dr.</縮寫><縮寫 類型="簡寫" 
全稱="Marilyn">M.</縮寫>Deegan</名稱>is the Director of the<縮寫 
全稱="Computers in Teaching Initiative" 類型="頭縮字">CTI</縮寫> 
Centre for Textual Studies.

本元素在轉錄經常出現縮寫字的手稿資料時特別有用。

11.5. 地址

元素<地址>(<address>)用來標誌各種郵寄的地址。內含一或多個<地址行>(<addrLine>)元素,以標示每一行地址。

<地址>/<address>
標誌郵寄或其他種類的地址,例如,出版商地址、機構地址、個人地址。
 
<地址行>/<addrLine>
標誌地址中的一行。

以下為簡單的範例:


<地址>
<地址行>Computer Center (M/C 135)</地址行>
<地址行>1940 W. Taylor, Room 124</地址行>
<地址行>Chicago, IL 60612-7352</地址行>
<地址行>U.S.A.</地址行>
</地址>

地址中的個別部分,可以更進一步以之前所討論的的元素<名稱>(章節「11.1. 名稱與關聯字串」)來區分。


<地址>
<地址行>Computer Center (M/C 135)</地址行>
<地址行>1940 W. Taylor, Room 124</地址行>
<地址行><名稱> 類型="城市">Chicago</名稱>, IL 60612-7352</地址行>
<地址行><名稱> 類型="國家">USA</名稱></地址行>
</地址>

上一章 回到目次 下一章


譯自TEI官方網站的TEI Lite網頁:http://www.tei-c.org/Lite/
網頁內容未經任何校訂,恐有疏漏,請勿任意轉載引用
若有任何疏漏及錯誤之處,歡迎來信指正:sofia@gate.sinica.edu.tw