TEI Lite 中文譯稿

文件編碼組織 後設資料標誌集 選錄版
TEI Lite


11. 名稱、日期、數字及縮寫

TEI架構中定義了標誌「具資料性」細節的元素,這些「資料性」的細節可在任何文件的任何位置中出現。這些細節的認定有幾種原則:與文本之外的客體相關,例如:人名、地名、數字及日期。這些細節在許多自然語言處理的應用中也造成相當的問題,因為在文件中這些細節有各種不同的表現方式。本章節所描述的元素,是為了更這些細節的特質更為明確,以降低處理包含這些細節的文本的複雜度。

 

11.1. 名稱與關聯字串

關聯字串,是一個關係到某人、某地、某物的詞彙。可使用以下兩個元素來標誌關聯字串:

<關聯字串>/<rs>
標誌一個具一般目的性質的名稱或是關聯字串。屬性包括:
類型/type
關聯到的客體較為特殊時使用。屬性或可為人物、地點、船舶、元素等。
 
<名稱>/<name>
標誌一個正式的名稱或詞組。屬性包括:
類型/type
標示由詞彙名命的客體的類型。

屬性類型(type)用來確認這些名稱是屬於(例如)人物、地點、組織或是其他可能的類型:

<q>My dear <rs type="person">Mr. Bennet</rs>, </q>
said his lady to him one day, <q>have you heard
that <rs type="place">Netherfield Park</rs> is let
at last?</q>

It being one of the principles of the
<rs type="organization">Circumlocution Office</rs> never,
on any account whatsoever, to give a straightforward answer,
<rs type="person">Mr Barnacle</rs> said, <q>Possibly.</q>

下例說明,元素<關聯字串>(<rs>)可用來標誌任何與人、地及其他種類的關聯,被標誌的字串不需要是正式的名稱或是詞組。

<q>My dear <rs type="person">Mr. Bennet</rs>,</q>
said <rs type="person">his lady</rs> to him
one day...

相對於元素<關聯字串>(<rs>),元素<名稱>(<name>)僅供正式名稱使用,正式名稱可視為關聯字串中的特別狀況,可視為與元素<關聯字串>(<rs>)同義,或是在關聯字串包含正式名稱的混用狀況中,在元素<關聯字串>(<rs>)內層使用。

由於人名通常是以全名來查檢的,只簡單地將某些東西標誌成名稱,通常並不足以應付以參考為目的的自動處理。出現在文本中的名稱,或許拼字不全、僅含部分或是曖昧模糊。甚至人名的前置詞如「van」或「de la」,頭銜的來源可能因語言及國家的不同,未被納入人名的參考格式中。

下列屬性可以在上述兩個或是其他類似的元素中使用,以克服這類的困擾:

其他識別/key
為已命名過的客體提供另一組識別,如資料庫中的資料鍵。
 
採用格式/reg
標示名稱使用的統一或一般格式。

以屬性其他識別(key)相當有用,可以聚合四散在整個文獻中所有指向同一人物或同一地點的參考位置:

  <q>My dear <rs type="person" key="BENM1">Mr. Bennet</rs>,
  </q> said <rs type="person" key="BENM2">his lady</rs>
  to him one day, <q>have you heard that
  <rs type="place" key="NETP1">Netherfield Park</rs>
  is let at last?</q>

屬性採用格式(reg)的使用場合與屬性其他識別(key)不同,屬性採用格式(reg)(指定)可用來標示關聯字串的標準格式,如例下所示:

  <name type="person" key="WADLM1" reg="de la Mare, Walter">
     Walter de la Mare</name> was born at
  <name key="Ch1" type="place">Charlton</name>, in
  <name key="KT1" type="county">Kent</name>, in 1873.

可以使用名稱與日期的附加標誌集,標誌更多正式名稱組件的細節。

 

11.2. 日期與時間

可標準更多日期與時間的細節的標誌包含:

<日期>/<date>
標誌任何格式的日期,屬性包括:
曆法系統/calendar
標示日期使用的曆法系統
標準格式值/value
屬性值為某種日期的標準格式,通常使用yyyy-mm-dd的格式。
 
<時間>/<time>
標誌以任何格式定義一日以內時間的詞彙。屬性包括:
標準格式值/value
屬性值為時間的標準格式。

屬性標準格式值(value)的值可使用經認可的格式,如ISO 8601,來特化日期或時間的標準格式。不完整的日期或時間(如1990、1990年9月、12日),通常可以簡易的略去未使用到的部分,不明確的日期與時間(例如:早秋、十點到十二點之間)可以日期或時間的間距的來現。如果日期的結束或是時間的間距難以確認(例如1230年之前的某一時間、萬聖節後幾日),可使用屬性確定(exact)來說明。

範例:

<date value="1980-02-21">21 Feb 1980</date>
<date value="1990">1990</date>
<date value="1990-09">September 1990</date>

Given on the <date value="1977-06-12">Twelfth Day of June
in the Year of Our Lord One Thousand Nine Hundred and
Seventy-seven of the Republic the Two Hundredth and first
and of the University the Eighty-Sixth.</date>

<l>specially when it's nine below zero</l>
<l>and <time value="15:00">three o'clock in the
       afternoon</time></l>

 

11.3. 數字

數字可以正體或位數表現(二十一、xxi、21),且這些數字的表現方式與使用的語言有關(例如:英文的5th,希臘文寫成5.;英文的123,456.78,法文寫成123.456,78)。在自然語言或機器翻譯的應用上,將文件中的數字與其他較「字彙的」部分區分開來相當有用。在其他應用上,在標準數記數法下區分數值的的能力也相當重要。元素<數字>(<num>)提供的用法:

<數字>/<num>
標誌個被記載的數字,不論形式。屬性包括:
類型/type
標示數值的類型,建議的屬性值包括:分數、序數(例如,第二十一)、百分比、基數(實數,例如21、21.5等)。
標準格式值/value
以應用的標準格式補充說明數字的值。

範例

<num value="33">xxxiii</num>
<num type="cardinal" value="21">twenty-one</num>
<num type="percentage" value="10">ten percent</num>
<num type="percentage" value="10">10%</num>
<num type="ordinal" value="5">5th</num>

 

11.4. 縮寫與全稱

就像名稱、日期及數字,縮寫也可以被標誌其狀態或是全稱,縮寫可以不處理,或是以下列的元素來標誌:

<縮寫>/<abbr>
標誌任何形態的縮寫字。屬性包括:
全稱/expan
標示縮寫的全稱
類型/type

允計標誌者以簡便的類別為縮寫分類。簡易的屬性性包含:合併、刪節、圖略、及頭縮字。屬性類型(type)的屬性值也可以使用標頭、圖形、組織等,描述客體所指涉的本質。

元素<縮寫>(<abbr>)是分辨半字彙的項目時相當有用的方式,例如頭縮字或專業術語:

We can sum up the above discussion as follows:  the identity of a
<abbr>CC</abbr> is defined by that calibration of values which
motivates the elements of its <abbr>GSP</abbr>;

Every manufacturer of <abbr>3GL</abbr> or <abbr>4GL</abbr>
languages is currently nailing on <abbr>OOP</abbr> extensions

屬性類型(type)也可以功能來區分縮寫字的類型,屬性全稱(expan)可以用來補充全稱:

 <name><abbr type="title" expan="Doctor">Dr.</abbr>
 <abbr type="initial" expan="Marilyn">M.</abbr>
 Deegan</name>
 is the Director of the
 <abbr expan="Computers in Teaching Initiative" type="acronym">
 CTI</abbr> Centre for Textual Studies.

本元素於描述經常出現縮寫字的手稿資料特別有用。

 

11.5. 地址

元素<地址>(<address>)用來標誌各種郵寄的地址。內含一或多個<地址行>(<addrLine>)元素,以標示每一行地址。

<地址>/<address>
標誌郵寄或其他種類的地址,例如,出版商地址、機構地址、個人地址。
 
<地址行>/<addrLine>
標誌地址中的一行。

以下為簡單的範例:

<address>
<addrLine>Computer Center (M/C 135)</addrLine>
<addrLine>1940 W. Taylor, Room 124</addrLine>
<addrLine>Chicago, IL 60612-7352</addrLine>
<addrLine>U.S.A.</addrLine>
</address>

地址中的個別部分,可以更進一步以屬性上面討論過「11.1. 名稱與關聯字串」的元素<名稱>(<name>)來區分。

<address>
<addrLine>Computer Center (M/C 135)</addrLine>
<addrLine>1940 W. Taylor, Room 124</addrLine>
<addrLine><name type="city">Chicago</name>, IL 60612-7352</addrLine>
<addrLine><name type="country">USA</name></addrLine>
</address>

 

上一章 回到目次 下一章


譯自TEI官方網站的TEI Lite網頁:http://www.tei-c.org/Lite/
網頁內容未經任何校訂,恐有疏漏,請勿任意轉載引用
若有任何疏漏及錯誤之處,歡迎來信指正:sofia@gate.sinica.edu.tw