文件編碼組織 文件編碼交換格式指引 選錄版
TEI Lite: An Introduction to Text Encoding for Interchange
11. 名稱、日期、數字及縮寫
TEI架構中定義了標誌「具資料性」特性的元素,它們可能出現在任何文件的任何位置。這些特性在某些原則之下特別令人感興趣:它們與文本之外的物件相關,例如:人名、地名、數字及日期。在許多自然語言處理的應用中它們造成特別的問題,因為在文件中它們會以各種不同方式的表現。本章節所描述的元素,是為了使這些特質更為明確,以降低包含這些特性的文本在處理時的複雜度。
關聯字串,是一個關係到某人、某地、某物的詞彙。可使用以下兩個元素來標誌這類的字串:
屬性類型(type)用來分辨名稱屬於(例如)人名、地名、組織名或是其他可能者:
<引句>我親愛的<關聯字串 類型="人物">班奈特先生</關聯字串>,</引句>有一 天他的妻子跟他說,<引句>你聽說了嗎<關聯字串 類型="地點">尼特菲爾德園 </關聯字串>終於租出去了? </引句>
這是<關聯字串 類型="機構">債務辦公室</關聯字串>的原則之一,絕不,任何客 戶都一樣,給簡單明瞭的答案,<關聯字串 類型="人物">巴納可先生</關聯字串> 說,<引句>或許吧。</引句>
下例顯示,元素<關聯字串>(<rs>)可作為任何與人、地及其他種類的參考,且不必為正式的名稱或是片語。
<引句>我親愛的<關聯字串 類型="人物">班奈特先生</關聯字串>,</引句>有一 天<關聯字串 類型="人物">他的妻子</關聯字串>跟他說…
相對於元素<關聯字串>(<rs>),元素<名稱>(<name>)為關聯字串中的特殊狀況,僅供正式名稱使用。可視為與元素<關聯字串>(<rs>)同義,或是在關聯字串包含正式名稱的混用狀況中,在元素<關聯字串>(<rs>)內層使用。
簡單地將某些東西標誌成名稱,通常並不足自動處理以全名為參考檢索詞的人名。出現在文本中的人名,或許拼字不全、僅含部分或是曖昧模糊。甚至人名的前置詞如「van」或「de la」,頭銜的來源可能因語言及國家的不同,未被納入人名的參考格式中。
下列屬性可以在上述兩個或是其他類似的元素中使用,來協助克服類似的困擾:
屬性其他識別(key)相當有用,可整合四散在整個文獻中所有指向同一人或同一地的參考點:
<引句>我親愛的<關聯字串 類型="人物" 其他識別="BENM1">班奈特先生</關聯字串>, </引句>有一天<關聯字串 類型="人物" 其他識別="BENM2">他的妻子</關聯字串>跟他 說,<引句>你聽說了嗎<關聯字串 類型="地點" 其他識別="NETP1">尼特菲爾德園</關 聯字串>終於租出去了? </引句>
這種用法與屬性採用格式(reg)有所區別,屬性採用格式(reg)提供關聯字串的標準格式的義意,如例下所示:
<名稱> 類型="人物" 其他識別="WADLM1" 採用格式="德•拉•馬瑞,華爾特>華爾特• 德•拉•馬瑞</名稱> 1837年生於<名稱> 其他識別="KT1" 類型="國家">肯特</名稱> 的<名稱> 其他識別="Ch1" 類型="地點">查爾頓</名稱>。
使用名稱與日期的附加標誌集,可以標誌更多正式名稱組件的細節。
標誌更多日期與時間細節的標誌包含:
屬性標準格式值(value)的值可使用經認證的格式,如ISO 8601,來規格化日期或時間的標準格式。不完整的日期或時間(如1990、1990年9月、12日),通常可以簡單的略去未使用到的部分,不明確的日期與時間(例如:早秋、十點到十二點之間)可以日期或時間的間距的來表現。如果日期的結束或是時間的間距難以確認(例如,1230年前的某一時間、萬聖節後幾日),可使用屬性確定(exact)來說明。
範例:
<日期 標準格式值="1980-02-21">1980年2月21日</日期> <日期 標準格式值="1990">1990</日期> <日期 標準格式值="1990-09">1990年9月</日期>
於<日期 標準格式值="1977-06-12">(史丹佛)大學第八十六週年、美國建國 二百零一年,耶穌基督一千九百七十七年,六月的第二十一日</日期>授證。
<詩行>特別是在距午夜零時還有九個鐘點</詩行> <詩行>與<時間 標準格式值="15:00">下午的三點</時間></詩行>
數字可以正體或位數表現(二十一、xxi、21),且這些數字的表現方式與使用的語言有關(例如:英文的5th,希臘文寫成5.;英文的123,456.78,法文寫成123.456,78)。在自然語言或機器翻譯的應用上,將文件中的數字與其他較「字彙的」部分區分開來相當有用。在其他應用上,用標準數記法記錄數值的能力很重要。元素<數字>(<num>)提供的用法:
範例
<數字標準格式值="33">xxxiii</數字> <數字 類型="基數" 標準格式值="21">二十一</數字> <數字 類型="百分比" 標準格式值="10">百分之十</數字> <數字 類型="百分比" 標準格式值="10">10%</數字> <數字 類型="序數" 標準格式值="5">第五</數字>
就像名稱、日期及數字,縮寫也可以轉錄它的狀態或是全稱,縮寫可以不處理,或是以下列的元素來標誌:
元素<縮寫>(<abbr>)是分辨半字彙的項目的義意時很有用的方式,例如頭縮字或專業術語:
上述的討論可歸結如下:<縮寫>CC</縮寫>的識別由口徑定義,它激發每一個元素 <縮寫>GSP</縮寫>的頻譜。每一個<縮寫>3GL</縮寫>或 <縮寫>4GL</縮寫>製造者 的目前的標記訂在<縮寫>OOP</縮寫>的擴大部分。
屬性類型(type)也可以功能來區分縮寫字的類型,屬性全稱(expan)可以用來說明全稱:
<名稱><縮寫 類型="頭銜" 全稱="Doctor">Dr.</縮寫><縮寫 類型="簡寫" 全稱="Marilyn">M.</縮寫>Deegan</名稱>is the Director of the<縮寫 全稱="Computers in Teaching Initiative" 類型="頭縮字">CTI</縮寫> Centre for Textual Studies.
本元素在轉錄經常出現縮寫字的手稿資料時特別有用。
元素<地址>(<address>)用來標誌各種郵寄的地址。內含一或多個<地址行>(<addrLine>)元素,以標示每一行地址。
以下為簡單的範例:
<地址> <地址行>Computer Center (M/C 135)</地址行> <地址行>1940 W. Taylor, Room 124</地址行> <地址行>Chicago, IL 60612-7352</地址行> <地址行>U.S.A.</地址行> </地址>
地址中的個別部分,可以更進一步以之前所討論的的元素<名稱>(章節「11.1. 名稱與關聯字串」)來區分。
<地址> <地址行>Computer Center (M/C 135)</地址行> <地址行>1940 W. Taylor, Room 124</地址行> <地址行><名稱> 類型="城市">Chicago</名稱>, IL 60612-7352</地址行> <地址行><名稱> 類型="國家">USA</名稱></地址行> </地址>
譯自TEI官方網站的TEI Lite網頁:http://www.tei-c.org/Lite/
網頁內容未經任何校訂,恐有疏漏,請勿任意轉載引用
若有任何疏漏及錯誤之處,歡迎來信指正:sofia@gate.sinica.edu.tw