TEI Lite 中文譯稿

文件編碼組織 後設資料標誌集 選錄版
TEI Lite


4. 文件編碼

如前面章節所述,一個簡單的TEI文件,在文本層次由以下元素構成:

<正文前資訊>/<front>
主要文件前的任何項目(標頭、書名頁、前言、獻詞等)
 
<群組>/<group>
包含幾篇文章或一群文件
 
<正文>/<body>
單篇文章的整體部分,包含正文前及正文後資料。
 
<正文後資訊>/<back>
在主要文件後面,包含附錄等

特別為正文前後內容所訂定的元素,後面的「19. 正文前與正文後資訊」會詳加敘述。本節只討論正文文本使用的標記。

 

4.1 文件分項

一篇文章是由一系列的段落組成,每一個段落可以使用<段落>(<p>)來標記。若這些段落被集結成章、節或附冊等,可以再以元素<正文>(<body>)區隔出<第一層>(<div1>)或<文字區段>(<div>)等第二層元素,第二層元素又被可以再細分,以下是(對這些層次的)進一步說明:

<段落>/<p>
標記文章的段落。
 
<文字區段>/<div>
文件的正文前資訊、本文及正文後資訊
 
<第一層>/<div1>
文件的正文前資訊、本文及正文後資訊的第一層分項(如果沒有使用<第零層>(<div0>))。

當<第一層>(<div1>)還需要再分,可以使用<第二層>(<div2>),<第二層>(<div2>)又可分出<div3>,以此類推,最深可到<div7>。如果超過七層,可行方式有兩種:

  1. 修改TEI的標誌集,接受<第八層>(<div8>)。
  2. 改採沒有深度限制,未編號號的<文字區段>(<div>)。

每個分項都可以使用下列三項屬性:

類型/type
指文件分類的名稱。常用的屬性值是書、章節、詩等。其他類型可能多用在詩集等類型的文件集中,如詩節、演講和歌曲。使用時必須注意:最上層<文字區段>(<div>)元素的文類屬性,必須涵蓋所屬文件的文類,其屬性值在<第一層>(<div1>)、<第二層>(<div2>)等分項中必須類推適用。也就是說:正文中各<文字區段>(<div>)元素中所涵蓋的文類必須一致,否則各元素就要隨文件類型改變屬性值。
 
識別碼/id
分項命名,所命名稱不可重覆。可以用在交互參照或其他連結,進一步的討論在「8. 參照與連結」。在每一個主要的結構單位使用屬性識別碼(id)非常有用,而且最好以系統方式命名,如在文章題名後加上章節編號。
 
識別號/n
分項助記可使用小名或是數字。比起識別碼(id),屬性識別號(n)較受青睞。如果原文件已經有確定的參考或縮寫格式(如書籍/章節/詩節的引用書目),即可以使用屬性識別號(n)來記錄。

屬性識別碼(id)識別號(n)具有廣泛的用途,可被任何的TEI DTD的元素所採納,具有全域性。在TEI Lite的架構中尚有其他全域性的屬性,將在「8.3 連結屬性」中詳加討論。

在文件中,每一個識別碼(id)的屬性值不可重複。確保不重複的簡易方式是讓它反映文獻的階層結構。以亞當•史密斯的國富論(Wealth of Nations)為例,此書的初版有五冊,每一冊分若干章節,某些章節又分成不同部分,則可使如此定義識別碼(id)的屬性值:

<div1 id="WN1" n="I" type="book">
  <div2 id="WN101" n="I.1" type="chapter">
   ... </div2>
  <div2 id="WN102" n="I.2" type="chapter">
   ... </div2>
   ...
  <div2 id="WN110" n="I.10" type="chapter">
     <div3 id="WN1101" n="I.10.1" type="part">
      ... </div3>
     <div3 id="WN1102" n="I.10.2" type="part">
      ... </div3>
  </div2>
  ...
 </div1>
 <div1 id="WN2" n="II" type="book">
   ....
 </div1>
...
此外,在識別碼(id)識別號(n)中使用不同的編號架構,對非常態結構的文獻很有幫助。例如,某一部小說有兩冊,兩冊各有若干章節,但是章節編排是連貫而非各冊獨立的。則可以採用這種架構:

<div1 id="TS01" n="1" type="Volume">
   <div2 id="TS011" n="1" type="Chapter">
      ... </div2>
   <div2 id="TS012" n="2">
      ...</div2>
 </div1>
 <div1 id="TS02" n="2" type="Volume">
   <div2 id="TS021" n="3"type="Chapter">
      ...</div2>
   <div2 id="TS022" n="4">
      ...</div2>
</div1>

上例中,作品有兩卷,每卷含兩章。原章節編號是由1至4,但是利用識別號(id)的屬性值,可也可由用1.1, 1.2, 2.1, 2.2來表示。

 

4.2 標頭與結尾

在<文字區段>(<div>), <第一層>(<div1>), <第二層>(<div2>)等元素中,若有正文前還有題名或標頭,或結束後(較不常見)尚有正文之外的文字,如:第一章完。則可適用下列層次:

<標頭>/<head>
章節或表列索用語表的題名或標頭。
 
<卷末>/<trailer>
卷末語。

其他用在文件開始或結尾部分的必要元素,在「19.1.2 正文前資料」中會討論到。 不論如何,標頭或是卷末語都屬於個別決定的項目。尋常的標頭(如「第一章」)或已定義屬性值(如<div1 type='Chapter' n=1>)可以省略,除此之外的文字都必須被標記。

例如,哈代(Hardy)的「綠林樹下」(Under the Greenwood Tree)的卷首可如此標誌:

<div1 id="UGT1" n='Winter' type='Part'>
<div2 id="UGT11" n='1' type='Chapter'>
<head>Mellstock-Lane</head>
<p>To dwellers in a wood almost every species of tree ...

 

4.3 散文、詩及戲劇

如上文所述,區分文本的段落由<段落>(<p>)來標誌。例如:

<body>
<p>I fully appreciate Gen. Pope's splendid achievements
with their invaluable results; but you must know that
Major Generalships in the Regular Army, are not as
plenty as blackberries.
</p>
</body>
供韻文和劇本(戲劇、電影等)等具特定結構的文本所使用的標誌如下:

<詩行>/<l>

詩的一行,未完成句也包含其中。可用的屬性如下:

分部/part
用以標示此句詩是否完整,可用的屬性值:
f:未成句的結尾部分
y:未成句
n:完整句或被視為完整句
i:未完成句的開頭部分
m:未完成句的中段。
<詩組>/<lg>
形式上被視為一組的詩句,如詩節、疊句、詩的段落部分等。
 
<講述>/<sp>
單篇的演說文件或在散文和詩中以講述方式表現的過程。可用的屬性:
人物/who
可以識別碼(id)定義講者。
 
<講者>/<speaker>
劇本或文章中出現講述的片段,前面通常會標示一或多個講者。
 
<分幕>/<stage>
劇本或文章中出現演出或動作指示。可用的屬性:
類型/type
任何演出的指示,建議使用的屬性值如進場、退場等。

舉例說明詩化文本中的行句及詩節的標誌:

<lg n="I">
<l>I Sing the progresse of a
  deathlesse soule,</l>
<l>Whom Fate, with God made,
  but doth not controule,</l>
<l>Plac'd in most shapes; all times
  before the law</l>
<l>Yoak'd us, and when, and since,
  in this I sing.</l>
<l>And the great world to his aged evening;</l>
<l>From infant morne, through manly noone I draw.</l>
<l>What the gold Chaldee, of silver Persian saw,</l>
<l>Greeke brass, or Roman iron, is in this one;</l>
<l>A worke t'out weare Seths pillars, bricke and stone,</l>
<l>And (holy writs excepted) made to yeeld to none,</l>
</lg>
元素<詩行>(<l>)是用來標誌韻文的行(詩行),並非排版造成的行:上例中,前四行詩的原編排方式可能因為採用<詩行>(<l>)標誌而無法清楚表現。如果需要標誌排版造成的行,可以使用元素<lb>來標誌,詳見「5. 頁碼與行碼」

有時候,行韻的詩行在戲劇的文本裡會因由不同講者表演而割裂。最簡單的標誌方式是用分部(part)屬性來表示破碎不完整的詩行,請見下例:

<div1 type ='Act' n='I'><head>ACT I</head>
<div2 type ='Scene' n='1'><head>SCENE I</head>
<stage rend="italic">
  Enter Barnardo and Francisco, two Sentinels, at several doors</stage>
<sp><speaker>Barn<l part="Y">Who's there?</l></speaker></sp>
<sp><speaker>Fran<l>Nay, answer me. Stand and unfold 
  yourself.</l></speaker></sp>
<sp><speaker>Barn<l part="i">Long live the King!</l></speaker></sp>
<sp><speaker>Fran<l part="m">Barnardo?</l></speaker></sp>
<sp><speaker>Barn<l part="f">He.</l></speaker></sp>
<sp><speaker>Fran<l>You come most carefully upon 
  your hour.</l></speaker></sp>
同樣的機制或可以應用在由兩個不同講者表演的詩句上:
<sp><speaker>First voice</speaker>
<lg type="stanza" part="I">
<l>But why drives on that ship so fast</l>
<l>Withouten wave or wind?</l>
</lg>
<sp><speaker>Second Voice</speaker>
<lg part="F">
<l>The air is cut away before.</l>
<l>And closes from behind.</l>
</lg>
以下的例子說明用劇本的方式標誌散文中的對話。同時說明使用屬性人物(who)來定義散文裡對話段落的說話者:
<sp who="OPI"><speaker>The reverend Doctor Opimiam</speaker>
<p>I do not think I have named a single unpresentable fish.
<sp who="GRM"><speaker>Mr Gryll</speaker>
<p>Bream, Doctor: there is not much to be said for bream.</p>
<sp who="OPI"><speaker>The Reverend Doctor Opimiam</speaker>
<p>On the contrary, sir, I think there is much to be said for him.
  In the first place....</p>
<p>Fish, Miss Gryll -- I could discourse to you on fish by
  the hour: but for the present I will forbear...</p>
</sp>

 

上一章 回到目次 下一章


譯自TEI官方網站的TEI Lite網頁:http://www.tei-c.org/Lite/
網頁內容未經任何校訂,恐有疏漏,請勿任意轉載引用
若有任何疏漏及錯誤之處,歡迎來信指正:sofia@gate.sinica.edu.tw