文件編碼組織 文件編碼交換格式指引 選錄版
TEI Lite: An Introduction to Text Encoding for Interchange


4. 文件編碼

如前面章節所述,一個簡單的TEI文件在文本的層次下由下列元素組成:

<正文前資訊>/<front>
標誌正文開始之前的任何前置項目(標頭、書名頁、前言、獻詞等)
 
<群組>/<group>
標誌幾篇單一的文本或一組文件。
 
<正文>/<body>
標誌單一文本的整體部分,不包含正文前及正文後資料。
 
<正文後資訊>/<back>
汝郅x隨附於正文之後的附錄等。

正文前置與後置的專用元素,在之後的「19. 正文前與正文後資訊」中敘述。本節只討論標記正文的元素。

4.1 文件分項

一篇散文體的文本,其正文可能僅由一系列的段落組成,或說這些段茖被集結成章、成節、成附冊等。在第種一情況下,使用<段落>(<p>)來標記每一個段落。在第二種下, <正文>(<body>)可以再以元素一系列的<第一層>(<div1>)或<文字區段>(<div>)區隔,不論哪一種,都可以再分更深的層次,元素敘述如下:

<段落>/<p>
標記文章的段落。
 
<文字區段>/<div>
標誌正文前資訊、正文及正文後資訊中文本的分項。
 
<第一層>/<div1>
標誌正文前資訊、本文及正文後資訊中文本的第一層分項。(如未使用<第零層>(<div0>))。

當需要比<第一層>(<div1>)還深的結構時,<第一層>可再分出<第二層>(<div2>),<第二層>又可分出<第三層>(<div3>),以此類推,可深到<第七層>(<div7>)。如果超過七層,下次兩種方式可擇其一:修改TEI的標誌集以接受<第八層>(<div8>);或採用未編號號的元素<文字區段>(<div>),<文字區段>可分成更小的<文字區段>,且無深度的限制。

每個文字區段都可以使用下列三項屬性:

類型/type
指文件的類名。常用的屬性值是書、章節、詩等。其他可能的屬性值包含被視為單元的詩歌類型,如詩節、演講和歌曲。要注意在<文字區段>、<第一層>、<第二層>元素中第一次出現類型屬性時,要確保該類型在同一<正文>中必須涵蓋以下各層。也就是說每一種類型要在起始就設定,或時改變屬性值。
 
識別名稱/id
為分項命名指定唯一的識別標記,以便指向「8. 參照與連結」。中所討論的交互參照或評注等其他連結。為每一個主要的結構單元提供屬性識別名稱(id)非常有用,識別名稱應以系統化方式命名,如下面例子中,被標誌的文章題名代碼後面再加上章節編號。
 
識別號/n
文字區段的屬性n記錄好記的短名或是編號,在指定屬性標記上,識別號(n)比識別名稱(id)受青睞。如果原文件已有明確的參考或縮寫格式(如書籍/章節/詩節的書目引用格式),屬性識別號(n)是記錄它們的地方。

屬性識別名稱(id)和識別號(n)運用的泛範廣泛,任何TEI DTD的元素都能使用,屬於全域屬性。其他TEI Lite架構定義的全域屬性,將在「8.3 連結屬性」中討論。

文獻中每一個識別名稱(id)的屬性值皆為唯一值。確保不重複的簡便方式之一是讓它反映文獻的階層結構。例如,亞當•史密斯的國富論(Wealth of Nations)的初版共有五冊,每冊又各分章節,某些章節又再分部,則可以此結構定義識別名稱(id)的屬性值如下:


<第一層 識別名稱="WN1" 識別號='I' 類型='書'>
  <第二層 識別名稱="WN101" 識別號='I.1' 類型='章'>   ... </第二層>
  <第二層 識別名稱="WN102" 識別號='I.2' 類型='章'>   ... </第二層>
   ...
  <第二層 識別名稱="WN110" 識別號='I.10' 類型='章'>
     <第三層 識別名稱="WN1101" 識別號='I.10.1' 類型="部">      ... </第三層>
     <第三層 識別名稱="WN1102" 識別號='I.10.2' 類型="部">      ... </第三層>
  </第二層>  ... </第一層> <第一層 識別名稱="WN2" 識別號='II' 類型='書'>
   .... 
</第一層>...

識別名稱(id)識別號(n)中可使用不同的編碼架構,在正規參考架構與作品結構不完全相符時非常有用。例如,某一小說有兩冊,兩冊各分章節,但章節編號連貫而非各冊獨立,則可採用如下架構:

<第一層 識別名稱="TS01" 識別號='1' 類型='冊'>
   <第二層 識別名稱="TS011" 識別號='1' 類型='章>... </第二層>
   <第二層 識別名稱="TS012" 識別號='2'>...</第二層> 
</第一層> 
<第一層 識別名稱="TS02" 識別號='2' 類型='冊'>
   <第二層 識別名稱="TS021" 識別號='3'類型='章>      ...</第二層>
   <第二層 識別名稱="TS022" 識別號='4'>      ...</第二層>
</第一層>

上述作品有兩卷,每卷含兩章。原章節編號是1至4,但記錄識別號(id)屬性值時,可允許它們同時被視為編號1.1, 1.2, 2.1, 2.2。

4.2 標頭與結尾

每一個<文字區段>、<第一層>、<第二層>等元素在正文起始處可能有題名或標頭,及(較不常見的)卷末語,如:第一章完。可用下列元素轉錄之:

<標頭>/<head>
可標誌任何的標頭,例如:章節題名,詞彙表或其他表列的表頭。
 
<卷末>/<trailer>
標誌出現在文本結尾處的結尾辭或尾聲。

其他文本區段的開頭或結尾處可能需要的元素,將後面的「19.1.2 正文前資料」章節中討論。

是否在轉錄時包含標頭或是卷末語,是轉錄者該決定的重大議題。平淡無奇的標頭(如「第一章」)或已由屬性值表示(如<div1 type='Chapter' n=1>)者可省略,除此之外,無法表現的文本都必須被標記。例如,哈代(Hardy)的「綠林樹下」(Under the Greenwood Tree)的卷首可標誌如下:

例如,哈代(Hardy)的「綠林樹下」(Under the Greenwood Tree)的卷首可如此標誌:


<第一層 識別名稱="UGT1" 識別號='冬' 類型='部'>
<第二層 識別名稱="UGT11" 識別號='1' 類型='章'>
<標頭>梅爾斯鐸克巷</標頭>
<段落>致林中居民樹上的每一種生物…

4.3 散文、詩及戲劇

如上文所述,組成文本區段的段落應由<段落>(<p>)來標誌。例如:


<正文>
<段落>我衷心地讚賞波普將軍的輝煌成就及其無價的成果;但你必須知道正規軍中
的將帥人才,並不像黑莓一樣隨處可見。</段落>
</正文>

下列幾個不同的標誌為韻文和劇本(戲劇、電影等)等具特定結構的文本編碼而設:

<詩行>/<l>

標誌韻文的一行,可能為未完成句。可用的屬性如下:

分部/part
用以標示此詩行是否為已完成的韻文,合法的屬性值:
f:未完成詩行的結尾部分。
y:詩行為未完成的韻文。
n:完成或被視為完成的詩行。
i:未完成詩行的開頭部分。
m:未完成詩行的中段。
<詩組>/<lg>
標誌形成一個正式單位的一群韻句,如:詩節、疊句、行韻的段落等。
 
<講述>/<sp>
標誌劇本中的單一演說,或在散文和詩中以講述方式表現的段落。可用的屬性:
人物/who
可以識別名稱(id)識別該部分的講者。
 
<講者>/<speaker>
標誌在劇本或文章的片段中一或多個講者的特殊標頭或標籤。
 
<表演動作>/<stage>
標誌劇本或文章片斷中的任何表演指示。可用的屬性:
類型/type
標示各種表演動作指示,建議的屬性值包含進場、退場、佈景、陳述等。

本例中,詩類文本中詩句及詩節被標誌如下:


<詩組 識別號="I">
<詩行>我讚頌一個邁向
  不朽的靈魂, </詩行>
<詩行>他的命運,上帝創造,
  但未控制,/l>
<詩行>被放在上帝的形像中,始終
  在上帝的律法之前</詩行>
<詩行>結合我們,當時,今後,
  因此我歌頌。</詩行>
<詩行>美好世界到了遲暮之年;</詩行>
<詩行>我畫下早晨新生,經過如日壯年。</詩行>
<詩行>那金色的迦勒底,銀色的波斯臂膀揮動,</詩行>
<詩行>希臘的銅,或羅馬的鐵,俱在一軀之中;</詩行>
<詩行>耗盡精力慢慢形成磚與石的塞特柱,</詩行>
<詩行>(神聖的文件被接受)開始向無人吶喊,</詩行>
</詩組>

注意,元素<詩行>(<l>)標誌的詩的行,並非排版的行:上例中,前幾行的原編排方式,在此一編碼中因此未被明確表現,而且可能被遺落。如果真的想要標誌排版的行,可使用「5. 頁碼與行碼」中敘述的元素<分行>(<lb>)。

有時,特別是在劇本中,詩行會被兩個講者表演而割裂。最簡單的標誌方式是用分部(part)屬性來表示詩行是破碎而未完成的,如下例:


<第一層 類型='幕' 識別號='I'><標頭>第一幕</標頭>
<第二層 類型='景' 識別號='1'><標頭>第一景</標頭>
<表演動作 樣式="斜體">兩個衛兵巴納度與法蘭西斯柯入場,在某個門旁</表演動作>
<講述><講者>巴恩<詩行 分部="Y">誰在那裡?</詩行></講者></講述>
<講述><講者>法蘭<詩行>喂,回答我。站住,你不要躲了。</詩行></講者></講述>
<講述><講者>巴恩<詩行 分部="i">吾皇萬歲!</詩行></講者></講述>
<講述><講者>法蘭<詩行 分部="m">巴納度?</詩行></講者></講述>
<講述><講者>巴恩<詩行 分部="f">他啊。</詩行></講者></講述>
<講述><講者>法蘭<詩行>你最好小心別為在當班時找來麻煩</詩行></講者></講述>

同樣的機制可應用在由兩個不同講者輪流表演的詩節上:

<講述><講者>第一個聲音</講者>
<詩組 類型="詩節" 分部="I">
<詩行>但是什麼讓船跑那麼快</詩行>
<詩行>沒有浪或風?</詩行>
</詩組>
<講述><講者>第二個聲音</講者>
<詩組 分部="F">
<詩行>風被截斷在前。</詩行>
<詩行>並緊跟在後。</詩行>
</詩組>

本例子顯示將散文中的對話像劇本一樣的標誌。同時顯示使用屬性人物(who)記載代碼以識別與對話段落相關的說話者:

<講者 人物="歐彼"><講者>令人敬畏的歐彼米安博士</講者>
<段落>我不認為我只在為一條難登大雅之堂的魚命名。</段落>
<講者 人物="葛生"><講者>葛雷爾先生</講者>
<段落>鯛魚,博士,鯛魚沒什麼好談的。</段落>
<講者 人物="歐彼"><講者>令人敬畏的歐彼米安博士</講者>
<段落>恰恰相反,先先,我認為它有一堆可談。首先…</段落>
<段落>…魚,葛雷爾小姐──我可以花一整個小時和你談魚,但是現在我得節制…</段落>
</講述>

上一章 回到目次 下一章


譯自TEI官方網站的TEI Lite網頁:http://www.tei-c.org/Lite/
網頁內容未經任何校訂,恐有疏漏,請勿任意轉載引用
若有任何疏漏及錯誤之處,歡迎來信指正:sofia@gate.sinica.edu.tw