文件編碼組織 文件編碼交換格式指引 選錄版
TEI Lite: An Introduction to Text Encoding for Interchange
4. 文件編碼
如前面章節所述,一個簡單的TEI文件在文本的層次下由下列元素組成:
正文前置與後置的專用元素,在之後的「19. 正文前與正文後資訊」中敘述。本節只討論標記正文的元素。
一篇散文體的文本,其正文可能僅由一系列的段落組成,或說這些段茖被集結成章、成節、成附冊等。在第種一情況下,使用<段落>(<p>)來標記每一個段落。在第二種下, <正文>(<body>)可以再以元素一系列的<第一層>(<div1>)或<文字區段>(<div>)區隔,不論哪一種,都可以再分更深的層次,元素敘述如下:
當需要比<第一層>(<div1>)還深的結構時,<第一層>可再分出<第二層>(<div2>),<第二層>又可分出<第三層>(<div3>),以此類推,可深到<第七層>(<div7>)。如果超過七層,下次兩種方式可擇其一:修改TEI的標誌集以接受<第八層>(<div8>);或採用未編號號的元素<文字區段>(<div>),<文字區段>可分成更小的<文字區段>,且無深度的限制。
每個文字區段都可以使用下列三項屬性:
屬性識別名稱(id)和識別號(n)運用的泛範廣泛,任何TEI DTD的元素都能使用,屬於全域屬性。其他TEI Lite架構定義的全域屬性,將在「8.3 連結屬性」中討論。
文獻中每一個識別名稱(id)的屬性值皆為唯一值。確保不重複的簡便方式之一是讓它反映文獻的階層結構。例如,亞當•史密斯的國富論(Wealth of Nations)的初版共有五冊,每冊又各分章節,某些章節又再分部,則可以此結構定義識別名稱(id)的屬性值如下:
<第一層 識別名稱="WN1" 識別號='I' 類型='書'> <第二層 識別名稱="WN101" 識別號='I.1' 類型='章'> ... </第二層> <第二層 識別名稱="WN102" 識別號='I.2' 類型='章'> ... </第二層> ... <第二層 識別名稱="WN110" 識別號='I.10' 類型='章'> <第三層 識別名稱="WN1101" 識別號='I.10.1' 類型="部"> ... </第三層> <第三層 識別名稱="WN1102" 識別號='I.10.2' 類型="部"> ... </第三層> </第二層> ... </第一層> <第一層 識別名稱="WN2" 識別號='II' 類型='書'> .... </第一層>...識別名稱(id)與識別號(n)中可使用不同的編碼架構,在正規參考架構與作品結構不完全相符時非常有用。例如,某一小說有兩冊,兩冊各分章節,但章節編號連貫而非各冊獨立,則可採用如下架構:
<第一層 識別名稱="TS01" 識別號='1' 類型='冊'> <第二層 識別名稱="TS011" 識別號='1' 類型='章>... </第二層> <第二層 識別名稱="TS012" 識別號='2'>...</第二層> </第一層> <第一層 識別名稱="TS02" 識別號='2' 類型='冊'> <第二層 識別名稱="TS021" 識別號='3'類型='章> ...</第二層> <第二層 識別名稱="TS022" 識別號='4'> ...</第二層> </第一層>
上述作品有兩卷,每卷含兩章。原章節編號是1至4,但記錄識別號(id)屬性值時,可允許它們同時被視為編號1.1, 1.2, 2.1, 2.2。
每一個<文字區段>、<第一層>、<第二層>等元素在正文起始處可能有題名或標頭,及(較不常見的)卷末語,如:第一章完。可用下列元素轉錄之:
其他文本區段的開頭或結尾處可能需要的元素,將後面的「19.1.2 正文前資料」章節中討論。
是否在轉錄時包含標頭或是卷末語,是轉錄者該決定的重大議題。平淡無奇的標頭(如「第一章」)或已由屬性值表示(如<div1 type='Chapter' n=1>)者可省略,除此之外,無法表現的文本都必須被標記。例如,哈代(Hardy)的「綠林樹下」(Under the Greenwood Tree)的卷首可標誌如下:
例如,哈代(Hardy)的「綠林樹下」(Under the Greenwood Tree)的卷首可如此標誌:
<第一層 識別名稱="UGT1" 識別號='冬' 類型='部'> <第二層 識別名稱="UGT11" 識別號='1' 類型='章'> <標頭>梅爾斯鐸克巷</標頭> <段落>致林中居民樹上的每一種生物…
如上文所述,組成文本區段的段落應由<段落>(<p>)來標誌。例如:
<正文> <段落>我衷心地讚賞波普將軍的輝煌成就及其無價的成果;但你必須知道正規軍中 的將帥人才,並不像黑莓一樣隨處可見。</段落> </正文>下列幾個不同的標誌為韻文和劇本(戲劇、電影等)等具特定結構的文本編碼而設:
標誌韻文的一行,可能為未完成句。可用的屬性如下:
本例中,詩類文本中詩句及詩節被標誌如下:
<詩組 識別號="I"> <詩行>我讚頌一個邁向 不朽的靈魂, </詩行> <詩行>他的命運,上帝創造, 但未控制,/l> <詩行>被放在上帝的形像中,始終 在上帝的律法之前</詩行> <詩行>結合我們,當時,今後, 因此我歌頌。</詩行> <詩行>美好世界到了遲暮之年;</詩行> <詩行>我畫下早晨新生,經過如日壯年。</詩行> <詩行>那金色的迦勒底,銀色的波斯臂膀揮動,</詩行> <詩行>希臘的銅,或羅馬的鐵,俱在一軀之中;</詩行> <詩行>耗盡精力慢慢形成磚與石的塞特柱,</詩行> <詩行>(神聖的文件被接受)開始向無人吶喊,</詩行> </詩組>注意,元素<詩行>(<l>)標誌的詩的行,並非排版的行:上例中,前幾行的原編排方式,在此一編碼中因此未被明確表現,而且可能被遺落。如果真的想要標誌排版的行,可使用「5. 頁碼與行碼」中敘述的元素<分行>(<lb>)。
有時,特別是在劇本中,詩行會被兩個講者表演而割裂。最簡單的標誌方式是用分部(part)屬性來表示詩行是破碎而未完成的,如下例:
<第一層 類型='幕' 識別號='I'><標頭>第一幕</標頭> <第二層 類型='景' 識別號='1'><標頭>第一景</標頭> <表演動作 樣式="斜體">兩個衛兵巴納度與法蘭西斯柯入場,在某個門旁</表演動作> <講述><講者>巴恩<詩行 分部="Y">誰在那裡?</詩行></講者></講述> <講述><講者>法蘭<詩行>喂,回答我。站住,你不要躲了。</詩行></講者></講述> <講述><講者>巴恩<詩行 分部="i">吾皇萬歲!</詩行></講者></講述> <講述><講者>法蘭<詩行 分部="m">巴納度?</詩行></講者></講述> <講述><講者>巴恩<詩行 分部="f">他啊。</詩行></講者></講述> <講述><講者>法蘭<詩行>你最好小心別為在當班時找來麻煩</詩行></講者></講述>同樣的機制可應用在由兩個不同講者輪流表演的詩節上:
<講述><講者>第一個聲音</講者> <詩組 類型="詩節" 分部="I"> <詩行>但是什麼讓船跑那麼快</詩行> <詩行>沒有浪或風?</詩行> </詩組> <講述><講者>第二個聲音</講者> <詩組 分部="F"> <詩行>風被截斷在前。</詩行> <詩行>並緊跟在後。</詩行> </詩組>本例子顯示將散文中的對話像劇本一樣的標誌。同時顯示使用屬性人物(who)記載代碼以識別與對話段落相關的說話者:
<講者 人物="歐彼"><講者>令人敬畏的歐彼米安博士</講者> <段落>我不認為我只在為一條難登大雅之堂的魚命名。</段落> <講者 人物="葛生"><講者>葛雷爾先生</講者> <段落>鯛魚,博士,鯛魚沒什麼好談的。</段落> <講者 人物="歐彼"><講者>令人敬畏的歐彼米安博士</講者> <段落>恰恰相反,先先,我認為它有一堆可談。首先…</段落> <段落>…魚,葛雷爾小姐──我可以花一整個小時和你談魚,但是現在我得節制…</段落> </講述>
譯自TEI官方網站的TEI Lite網頁:http://www.tei-c.org/Lite/
網頁內容未經任何校訂,恐有疏漏,請勿任意轉載引用
若有任何疏漏及錯誤之處,歡迎來信指正:sofia@gate.sinica.edu.tw