文件編碼組織 文件編碼交換格式指引 選錄版
TEI Lite: An Introduction to Text Encoding for Interchange
16. 詮釋與分析
有一種說法:所有的標記都是詮釋或分析的一種形式。但是要以任何通用的方式確實分辨「客觀」與「主觀」的資訊確實有困難,而且甚至於不可能的。相較於客觀判斷,主觀判斷基本上被認為較易引發的爭議仍然是事實。許多學者傾向只有當這類詮釋可能提醒讀者:相較於其他的標誌,該部分被視為開放討論,才會使用。本章節描述TEI架構中幾個符合這種需求的元素。
詮釋的基本上涵括的範圍橫跨整個文本,與其他結構單元無特殊的關係。一個要被用在詮釋的有用序言,因此被分割成分散與可識別的單元,每一個單元帶著一個標籤,做為一種「正規的參考資料」。為了便於使用,這些單元不可相互重疊,亦不可互相包含。各單元可以簡單地使用下列元素來表現:
如名稱所建議,元素<成句單位>(<s>)最常用(至少在在語言學的應用上)來標誌拼寫正確的句子(orthographic sentences),也就是說,由標點符號等拼寫正確的特徵來定義的單元。例如,之前討論選自簡愛的章節可被切割為如下的成句單位:
<分頁 識別號="474"/> <第一層 類型="章" 識別號="38"> <段落> <成句單位 識別號="001">讀者啊,我嫁給他了。</成句單位> <成句單位 識別號="002">我們舉行了寧靜的婚禮,</成句單位> <成句單位 識別號="003">只有他和我,牧師和執事在場。</成句單位> <成句單位 識別號="004">當我們從教堂回來,我走進宅邸的廚房,瑪麗正 在料理晚餐,約翰正在清理刀子,我說:</成句單位> <段落><引句><成句單位 識別號="005">「瑪麗,我今早已經嫁給羅徹斯 特先生了。」</成句單位></引句> ...
注意元素<s>不可以使用巢狀結構:一個<成句單位>的開始,表示上一個<成句單位>已經結束。當成句單位以上述的方法標誌,建議將整個文本悉數逐一標誌,如此被分析的文本中的每一個字,都只被唯一的<成句單位>標誌,可用識別代碼為它指定唯一的參考值。如果使用的識別代碼在文獻中為唯一值,則上述例子中的屬性識別號(n),改為屬性識別名稱(id)會更好。
一般目的的分割元素<分割段落>(<seg>),是用來識別未能以其他類型元素標誌的交互參照與超連結的,前面已經介紹過(見「8. 參照連結」)。<分割段落>識別文本中某些片語層次的部分,編碼者可為這些片語指定一個使用者設定的類型(type),最好同時指定唯一的識別碼。如此則可標記已出版的TEI指引中未提供的文本特徵。
例如,指引中並未提供元素<道白句>(<apostrophe>)來標誌在文學作品中講述者直接向讀者(或聽者)講述的部分。其中一種處理的方式,是將它們視為元素<引句>(<q>)的情境,並以相對應的人物(who)屬性值作區別。另一種較為簡單,實際上也較普遍的解決方式,則是使用元素<分割段落>(<seg>),如下所示:
<第一層 類型="章" 識別號="38"> <段落><分割段落 類型="道白句">讀者啊,我嫁給他了。</分割段落> 我們舉行了寧靜的婚禮,...
元素<分割段落>中的屬性類型(type)可使用任何屬性值,所以可用來記錄任何片語層次的現像。最好可以把這些屬性的值及其特性記錄在標頭裡。
元素<分割段落>具某一類型(不同於元素<成句單位>(<s>)只是表面的形似)者,可以在相同或其他的類型的<分割段落>中以巢狀結構疊套。這種方式可表現相當複雜的結構,部分例子在之前的章節「8.3 連結屬性」中已提供。但是,因為必須遵守元素正確地疊套的條件,元素間不得互相疊壓,使它無法應付無視於文獻階層的武斷分割的一般詮釋需求。詮釋的本身也只能以單一的屬性值表現類型(type)。
但元素<詮釋>(<interp>)並不套用上述的限制,它提供強而有力的特性,可以用相對直接的方式為複雜的詮釋資訊編碼。
本元素允許編碼者具體說明詮釋的類別,以及詮釋相關類別的特定例子,當使用元素<分割段落>時,只能簡單地說某部分是道白句,而使用元素<詮釋>時,則可說這是一個大類(敘述角色的)中的實例(道白句部分)。
除此之外,<詮釋>是一個空的元素,必須連結到對應的段落,不論是藉由章節「8.3 連結屬性」討論過的屬性分析(ana),或是藉由元素所有的屬性實際位置(inst)。這意味著任何分析類型都可以被表現,不需遵循文獻的階層。為便於集合特定類型的分析,元素<詮釋群組>應運而生。
例如,假設使用者想要標誌文本的各種面向,如主旨、主題素材、敘述的角色及敘事中各場景的位置。以取自簡愛中的篇章為例作不同的配置,可以連結到道白、誇飾與隱喻的修辭特性;教堂、僕役、烹飪、郵務及蜜月等參考主題素材;或教堂、廚房及不特定地點(客廳?)的場景地點。
這些詮釋可以放在元素<文件內容>(<text>)的任何地方,將所有的詮釋放在同一處(例如,文前或文後資訊的獨立區段)似乎是個好辦法,如下例所示:
<正文後資訊><第一層 類型="詮釋"> <段落><詮釋 識別名稱="性質-道白" 責任類型="LB, MSM" 類型="講述性質" 標準格式值="道白"/> <詮釋 識別名稱="性質-誇飾" 責任類型="LB, MSM" 類型="講述性質" 標準格式值="誇飾"/> <!-- ... --> <詮釋 識別名稱="場景-教堂" 責任類型="LB, MSM" 類型="場景" 標準格式值="教堂"/> <!-- ... --> <詮釋 識別名稱="相關-教堂" resp="LB, MSM" 類型="相關" 標準格式值="教堂"/> <詮釋 識別名稱="相關-神職人員" resp="LB, MSM" 類型="相關" 標準格式值="神職人員"/> <!-- ... --> </段落></第一層>
此處明顯重覆的編碼,可以使用元素<詮釋群組>(<interpGrp>)集合所有的共用相同屬性值的元素<詮釋>(<interp>),達到相當程度地減省,如下所示:
<正文後資訊> <第一層 類型="詮釋"> <段落> <詮釋群組 類型="講述性質" 責任類型="LB, MSM"> <詮釋 識別名稱="性質-道白" 標準格式值="道白"/> <詮釋 識別名稱="性質-誇飾" 標準格式值="誇飾"/> <詮釋 識別名稱="性質-隱喻" 標準格式值="隱喻"/> <!-- ... --> </詮釋群組> <詮釋群組 類型="場景" 責任類型="LB, MSM"> <詮釋 識別名稱="場景-教堂" 標準格式值="教堂"/> <詮釋 識別名稱="場景-廚房" 標準格式值="廚房"/> <詮釋 識別名稱="場景-未設" 標準格式值="未設"/> <!-- ... --> </詮釋群組> <詮釋群組 類型="相關" 責任類型="LB, MSM"> <詮釋 識別名稱="相關-教?quot; 標準格式值="教堂"/> <詮釋 識別名稱="相關-神職人員" 標準格式值="神職人員"/> <詮釋 識別名稱="相關-烹煮" 標準格式值="烹煮"/> <!-- ... --> </詮釋群組> </段落></第一層>
這些詮釋元素一旦被定義,就可與文本的部分連結,應用方式有兩種,可僅採其一,或是二者並用。屬性分析(ana)可在任何適用的元素內使用:
<第一層 類型="章" 識別號="38"> <p 識別名稱="P38.1" 分析="場景-教堂 場景-廚房"></段落> <成句單位 識別名稱="P38.1.1" 分析="性質-道白">讀者啊,我嫁給他了。</成句單位>...
注意此例因段落中有兩個場景(教堂內及廚房內),兩者都有識別代碼。
另一種方式是,使用屬性實際位置(inst),元素<詮釋>(<interp>)即可指向文本中所有相關的部分:
<詮釋 識別名稱="性質-道白" 類型="講述性質" 責任類型="LB, MSM" 標準格 式值="道白" 實際位置="P38.1.1"/> <!-- ... --> <詮釋 識別名稱="場景-教堂" 類型="事件-場景" 標準格式值="教堂" 實際 位置="P38.1" 責任類型="LB, MSM"/> <詮釋 識別名稱="場景-廚房" 類型="事件-場景" 標準格式值="廚房" 實際 位置="P38.1" 責任類型="LB, MSM"/> <!-- ... -->
元素<詮釋>(<interp>)不限制任何特定類型分析,上列的文學分析不過是可能用法之一,使用者同樣也可善用<詮釋>(<interp>)來標誌局部演說的語言分析。例如,章節「8.3 連結屬性」中的例句所假設的語言分析,可以標誌如下:
<詮釋 識別名稱="NP1" 類型="pos" 標準格式值="名詞片語, 單數"/> <詮釋 識別名稱="VV1" 類型="pos" 標準格式值="語尾變化動詞,單數現在式"/> ...
譯自TEI官方網站的TEI Lite網頁:http://www.tei-c.org/Lite/
網頁內容未經任何校訂,恐有疏漏,請勿任意轉載引用
若有任何疏漏及錯誤之處,歡迎來信指正:sofia@gate.sinica.edu.tw