文件編碼組織 文件編碼交換格式指引 選錄版
TEI Lite: An Introduction to Text Encoding for Interchange
1. 簡介
文件編碼交換格式指引(TEI Guideline,以下簡稱「指引」)的對象,是任一想把資訊轉換成電子形式儲存者。指引強調文字資訊的轉換,但對其他格式的資訊,如圖象及聲音等,也有涉及。建立新的資源或轉換已存在的作品,指引都同等適用。
指引提供使文件特徵明確表現的方法,並以此種方式來輔助電腦軟體在不同的平台上做文件處理。使文件明確的程序稱為標誌或編碼。在電腦中,任何文字的呈現都使用某種標誌的形式,TEI的形成,部分是因為現有相通且不可省略的編碼架構,很多都是學界設定的,另一部分是因為學術使用電子文件的範圍擴張。
指引描述一個可被擴充到多種不同軟體語言的編碼架構。第一版的TEI使用標準通用標誌語言(SGML),最近的版本(TEI P4, 2002),已可使用可擴充標誌語言(XML),未來的版本或許可以擴及其他架構性的語言。這些語言的共通之處,是以元素與屬性來定義文件,並有規則來規範元素與屬性在文件中的用法。TEI採用XML是著重它的完整性與一般性,但TEI與其他XML的標誌架構並無二致,任何一般目的性的XML工具軟體,都可以處理遵循TEI的文件。
TEI之前由計算與人文學會(Association for Computers and the Humanities)、計算語言學會(Association for Computational Linguistics)、及文學與語言學計算學會(Association for Literary and Linguistic Computing)贊助,現在由四所重點大學所主持的獨立的會員性組織維護與發展。目前的經費部分來自美國國家人文研究捐贈基金(U.S. National Endowment for the Humanities)、歐盟委託執行計畫第八指導委員會(Directorate General XIII of the Commission of the European Communities)、安德魯•威廉•美隆基金會(Andrew W. Mellon Foundation)、及加拿大社會科會及人文學研究委員會(Social Science and Humanities Research Council of Canada)。第一版指引於1994年5月出版,是全球數百位各領域專長的學者投入六年的產物。在接下來的幾年中,指引在數位圖書館的發展、語言工業,甚至是在全球資訊網本身的發展上具漸具影響力。TEI組織於2001年1月成立,一年後發行了最新的指引的完整修訂版,修訂成與XML完全相容。
TEI最初工作的總體的目的,是1987年11月在紐約維薩學院(Vassar College)舉行的預備會議所擬定的封閉條款,這些「帕基普西原則」(Poughkeepsie Principles)在一系列設計的文件中被進一步的闡釋。指引說明這些文件,應該要:
學術的世界廣闊而分歧。為了使指引被廣泛的認同,必須確保:
本文獻描述一個自大量元素集合中摘取的易用選集,並從設計的目標中推薦範例,稱為TEI選錄版。
從完整的TEI架構中定義的幾百個元素加以選擇,試圖定義一套有用的「起始集」,歸納出每個使用者都應該知道的元素。對於了解完整的TEI DTD;以及辨認出在完整的DTD中,哪些選用項目對特殊類型的文件是必備者而言,TEI選錄版的工作經驗是非常寶貴的。
定義本子集的目的,綜述如下:
讀者可以自行判斷我們是否成功達成目的。我們的信心源自於實際文件編碼的運用,在文作寫作之時(1995)至少有部分目標已達成。
牛津文件檔案在將原來的文件標誌檔換成SGML時採用TEI選錄版;維吉尼亞大學與密西根大學的電子文件中心,已採用TEI選錄版為館藏編碼。文件編碼組織自己的技術文件──包含本文件,也採用選錄版。
作為一份適當的指導文件,雖然已經嘗試使文件內容完備,但讀者必須注意它並未涵蓋TEI編碼架構的所有細節。本文件中所描述的元素,指引中盡皆包含,指引應當做為查詢選錄版以及其他未被選錄元素的權威參考資料。選錄版並假設使用者具備某些XML的基本知識。
譯自TEI官方網站的TEI Lite網頁:http://www.tei-c.org/Lite/
網頁內容未經任何校訂,恐有疏漏,請勿任意轉載引用
若有任何疏漏及錯誤之處,歡迎來信指正:sofia@gate.sinica.edu.tw