文件編碼組織 文件編碼交換格式指引 選錄版
TEI Lite: An Introduction to Text Encoding for Interchange


18. 字集、發音符號等

隨著XML與XML採用Unicode做為所有文件的必備字集,原先與全球語言及書寫系統分歧相關的大部分問題己大幅減少。特別是對以歐語標準格式的工作,幾乎不需要特別的動作:任何XML編輯器都允許直接輸入重音節字母或其他「非ASCII碼」字元,而且不論是採Unicode或採參考字元碼來編碼,這些字元應設法存成一個可在不同系統間直接轉換的最終檔。

然而,顧及其他舊系統的相容性,TEI Lite DTD宣告了一些最廣泛使用的字碼集,讓這些字形可以字元助記法輸入與儲存。

在合法的TEI檔案中,使用者可使用自己的字碼。如果使用者想要並提供這些字碼的宣告,可將這些字碼對應到相應的Unicode。標準編碼(使用長編碼)擁有的優點是清晰;預設的字元對任何說英文者而言是當然是明確的,他們認識已被編碼的字元,通常甚至沒有來源表列。但許多表現重音節字母的舊架構並非如此。

當使用者需要的字元並不在公用字集中,使用者可能想用ISO公用字集的編碼規則產生一個字碼,如下面所述者:

連音字/digraphs
表示連音字(兩個字母發一個音節)的字碼,由一串綁在一起的字母表現。如果需要大寫格式,兩個字母都要大寫(記得,這種狀況在字碼中通常很明顯),例如:aelig (æ), AElig (Æ) szlig (ß)。
 
發音與音節符號/diacritics and accents
用來表示多數西歐語言中含音節字母的編碼,在含音節標記的字母後面附加下列字串中的一種,大小寫均可。
 
曲音符號/umlaut
曲音以uml表示,例如:auml (ä), Auml (Ä), euml (ë), iuml (sic: ï), ouml (ö), Ouml (Ö), uuml (ü), Uuml (Ü)。
 
重音節符號/acute
急促音或是重音節以acute表示,例如:aacute (á), eacute (é), Eacute (É), iacute (í), oacute (ó), uacute (ú)。
 
抑音節符號/grave
抑音節以grave 表示,例如:agrave (à), egrave (è), igrave (ì), ograve (ò), ugrave (ù)。
 
曲折符號circumflex
曲折音符號以circ表示,例如:acirc (â), ecirc (ê), Ecirc (Ê), icirc (î), ocirc (ô), ucirc (û)。
 
鼻音符號/tilde
鼻音符號以tilde表示,例如:atilde (ã), Atilde (Ã), ntilde (ñ), Ntilde (Ñ), otilde (õ), Otilde (Õ)。
 
子音consonants
以下是西歐語言遇到特殊子音時推薦的字碼:ccedil (ç), Ccedil (Ç), eth(þ,小寫的eth或盎格魯撒克遜或冰島語的劃線d), ETH (大寫的eth), thorn (小寫的thorn), THORN(大寫的thorn), szlig (德文中的s-z的連字或esszet、ß)。
 
標點符號/punctuation marks
以下推薦某些常見標點符號使用的字碼:ldquo(左雙引號括弧,在文字上方像66者)、rdquo(右雙引號括弧,在文字上方像99者)、mdash (一個內夾的連字符號)、hellip(水平省略符號,三個相近的點號)、rsquo(右單引號,在文字上方像9者)。

上一章 回到目次 下一章


譯自TEI官方網站的TEI Lite網頁:http://www.tei-c.org/Lite/
網頁內容未經任何校訂,恐有疏漏,請勿任意轉載引用
若有任何疏漏及錯誤之處,歡迎來信指正:sofia@gate.sinica.edu.tw