文件編碼組織 文件編碼交換格式指引 選錄版
TEI Lite: An Introduction to Text Encoding for Interchange
18. 字集、發音符號等
隨著XML與XML採用Unicode做為所有文件的必備字集,原先與全球語言及書寫系統分歧相關的大部分問題己大幅減少。特別是對以歐語標準格式的工作,幾乎不需要特別的動作:任何XML編輯器都允許直接輸入重音節字母或其他「非ASCII碼」字元,而且不論是採Unicode或採參考字元碼來編碼,這些字元應設法存成一個可在不同系統間直接轉換的最終檔。
然而,顧及其他舊系統的相容性,TEI Lite DTD宣告了一些最廣泛使用的字碼集,讓這些字形可以字元助記法輸入與儲存。
在合法的TEI檔案中,使用者可使用自己的字碼。如果使用者想要並提供這些字碼的宣告,可將這些字碼對應到相應的Unicode。標準編碼(使用長編碼)擁有的優點是清晰;預設的字元對任何說英文者而言是當然是明確的,他們認識已被編碼的字元,通常甚至沒有來源表列。但許多表現重音節字母的舊架構並非如此。
當使用者需要的字元並不在公用字集中,使用者可能想用ISO公用字集的編碼規則產生一個字碼,如下面所述者:
- 連音字/digraphs
- 表示連音字(兩個字母發一個音節)的字碼,由一串綁在一起的字母表現。如果需要大寫格式,兩個字母都要大寫(記得,這種狀況在字碼中通常很明顯),例如:aelig
(æ), AElig (Æ) szlig (ß)。
-
- 發音與音節符號/diacritics and accents
- 用來表示多數西歐語言中含音節字母的編碼,在含音節標記的字母後面附加下列字串中的一種,大小寫均可。
-
- 曲音符號/umlaut
- 曲音以uml表示,例如:auml (ä), Auml (Ä), euml (ë), iuml (sic: ï),
ouml (ö), Ouml (Ö), uuml (ü), Uuml (Ü)。
-
- 重音節符號/acute
- 急促音或是重音節以acute表示,例如:aacute (á), eacute (é), Eacute (É),
iacute (í), oacute (ó), uacute (ú)。
-
- 抑音節符號/grave
- 抑音節以grave 表示,例如:agrave (à), egrave (è), igrave (ì),
ograve (ò), ugrave (ù)。
-
- 曲折符號circumflex
- 曲折音符號以circ表示,例如:acirc (â), ecirc (ê), Ecirc (Ê), icirc
(î), ocirc (ô), ucirc (û)。
-
- 鼻音符號/tilde
- 鼻音符號以tilde表示,例如:atilde (ã), Atilde (Ã), ntilde (ñ),
Ntilde (Ñ), otilde (õ), Otilde (Õ)。
-
- 子音consonants
- 以下是西歐語言遇到特殊子音時推薦的字碼:ccedil (ç), Ccedil (Ç), eth(þ,小寫的eth或盎格魯撒克遜或冰島語的劃線d),
ETH (大寫的eth), thorn (小寫的thorn), THORN(大寫的thorn), szlig (德文中的s-z的連字或esszet、ß)。
-
- 標點符號/punctuation marks
- 以下推薦某些常見標點符號使用的字碼:ldquo(左雙引號括弧,在文字上方像66者)、rdquo(右雙引號括弧,在文字上方像99者)、mdash
(一個內夾的連字符號)、hellip(水平省略符號,三個相近的點號)、rsquo(右單引號,在文字上方像9者)。
上一章 回到目次 下一章
譯自TEI官方網站的TEI Lite網頁:http://www.tei-c.org/Lite/
網頁內容未經任何校訂,恐有疏漏,請勿任意轉載引用
若有任何疏漏及錯誤之處,歡迎來信指正:sofia@gate.sinica.edu.tw