採用語料庫編成的詞典

Corpus 在語言學上的意思是「語料」，corpus-based dictionary 則是「使用語料所編出來的詞典」。在英語學習上，Collins 以 COBUILD （全名為 Collins Birmingham University International Language Database）所編彙出的一系列 Learner’s Dictionary 可能是最早使用語料，並針對第二外語學習者所編彙的英語詞典。

這本字典的第一個版本，大約是在我唸書的時候出現的。還記得那時候許多剛從國外回來、特別是英語教學專長的老師，都紛紛推薦這套詞典。

我大約是在頭一次聽到這套字典後一年，看到有同學在用了，才去買了一套。先前我用的是 Longman 一本 1990 年代初期所編的英英-英漢雙解詞典，難字則配合 American Heritage 使用。Collins COBUILD 給了我完全不一樣的使用經驗。

所謂 corpus-based dictionary ，跟不是 corpus-based 的字典，最大最大的差別，就是使用上的感覺：傳統的詞典最大的問題，在於常常要找什麼沒什麼，特別在口語表達方式、例句、流行語這三種面向上。這當然跟傳統詞典編輯的方式有關。傳統詞典過去一直仰賴編輯委員會的組成，以及資料收集、整理的功力。這中間反應了編輯委員會的學識涵養，以及相當大一部份的人為偏壓（bias）。例如許多老字典的例句，可能來自經典文學、劇本、散文，以致於例句往往落後字詞的通行意義，有時甚至可能達百年以上的差距。

然而像 Collins 詞典就很不一樣。我到目前為止，幾乎還沒遇過哪個寫作上的字義問題，是 Learner’s Dictionary 找不到的。

為什麼？因為 corpus-based 的字典，例句的人工成份少──這並不是說，句子不是人寫，也不表示詞典完全就沒有人工篩選的成份，而是說，語料庫可以提供比較精準、有統計基礎、根據計算語言學的一些原則所得出的詞彙。同時，藉由平衡語料庫這樣的材料，詞典編輯可以不用憑自己的學識（每個人的學識都有限）來構思例句，而可以從「這個詞在日常生活的真實使用狀況」中得到例句。更重要的是，這樣保證了每一個詞義都可以找到範例。如果再透過語義網絡（semantic web）等工具，則我們更可以針對字詞解釋、字詞微妙的意義差異（shades of meaning），以及同義詞、反義詞等面向，提供更清楚、精準的資訊。這些完全不是傳統手工詞典所能做到的。

例如，1998 年出版的 The New Oxford Dictionary of English (NODE)，在該詞典的編輯序中，就有提到使用 corpus-based 來進行詞彙定義，與傳統方式的不同處：

Past attempts to cover the meaning of all possible uses of a word have tended to lead to a blurred, unfocused result, in which the core of the meaning is obscured by many minor uses. In the The New Oxford Dictionary of English, meaning are linked to central norms of usage as observed in the language. The result is fewer meanings, with sharper, crisper definitions.

過去的字典編彙，經常想要列舉所有的詞義，結果造成詞條模糊失焦，詞彙的核心意義被許多次要的用法給遮蓋掉了。在 NODE 裡，意義繫結於詞彙的常模用法中，這些用法是從語料的分析所得。結果便是語義條目變少了，定義卻更精準簡潔。

另一方面，像 Collins 這類的「學習者詞典」，往往標榜「使用簡單的英語來解釋英語詞彙」，這「簡單的英語」到底有多簡單、到底該使用哪一種範圍的詞彙，能讓最多人清楚瞭解？在過去，所謂的「基礎詞彙表」，也同樣是手工業的產物──當然這並不是說完全沒有利用到統計方法──透過語料，我們則可以更清楚用多少數量的詞可以涵蓋多大的語義面。

除了學習用詞典外，晚近也有編給母語使用者使用的詞典，開始採用語料庫做為編輯材料。前述的 NODE 就是這樣的產物。NODE 在翻閱上的觀感，馬上就和同類型的足本（unabridged）詞典完全不一樣，有機會的話我會貼一些例子上來說明差別在哪裡。

除了單語詞典可以使用語料庫外，雙語詞典也有語料庫發揮的地方。例如我手上的 Oxford-Hachette French Dictionary （以下簡稱 OHFD），就是一本用語料庫所編輯的雙語詞典。或許你馬上會問：雙語詞典怎麼可能用語料庫來編輯？兩種語言的語料要怎麼對在一起？答案其實寫在該書的編輯序中：該詞典仍然是大量人工篩選的產物（雙語詞典的本質是「翻譯」）──差別在於，針對每一條法語詞條的英語解釋（或者相對的，英語詞條的法語解釋），編輯都大量採用語料庫來做為翻譯參考。例如同一份新聞的英法文報導、法律文件的對譯、文學作品的翻譯，以及同樣情境的對話，在目標語（target language）中可能講述的多種方式等等。

我認為，使用 OHFD 的經驗相當的新鮮。除了因為「要什麼有什麼」這種 corpus-based dictionary 的最大優點外，另外是 OHFD 上有相當大量英法俚語的翻譯。當然這馬上衍生出了一個問題：原始語的俚語，在雙語詞典中，往往同樣也翻成目的語的俚語，而且地方色彩（OHFD 是英式英文）相當濃厚。

這並不是說，在 OHFD 之前的雙語詞典就沒有這個問題，但是做過翻譯的人就知道，當我們用目的語解釋原始語的時候，我們會傾向把解釋給淺白化。好比說，mon oeil! （我老天！）在 OHFD 上除了 “my eye!” 之外，還列了 “my foot!” 的解釋──我在此之前還真不知道原來除了「我的眼睛」可以拿來大呼小叫外，「我的腳」也可以拿來對譯法語的這句話（同時學到原來英語裡有這種講法）。又好比說，quel culot! （真有種！真有膽！真不要臉！）一般的英法詞典只列了 “what nerve!” 的解釋，但是 OHFD 還列了 “what (a) cheek!” 的講法。同時除了 quel culot 外，還列出了各種以 culot 為關鍵字的口語講法，這些在傳統的英法詞典裡，往往不會那麼完整列出，使用者也往往只能憑一兩種範例，來推估其他形式口語的可能意義。副作用是，對於母語不是英文（而且還可能得是英式英文！）的人，可能為了查一條法文，還得再去翻其他的英文詞典……

我認識有限，不過似乎還沒聽說哪套中文字詞典，以及哪套英漢／漢英詞典，是採用語料庫來編輯的。不過，「語料」是個泊來概念，加上中文沒有「斷詞」這回事（雖然平衡語料庫是有的……），以及歐語的「詞性」（part of speech）並不能完全套用在中文上。我推想，要用語料來編中文詞典，會有它的困難在。

當然，這種困難也可能是意識型態上的──我們總還是傾向把中文的解釋權，交付給少數的詞典編輯？這並不是否認詞典編輯的專業性。只是，只要看看一般通行的漢英詞典有多難用，就知道靠人工整理的詞典，有多麼不可靠了：要什麼沒什麼、字義與時代脫節、缺乏口語、俚語及成語的解釋，或者是完全要憑運氣。

對照 OHFD, COBUILD 或是 NODE ，總覺得中文字詞典還有很長一段路要走。

參考書目

Collins COBUILD Learner’s Dictionary London: HarperCollins, 1998. [這是舊版的，該詞典後來改名 Collins COBUILD Advanced Learner's Dictionary ，最近一版為 2004 年印行的第四版]
Jewell, Elizabeth J. and Frank Abate, eds. The New Oxford American Dictionary [NOAD]. New York: Oxford UP, 2001.
Pearsall, Judy, ed. The New Oxford Dictionary of English [NODE]. Oxford: Oxford UP, 1998, 2001. [該書成於 1998 年，於 2001 年做少量修訂。前一本 NOAD 是本書的衍生版本，詞義和收錄範圍上則偏重美式詞彙、美式用法，以及美國地方用語等]
The Oxford-Hachette French Dictionary. Oxford: Oxford UP, 1994. [這是舊版的，該詞典第三版已於 2001 年出版]

jcjin的心情筆記

生活點滴～

採用語料庫編成的詞典

參考書目

我的buboo

近期文章

喵喵報時

Friends From The World

文章分類

電子工程專輯-論壇

手機與行動通訊技術

生命科學線上

文章彙整

部落格文章搜尋

夜未眠

如魚得水