從「LIVAC共時(shí)語料庫」看現(xiàn)代漢語的演變
過去兩星期內(nèi),在香港、臺(tái)灣及北京三地最高見報(bào)率的人物是那幾位?最常用的詞語是甚麼?你可能以為這些問題並沒有一定的答案,只能憑個(gè)人主觀印象的臆測(cè)。事實(shí)上,只要進(jìn)入一個(gè)由香港城市大學(xué)語言資訊科學(xué)研究中心開發(fā)的「LIVAC共時(shí)語料庫」網(wǎng)址(www.rcl.cityu.edu.hk/livac/sample),便不難找到答案,而且這是建基於統(tǒng)計(jì)數(shù)據(jù)的精準(zhǔn)
答案。語言資訊科學(xué)研究中心的「新聞名人榜」、「常用地名榜」及「常用詞語榜」均是從「LIVAC共時(shí)語料庫」統(tǒng)計(jì)整理而來的。「LIVAC共時(shí)語料庫」自1994年起由語言資訊科學(xué)研究中心主任鄒嘉彥教授主持開發(fā),是特區(qū)政府研究資助局的角逐撥款資助項(xiàng)目之一。
橫跨十年的研究計(jì)劃
語料庫自1995年7月起定期收集香港、臺(tái)灣、北京、上海、澳門及新加坡六地主要報(bào)刊及電子媒介的語料,由電腦自動(dòng)切詞,再經(jīng)人工校對(duì)分詞,建立了以字、詞條、文句、全文等不同層次的語料庫,供從事語言學(xué)研究的學(xué)者
及對(duì)語言現(xiàn)象、華人社會(huì)組織、文化及動(dòng)態(tài)發(fā)展有意探討者使用。至2001年初,語料庫已收集了7,000多萬字、超過40萬個(gè)詞條,並在不斷擴(kuò)充中。目前上網(wǎng)可供檢索的為1995年7月至1997年6月間上述六地中文報(bào)章的語料,約1,600多萬字、近19萬詞條。計(jì)劃中,語料庫將一直收集及更新至2005年6月,預(yù)計(jì)完成後所收集的字超過一億或詞達(dá)60萬個(gè)。
漢語的時(shí)間錦囊
你可知"Internet"在上述六個(gè)華人地區(qū)有多少個(gè)常用的中文譯名?根據(jù)「LIVAC共時(shí)語料庫」自1995至2000年的記錄,最少有13個(gè)常用的中文譯名。每個(gè)地區(qū)的最常用譯名並不相同:香港是「互聯(lián)網(wǎng)」,臺(tái)灣是「網(wǎng)際網(wǎng)路」,新加坡是「網(wǎng)際網(wǎng)絡(luò)」,澳門是「互聯(lián)網(wǎng)絡(luò)」,上海和北京是「因特網(wǎng)」。
鄒教授說:「中文不是一個(gè)單一的語言,不同地區(qū)的中文有不同的地方色彩。很多人認(rèn)為香港年青人的中文不好,夾雜著粵語,其實(shí)是帶有價(jià)值觀的看法。即使是同一地區(qū)的語言,經(jīng)過一段時(shí)間後,也會(huì)有差異,語言是不斷發(fā)展的。我們可從語料庫看出,現(xiàn)代漢語在這10年間,在不同華人社會(huì)的發(fā)展與差異。」
應(yīng)用潛質(zhì)無限
鄒教授又形容建造語料庫的過程有如開荒,漫長(zhǎng)而艱辛,只要有「差之毫釐」的過錯(cuò),也會(huì)造成「失之千里」的謬誤。例如「李鵬飛抵北京」這句子,究竟是指「李鵬」或是「李鵬飛」*到北京,電腦很難分辨出來。即使是人工校對(duì),稍不留神都會(huì)直接影響到統(tǒng)計(jì)的準(zhǔn)確性。而且,整個(gè)研究計(jì)劃跨時(shí)十年,涉及語料近億字,甚至以「愚公移山」來形容整項(xiàng)工程,實(shí)不為過。「不過,當(dāng)成果成為一頓盛宴,可以讓有興趣的人士分享時(shí),身為『開荒牛』的研究者,也會(huì)忘記多年的艱難困苦,而感到心滿意足了。」
除了學(xué)術(shù)研究外,具備龐大字庫、檢索及統(tǒng)計(jì)功能的語料庫,還有無限的應(yīng)用潛質(zhì)。香港法庭以廣東話進(jìn)行訴訟愈來愈普及,LIVAC語料庫可應(yīng)用於法庭以廣東話輸入記錄的程序。可輸入中文的流動(dòng)電話,亦需要龐大的詞庫作支援。而事實(shí)上,鄒教授說,語料庫已在資訊產(chǎn)品的開發(fā)研究上漸露頭角,開始被一些網(wǎng)絡(luò)及資訊科技產(chǎn)品開發(fā)公司如日本NTT、香港tom.com及美國AOL的附屬公司採用。
*註:前者為中國人大委員長(zhǎng),後者為香港商人、政治評(píng)論員及前政界名人。