【徐振國】黃一農院士以大數據研究紅樓夢的衝擊和啟示——對科技部政治學門的建言與辯白

欄目:《原道》第31輯
發布時間:2016-12-21 21:13:46
標簽:

黃一農(nong) 院士以大數據研究紅樓夢的衝(chong) 擊和啟示——對科技部政治學門的建言與(yu) 辯白

作者:徐振國(台灣東(dong) 吳大學政治係兼任教授) *

來源:《原道》第31輯,陳明 朱漢民 主編,新星出版社2016年出版

時間:孔子二五六七年歲次丙申十一月廿三日丁醜(chou)

          耶穌2016年12月21日

 

 

 

作者按:這原來是給科技部政治學門的一封信函,寄出後獲得新任召集人吳重禮教授和前任召集人蘇彩足教授的善意回應,非常感謝。然而研究的契機稍縱即逝,當年的研究夥(huo) 伴或已退休、或出國任職、我自己也已屆七十二歲高齡,已經不具申請科技部研究計劃的資格。然而我相信我在文中所提的建言和辯白還是有意義(yi) 的,故將原函修改成一般文章的形式,期能引發同好的討論和指教,是所至盼。

 

前年(2014年,編者注)12月我看到《中國時報》所載《穿梭清史:黃一農(nong) e考據解紅學》一文,覺得和我的研究方向相近,而我最後兩(liang) 年的研究計劃遭到否決(jue) ,一時深有感觸,故曾給當時的“國科會(hui) ”政治學門召集人致函,表達我的一些看法。然而當時粗心大意,居然將一封還沒有寫(xie) 完的網絡信件寄發出去,卻也收到召集人的回函,語多鼓勵,頓時讓我感到羞愧,立即回函致歉,表示在自己的意見更清晰之後會(hui) 再陳述意見。

 

後來,我認真拜讀了黃一農(nong) 院士的《二重奏:紅學與(yu) 清史的對話》,的確是一本厚重紮實的著作,沿襲民清以來的紅學研究爭(zheng) 議,說明紅樓夢不僅(jin) 是曹學芹個(ge) 人的文學創造,其寫(xie) 作的內(nei) 容,特別是大觀園元妃省親(qin) 等處細節,的確有其史實依據。另從(cong) 更大的範圍來看,一農(nong) 院士不僅(jin) 是在考據一部小說,而是呈現了清朝“遼人”(關(guan) 外漢人)的生活方式和人情義(yi) 理,對清朝的政治社會(hui) 史產(chan) 生了截然不同的看法。就方法論的概念而言,一農(nong) 院士是以全文檢索的方式,在六十億(yi) 字的各類滿漢文檔資料進行搜尋、比對和解析,來建立自己的論述。他宣稱:“……隨著近年大數據(Big Data)的出現,相關(guan) 文獻的發掘反而邁向一嶄新局麵,甚至相對於(yu) ‘新紅學’或‘新索隱派’的發展模式而言,‘新新曹學’或‘新新紅學’的興(xing) 起亦不無可能。”

 

從(cong) 黃一農(nong) 院士的著作,我想到若幹年前和謝清俊教授的一次長談。謝教授是中文計算語言學的創始人,他認為(wei) 此一新興(xing) 學科非常符合中國的注疏考證之學。他舉(ju) 《金剛經》為(wei) 例,經文很短,曆代高僧注解金剛經的文獻卻汗牛充棟。謝教授認為(wei) 這背後有其獨特的思想運作邏輯,有別於(yu) 西方的歸納法和演繹法。他提到屢次和西方科學家討論此一問題,後者認為(wei) 西方思想的確偏重歸納/演繹邏輯,注疏考證的基本邏輯形式必須在中國或印度的古典哲學中去發掘。謝教授的說法極具啟發。我當時回應,作為(wei) 現代政治科學根基的憲法便是一門注疏考證之學,憲法的法條不多,但長年以來累積的司法判例卻因應時空環境為(wei) 憲法增添了許多新的解釋,並藉此貫徹了民主憲政生活。從(cong) 方法論的角度,我還認為(wei) 憲法解釋背後蘊含的詮釋科學方法論,可以和注疏考證之學連結,而獲得更高層次的提升。

 

然而必須注意的是,大數據近年來獲得極大的重視,主要是從(cong) 信息專(zhuan) 業(ye) 的角度提出主張,強調在統計、數學和軟件三方麵下功夫,卻很少從(cong) 人文社會(hui) 科學使用者的立場提出需求和理論主張。現從(cong) 上述兩(liang) 位學術先進的啟發以及自己長年做“國科會(hui) ”研究計劃的一貫訴求,我認為(wei) 大數據的功能兼具了實證科學方法論和詮釋科學方法論相互交融的特色。甚或可以說,大數據研究跨越了實證主義(yi) 而進入到後實證主義(yi) ,特別切合人文社會(hui) 科學的發展趨勢。我現就此一觀點提出下麵幾項意見和看法。

 

第一,從(cong) “數據庫”到“意聯網”。黃一農(nong) 院士以“e考據”和“大數據”的概念利用多達六十億(yi) 字的各類滿漢文檔數據庫研究紅樓夢。相應於(yu) 此,各類媒體(ti) 、官書(shu) 、法律、史料的數據庫早已有非常龐大的累積,然而大多隻是用於(yu) 資料的查詢,還未發展出更深刻的用途和價(jia) 值。然從(cong) 當前科技發展的角度來看,自然科學界和和工商業(ye) 界皆強調依據大數據的概念,落實成“物聯網”,並衍生成更具體(ti) 的“車聯網”和“醫聯網”。相應於(yu) 此,人文社會(hui) 科學應該從(cong) 語言和符號的基礎上出發,發揮語言文字數據庫的功能,使其從(cong) “字聯網”形態進入到更深層的“意聯網”脈絡,藉快速檢閱各種龐大的文類和文本,而能解析人們(men) 各類語境中的“意向性”內(nei) 涵。

 

第二,平衡語料庫。就技術層次而言,要大量有效的使用語言文字數據庫,必須認識在其背後的“語料庫”的運作。這是依循古典語言學家的“詞類標記”概念,不斷地搜集日常生活中各種文類的語句,分別標記出其中的名詞、動詞、受詞、形容詞等詞性,藉此可以全麵地呈現某一社會(hui) 在特定時空環境中的語言使用的狀態及其可能的變化。值得注意的是,計算機本身便是以0、1為(wei) 基礎的數位語言,和人類的自然語言早就有相互啟迪和傳(chuan) 譯的關(guan) 係。自1960年代,西方信息學界更是沿襲古典語言學詞性標記方法來開發電子語料庫,由此形成專(zhuan) 業(ye) 的“計算語言學”或“計算機語言學”。自1990年代初,采用西方計算語言學的發展而奠定了中文計算語言學的基礎,完成了“中研院語料庫”(Sinica Corpus),讓人們(men) 每天可以在計算機上快速地篩選我們(men) 需要的字詞。其實,當我們(men) 每天使用計算機和手機時,便會(hui) 觸及到語料庫的運作。例如鍵入“政”字,後麵便有“政治”“政黨(dang) ”“政局”“政變”等有意義(yi) 的字符串供我們(men) 選用,而不是在每一個(ge) 字鍵入後都會(hui) 跟著三千五百個(ge) 左右的常用漢字,讓我們(men) 疲於(yu) 篩選而放棄使用。

 

第三,數據庫的使用途徑。麵對龐大的各類數據庫,必須采用適當的方法和途徑來開發利用,在這方麵用心的人很多,我自己長年做“國科會(hui) ”研究先後意識到三種運用資料的方法。其一,大量製作數據庫之時,人們(men) 便開始運用關(guan) 鍵語詞的特性來萃取資料。我早期製作的台灣報紙社論標題等數據庫便是采用此一途徑。其後,我從(cong) 當代語言學的發展脈絡來界定此一研究途徑的特性,而冠以“文本論述分析”的名目,希望能夠加深其學理意涵,而獲得更深刻的使用價(jia) 值。其二,Roberto Franzosi發展的SAO過錄法,此須善用語料庫來界定語句中的詞性,如主詞、動詞、受詞等等,然後利用“主體(ti) -行動-[客體(ti) ]”的基本語法模式,來解析一篇新聞報導中的敘事情節,而能更精確地掌握到相關(guan) 事件或議題的演變。其三,Michael Laver發展的文本內(nei) 容分析(textualcontent analysis,TCA),采用其自製的統計套裝軟件,將歐洲政黨(dang) 的黨(dang) 綱打散,萃取出其中有實質意涵的單字,並以字詞出現的頻率與(yu) 標準差進行排序,將新舊黨(dang) 綱做一對照,而能從(cong) 新黨(dang) 綱中新產(chan) 生的加權字詞中看到新政策概念的走向。值得注意的是,上述三述研究方法,隻有以關(guan) 鍵語詞為(wei) 檢索資料的方法獲得非常散漫的使用,其他研究方法都還未獲得有係統的開發,此乃因當今方法論學者還未充分認識當代語言學以及後實證主義(yi) 科學哲學觀而形成之侷限。

 

第四,重新認識當代語言學和詮釋科學方法論。前麵提到,日常語言和計算機語言有其共通的特性而有其相互啟迪的過程,甚至由此發展成計算語言學,而直接影響了計算機文字檔和圖像檔的轉譯和呈現。依此線索,我們(men) 必須重新認識當代語言學的發展淵源。論者一般都認為(wei) 當代語言學的創始人是索緒爾(F. De Saussure,1857-1913)。他從(cong) 日常語言出發,能看到“名”“實”之間的重要分際,而區分出“所指”(the signified)和“能指”(the signifier)兩(liang) 個(ge) 範疇,前者指名目概念或形式結構,後者指具體(ti) 的聲光形象等實質內(nei) 容,兩(liang) 者合稱“符號”。“所指”和“能指”之間有其可能的對應關(guan) 係,但又有各自的變通原則(rule或grammar)。這樣的語言學概念,可以呈現語言使用者的主觀運用空間,也能夠在約定成俗的基礎上達到“互為(wei) 主觀”的溝通運作效果。

 

另就邏輯的特性而言,索緒爾的語言學中蘊含了一種“二元模式”(the binary mode)。所謂“所指”和“能指”便是一種對立的二元,而兩(liang) 者所指涉的“個(ge) 體(ti) ”及其所隸屬的“整體(ti) ”也是一種對立的二元。此一二元模式超越了實證科學方法論所偏重的歸納法和演繹法,而進入到辯證邏輯的領域,超越了合黑格爾的“正、反、合”模式,卻更能契合當代現象學家Robert Sokolowski所說“顯性和不顯性”“整體(ti) 和局部”“同一和多重”等三個(ge) 基本形式結構。

 

值得注意的是,索緒爾語言學後來經維根斯坦等人後實證主義(yi) 科學哲學觀的加持,經Noam Chomsky以數理形式語言的麵貌呈現,再經Teun A. van Dijk以論述語言學的方式彰顯,終於(yu) 從(cong) 1970年代開始在文史哲藝界大行其道,形成所謂“論述轉向”或“語言學轉向”的龐大趨勢。令人感到遺憾的是,當時政治科學正從(cong) 行為(wei) 主義(yi) 轉變為(wei) 後行為(wei) 主義(yi) ,卻停留在實證主義(yi) 科學方法論的思維觀點而未能參與(yu) 語言學轉向的新趨勢。錯失了這一環節,使政治科學至今落後,而未能積極主動地參與(yu) 大數據時代的理念主導和開創。另一方麵,我也必須很嚴(yan) 肅地指出,由於(yu) 索緒爾是瑞士人,深深地影響了東(dong) 歐和前蘇聯地區的語言學發展。此外,辯證法的邏輯思考也加強了索緒爾當代語言學的發展。基於(yu) 此一傳(chuan) 承,中國大陸學界對當代語言學以及相關(guan) 後現代概念的銜接要比我們(men) 深刻寬廣。基於(yu) 此,中國大陸計算機硬件的發展不如我,然而軟件以及網絡商業(ye) 模式的發展卻超過我。此外,大陸人士有“話語權”“潛規則”等說法,也反應了其背後不同的語言學認知基礎。追本溯源,我們(men) 不能不注意兩(liang) 岸在當代語言學和邏輯思維兩(liang) 項源頭上的差異。

 

第五,若幹辯白和補述。我100年和101年的研究計劃被否決(jue) ,當時按程序提出申覆未果,故曾致函承辦人林芳美女士表示“不為(wei) 申覆隻為(wei) 原則”,現仍沿此一方向提出一些辯白和補充。

 

1.關(guan) 於(yu) 實證政治科學方法論的發展困境。我早從(cong) 86年度的研究計劃開始,便強調我是以方法論駕馭我整個(ge) 的研究計劃,核心概念是追求實證科學方法論和詮釋科學方法論的融合,根源是取自Donald Moon在1975年TheHandbook of Political Science一書(shu) 中的一篇長文。然而,我逐漸發現Moon對於(yu) 詮釋科學的語言學觀點和辯證邏輯的認識不深,跳脫不出實證主義(yi) 的“律則涵蓋解釋”思考模式,違背他自己文章的宗旨,反而去推崇當時正在崛起而偏重演繹邏輯的理性抉擇政治學。他的退縮受到G. Almond的奚落,也受到W.Riker的嘲諷,反批他沒能真正了解理性抉擇政治學的妙用。對於(yu) Moon的失敗以及所引發的爭(zheng) 議,我認為(wei) 是政治科學方法論發展過程中的一件大公案,由此錯失了「語言學轉向」和「論述轉向」的契機,徒使政治學方法論偏重實證經驗研究,而無法維護長期以來以公法、公共論述和政治思想為(wei) 基礎的傳(chuan) 統政治學,也無法順利進階到後實證主義(yi) 而難以適應當前大數據和信息科學的發展趨勢。我在“國科會(hui) ”的研究計劃中屢次提到這一問題,也不斷有文章檢討,然而未受重視。我2013年發表的一篇最具代表性的論文,《政治科學改造運動的爭(zheng) 議和啟發:從(cong) “通則”到“脈絡”的轉向》,可以更詳細地說明我這一方麵的意見。

 

2.關(guan) 於(yu) 主要代表作的認定問題。在研究方法和研究技術方麵,我自2005有重大改變,采用M. Level的文本內(nei) 容分析(textualcontent analysis, TCA),試圖將其文字計數軟件引進到中文世界。然而,我和我的研究團隊低估了中文在斷詞上的困難,連續兩(liang) 年未能達到預期的測試效果,“國科會(hui) ”因此終止了我2008年度的續約,理所當然,毫無可怨。可慶幸的是,此時我受到瞿海源教授之邀約,參與(yu) 《社會(hui) 及行為(wei) 科學研究方法:質性研究法》一書(shu) 之寫(xie) 作,負責其中“內(nei) 容及文本內(nei) 容”一章之規劃和撰寫(xie) 。我深知這是檢討我整個(ge) 研究計劃的一個(ge) 大好機會(hui) ,花了三年的時間,七易其稿,主編也為(wei) 我做了字斟句酌的校勘。在此寫(xie) 作過程中,我對實證內(nei) 容分析和詮釋文本分析作了詳細的分辨,並形成本函前麵提到的一些變化。然而遺憾的是,計劃審查人看不到該項代表作的實質內(nei) 容,而貶低為(wei) “一篇教課書(shu) 文章”。我要強調的是,瞿編研究方法是一次非常用心的編著工程,邀約了四十餘(yu) 位各領域的專(zhuan) 家,將1978年楊國樞教授編著之後三十餘(yu) 年的研究方法發展,做了一次概括性的整理和呈現。況且,此一係列專(zhuan) 書(shu) 是要為(wei) 博碩士研究生以及年輕學人提供一本研究方法的參考模板,絕不是一本普通的“教課書(shu) ”。

 

3.關(guan) 於(yu) 文本內(nei) 容分析在中文斷詞上的可能突破途徑。在2008年接受瞿海源教授的編書(shu) 邀約之時,東(dong) 吳大學特別給我經費資助,讓我能夠繼續聘請信息助理來協助寫(xie) 作,並檢討上述文本內(nei) 容分析測試失敗的原因。在此次寫(xie) 作過程中,我深受Franzosi的影響,對當代語言學的發展和“論述轉向”有一更完整的認識,也對“SAO過錄法”“詞類標記”“語料庫”有更貼切的了解。循此,信息助理廖文偉(wei) 利用“中研院語料庫”和既有的中英文翻譯軟件的基礎,製作了一個(ge) 可以進行中文SAO過錄的界麵,試圖以此作為(wei) 中文“文本敘事分析”的基礎。至於(yu) 如何改善中文的“文本內(nei) 容分析”,文偉(wei) 主張放棄斷詞,僅(jin) 用單字,便可達到中文計數的測試效果。郭豐(feng) 州老師持不同看法,擔心以單字萃取太過單薄,容易扭曲原文本資料的內(nei) 涵,故主張另寫(xie) 文字計數統計軟件,順應中文以及中文語料庫的特性,方能產(chan) 生信度較佳的後果。我當時決(jue) 定先以中文SAO過錄法做文本敘事分析,可以藉此更深入地了解中文語料庫的特性,然後再以單字或新統計軟件來測試中文文本內(nei) 容分析的可行性。可惜的是,前後這最後兩(liang) 次的研究方案皆遭否決(jue) ,而我自己也屆齡退休,遂使前後八年的研究工作成了一種無從(cong) 收尾的狀態。

 

4.服務器廢除後的尷尬處境:2008年研究計劃中斷之後,我用“國科會(hui) ”研究經費購置的服務器仍舊呈放在東(dong) 吳大學信息中心,其後逐漸呈現失修狀況。我2013年退休之後,更因難以修複而予以拆除,存放在東(dong) 吳政治係一位助教的辦公桌下,形同廢物。這對我形成兩(liang) 個(ge) 難堪的後果。其一,我在瞿海源教授編著的文章中,所標示的資料來源和運作界麵都在此一服務器中,現在失了根源,讀者無從(cong) 尋索。其二,曆來用了很多的經費累積的資料,其中我最珍惜的是剪輯光複初期八分報紙而做成的社論標題數據庫,以及采集光複初期《台灣銀行季刊》中“經濟日誌”而製成的財經數據庫。社論標題數據庫後來曾利用“國科會(hui) ”研究經費向聯合和中時兩(liang) 大報係購得社論本文而有相當完整的內(nei) 容。兩(liang) 報係在簽約時也都同意可以在學術網絡上自由使用,不用於(yu) 圖利,便無侵犯智慧財產(chan) 權的問題。我曾利用此類數據庫寫(xie) 過十餘(yu) 篇會(hui) 議論文,包括“金融”議題之發展和“民主”意識形態之演變等等。早期,由於(yu) 數據庫管理不善,每逢更換合作對象或更換服務器,文本資料容易出現亂(luan) 碼。其後,經過信息係同仁不斷修正,這個(ge) 問題已大幅改善。我一直有一個(ge) 心願將這十餘(yu) 篇論文修改充實後刊登,現在整個(ge) 服務器廢棄了,這個(ge) 願望也就很難達成了。

 

我必須坦白地說,對最後兩(liang) 次研究計劃遭受否決(jue) 的事非常不滿,顯示當時的學門召集人委任審查人不當,擺脫不掉自己的本位立場。而如前所述,我整個(ge) 研究計劃的核心關(guan) 懷一直是在方法論層次,試圖打破實證科學方法論的狹窄視域,在詮釋科學上找到更寬廣的出路。現就此一點來反觀黃一農(nong) 教授,原來是專(zhuan) 業(ye) 天文學家出身,以e化概念研究紅樓夢,大作中卻看不到一項統計數據,也看不到一項軟件程序,而是不斷的以各類滿漢文本交互參照來展現當時人們(men) 的生活情境,甚至以一尊畫像的品題來呈現曹家開基祖先在八旗社會(hui) 中的人脈關(guan) 係,由此折射到紅樓夢中人物寫(xie) 詩頌詞的生活情調。黃一農(nong) 院士的紅學研究為(wei) 人文社會(hui) 科學的大數據研究提供了一個(ge) 好的示範,也在無意之間突顯了詮釋社會(hui) 科學的方法論精髓,值得人文社會(hui) 科學界的重視。

 

責任編輯:柳君


微信公眾號

伟德线上平台

青春儒學

民間儒行