為何 SCI 論文數不適合評鑑資訊科學

大學評鑑排名是國內前一兩個月的熱門話題。在學術成就評量這項目中, 被 Thomson ISI 公司的 SCI, SSCI 等資料庫收錄的論文數量佔很重比例,於是 SCI 論文數也跟著被當作個人學術成就或對系所「貢獻度」的量化指標。學者們對這套量化思維多少有不滿,但國內電腦科學(資訊工程、資訊科學等)學界出聲的似乎還不多。最近朋友告知 Friedemann Mattern 的一場演講以及一份歐洲資訊研究評鑑委員會 (Research Evaluation Committee of Informatics Europe) 的報告(以下簡稱為 RECIE),說到 SCI 其實特別不適合資訊科學/電腦科學。此處摘錄一些重點和心得。

論文數量或被引用數量到底是不是可信認的評量指標本就是個有爭議性的問題。但我們姑且先不談到這層面,光看「數論文數目」這差事,ISI 到底有沒有做好?

幾個邏輯推論:首先,SCI 資料庫若可當作評鑑標準,資料庫內的論文至少應滿足 ISI 和評鑑單位認定為好的、重要的、上得了檯面的最低條件。1 其次,合理情況下,一篇論文應不致於引用很多比自己差太多的文獻 — 雖然偶有引用一篇論文並指出其錯誤的情形,畢竟只佔部份。所以 SCI 資料庫內的論文所引用的文獻大部份也應滿足被收錄的標準才對。對生物領域論文來說,「被引用的文獻也出現在資料庫內」的比率是 90%,物理和化學也都超過 80%. 總有論文會引用一些技術報告、私人通訊等等,這個比率自然不可能達到百分之百。

但電腦科學呢?竟只有 40%! 如果再加上 ACM, IEEE-CS, LNCS 等論文,勉強可以達到 51%. 也就是說一篇電腦科學 SCI 論文所引用的文獻平均將近一半是不在 SCI 資料庫中的。若不是電腦科學家引用的習慣超出常識想像,就是 ISI 遺漏了很大比率的文獻。一個缺了一半文章的資料庫已經很難當作評鑑標準。

有人會說這是因為 SCI 以索引期刊為主,而電腦科學界的特殊現象之一是許多好論文只投給會議。學界的習慣到底好不好可再另外討論,但重點是一個評鑑標準本就應該反映實況,「學術貢獻」評鑑應反映出圈內學者所認可的貢獻。況且,ISI 的情況遠比「期刊 vs 會議」來得複雜,基本問題是 ISI 心目中的電腦科學和我們的理解大不相同。RECIE 報告中提及,ISI 的「最常被引用期刊」前 50 名包括 “Chemometrics in food science” (第 13 名)等大部分電腦科學家沒聽過的期刊。而這並不是特例。ISI 排名第一的期刊在 CiteSeer 排名 195;CiteSeer 的第一名在 ISI 排名 26. (雖然這類資料庫不可能完美,但 CiteSeer 的名單至少看來熟悉許多。)比較 ISI 和 CiteSeer 的最常引用文獻,兩者居然連一個共同項目都沒有。有人把這當作此類排名通通不可靠的證據,但 ISI 顯然對電腦科學界相當不了解。

ISI 的「最常被引用學者」中並沒有 Wirth, Parnas, Knuth 等人。2000 到 2006 的 Turing 獎得主中只有 Ronald Rivest (RSA 演算法中的 R) 上榜。但不包括 Adi Shamir (RSA 中的 S)。

因此 Mattern 說,ISI 眼中的電腦科學和學界的實況根本就是「兩個世界。」

ISI 最近把 Springer 的 LNCS 系列算為期刊,雖然該系列大多是會議論文集和專題論文。2而許多不經由 LNCS 發表論文集的會議仍未被索引。因此 International Conference on Software Engineering,軟體工程學界最好的會議之一,並沒有被索引。但一個被 LNCS 出版的工作坊會議卻可以算成 SCI 論文,即使圈內人都知道這個工作坊大都是在投稿 ICSE 之前先試試水溫用的。

ACM 程式語言組的 SIGPLAN Notices 也被 ISI 索引。事實上,SIGPLAN Notices 是一個收錄筆記與草稿、沒有同儕審核的刊物。但每逢大型會議,SIGPLAN Notices 也會出版包括 POPL, PLDI 等高水準會議的專刊。專刊和一般期數的意義大不相同,ISI 把它們視作一樣的文獻。

其他評鑑標準?

Mattern 的演講與 RECIE 報告並不只談 ISI 的問題。其他的量化指標也有各自的缺點。另一個資料庫 SCOPUS 的最常引用文章全都以應用領域 ( “computational X”) 為主;而像 CiteSeer, Google Scholar 等工具則有電腦判斷失誤的問題。後兩者的好處是錯誤訂正的機制較透明。3

電腦科學界有些獨有的特性:除了期刊,書和會議也很重要(若問人電腦科學最重要的著作是什麼,很多人會回答 The Art of Computer Programming);成功的硬軟體實作影響力可能遠超過論文;論文共同作者數目介於自然科學與數學之間,作者排名順序較不重要;4 有許多子領域,之間交互引用的情況不多;有競爭相當激烈、被引用數很高的會議,也有更多幾乎沒有被引用過的會議。這使得對電腦科學的評鑑應有個不同的設計。

當然,我們終究得談到,被引用數目是個公允的影響力指標嗎?(調查、介紹性的論文被引用量會比較高;第一個提出 NP Complete 概念的論文被引用數遠不及後來的闡述者… )這類量化指標的問題在哪?但這些已屬學界各領域都會碰到的問題了。

Mattern 任職於瑞士 ETH, 電腦科學的著名研究重鎮。但從種種指標看來,ETH 好像並沒有什麼重要的電腦科學研究似的。ETH 的「每人被引用數」排名是如何從 2004 年的第三名掉到 2005 年的 71 名,只因為計算方式改變了?想知道詳情,我很推薦大家看看他的投影片。

對於 SCI/SSCI 當作評鑑指標,國內人文學界的反彈似乎強過科學與工程。也有人認為這是一種缺乏自信的表現、台灣/華人/亞洲特有的現象(例如把 SCI 稱為 Stupid Chinese Idea 等等)。但歐洲也有人談及此事,大概他們也覺得受夠了。國外學者指出 SCI 其實特別不適合電腦科學,國內資訊科學界的看法又是什麼呢?

附註

  1. 之所以說是「最低」條件,因為 SCI 資料庫原為一個檢索與分析為目的的「完整」資料庫,被索引的期刊自應是有好有壞,僅被列名並不足以視為「好論文。」我們為主事者硬找個用 SCI 資料庫當評鑑的合理邏輯,只能說主事者大概認為 SCI 資料庫裡有的東西「至少可以算是論文。」意即 SCI 被當成一個「正式論文」發表量,而不見得是「好論文」發表量。但如此一來 SCI 資料庫的涵蓋範圍就應更廣。
  2. 2009/11/19 update: RECIE 報告草稿日期為 2008 年五月,但 LNCS 在 2006 年之後就不收錄於 ISI, 而改收錄到 ISI Proceedings List 中。該報告指的可能是 2006 年之前的論文。
  3. 所內最近和愛因斯坦成為共同作者的某 A 小姐可能並不會很想去訂正就是了。
  4. Nature 一年的樣本中平均每篇作者 7.3 人,最高 22 人;American Mathematical Monthly 平均兩人,最高 6 人;OOPSLA 與 POPL 平均 2.7,最高 7 人。

參考資料

  1. Friedemann Mattern. Bibliometric Evaluation of Computer Science – Problems and Pitfalls. European Computer Science Summit 2008.
  2. Research Evaluation for Computer Science. An Informatics Europe report

參考連結

This entry was posted in 計算算計 and tagged , . Bookmark the permalink. Post a comment or leave a trackback: Trackback URL.

4 Comments