欧美色盟,色婷婷AV一区二区三区之红樱桃,亚洲精品无码一区二区三区网雨,中国精品视频一区二区三区

歡迎來到化學加!萃聚英才,共享化學!化學加,加您更精彩!客服熱線:400-8383-509

張春霆院士文章:學術評價的評價

來源:中國科學基金   張春霆   2015-12-23
導讀:張春霆,著名生物物理學家。出生于山東煙臺。復旦大學物理系畢業,同年起在復旦大學攻讀理論物理專業研究生。1965—1970年在天津工科師范學院任教,1970—1979年在天津輕工業研究所工作,1979—1982年在法國國立理論物理研究中心作訪問學者。從1984年起在天津大學物理系工作至今。1995年當選為中國科學院院士。2001年當選第三世界科學院院士。

1.png

1 引言

學術評價者學術界之大事也,事關國家科技的良性發展和原始創新能力的提高;也關乎科研人員的入職、職稱的提升、資助和獎勵的獲取等切身利益,不可不察也。2010年6月17日,英國著名刊物《自然》(Nature)以《評價的評價》為題發表了一篇社論,對本期中發表的三篇有關學術評價的文章加以介紹和評論。其中一篇介紹了形形色色的學術評價指標及在世界各地的使用情況。Nature雜志曾就評價指標的實際使用程度以及與同行評議的關系向世界各地的許多學者和管理者發去了問卷調查。結果有150位研究人員和近30位大學教務長、系主任或其它管理人員反饋了調查問卷,綜合后加以公布。Nature雜志還邀請包括著名的文獻(科學)計量學家在內的6名專家就如何改進學術評價指標的使用等學術評價問題發表了看法。受這些文章的啟發,筆者產生了借題發揮的想法,就是用同一個題目結合中國的實際情況,寫一篇新的文章,這正是本文的由來,希望對于改進我國學術評價的現狀有所參考。本文由兩大部分組成:一部分用大量的篇幅介紹各種各樣國際通用的學術評價指標,包括適用于研究群體(大學或研究所等)、刊物和個人的評價指標,并討論如何克服其缺點;另一部分則探討同行評議與使用學術指標評價進行評議之間的關系。

2 基于科研產出的評價指標

科學研究,尤其是基礎研究其產出的主要形式就是發表學術研究論文。在一般情況下發表論文的數量就成為一項主要的評價指標。當然不排除歷史上或現實中某些杰出的學者只發表了極少數的論文卻取得了極高的學術成就,在這種情況下再數其發表了幾篇論文就變得毫無意義。但是在一般情況下這個數字還是有意義的。論文總數這個評價指標在實際計算時存在著一個用什么樣的論文來統計的問題。目前國際上存在三大文獻檢索數據庫:Web of Science 或 WoS (Thomson-Reuters集團);Scopus (Elsevier集團)和Google Scholar (Google集團)。前者從11500種雜志收錄論文;中者從16500種刊物收錄論文;而后者則包括了比前兩者更多的工程學、社會科學和人文科學刊物所發表的論文以及專利。其中WoS又包括SCIE、SSCI等7個子庫。對于一個給定的研究人員或一所大學(研究所或部門)統計出的論文總數取決于采用哪個數據庫。對于自然科學方面的基礎研究宜用SCIE 數據庫(約7000種刊物);對于工程技術研究除了用SCIE 數據庫以外,還應參考Scopus數據庫加以補充;而Google Scholar數據庫對于兩者都有參考價值,而且它是免費的。

3 基于論文引用次數的評價指標

3.1 篇均引用次數與影響因子

論文的引用具有重要的參考價值,因為它體現了在世界范圍內的小同行的署名評議,具有廣泛性、公開性、公平性和客觀性等優點,歷來受到國內外學術界的普遍認可。其中,篇均引用次數是一個極其重要的學術評價指標。統計在一個時間窗口中所發表論文的總數(分母),以及這些論文在另一個后續的時間窗口中所獲得的引用次數(分子),兩者之比即為篇均引用次數。若把前時間窗口取為前兩年,而把后時間窗口取為今年,則一刊物所發表論文的篇均引用次數又稱為該刊物在今年的影響因子。顯然,某刊物的影響因子,即其篇均引用次數,與在該刊物所發表的某特定論文所獲引用次數屬于兩個不同的概念,兩者沒有可比性。例如,據Nature統計,在2005年Nature的25%的論文獲得的引用次數占總引用次數的89%。換言之,另外75%的論文只獲得了11%的引用次數。也就是說即使在Nature這樣的刊物上發表的論文,其中大部分所獲得的引用次數相當有限。筆者遺憾地指出,在我國教育界和學術界有一種用刊物影響因子來評價在該刊物所發表論文及其作者學術水平的傾向。如有的管理者甚至要求其屬下必須在影響因子多少點以上的刊物上發表論文。這種傾向不僅是十分錯誤的,因為它背離了科學研究的宗旨;而且也是十分荒唐的,因為它誤用了刊物的評價指標。著名文獻計量學家A.van Raan指出:“如果有一個觀點每一位文獻計量學家都同意的話,那就是:你們永遠不要用刊物的影響因子來評價一篇論文或某個研究人員的學術表現——因為那是一種不可饒恕的大罪(That is a mortal sin)”。但愿文獻計量學家的忠告能引起我國教育界和學術界的警覺。

3.2 考慮作者貢獻之不同的權重引用次數

無論是總引用次數或篇均引用次數都是針對論文而言的。如果該論文只有一位作者,那么全部引用次數理應歸于作者本人。但是如果有多位作者(這是當前發表論文的普遍形式),國際上三大文獻檢索數據庫的現行做法是把論文的引用次數歸于每一位作者,導致了一篇論文的引用次被反復計數,這是十分錯誤的。為了解決這一問題,筆者定義了兩個概念:針對論文的引用次數和針對作者的引用次數,而后者等于前者乘以作者的貢獻權重系數。權重系數是介于0和1之間的一個實數,可以根據該作者在論文中的排名計算出來。為了計算權重系數,筆者提出了一個論文榮譽的三分原則:將一篇論文由引用次數獲得的榮譽等分為三份:第一作者和通訊作者各得1份(他們的權重系數均為1),其他作者的權重系數之和等于1。而他們的權重系數原則上按作者排名的先后順序遞減,詳情可參見文獻,在這里不再介紹。為了給權重系數的計算提供方便,筆者建立了一個網站,免費提供權重系數和權重引用次數的在線計算,詳見:http://www.wcitation.org/。

3.3 按學科歸一化的引用分數和皇冠指標(Crown indicator)

用引用次數作為評價指標的另一個大缺點是不具有學科可比性。例如,生物醫學的引用次相對較多;而數學力學的相對較少。解決這一問題的方法之一是引入按學科歸一化的引用分數。假設一個研究群體在某一學科領域發表了一批論文。首先計算其篇均引用次數;其次再計算世界范圍內在同一學科領域和相同情況下的篇均引用次數,兩者之比則成為按該學科歸一化的引用分數。其值為1表示達到了世界平均水平;其值大于1(小于1)表示比世界平均水平高(低)。于是歸一化的引用分數在不同學科間就有了可比性。若一研究群體同時從事多學科研究,則還要對所涉及學科求平均。在計算過程中可有不同的變化,于是就有多種不同的歸一化方案。其中荷蘭Leiden大學《科學與技術研究中心》(CWTS)所提出的皇冠指標就是其中的一種,被做為世界大學排行榜的評價指標使用,詳見http://www.cwts.nl/ranking/。但是仔細一想這種做法也有問題。把科學劃分為各種領域是一種粗粒化的做法。問題是,粗到多粗為宜?細到多細為好?“如果劃分過寬就會抹剎細節;如果劃分過細,就會導致毫無用處的結果” ,最終使人處于兩難的境地。到目前為止,這種指標只應用于對研究群體(大學或研究所等)的評價。

4 基于引用網絡 (Citation network) 的評價指標

如果把每篇論文用平面上一個點(節點)來表示,而它們之間的引用用一條連接兩點的線段來表示,則構成一個網絡圖。引用次數是一正整數,可用實軸上的一個點來表示。而引用網絡是一個二維圖,應比實軸上的一些點包含更多的信息。令人感興趣的是互聯網(Internet)的眾多網頁和它們之間的鏈接關系也可用類似的網絡圖來表示。這使人聯想到能否用互聯網的研究成果來研究引用網絡。互聯網的網頁重要性排序算法的發明是一項重要的成果,其中由美國博士研究生L. Page 和S. Brin研發的PageRank 算法可能是最重要的之一,它是Google 搜索引擎的核心。PageRank 算法認為一個網頁A的重要性取決于鏈向它的網頁的數量和其重要性:鏈入的網頁數越多,A面頁就越重要;與此同時,鏈向A的網頁本身越重要,其對A網頁重要性的貢獻就越大,及之亦然。可用一個數來表示網頁的重要性,記為PR。顯然,按照這一算法一群網頁的PR值都耦合在一起。Page和Brin采用了疊代法解決了這一問題,算出了每一個網頁的PR值,最終給出了網頁重要性排序。PageRank算法的成功使人們想到用該算法對雜志的重要性進行排序。雜志之間通過其論文的引用構成了一個網絡。雜志不同于網頁,所以應用PageRank算法的具體過程是比較復雜的。美國的研究人員在WoS的基礎上、按照這一思路提出了評價學術刊物的新指標,稱為特征因子(Eigenfactor),又細分為特征因子分數(Eigenfactor Score)和論文影響分數(Article Influence Score),詳見http://www.eigenfactor.org,這里不再詳述。Thomson-Reuters集團在其JCR報告增強版里同時發布特征因子數據,包括特征因子分數和論文影響分數。可以理解,刊物的特征因子與刊物的影響因子呈強正相關,但排序不完全相同。影響因子只考慮引用次數;而特征因子不僅考慮引用次數,而且還考慮引用刊物的重要性,即來自重要刊物的引用其權重就大,反之亦然。從這個意義上來說,特征因子這類指標比影響因子更先進。基于同樣的想法但采用Scopus數據庫,西班牙的研究人員提出了SJR指標[5]。值得指出的是,特征因子和SJR指標都是用來評價刊物的而不是用來評價個別人的學術表現的。但是在引用網絡的基礎上發展評價個人學術表現的指標是可行的。意大利學者Radicchi 等人從1893年到2006年的114年間《物理評論》(Physical Review)雜志所發表的40多萬篇論文以及這些論文所附的878多萬篇參考文獻出發,建立了一個龐大的作者-作者引用網絡。然后再采用類似于PageRank的算法計算出作者的排序名次[6]。為了實用,他們建立了一個網站:http://www.physauthorsrank.org,提供免費在線排序服務。任何于2006年以前在Physical Review上發表過至少一篇論文的作者皆適用。只要輸入姓名,就立即給出該作者的排序名次及顯示歷年來排序名次變動情況的直方圖,使用十分簡便,結果相當合理,建議我國物理學研究人員不妨一試。

社會網絡理論中所定義的一些參數在引用網絡中可能有意義。其中有一個參數叫中介中心性(Betweenness centrality),它正比于網絡中任意兩個節點通過被研究節點(對應一篇論文)的最短路徑數目。另一個參數叫接近中心性(Closeness centrality),它表示該節點到其他所有節點的最短路徑的平均長度。 “這些參數在學術評價中有何意義仍不清楚,可能是學科交叉性的一種指標”[1]。毫無疑問,引用網絡是學術評價的重要研究領域,值得重視。

5 基于將論文數與引用次數相結合的評價指標:h-指數

2005年美國物理學家Hirsch提出一種將論文數與引用次數相結合的新的評價指標,稱之為h-指數。一個學者的h-指數為h意味著其至少發表了h篇論文,同時至少被累積引用了h2次。由于這個學術評價指標的新穎性和簡單性,立即在全球范圍內引起了廣泛的注意,掀起了研究它的熱潮。迄今為止,至少發表了100多篇研究h-指數的論文。為了克服其缺點至少提出了十幾個h-指數的變種,又稱為h-型指數。面對這種局面,澳大利亞著名學者Anne-Wil Harzing說:“自2005年以來提出了一打以上的h-型指數,就連文獻計量學專家也搞不清楚哪些是最好的。結果,大部分科學家堅持還是使用h-指數,盡管有種種缺點”。其實這種說法是不對的,h-型指數雖然為數眾多,但是它們基本上反映了相同的信息,只是表述方式不同而已。結果它們之間呈強正相關,這提示用少數一、兩個即可。其中e-指數是筆者提出來的,它被定義為在h篇論文所獲引用次數中扣除h2之后多余部分的平方根。簡言之,在使用h-指數的前提下,e-指數補充了其丟失的引用信息,故應該同時使用。美國學者Dodson就建議同時使用h-指數和e-指數來評價大學教師的學術表現。天津大學人事部門聯合使用h-指數和e-指數作為主要評價指標建立了人才評價平臺,取得了良好的效果。在許多h-型指數中,g-指數是一個重要的指數,它主要反映被h-指數忽略的高引用論文的引用信息。在這點上看,g-指數與e-指數是相互冗余的。因此,在使用h-指數的前提下,(h,e)組合或(h, g)組合皆可取得滿意的效果。但是g-指數在若干重要的情況下沒有定義[8]。筆者重新定義了g-指數徹底消除了這一缺陷,并推導出一個公式可以從h-指數和e-指數出發快速計算出g-指數。意大利學者A. Bee開發出一套計算機程序,當用火狐貍瀏覽器訪問Google Scholar時,會自動顯示所查詢作者的h-指數、g-指數和e-指數。該程序應下載到本地計算機中運行,詳見https://addons.mozilla.org/en-US/firefox/addon/45283/。

Hirsch本人認為h-指數的最大缺陷是沒有考慮多作者論文中的作者人數和榮譽分配。其實,筆者也注意到了這一問題,并提出了用w-指數來解決它[4]。所謂w-指數就是建立在權重引用次數上的h-指數。Hirsch在其論文中引用了文獻,并提出另一種解決方案;即h-bar-指數。在使用h-指數的前提下,當出現多作者論文時,可選用w-指數或h-bar-指數。對前者已建立了網絡平臺(即前已提及的http://www.wcitation.org)提供w-指數的在線計算;對后者目前尚無此類服務。

6 基于互聯網(Internet)的評價指標

隨著互聯網的普及,越來越多的學術刊物將論文在線發表,變成一份純電子刊物。另外一些則在保持其紙質印刷的傳統形式下,先期在線發表。有一種趨勢就是越來越多的論文,尤其是重要的論文在網上先期發表,免費閱讀或下載。這就產生了一些新的學術評價指標,如在線閱讀次數和下載次數等。有的刊物,如PLoS ONE,就提供其論文的被閱讀次數和下載次數,以及這些次數的總和隨時間的變化曲線。例如文獻自2009年5月5日發表算起到2010年8月15日為止,已經被閱讀和下載了共3494次。顯然,總次數越大就越表示或者這是一篇熱門論文;或者這是一篇重要論文。另有一些刊物將論文按閱讀次數和下載次數之和排序,排在前面的被賦予“高訪問論文”(Highly accessed article)稱號;或者將排在前幾名的加以公布。可以想像,這些閱讀者或下載者很可能成為該論文的潛在引用者,不過這要等2、3年之后才能見分曉。在線閱讀和下載次數反映了論文的即刻以及長遠影響力,這些指標是值得深入研究的。

7 同行評議與使用指標評價之間的關系

同行評議的常用形式之一就是提供個人推薦信。對被評價的群體、個人或一項成果由同行專家提供一封或幾封推薦信,對被評價對象進行定性的描述并做出結論。這種做法需要兩個先決條件:(1)同行專家必須是真正的同行,即所謂小同行,應當對被評價內容相當熟悉和了解;(2)評價專家應該認真負責、能夠本著“公平、公正和客觀”的原則無個人偏見地進行評價。可是有時上述兩個條件很難滿足。隨著科學技術的高度分化,產生了隔行如隔山的現象。對于一個項目、一個成果或某個人的學術表現很難找到真正的小同行來評價。如果只能找一些大同行甚至外行來評價,則往往會導致不公平和不準確的結果。同時由于復雜的人際關系(“互評網”的客觀存在),上述第二個條件有時也難以滿足。在這種情況下,雖然是干巴巴的、但卻是定量的和客觀的評價指標可以彌補同行評議之不足。在我國,有的管理者在批評片面使用某些評價指標的弊端后,正嘗試用更科學的評價方法,比如,一個院系搞得好不好由國際專家來評估。那么請看國際專家是怎樣進行學術評價的。針對Nature雜志的問題:“你們的院系在做出下列決定時,在某種程度上采用科學表現的評價指標嗎?”,問卷調查表明[2]:在做出雇傭決定、轉正(轉為終身制副教授)決定、提職稱決定和學術表現鑒定方面,回答“Yes”的占問卷的70%左右,而回答“No”的只占10%-20%。而在工資決定和研究經費分配兩方面,回答“Yes”和“No”的大致相同。由此可見,國外的管理者或專家在對許多問題做決定時,學術評價指標起著重要的作用。針對Nature雜志的另一個問題:“對于評價指標的使用方式,一般說來你滿意程度如何?”,約1/3的問卷回答“一點也不滿意”; 超過1/3的問卷反饋“不是非常滿意”;而將近1/3的問卷說“極為滿意或非常滿意”。在我國,就有管理者不滿意評價指標,說他們只看推薦信,不看什么指標。但是清華大學施一公教授一語道破了天機,他說:“我們并不看(被評價者的)論文發表記錄,也不告知同行評議者這么做,但實際上評價指標確實有影響,因為同行評議專家會看這些東西。”。這種情況被描述成:“定性的推薦信有時從后門引入定量的評價指標”。這說明,在做同行評議時適當參考評價指標可能使其評價更客觀和更公正。完全排除評價指標的作用是不可取的。如果找不到適當的同行來評價,就要考慮使用評價指標來評議了,但是完全依靠評價指標也是不可取的。在此情況下,還要盡量收集各種同行的意見,如:在各種引用中引用者如何評價被引用的內容?被評價者是否作為主講人(Keynote speaker)在重要的國際會議上做過報告?被評價者的文章發表后是否另有專家撰文予以正面評價?如何評價?是否被邀請在重要的專業刊物上發表綜述文章?等等。總之,凡涉及對個人學術表現的評價時,在定性的描述中可引入定量的指標加以佐證;在使用定量的評價指標時可引入引用者的定性的描述加以補充,綜合考慮各種因素之后再做結論。最后我要著重指出:學術評價是一個復雜的科學和社會問題,沒有最好的答案,只有更好的答案,學術評價工作要永遠處在不斷地改進之中。

(轉載自<<中國科學基金>>, 第24卷,第6期, 2010年報11月, 328-332. 作者張春霆,天津大學生命科學與工程研究院教授,中國科學院院士)

參考資料

[1] 中國科學基金,張春霆院士:學術評價的評價


聲明:化學加刊發或者轉載此文只是出于傳遞、分享更多信息之目的,并不意味認同其觀點或證實其描述。若有來源標注錯誤或侵犯了您的合法權益,請作者持權屬證明與本網聯系,我們將及時更正、刪除,謝謝。 電話:18676881059,郵箱:gongjian@huaxuejia.cn