2020年7月22日 星期三

蔡老英又得擔心了

一個設計用來查找論文的軟體,意外掀開「醫學文獻剽竊」黑幕

撰文:嘉納(Harold“Skip”Garner)|翻譯:王怡文
1994年,我找到了事業第二春。我原本是美國通用原子公司內部智庫的物理學家兼工程師,負責解答來自公司任何部門的困難問題。多年來,我處理過各式各樣的案子,例如冷融合和無人偵察機。但是在1990年代初,我經常和生物學家及遺傳學家合作,他們向我提出他們研究中需要哪些很酷的新科技,再由我研發出來。
就在那時,我聽說了一個稱為人類基因組計畫的新研究題目,目標是解譯人類染色體內大約30億個DNA鹼基對(鹼基序列),令我為之著迷。我剛好讀到Scientific American的一篇文章,文章中提到有些關鍵技術尚未研發成功,有待物理學家和工程師實現。
於是我轉任到美國德州大學西南醫學中心當教授,和科學合作夥伴(一位遺傳學家)一起建立人類基因組計畫中,最早的研究中心之一。
那裡的一切都很不一樣。我同事滿口都是另一種語言──醫學,而我講的是物理學。在物理學中,公式幾乎掌控一切;在醫學中,卻沒有通用的公式,只有許多觀察結果、一些片段的了解以及多得驚人的術語。我不斷參加研討會,並抄下一串又一串從未聽過的詞彙,再花好幾個小時去查清楚。我必須隨身攜帶一本醫學辭典,才能研讀科學論文。
我幾乎無法讀懂任何一段文字,在屢遭挫折的情況下,我決定研發軟體來解決困擾。我想要一個搜尋引擎,輸入一大段文字,就會回傳可供進一步閱讀的參考文獻、文獻摘要以及論文,好讓我趕上手邊醫學研究的最新進展。
這是個艱難的研發課題,當時網頁的搜尋引擎才剛起步,用來找城裡最棒的料理沒太大問題,但無法消化一段包含多個有相關概念的文字,更別說要指點我閱讀相關資料。
我帶著幾位學生與博士後研究員,開始研究文本分析;我們一同研發了一套軟體,名為「電子文本搜尋比對工具」(electronic Text Basic Local Alignment Search Tool, eTBLAST),概念來自搜尋DNA或蛋白質序列資料庫用的軟體「生物序列搜尋比對工具」(BLAST)。
通常在BLAST上的查詢是輸入一串100~400個DNA鹼基序列,然後軟體就會回傳包含相同編碼的較長序列。而在eTBLAST上的查詢則是輸入一段或一頁文字,通常包含100個以上的單字。
設計搜尋協定比設計軟體來找一串字母更難,因為搜尋引擎不能只做字面比對,還得認得同義字、縮寫字以及替代用語,也得考慮字詞順序。在查詢一段文字之後,eTBLAST會回報從資料庫裡找到且排序過的「命中」清單,以及查詢文字與所找到摘要的相似度。
我們最常用來搜尋的資料庫是Medline,它的管理機構是隸屬於美國國家衛生研究院(NIH)的國家醫學圖書館,收藏了醫學領域裡所有的生物學研究,包括數千種同儕審閱期刊、數百萬篇研究論文的標題與摘要。
在Medline上有一個可用關鍵字查詢的搜尋引擎,因此只要輸入幾個關鍵字,例如乳癌基因(breast cancer gene),就會找到不少結果,而且常附有全文連結。但是我才剛轉行研究醫學,對於很多研究該從何下手都毫無頭緒。
eTBLAST的初期版本,光是從Medline比對幾百個單字的段落就得花數小時,但確實管用。我透過eTBLAST開始讀懂科學論文,逐段掌握內容要點;我可以把某位研究生的論文丟進去,快速得知相關文獻。我和研究夥伴甚至和Google公司談過,要把軟體賣給他們,可惜他們回覆說這並不適合該公司的商業模式。
後來事情有了奇怪的轉變。好幾次,我發現學生提案裡的文字,和其他未註明受引用論文裡的文字一樣。因此這些學生接受了道德教育課程,而我則改變了我職業生涯的研究主題:有多少專業醫學文獻涉及抄襲?
似曾相識
當我著手探索醫學文獻剽竊的這個新研究主題時,先進行了匿名問卷調查。我在最新的調查結果中發現,1.4%的研究人員承認自己的研究涉及抄襲。但這個數字的精確度取決於回覆問卷者的誠實度,我們可以用eTBLAST查看他們是否所言屬實。
我們找了許多學生以及效能夠強大的電腦,接著從Medline裡隨機選擇論文摘要,再使用eTBLAST查詢。eTBLAST把欲查詢的摘要比對整個Medline,尋找相似內容,然後回傳命中清單,每筆結果都附有相似度分數。受查詢的摘要本身永遠在清單最頂端,相似度為100%,第二筆結果相似度通常在個位數到30%之間,但是我們偶爾會發現第二、甚至第三筆的相似度逼近100%。
sm148-48
Photo Credit: 科學人雜誌
執行過幾千筆查詢之後,我們發現大約5%查詢結果的相似度高得可疑。隨後,我們再檢查那些摘要,以確定軟體找到的是人們也會認為相似的內容,然後我們再針對這些可疑摘要的論文,進行全文比對。
不久,我們就開始找到符合剽竊的案例,不只是重複了一些話,而是整篇照抄;這真是令人失望,甚至震驚。當然我們知道問卷顯示有1.4%的研究人員承認抄襲,但看到抄襲的論文一篇篇列出來又是另一回事。特別是對學生而言,這個過程很刺激,他們覺得自己好像在打擊犯罪,某種意義上的確如此。
下一步是提升計算與分析的規模。為求徹底,我們從Medline裡的每筆文獻,截取足夠長度的文字執行相似度搜尋。當時文獻將近900萬筆,平均每筆300字,再乘以900萬次比對。這項任務花了數個月,消耗了我們實驗室裡可觀的計算資源。查詢結果出現後,我們再次檢查它們,並把所有高度相似的結果放在一個叫「似曾相識」的資料庫裡。
似曾相識資料庫開始累積一對對高度相似的Medline摘要,總共大約有八萬對相似度至少56%的摘要。這些高度相似的摘要大多有很充份的理由,例如舊論文的更新或會議摘要,但其他的就很可疑了。
我們把論文投稿到《自然》,這篇論文中包含抄襲頻率以及重複發表(又稱為自我抄襲)的資料、似曾相識資料庫的內容細節和一些初步案例。編輯接受了,但是由於我們指控某些摘要涉及抄襲,期刊所屬的律師團卻把這篇論文撕毀了。
律師擁有絕佳的論點:唯獨編輯或倫理委員會成員才有權判定是否剽竊;我們只能呈現事實──任兩篇科學文獻中的文字重複量或相似度。最後在律師的認可下,我們修改了這篇論文,並且只呈現事實。
當這一篇論文在《自然》刊出來時,後果一發不可收拾。期刊編輯都很頭痛,因為這給他們帶來額外工作。原論文的編輯為了保護版權,堅持那些涉及抄襲的論文必須撤銷,當然讓那些「二手論文」的出版業者很難堪。
許多科學家都生氣了,因為我們的結果似乎暴露出同儕審閱的缺陷,但是大家不得不承認,這是一個重要且嚴重的問題:科學家和臨床工作者都是依據他們讀到的文獻做出重大決策,如果這些決策所依據的都是有問題的研究,那代表什麼?
最後,我們判定0.1%的專業論文很明顯是抄襲其他人的成果(我們只舉證幾乎完全相同的論文,必定還有更多例子是抄襲部份段落,但由於軟體只搜尋摘要,查不出後者)。大約1%是自我抄襲,同一位作者的成果可出現在多達五種期刊上,而且經常是一字不差。這個比率看似不高,但想想看,每年大約有60萬篇醫學論文發表!
不久我們就注意到,發表流程改變了,期刊編輯開始使用eTBLAST檢查投稿論文。而我也改變了,轉換了我的生涯方向,並把「倫理研究者」加進我的工作經歷裡。
本文獲《科學人雜誌》、《科學人粉絲團》授權刊登,原文刊載於此
責任編輯:朱家儀
核稿編輯:翁世航

沒有留言: