南英丁hi兒死小站: 蔡老英又得擔心了

一個設計用來查找論文的軟體，意外掀開「醫學文獻剽竊」黑幕

撰文：嘉納（Harold“Skip”Garner）｜翻譯：王怡文

1994年，我找到了事業第二春。我原本是美國通用原子公司內部智庫的物理學家兼工程師，負責解答來自公司任何部門的困難問題。多年來，我處理過各式各樣的案子，例如冷融合和無人偵察機。但是在1990年代初，我經常和生物學家及遺傳學家合作，他們向我提出他們研究中需要哪些很酷的新科技，再由我研發出來。

就在那時，我聽說了一個稱為人類基因組計畫的新研究題目，目標是解譯人類染色體內大約30億個DNA鹼基對（鹼基序列），令我為之著迷。我剛好讀到Scientific American的一篇文章，文章中提到有些關鍵技術尚未研發成功，有待物理學家和工程師實現。

於是我轉任到美國德州大學西南醫學中心當教授，和科學合作夥伴（一位遺傳學家）一起建立人類基因組計畫中，最早的研究中心之一。

那裡的一切都很不一樣。我同事滿口都是另一種語言──醫學，而我講的是物理學。在物理學中，公式幾乎掌控一切；在醫學中，卻沒有通用的公式，只有許多觀察結果、一些片段的了解以及多得驚人的術語。我不斷參加研討會，並抄下一串又一串從未聽過的詞彙，再花好幾個小時去查清楚。我必須隨身攜帶一本醫學辭典，才能研讀科學論文。

我幾乎無法讀懂任何一段文字，在屢遭挫折的情況下，我決定研發軟體來解決困擾。我想要一個搜尋引擎，輸入一大段文字，就會回傳可供進一步閱讀的參考文獻、文獻摘要以及論文，好讓我趕上手邊醫學研究的最新進展。

這是個艱難的研發課題，當時網頁的搜尋引擎才剛起步，用來找城裡最棒的料理沒太大問題，但無法消化一段包含多個有相關概念的文字，更別說要指點我閱讀相關資料。

我帶著幾位學生與博士後研究員，開始研究文本分析；我們一同研發了一套軟體，名為「電子文本搜尋比對工具」（electronic Text Basic Local Alignment Search Tool, eTBLAST），概念來自搜尋DNA或蛋白質序列資料庫用的軟體「生物序列搜尋比對工具」（BLAST）。

通常在BLAST上的查詢是輸入一串100～400個DNA鹼基序列，然後軟體就會回傳包含相同編碼的較長序列。而在eTBLAST上的查詢則是輸入一段或一頁文字，通常包含100個以上的單字。

設計搜尋協定比設計軟體來找一串字母更難，因為搜尋引擎不能只做字面比對，還得認得同義字、縮寫字以及替代用語，也得考慮字詞順序。在查詢一段文字之後，eTBLAST會回報從資料庫裡找到且排序過的「命中」清單，以及查詢文字與所找到摘要的相似度。

我們最常用來搜尋的資料庫是Medline，它的管理機構是隸屬於美國國家衛生研究院（NIH）的國家醫學圖書館，收藏了醫學領域裡所有的生物學研究，包括數千種同儕審閱期刊、數百萬篇研究論文的標題與摘要。

在Medline上有一個可用關鍵字查詢的搜尋引擎，因此只要輸入幾個關鍵字，例如乳癌基因（breast cancer gene），就會找到不少結果，而且常附有全文連結。但是我才剛轉行研究醫學，對於很多研究該從何下手都毫無頭緒。

eTBLAST的初期版本，光是從Medline比對幾百個單字的段落就得花數小時，但確實管用。我透過eTBLAST開始讀懂科學論文，逐段掌握內容要點；我可以把某位研究生的論文丟進去，快速得知相關文獻。我和研究夥伴甚至和Google公司談過，要把軟體賣給他們，可惜他們回覆說這並不適合該公司的商業模式。

後來事情有了奇怪的轉變。好幾次，我發現學生提案裡的文字，和其他未註明受引用論文裡的文字一樣。因此這些學生接受了道德教育課程，而我則改變了我職業生涯的研究主題：有多少專業醫學文獻涉及抄襲？

似曾相識

當我著手探索醫學文獻剽竊的這個新研究主題時，先進行了匿名問卷調查。我在最新的調查結果中發現，1.4％的研究人員承認自己的研究涉及抄襲。但這個數字的精確度取決於回覆問卷者的誠實度，我們可以用eTBLAST查看他們是否所言屬實。

我們找了許多學生以及效能夠強大的電腦，接著從Medline裡隨機選擇論文摘要，再使用eTBLAST查詢。eTBLAST把欲查詢的摘要比對整個Medline，尋找相似內容，然後回傳命中清單，每筆結果都附有相似度分數。受查詢的摘要本身永遠在清單最頂端，相似度為100％，第二筆結果相似度通常在個位數到30％之間，但是我們偶爾會發現第二、甚至第三筆的相似度逼近100％。

執行過幾千筆查詢之後，我們發現大約5％查詢結果的相似度高得可疑。隨後，我們再檢查那些摘要，以確定軟體找到的是人們也會認為相似的內容，然後我們再針對這些可疑摘要的論文，進行全文比對。

不久，我們就開始找到符合剽竊的案例，不只是重複了一些話，而是整篇照抄；這真是令人失望，甚至震驚。當然我們知道問卷顯示有1.4％的研究人員承認抄襲，但看到抄襲的論文一篇篇列出來又是另一回事。特別是對學生而言，這個過程很刺激，他們覺得自己好像在打擊犯罪，某種意義上的確如此。

下一步是提升計算與分析的規模。為求徹底，我們從Medline裡的每筆文獻，截取足夠長度的文字執行相似度搜尋。當時文獻將近900萬筆，平均每筆300字，再乘以900萬次比對。這項任務花了數個月，消耗了我們實驗室裡可觀的計算資源。查詢結果出現後，我們再次檢查它們，並把所有高度相似的結果放在一個叫「似曾相識」的資料庫裡。

似曾相識資料庫開始累積一對對高度相似的Medline摘要，總共大約有八萬對相似度至少56％的摘要。這些高度相似的摘要大多有很充份的理由，例如舊論文的更新或會議摘要，但其他的就很可疑了。

我們把論文投稿到《自然》，這篇論文中包含抄襲頻率以及重複發表（又稱為自我抄襲）的資料、似曾相識資料庫的內容細節和一些初步案例。編輯接受了，但是由於我們指控某些摘要涉及抄襲，期刊所屬的律師團卻把這篇論文撕毀了。

律師擁有絕佳的論點：唯獨編輯或倫理委員會成員才有權判定是否剽竊；我們只能呈現事實──任兩篇科學文獻中的文字重複量或相似度。最後在律師的認可下，我們修改了這篇論文，並且只呈現事實。

當這一篇論文在《自然》刊出來時，後果一發不可收拾。期刊編輯都很頭痛，因為這給他們帶來額外工作。原論文的編輯為了保護版權，堅持那些涉及抄襲的論文必須撤銷，當然讓那些「二手論文」的出版業者很難堪。

許多科學家都生氣了，因為我們的結果似乎暴露出同儕審閱的缺陷，但是大家不得不承認，這是一個重要且嚴重的問題：科學家和臨床工作者都是依據他們讀到的文獻做出重大決策，如果這些決策所依據的都是有問題的研究，那代表什麼？

最後，我們判定0.1％的專業論文很明顯是抄襲其他人的成果（我們只舉證幾乎完全相同的論文，必定還有更多例子是抄襲部份段落，但由於軟體只搜尋摘要，查不出後者）。大約1％是自我抄襲，同一位作者的成果可出現在多達五種期刊上，而且經常是一字不差。這個比率看似不高，但想想看，每年大約有60萬篇醫學論文發表！

不久我們就注意到，發表流程改變了，期刊編輯開始使用eTBLAST檢查投稿論文。而我也改變了，轉換了我的生涯方向，並把「倫理研究者」加進我的工作經歷裡。

本文獲《科學人雜誌》、《科學人粉絲團》授權刊登，原文刊載於此

責任編輯：朱家儀
核稿編輯：翁世航

南英丁hi兒死小站

2020年7月22日星期三

蔡老英又得擔心了

似曾相識

沒有留言:

2020年7月22日 星期三

蔡老英又得擔心了

似曾相識

沒有留言:

2020年7月22日星期三