開展實驗室診斷試驗研究問題探討

2021-4-9 | 衛生改革論文

在臨床研究實踐中，針對同一個臨床問題往往會開展多個不同的臨床試驗，得出的結論也不盡相同。循證醫學的任務之一就是開展系統評價（ｓｙｓｔｅｍａｔｉｃｒｅｖｉｅｗ，ＳＲ），以科學的統計學方法整合多個臨床研究的結論，為臨床決策的制定提供最佳的證據。同時，ＳＲ還可以發現源自于不同臨床研究的結論之間存在差異的原因，為后續開展類似的研究提供參考。在進行ＳＲ的過程中，對已有的臨床研究進行質量評價是一個十分重要的環節。高質量的臨床研究結論更加可靠，因而在ＳＲ中占有更高的權重。在此背景下，ＱＵＡＤＡＳ標準應運而生。ＱＵＡＤＡＳ標準一共包含了１４項條目，供系統評價員從１４項試驗設計的細節去評估診斷性試驗的研究質量。對于ＱＵＡＤＡＳ標準中的每項條目，專家都在說明中給出了詳細的評分原則：若研究符合該標準中提及的設計要點，可以得１分，否則，得１分；若根據論文的內容無法判斷，就記為０分。ＱＵＡＤＡＳ得分總和越高，表明該診斷性試驗的研究質量越高，結論的說服力也越強。

ＳＴＡＲＴ報告規范是ＳＴＡＲＤ小組（一個以統計學家和實驗室醫學家為主的研究小組）制訂一份旨在規范診斷性試驗研究論文撰寫的清單。這份清單共包含了２５條記錄，詳細列舉了診斷性試驗論文的每個部分應當闡述的內容，其目的旨在幫助讀者分析研究可能存在的偏倚（內部有效性）和結論的適用范圍（外部有效性）。ＳＴＡＲＤ報告規范至２００３年制訂以來，迅速得到了學術期刊編輯部和臨床研究學者的認可。比如，ＣｌｉｎｉｃａｌＢｉｏｃｈｅｍｉｓｔｒｙ在其稿約中就明確規定：凡是向該雜志遞交診斷性研究的論文，都必須嚴格按照ＳＴＡＲＤ報告規范內容進行撰寫。關于ＱＵＡＤＡＳ標準和ＳＴＡＲＤ報告規范的所有條目，在相應的中英文文獻中均有介紹，限于篇幅所限，在此不一一贅述。

從ＱＵＡＤＡＳ標準和ＳＴＡＲＤ報告規范談開展診斷性研究值得注意的幾個問題

１．數據收集的時序性問題

從數據收集的時序上講，診斷性試驗可以分為前瞻性研究和回顧性研究。二者的區別在于：前瞻性研究是先有試驗計劃，然后根據試驗計劃開展診斷性試驗（同時對患者進行“金標準”和“待評價測試”的檢查）；而回顧性研究并無預先設計好的試驗計劃，僅僅是研究人員回顧性地收集了一些病例進行研究。前瞻性研究在實施過程中能夠控制病例募集，結果解釋過程中潛在的混雜因素，因此，通常具有較高的論證強度；而回顧性研究無法控制各種混雜因素，因此，論證強度較弱。目前國際上開展的高質量的診斷性試驗研究幾乎都是前瞻性的研究。

在ＳＴＡＲＤ報告規范的第六條中，就明確規定了研究人員在在撰寫診斷性試驗論文時，需要在“材料與方法”部分說明開展的研究屬于前瞻性還是回顧性的研究。然而，遺憾的是，國內的部分診斷性試驗研究論文，在“材料與方法”一欄中并未對研究的性質進行說明，而只是簡單交待了研究受試對象的樣本量，疾病診斷狀況和一些基本的臨床特征。這種不規范的報告方式往往讓讀者無法判斷研究質量的高低以及論證力度的強弱，同時也削弱了研究成果在本領域的穿透力。此外，開展ＳＲ的一項重要任務就是分析各個研究結論之間的差異是否與試驗設計特點有關，為同行繼續開展此方面的研究提供參考。如果在研究論文中不闡述研究的時序問題，往往不利于系統評價員分析各個研究之間異質性的來源，也就削弱了研究在本領域的影響力。

２．研究對象的選擇

疾病的診斷首先是基于簡單的、易于獲取的臨床資料（比如病史、體征、人口學特征）然而，有部分疾病在癥狀和體征上極其相似，依靠上述資料往往無法對患者是否患有目標疾病做出明確判斷。比如，對于以呼吸困難為主訴的就診患者，僅僅依靠癥狀和體征往往無法確定造成呼吸困難的病因是否為心力衰竭，因為部分哮喘、肺炎、主動脈夾層和心肌梗死患者也可能出現呼吸困難的癥狀。此時，臨床醫師就需要借助現有的物理檢查，影像學檢查或者實驗室檢查手段（比如檢測ＢＮＰ），對患者是否患有心力衰竭做出明確的診斷。由此可見，診斷性試驗的研究對象應該是一組癥狀和體征相似，需要借助實驗室檢測手段、影像學手段等以明確診斷的人群。國內的部分診斷性試驗研究，將健康個體設置為對照組。這樣的設計并不足以體現實驗室指標對疾病的鑒別診斷能力，引入診斷性試驗往往會導致錯誤的結論。ＱＵＡＤＡＳ標準的第一條就對診斷性試驗研究對象的疾病譜做出了明確的闡述，其中規定：若診斷性試驗以健康個體作為對照，就視為不合格，此條標準的ＱＵＡＤＡＳ得分為１分。

此外，值得注意的是，與干預性研究不同，診斷性試驗的試驗組（疾病組）和對照組（非疾病組）是自然形成的，所以比例方面沒有要求（即無需遵循病例對照研究和干預性研究中的“均衡原則”），關鍵是研究對象要有臨床代表性和完整性，能反映臨床工作中需要借助待評價手段才能確診斷的人群的特征。比如２０１２年報導的ＢＥＦＡＳＴ研究，是一項評價血清神經膠質細絲酸性蛋白（ｇｌｉａｌｆｉｂｒｉｌｌａｒｙａｃｉｄｉｃｐｒｏｔｅｉｎ，ＧＦＡＰ）對出血性腦血管疾病與缺血性腦血管疾病診斷價值的研究，納入研究的對象是２０５例具有腦血管疾病癥狀，且癥狀發生時間在４．５ｈ以內的患者，其中，他們募集的出血性腦血管疾病患者僅為３９例，而非出血性腦血管疾病患者卻高達１６６例。

３．受檢對象的納入、排除與募集方式

研究對象的納入／排除標準的設定是開展診斷性試驗研究的重要環節，因為這在某種程度上決定了研究結論的適用范圍。納入標準通常應該包括研究對象的主訴、病史和體征等；排除標準一般則應為因特殊原因，無需新的診斷手段就可以確診或者排除的疾病。比如Ｐｏｔｏｃｋｉ評價了ＭＲｐｒｏＡＮＰ和ＮＴｐｒｏＢＮＰ對呼吸困難患者發生心力衰竭的診斷價值［７］。該研究的納入標準就設定為：以呼吸困難為主訴而到急診科就診的患者；排除標準為：年齡＜１８歲；透析患者和創傷患者。這一納入標準和排除標準較好地反映了臨床懷疑為心力衰竭患者的特征，具有較好的臨床代表性。ＱＵＡＤＡＳ標準的第二條就要求研究者在開展診斷性試驗研究時，應該有明確的病例選擇標準；否則，研究在該條記錄上的得分為０分或－１分，會導致ＱＵＡＤＡＳ整體得分偏低，影響研究的總體質量。此外，在撰寫研究論文時，還應該遵守ＳＴＡＲＤ報告規范的第十五和十八條規定，詳細列舉最終進入本次研究的受試對象的臨床特征，便于讀者分析研究結論的適用范圍。

研究對象的募集方式也是設計診斷性試驗研究時需要充分考慮的一個方面，不正確的病例募集方式會導致最終募集到的研究對象缺乏臨床代表性，影響研究結論的可靠性。正確的病例募集方式應該是在不違反醫學倫理學的前提下，采用隨機募集和連續募集的方式募集一段時間內來醫院就診的，符合納入標準，不符合排除標準的人群。只有這樣，才能保證研究對象具有臨床代表性完整性，這也是為何“診斷性研究無需遵循‘均衡原則’”的原因所在。ＳＴＡＲＤ報告規范的第四和第五條就要求研究人員在其研究論文中必須陳述病例的募集方式。國內的部分診斷性研究，可能是由于在開展研究前并未制定確切的診斷和排除標準、病例募集方式，因此，在論文報告中并未陳述相應的內容，只是簡單在材料與方法中說明了研究對象的樣本量，最終的診斷結果以及一些基本的人口學特征，讓讀者無法根據研究內容分析研究結論的適用范圍以及結論的可靠性。

４．金標準的確定

臨床診斷性試驗的評價首先要確立“金標準”，即最終可以確診疾病的標準。比如，腫瘤診斷的金標準是病理檢查，敗血癥的診斷金標準是血培養，冠心病的診斷金標準是冠脈造影等。需要強調的一點是，盡管金標準是作為疾病診斷的最終手段，但是這并不排斥新的手段在疾病診斷中的作用和地位。因為金標準雖然是疾病確診的最終標準，但是其本身也具有無法克服的缺陷，比如：病理檢查是有創的檢查，且檢查結果與病理醫師的經驗有關；血培養耗時費力，可能延誤患者的治療；冠脈造影對醫療設備要求較高，且具有一定的副作用（造影劑可能導致急性腎臟損傷）。正因如此，我們才需要去探索新的診斷手段，以彌補金標準的缺陷，豐富疾病的診斷手段。在開展診斷性研究的過程中，所設立的金標準必須是公認的的疾病診斷標準，而且，必須在報告論文中進行詳細的陳述。這在ＳＴＡＲＤ報告規范的第七條和ＱＵＡＤＡＳ標準的第三和第九條是有明確規定。此外，在開展診斷性試驗的過程中，金標準的作用不僅僅限于診斷疾病，而還應該包含排除疾病。即所有的受檢對象，不論目標疾病的最終診斷是否成立，都必須接受金標準檢查。在ＱＵＡＤＡＳ標準的第五和第六條中，就要求研究者在開展診斷性研究的過程中，必須讓所有的受試對象都應該接受金標準檢查。

需要注意的是，開展診斷性研究時，金標準和待評價試驗應該相互獨立，即疾病的診斷和待評價試驗的實施應該相互設盲：臨床醫師在診斷疾病時并不知曉待評價試驗的檢測結果，開展待評價試驗也應該是在不知曉患者最終診斷結果的基礎上進行，以避免潛在的診斷偏倚。這在ＱＵＡＤＡＳ標準的第七，第十和第十一條中有明確的規定。ＳＴＡＲＤ報告規范的第十一條也要求作者在撰寫報告論文時需要闡述是否在研究過程中實施了盲法。同時我們也可以看出：與回顧性研究相比，前瞻性研究的研究質量之所以較高，主要是因為在前瞻性的研究中，研究者可以實施盲法，可以在制訂金標準時回避待評價試驗。國內的診斷性研究報告論文，雖然大多能夠正確選擇疾病診斷的金標準，但是部分論文并未陳述是否所有的受試對象都接受了金標準測試，也未陳述金標準的實施與待評價試驗是否相互設盲，是一種十分不嚴謹的行為。

５．診斷界點設定的問題

對于定性檢查結果，無需設立診斷界值，即可直接通過四格表反映待評價試驗的診斷敏感性和特異性。而對于定量檢測的結果，一般采用受試者工作特征（ＲＯＣ）曲線分析法去評價試驗的總體診斷效率。ＲＯＣ曲線以“１－特異性”為橫坐標，以敏感性為縱坐標，曲線越靠近左上角，其曲線下面積（ＡＵＣ）越大，表明待評價試驗的總體診斷效率越高。當然，在進行待評價試驗總體效率比較的過程中，還需要借助統計學方法。目前，關于ＲＯＣ曲線下面積的比較，在統計學上還存在一定的爭議，目前多采用Ｄｅｌｏｎｇ等［８］提出的方法進行比較，該方法可以在Ｓｉｇｍａｐｌｏｔ軟件中實現。值得注意的是，以ＲＯＣ曲線的曲線下面積來衡量一個待評價試驗的總體診斷效率具有一定的局限性，因為當曲線下面積較大時，即使是發生微小的變化，也會導致對診斷性能產生較大影響［９１０］。在此基礎上，有學者提出使用ｌｏｇｉｓｔｉｃ回歸模型對待評價試驗的診斷效率進行評價，通過待評價試驗的優勢比的比較來反映待評價試驗的診斷性能，不失為一種較好比較待評價試驗診斷性能的方法［１１］。此外，也有學者提出，在特定診斷界點（比如敏感性或特異性為０．９５），采用卡方檢驗比較多個待評價試驗在診斷敏感性或特異性上的差異，可能更具有專業意義［１２］。這一思想也很快得到了學界的認可，最近開展的一些高質量的研究也采用了該方法對數據進行分析［１３］。值得強調的是，這些統計學方法只適合于初步比較待評價試驗的診斷性能，最終確定診斷待評價試驗是否對疾病的診斷有益，引入該診斷手段以后是否有助于提高患者總體預后，還要以設計良好的隨機對照試驗（ＲＣＴ）予以證實。

ＲＯＣ曲線的走勢比較清晰地反映了待評價試驗診斷敏感性和特異性之間的關系，為尋找最佳診斷界點提供了參考。一般而言，對于可以定量的待評價試驗，通過改變診斷界點的方式提高診斷敏感性就會犧牲診斷特異性，反之亦然。如何確定待評價待評價試驗的最佳診斷界點視專業需求而定。對于某些對敏感性要求較高的疾病，比如急性心肌梗死，在制定診斷界值時，可以適度犧牲特異性以換取診斷敏感性的提高；對于某些對診斷特異性較高的疾病（比如惡性腫瘤），在制定診斷界值時，則需要適當提高診斷特異性。如果疾病的診斷對敏感性和特異性具有同等需求，通常情況下可以將約登指數（ＹＩ）最大時的診斷界值作為推薦診斷界值，因為該界值較好地平衡了診斷敏感性與特異性，可以達到最高的診斷準確性。

在多數情況下，多個診斷手段之間并不矛盾，因此，讀者關心的往往不是診斷手段之間孰優孰劣的問題，而是能否相互彌補？聯合使用是否有助于提高診斷準確性？以往對于聯合診斷效率的評價往往采用系列診斷試驗和平行診斷試驗，這２種方法都存在固有的缺陷：前者以犧牲診斷敏感性換取診斷特異性；后者以犧牲診斷特異性換取診斷敏感性，而且這２種方法也無法從統計學上回答“聯合檢測是否有助于提高診斷準確性”這一核心問題。在診斷性試驗研究中，為評價一個新的診斷手段（比如一個標志物）是否能為疾病的診斷提供新的，臨床常規資料所不能提供的信息，主要有３種方法［１６１７］：（１）Ｃｓｔａｔｉｓｔｉｃ　采用ｌｏｇｉｓｔｉｃ回歸整合已有的有助于疾病診斷的臨床信息（不包含待評價試驗），構建一個回歸方程，得到一個新指標（命名為Ａ）；采用同樣的思路構在上述方程中加入一個參數，即待評價試驗，構建另一個回歸方程，生成另一個新指標（命名為Ｂ）。然后以ＲＯＣ分析法對Ａ和Ｂ的診斷性能進行評價，通過比較其曲線下面積的方式分析Ｂ是否優于Ａ；若Ｂ優于Ａ，則證明待評價試驗可以提供常規臨床指標所不能提供的診斷信息，在臨床實踐中引入該指標有助于提高診斷準確性；（２）凈重分層改良（ｎｅｔｒｅｃｌａｓｓｉｆｉｃａｔｉｏｎｉｍｐｒｏｖｅｍｅｎｔ，ＮＲＩ）該法前期的統計學處理與Ｃｓｔａｔｉｓｔｉｃ相同，不同之處在于在繪制了兩條ＲＯＣ曲線后，并不是直接比較曲線下面積的大小，而是預先設定一個最佳診斷界點，繪制重分層表格，以Ｚ檢驗分析引入新的診斷手段以后，實驗組和對照組劃分的總體準確性是否增加；（３）綜合區分改良（ｉｎｔｅｇｒａｔｅｄｄｉｓｃｒｉｍｉｎａｔｉｏｎｉｍｐｒｏｖｅｍｅｎｔ，ＩＤＩ）　該法前期的統計學處理與Ｃｓｔａｔｉｓｔｉｃ相同，不同之處在于對于每一個特定的患者，都可以通過兩個ｌｏｇｉｓｔｉｃ回歸方程，生成兩個指標Ａ和Ｂ，然后直接采用Ｚ檢驗比較所有患者Ａ和Ｂ之間是否有差異。

國內的部分診斷性試驗研究，以參考范圍的上限作為診斷界值，是一種不科學的行為。參考范圍在一定程度上只是反映了該試驗在表面健康的個體中的分布狀況，并沒有充分考慮其在有疾病的患者中的分布狀況，因此，不宜作為診斷界點。同時，大部分診斷性試驗研究論文并未通過科學的統計學方法，回答“新的診斷手段是否可以彌補已有的診斷手段的不足？多個診斷手段聯合使用是否更有助于提高總體診斷準確性？”這些疾病診療過程中臨床醫師最關心的問題。

結語

在循證醫學思想已經深入臨床醫學各個角落的今天，重視“證據”的質量與論證強度已經成為了廣大臨床醫師的共識。開展高質量的診斷性試驗研究，撰寫規范的診斷性研究論文，對于循證醫學的發展無疑積極的促進作用。只有在開展診斷性試驗時遵循科學的設計原則，在撰寫報告論文時遵守規范化的論文報告方式，研究的成果才能引起更多同行的關注，才能在將來制訂或者更新疾病診斷指南時占有一席之地，真正實現科研成果向臨床實踐的轉化。

本文作者：胡志德鄧安梅單位：濟南軍區總醫院實驗診斷科第二軍醫大學長海醫院實驗診斷科

SCI期刊領域

今日更新

隨機閱讀

導航列表

熱門文章

鏈接

国产视频www-国产视频xxx-国产视频xxxx-国产视频一二-一本大道香蕉中文日本不卡高清二区-一本久久精品一区二区

開展實驗室診斷試驗研究問題探討