樹人論文發表網辦的非常成功,極具口碑。在這里,你可以找到最具時事性的文章和最具代表性的各類文章。當然,因為免費和開源,大家都可以學習、借鑒和共同使用,如果你需要專屬于個人的原創文章,請點擊鏈接獲得專業文秘寫作服務。
摘要:本文應用系統聚類方法,對醫學中常用的統計設計方案按其使用情況進行分類,通過對類間的分析與比較,找出存在的問題,綜合評價三年醫學統計設計方案的不足與可取之處,通過對醫學常用的統計設計方案進行聚類,以便引起有關人員應該對哪些統計設計方案更加重視,從而為提高期刊中醫學論文的質量提供一點建議,對如何改進并提高醫學論文統計設計方案提供一點參考價值。
關鍵詞:醫學論文;統計設計方案;聚類分析
1前言
在醫學科研中,設計主要包括專業設計和統計學設計兩個方面。近年來,統計設計方案存在著很大的問題[1],如統計設計方案過于簡單,沒有充分體現處理因素間的效應;統計設計方案使用不當,與目的和處理因素的水平數不符。在定量資料的假設檢驗中,誤用統計方法最常見的原因是忽視資料所對應的設計類型[2]。醫學統計設計是進行臨床醫學實驗的重要前提,只有一個好的統計設計,才能使實驗用比較經濟的人力、物力和時間得到一個準確、可靠、重現性好的結果。而要得到一個好的統計設計,必須嚴格遵循統計設計的4個原則:對照、均衡、隨機化、重復的原則,然后制定一個合理的統計設計方案[3],它直接影響到醫學期刊質量高低,目前國內外對醫學統計設計方案的研究只是針對某個設計類型應用方法進行分析,而對醫學中統計設計方案的使用質量并未系統地進行分析。為此,本文采用樣品聚類方法,對醫學中常用的9種統計設計方案進行分析,通過類內與類間的比較,找出其中存在的問題,對改進研究設計提供一點參考價值。
2材料與方法
從河北省圖書館和河北醫科大學圖書館藏書中,用單純隨機抽樣的方法抽取2000年、2001年和2002年期刊刊登的需要進行統計設計的臨床醫學研究、基礎醫學研究文章657篇,其樣本量用率的抽樣方法進行計算,公式如下[4]:
n--所需樣本量大小。
本次調查α=0.05,則μ0.05=1.96;δ為容許誤差(即所希望檢出的差值)。本次調查根據以往的經驗δ取0.04;預調查了100篇文章,其中48篇文章的統計設計方案存在不足之處,故本次調查p取值為0.5;為了剔除與本研究無關的文章,本文抽取了1000篇基礎研究與臨床研究中的醫學論文,最后剔除了非本文研究的設計類型343篇,剩余657篇,所以有效樣本量為657篇,滿足了本文需要的601篇文章。
3統計方法
2.1指標的確定及其賦值
本次調查的樣品為醫學中常用的統計設計類型(成組設計、配對設計、隨機區組設計、交叉設計、拉丁方設計、析因設計、正交設計、重復測量設計和序貫設計),統計設計方案的指標依次為無、不正確、不明確和正確[5-7],其數據結果用百分比表示[8],本次調查的統計設計方案主要從以下幾方面進行判斷:與實驗目的是否相符;處理因素的水平數;區組因素的個數;處理因素間有無交互作用;非處理因素的均衡情況。無:指文章中沒有統計設計過程,沒有遵循統計設計的四個原則;不正確:指論文中寫明了統計設計方案但與上述任一方面不符者;不明確:指論文中沒有寫明具體的統計設計方案名稱,僅是對受試對象進行了隨機分配并分組,無法判斷的;正確:指論文中寫明了統計設計方案的具體名稱,且全部條件都符合的。無、不正確、不明確和正確分別賦值為1、2、3和4。
2.2 Q型系統聚類
本次調查采用系統聚類法,聚類統計量用歐氏距離,類與類的距離定義為類平均法,數據處理用SAS8.0,在樣本聚類分析中,兩個樣本之間的距離越小,說明兩個樣本的性質越相似。類間距離是用來度量一個類(一組樣本)與另一個類(另一組樣本)之間距離的統計量。令類A中有a個樣本,類B中有b個樣本,D(i,j)為A中的第i個樣本與類B中的第j個樣本之間的距離,則稱D(i,j)為類A和類B中一對樣本之間的距離,i=1,2,…,a;j=1,2,…,b。假設D(A,B)為類A和類B之間的距離,本次調查的類平均法,其類間距離等于兩類中所有樣本對之間距離的平均值,即D(A,B)={sumD(i,j)}/(ab),在樣本聚類分析中兩個類的類間距離越大,則兩個類的類內所有樣本的性質越不相似;反之,兩個類的類間距離越小,則兩個類的類內所有樣本的性質越相似。系統聚類的基本思想是先把n個聚類樣本看成n類,然后按類間距離將相似程度最大的兩個類合并為一類,再將所有的類(包括新類)中相似程度最大的兩個類合并為一類,重復此過程,直至所有類間距離達到一定的要求為止,或直至所有n個樣本被合并成一類為止,然后根據類間距離的要求以及實際意義選擇一個適當的分類。把醫學常用的統計設計方案進行聚類后,可以進一步對類間及類內進行系統分析,以便找出問題所在,提醒有關人員應該對哪些統計設計方案更加重視。
2.3三年之間的比較
三年的論文使用情況在3類的構成比的比較用χ2檢驗,兩兩比較的檢驗水準用校正的α′,其計算公式如上,統計處理用CS2000統計軟件。
4一致性檢驗
一致性的檢驗或盲評法復審是質量控制的重要方法,本次調查采用一致檢驗,它可以評價本次樣品分析結果的可靠性。其評價指標用kappa值來表示,其公式如下:
所有被評閱的文章均由作者按統一的評價標準進行評閱,并經另一專業人士復查,如遇意見不一致之處,由兩人共同討論分析,以求獲得一致的結論。兩人對657篇文章的設計方案的評閱一致率為95.74%(結果見Table 1),Kappa值=0.9227,兩人對657篇論文的判斷存在一致性(u=35.1507,p<0.05),可見本次所調查的657篇文章結果是可靠的,數據處理過程使用CS2000統計軟件。
4結果與討論
4.1統計設計方案的聚類過程及樣品聚類結果的解釋
本次研究也對各種方法進行嘗試,其中以平均距離法的分類結果最為理想。統計設計方案的聚類過程及樣品聚類結果的解釋(見表1和表2)如下:
有2個特征值大于1,因此至少應分成2類。列出了聚類過程:第一步,將第5號樣本和第6號樣本合并成一類,稱為類8,記為CL8;第二步,將第1號樣本和第4號樣本合并成一類,稱為類7,記為CL7;第三步,將第7號樣本和第9號樣本合并成一類,稱為類6,記為CL6,可見CL6含有2個樣本,它們是7、9;第四步,將第3號樣本和CL8合并成一類,稱為類5,記為CL5;第五步,將CL5和第8號樣本合并成一類,稱為類4,記為CL4,可以看出,CL4含有4個樣本,它們是3、5、6、8;第六步,將CL7和第2號樣本合并成一類,稱為類3,記為CL3,此時CL3含有個樣本,它們是1、4、2;第七步,CL3和CL4合并居一類,稱為類2,記為CL2;第八步,CL2和CL6合并成一類,記為CL1。這樣所有9個樣本合并為一類。其中SPRSQ是半偏統計量,表明此次合并類對信息的損失程度,半偏值越小,說明此次合并的效果越好;RSQ是統計量,用來評價聚類的累計效果,值越大,聚類效果越好。在這個分類結果中,根據判別指標值,可以清楚地看到,在倒數第3行,即聚類到第6步時,SPRSQ值急劇增加,從0.0967增加到0.3111,而RSQ值急劇減少,從0.759減少到0.447,因為此時SPRSQ和RSQ值突然波動,所以可以決定,樣本分成3類比較合適。
聚類樹狀圖結果(見Fig.1)。從直觀上看,將這9個統計設計方案分為3類是比較合適的,這時類間平均距離不小于2.2164。總體變異的75.9%被類成分所解釋。從樹狀圖中還可以直接得到分類的結果,這就是:第Ⅰ類包含1、4、2三個樣本,即重復測量設計、拉丁方設計、序貫設計;第Ⅱ類包含3、5、6、8四個樣本,即交叉設計、析因設計、正交設計、配對設計;第Ⅲ類包含7、9兩個樣本,即成組設計、隨機區組設計。
4.2三年的統計設計方案的使用情況及在3類中構成比的比較結果
657篇論文中,2000年、2001年和2002年的文章各占293篇、183篇、181篇。2000年、2001年和2002年在3類中的構成比比較差別顯著(χ2=44.0895,p=0.0000),說明3年在3類中的總體分布是不同的(見Table 11),進一步兩兩比較的校正α′=0.0125,經χ2檢驗,2000年與2001年的構成比比較差異無顯著性(χ2=3.0721,p=0.2154);2000年與2002年比較差異有顯著性(χ2=41.8902,p=0.0000);2001年與2002年比較差異有顯著性(χ2=18.2208,p=0.0000)。對每一類中年的兩兩比較,其檢驗水準用校正α′=0.0125。2000年與2002年相比,Ⅰ類和Ⅱ類的構成比差別顯著(p<0.0125),Ⅲ類差別不顯著(p>0.0125)。2001年與2002年相比,Ⅰ類和Ⅱ類的構成比差別顯著(p<0.0125),Ⅲ類差別不顯著(p>0.0125)。其中,2002年在第Ⅰ類的有46篇,占25.41%,2000年和2001年在第Ⅰ類中的各為7.51%、11.42%,所以2002年醫學論文的使用情況要好于2000年和2001年,說明醫學論文在這三年中的使用質量是有所提高的。
第Ⅰ類,即析因設計、正交設計和交叉設計存在的問題較少,但不明確的論文占的比例最高,為30.30%,所以這三種設計方案應在以后的論文發表中將設計類型的名稱標明。配對統計設計、拉丁方統計設計、重復測量統計設計存在的問題應用正確的程度較高,但不明確的比例也相對較高,應注意這方面的問題,成組統計設計和隨機區組設計的應用情況最差,出現的問題也最多,無的占11.55%,不正確的占17.94%,不明確的占20.35%,在三類中占的比例較高,應該引起有關人員的注意。統計設計方案的使用情況不同,較好的為第Ⅰ類和第Ⅱ類,最差的為第Ⅲ類,但三類文章中均存在一定的問題。所以重視并加強科研人員的統計學培訓是一個任重而道遠的過程,提醒有關人員引起足夠的重視。
我國醫藥衛生期刊論著中統計學誤用率高達80%左右,其根源在于論文作者統計學水平低、期刊編輯部把關不嚴和期刊管理部門嚴重失職。發表論文只是科研工作的一種表現形式,關鍵是與論文相對應的科研工作本身是否具有很高的科學性。然而,很多科研工作者從一開始就忽視統計學的指導作用,始終抱著單因素設計的思想去研究多因素多指標并帶有隨機性的課題,在這樣的基礎上撰寫出來的論文,出錯似乎已是必然。
小編推薦優秀醫學期刊 《國醫論壇》
《國醫論壇》(雙月刊)創刊于1986年,由河南省南陽中醫藥學校主辦。本刊以突出張仲景學說研究為特色,理論與臨床并重,普及與提高兼顧,一直為中醫基礎理認和仲景學說領域中的核心期刊。榮獲已連續5屆榮獲河南省自然科學優秀期刊獎。
論文指導 >
SCI期刊推薦 >
論文常見問題 >
SCI常見問題 >