統計方法學 (Statistical methodology)
統計方法學 (Statistical methodology)
理解基本的統計概念與工具,有助於減少潛在干擾變項 (confounding variables) 所造成的偏誤,並增進對臨床發現之應用的理解。統計分析可使用眾多分析資源之一(SAS、STATA)來執行,其使用方式超出本章範圍。量性資料 (Quantitative data) 是大多數觀察性與實驗性研究中將會蒐集的資料。連續型資料 (Continuous data) 以具有中間值的實數來測量(例如身高 62.5 cm)。離散型資料 (Discrete data) 則為不具中間值的實數(例如有皮膚癌病史的家庭成員人數)。
辨識資料中心的方式有多種。平均數 (Mean) 是資料的平均值,包含離群值 (outliers) 在內,而離群值可能使平均數大幅偏斜。中位數 (median) 是所有資料點由最低到最高排序後正中間的值(即第 50 百分位數)。離群值對中位數無顯著影響。眾數 (mode) 是資料集中最常見的值(即直方圖 (histogram) 的峰值)。資料值的離散程度可用變異數 (variance) 來描述,即資料點與平均數之差的平方之平均值。標準差 (Standard deviation) 是變異數的平方根,用以衡量資料落在距平均數多近的範圍。例如,低標準差表示大多數值落在接近平均數之處,而高標準差則暗示資料落在較廣的數值範圍。大多數資料會落在常態(或高斯)分布 (normal (or Gaussian) distribution) 的鐘形曲線中。此假設 68% 的資料會落在平均數兩側各一個標準差之內,95% 會落在平均數兩個標準差之內,99.7% 的資料點會落在平均數三個標準差之內。
p 值 (p-value) 是衡量該結果可能由機運所致之可能性的指標。整體而言,p 值 <0.05,即小於 5%,被視為具統計顯著性 (statistically significant) 的門檻;然而 p 值越低,結果為真的可能性越高。檢定力 (Power) 反映研究中為揭示兩組間結果具統計顯著(p < 0.05)差異所需的資料點或研究參與者數量。隨著檢定力增加,出現偽陰性結果 (false negative result) 的可能性降低,因為檢定力等於 1 減去偽陰性率。一般而言,檢定力 >80% 被視為具統計檢定力。在啟動研究之前,應執行檢定力分析 (power analysis),以判定揭示顯著結果所需的最少資料點數。計算樣本數所需的基本資訊包括:檢定類型(單側或雙側 (one- or two-sided))、顯著水準(通常為 0.05)、所欲達到的檢定力(1-b,或型二誤差 (type II error),通常為 0.8),以及效應量估計 (effect size estimate)(根據先前臨床研究或經驗對組間差異的估計)。可運用統計學家、統計軟體與線上檢定力計算器來產生樣本數。若缺乏此項分析,可能因資料點過少而無法得出準確結論,或可能納入遠超所需的參與者,造成使病人陷於不必要傷害的倫理風險。
母數檢定 (Parametric tests) 是當資料呈常態分布時用以比較平均數的檢定。最廣為人知的母數檢定為 t 檢定 (t-test),可應用於呈常態分布的連續型資料。所使用的 t 檢定取決於各組的變異數是否相等。當樣本相關時可使用配對 t 檢定 (paired t-test),例如在前後比較研究 (before-and-after study) 中,或當樣本為配對組(如病例對照研究 (case-control study))時。無母數檢定 (Nonparametric tests) 是當資料集非常態時所使用的檢定,包括 Wilcoxon Mann–Whitney U-test、Kruskal–Wallis (H) test 與 Wilcoxon Signed-Rank test。卡方檢定 (chi-squared test) 可用於比較觀察比例與期望比例,例如將兩性間結節型黑色素瘤 (nodular melanomas) 的發生率與期望值(50:50)相比較。
迴歸分析 (regression analysis) 使研究者得以檢驗多個獨立變項對某一給定結果的影響。例如,與其單純判定年齡對 SCC 轉移率 (metastatic rate) 的影響,迴歸分析可判定在該研究組中年齡、免疫狀態、所接受的治療與共病對 SCC 轉移率的影響。迴歸分析使用統計套裝軟體來執行,以對資料進行建模並得出 r2 值。此值可協助讀者或研究者判定結果中有多少變異是由所辨識的變項所致。例如,若 r2 = 0.78,則 78% 的結果是由所界定的變項所致。
邏輯斯迴歸 (Logistic regression) 旨在當依變項為二元 (binary) 時為事件發生的機率建模,並為任一給定的獨立變項產生 OR 與 p 值。