生物統計與電腦應用 :SPSS 簡介 陳光琦助理教授 (Kuang-Chi Chen) chichen6@mail.tcu.edu.tw,, Office: H603-2 http://www.chichen6.tcu.edu.tw/
SPSS 簡介 統計軟體 SPSS, 早期是 Statistical Package for the Social Science 的縮寫, 後來,SPSS 公司將全名改為 Statistical Products and Services Solutions SPSS 提供圖形使用介面的視窗環境, 內部各種分析選項皆顯示在螢幕上, 具備下拉式功能表及對話方塊, 不需程式撰寫即可執行命令, 非常容易操作與學習
SPSS 的檔案資料 SPSS 本身的資料檔為 *.sav, 它亦可讀取不同型態的檔案資料,e.g., Dbase (*.dbf), Excel (*.xls), ASCII (*.txt, *.dat), SAS (*.sd2), Stata (*.dta), Minitab (*.mtw), 等
SPSS 的視窗 視窗 :1) 資料檢視 ( 鍵入資料 ) 2) 變數檢視 ( 定義變數 ) SPSS 將所有指令依性質不同分門別類, 置放於十個下拉式功能表內, 分別為 : 檔案 (File): 檔案相關的操作指令,e.g., New, Open, Save, Save As, Print, Exit, ; 編輯 (Edit): 編輯文件或資料,e.g., Undo, Cut, Copy, Paste, Clear, Find, Options; 檢視 (View): 視窗環境的設定,e.g., Status Bar, Toolbars, Fonts, Grid Lines, Value Labels; * Status Bar( 狀態列 ) and Grid Lines( 格線 ) can be disappeared or appeared by View menu. So does the Toolbars( 工具列 ).
SPSS 的視窗 (CONT D) 資料 (Data): 編修資料檔,e.g., 定義日期 (Define Dates), 插入新變數 (Insert Variable), 觀察值排序 (Sort Cases), 轉置 (Transpose), 合併檔案 (Merge Files), 分割檔案 (Split File), 選擇觀察值 (Select Cases), 觀察值加權 (Weight Cases), ; 轉換 (Transform): 資料的轉換,e.g., Compute( 資料計算 ), Count( 資料計數 ), Recode( 重新編碼 ), Rank Cases( 資料排序 ), ; 分析 (Statistics): 統計分析 ; 統計圖 (Graphs): 統計圖形製作 ; 公用程式 (Utilities): 顯示資料檔訊息或變更功能表屬性 ; 視窗 (Window): 調整視窗大小及切換視窗 ; 輔助說明 (Help): 輔助說明功能,e.g., Topics, Tutorial, Syntax Guide, Statistics Coach,
SPSS 的基本操作 1. 開啟現有檔案 (Open an existing file) 檔案 (File) 開啟舊檔 (Open) 資料 (Data) 2. 建立新檔案 (Create a SPSS file) 檔案 (File) 開新檔案 (New) 資料 (Data) 然後在變數檢視視窗, 先定義變數, 定義變數完後才輸入資料
SPSS 的基本操作 (CONT D) 3. 變數檢視視窗定義變數 1) 名稱 (Variable Names) i) 變數名稱的長度不超過八個字元,i.e., 英文字母加上數字或符號不超過八個 (cannot exceed 8 characters), 中文字則不超過四個字 ( 一個漢字佔兩個字元 ); 不可數字開頭, 亦不可. (a period) 結尾 ii) 同一個檔案的變數名稱不可重複 iii) 英文字母的大小寫視為一樣 (identical) iv) 保留字 :ALL, NE, EQ, TO, LE, LT, GE, BY, OR, GT, AND, NOT, WITH 絕對不可拿來當作變數名稱 ; 空白 (Blanks) 與特殊字元 (e.g.,!,?, *) 亦不可 ; 但 @, #, _, $ 則可以
SPSS 的基本操作 (CONT D) 2) 類型 (Variable Type): 定義變數的類型 ( 內定為數字型 ) i) 數字 (Numeric): 資料為數字型態, 內定為寬度 8 小數位數 2 ii) 逗點 (Comma): 數字用 1,200.35 表示 ; iii) 點 (Dot): 數字用 1.200,35 表示 ; iv) 科學記號 (Scientific Notation): 數字用科學記號表示, 常用 E 來表示 10 的次方,e.g., 123, 1.23E2, 1.23D2, 1.23E+2, and even 1.23+2; v) 日期 (Date): 資料為日期型態,e.g., dd-mmm-yy, mm/dd/yy, dd.mm.yyyy, ; vi) 貨幣 (Currency): 資料為貨幣型態 ; vii) 自訂貨幣 (Custom Currency): 資料為貨幣型態 ; vii) 字串 (String): 資料為字串型態而非數字, 故無法計算 ; 大小寫視為不同
SPSS 的基本操作 (CONT D) 3) 寬度 (Width): 資料的寬度, 內定寬度為 8; 4) 小數 (Decimals): 內定小數位數為 2; 5) 註解 (Label): 說明解釋變數意義 ; 6) 數值 (Values): 定義次序資料或名義資料的數值所相對應的值或字串 ;(e.g., 1=Male, 2=Female). 7) 遺漏 (Missing): 定義遺漏值 缺失值 ;
SPSS 的基本操作 (CONT D) 8) 欄 (Columns): 變數欄位的寬度, 內定寬度為 8; 9) 對齊 (Align): 資料靠左 中 右對齊 10) 測量 (Measure): 在 SPSS 中, 有三種測量 : i) 量尺 (Scale): 一般數值資料 on an interval or ratio scale (e.g., age); ii) 次序的 (Ordinal): 序位資料 (e.g., 1=low, 2=medium, 3=high); iii) 名義的 (Nominal): 類別資料, 可為字串或數字 (e.g., 1=Male, 2=Female) * String (alphanumeric) variables are set to nominal
SPSS 的繪圖 : 1. 直方圖 (HISTOGRAM) (Method 1) i) 圖形 Graphs 直方圖 Histogram 進入 Histogram, 點選變數 身高, 按, 將 身高 移到右方 Variable ( 點選左下方的 顯示常態曲線 Display normal curve ) ii) 點選右下方 Titles 進入 Titles 輸入適當的標題後, 點選右上方 Continue 回到 Histogram 右上方 OK
SPSS 的繪圖 : 直方圖 (HISTOGRAM) (CONT D) (Method 2) i) 分析 Analyze 描述性統計 Descriptive Statistics 次數分配表 Frequencies 進入 Frequencies, 點選變數 身高, 按, 將 身高 移到 Variable(s) 點選下方 Charts ii) 進入 Frequencies: Charts 視窗 點選 Histograms ( 附上常態曲線 With normal curve:) 點選右上方 Continue 回到 Frequencies 右上方 OK
SPSS 的繪圖 : 直方圖 (HISTOGRAM) (CONT D) (Method 3) i) 分析 Analyze 描述性統計 Descriptive Statistics 預檢資料 Explore 進入 Explore, 點選變數 身高, 按, 將 身高 移到 依變數清單 Dependent List, 點選右下方 Plots ii) 進入 Explore: Plots 視窗 右方 Descriptive, 點選 Histogram ( 常態機率圖附檢定 Normality plots with tests:) 右上方 Continue 回到 Explore 右上方 OK
SPSS 的繪圖 : 2. 莖葉圖 (STEM-AND-LEAF) i) 分析 Analyze 描述性統計 Descriptive Statistics 預檢資料 Explore 進入 Explore, 點選變數 身高, 按, 將 身高 移到 Dependent List, 點選右下方 Plots ii) 進入 Explore: Plots 視窗 右上方點選 Stemand-Leaf 右上方 Continue 回到 Explore 右上方 OK
SPSS 的繪圖 : 3. 次數多邊圖 (FREQUENCY POLYGON) (1) 群組資料 群組資料的有些變數是數值出現的次數或頻率, 並非像個別資料般是觀察個體的數值, 故必須告知 SPSS, 要把這些變數視為加權 (weight) 變數 有無設定加權, 可以由右下角的訊息欄中是否有 加權於 Weight On 訊息得知
E.G. TABLE 2.7 1976-1980 年 2,294 位美國男性血清膽固醇絕對次數分布表 Sclevel midpoint @25_34 @55_64 80-119 99.5 13 5 120-159 139.5 150 48 160-199 179.5 442 265 200-239 219.5 299 458 240-279 259.5 115 281 280-319 299.5 34 128 320-359 339.5 9 35 360-399 379.5 5 7
SPSS 的繪圖 : (1) 群組資料 i) 資料 Data 觀察值加權 Weight Cases 進入 Weight Cases, 點選變數 @25_34 及 依據加權觀察值 Weight cases by, 按, 將 @25-34 移到 次數變數 Frequency Variable: 點選 OK ( 資料在右下方出現 加權於 Weight On ) ii) Graphs Line 線形圖進入 Line Charts, 點選 簡單 Simple 型式的線圖及下方 圖表中資料為 Data in Chart Are 點選 觀察值組別之摘要 Summaries for groups of cases 右上方 定義 Define 進入 Define Simple Line: Summaries for Groups of Cases
SPSS 的繪圖 : (1) 群組資料 (CONT D) iii) 在 Define Simple Line: Summaries for Groups of Cases, 上方 線形圖表示 Line Represents 點選 其他摘要函數 Other summary function 將變數 midpoint 選入中間下面 類別軸 Category Axis, 將變數 @25_34 設定到中間 變數 Variable: 點選 變更摘要 Change Summary 進入 所選變數的摘要數值 Summary Function for Selected Variable(s) iv) 在 Summary Function for Selected Variable(s) 點選 觀察值個數 Number of cases 右上方 繼續 Continue 回到 Define Simple Line: Summaries for Groups of Cases 點選右上方 OK
SPSS 的繪圖 : (1) 群組資料 (CONT D) * 欲作群組資料的直方圖或長條圖時, 在步驟 (ii) Graphs Line, 將 Line 變更為 Bar, 接下來的操作則很類似 或者, 在已經畫出的線圖上, 用滑鼠點開進入 SPSS 圖表編輯程式 (Chart Editor) 視窗, 直接在此作更動亦可 (a) 數列 Series 已顯示 Displayed Bar/Line/Area Displayed Data 中間的 數列顯示為 Series Displayed as 點選 Bar 點選右上方的 OK (b) 圖庫 Gallery 條形圖 Bar 置換 Replace * 群組資料的統計分析亦可在 SPSS Chart Editor 視窗中分析 Analyze 選項執行
SPSS 的繪圖 : 在 SPSS CHART EDITOR 視窗中, 可以做圖形的更改格式 Format 填滿形式 Fill Pattern / 顏色 Color / 標記 Marker / 線形樣式 Line Style / 條形樣式 Bar Style / 條形註解樣式 Bar Label Style / 文字 Text / 3-D 旋轉 3-D Rotation 格式 Format 內插法 Interpolation 折線圖可設定有無 Marker 是否以平滑曲線 (spline) 呈現或階梯狀 (step) 或跳型圖 (jump) 或沒有線條只有 Marker 格式 Format 交換座標軸 Swap Axes 圖形轉 90 0 圖表 Chart 選項 Options / 軸 Axis / 標題 Title / 註腳 Footnote / 圖註 Legend / 附註 Annotation / 參考線 Reference Line / 外框 Outer Frame / 內框 Inner Frame / 重設 Refresh.. 座標軸 標題等設定
SPSS 的繪圖 : (3) 混合式 (MIXED) 圖形 在圖表編輯程式 Chart Editor 視窗中, 圖庫 Gallery 混合圖 Mixed 進入 Bar/Line/Area Displayed Data 後, Series Displayed As 選另一圖形
SPSS 的繪圖 : 4. 長條圖 (BAR CHART) (1) 一般個別資料若兩組不同類別資料要放在一起比較 i) Graphs 長條圖 Bar 進入 Bar Charts 之後, 點選 集群化 Clustered 型式的長條圖及下方的 Data in Chart Are 點選 個別觀察值數值 Values of individual cases 點選右上方的 Define 進入 Define Clustered Bar: Values of Individual Cases ii) 在 Define Clustered Bar: Values of Individual Cases, 上方的 條形圖表示 Bars Represent: 點選兩個想要比較的變數, 中間 類別註解 Category Labels 點選 變數 Variable:, 點選 x- 軸的變數 點選右上方的 OK
SPSS 的繪圖 : 4. 長條圖 (BAR CHART) (2) 群組資料若為群組資料, 則須把兩組的次數資料串成一行, 並建立另一變數來標示組別 然後在 Define Clustered Bar: Values of Individual Cases, Define Clusters by: 點選標示組別的變數
SPSS 的繪圖 : 5&6 盒型圖 & 圓型比例圖 5. 盒型圖 (Boxplots) 分析 Analyze 描述性統計 Descriptive Statistics 預檢資料 Explore 盒形圖 6. 圓形比例圖 (Pie Chart) 圖表編輯程式 Chart Editor 視窗中, 圖庫 Gallery 圓餅圖
關於 SPSS 的常見問題 Q1: 日期若是 dd.mm.yy 型式時, 當輸入 23.3.78,SPSS 如何知道是 1978, 而不是 1878 或 2078? A:(W1) 資料 Data 定義日期 Define Dates 進入 Define Dates 之後, 點選第一個 年數 Years, 在 第一個觀察值 First Case Is: Year 中填寫 1900 點選右上方的 OK 或 (W2) 編輯 Edit 選項 Options 做預設值更改進入 Options 之後, 點選 資料 Data, 在右半邊的 設定之位數年份的世紀範圍 Set Century Range for 2-Digit Year 中點選 Custom, 然後填寫所需的起訖年代 點選下方的 確定 ( 這個更改會改變 SPSS 的預設值, 以後重新啟動時皆會以這個型式呈現 )
關於 SPSS 的常見問題 (CONT D) Q2: 在 Variable View 視窗下, 寬度 Width 與欄 Columns 有什麼不同? A:Width 是設定變數為數值或字串的寬度,Columns 則是試算表中變數所在欄位的寬度, 通常 Width Columns; 當 Width > Columns 時, 輸入的資料若為數值的話, 則會以另一種形式表示,e.g., 數學符號 數值的整數部分 ****( 當整數部分的長度仍大於 Columns 的寬度 ), 若為字串的話則只出現部分, 即 Columns 所設的寬度
關於 SPSS 的常見問題 (CONT D) Q3: 在進入 Analyze Descriptive Statistics Frequencies 之後, 左欄會列出所有變數, 其名稱前面所帶的符號代表什麼? A: A 符號代表此項變數型態為字串, > 代表其字串長度大於 8, 若為 < 則為小於或等於 8, # 符號代表此項變數型態為數值
關於 SPSS 的常見問題 (CONT D) Q4: 變數標籤 (Label) 的用處為何? A: 以 1=Male, 2=Female 為例, 當輸入資料時, 雖然輸入 1 or 2, 但試算表上會顯示 Male or Female, 可節省資料輸入的時間 若想更改此一設定可到 Edit Options 做預設值更改 e.g., 進入 Options 後, 點選 General, 在左上方 Variable Lists 中點選 Display names 點選下方的 確定 ( 這個更改會改變 SPSS 的預設值 ) 或 檢視 View 點選 Value Labels, 則試算表上出現每個值的註解
關於 SPSS 的系統環境 * SPSS 的系統環境設定有三 : 1. 編輯 Edit 選項 Options 2. 公用程式 Utilities 功能表編輯程式 Menu Editors 3. 檢視 View 下拉式功能表 * 欲開啟 SPSS 的範例檔, 可由輔助說明 Help Statistics Coach, 進入 Statistics Coach 對話方塊, 選擇想要的項目後, 出現 SPSS 建議的做法, 若想執行 SPSS 建議的做法, 則按 確定, 否則按 取消 回到 Statistics Coach
SPSS HW#1 1. 建立下面兩組資料檔及製作資料的編碼對照表 (coding book) * Coding Book: 變數名稱 欄位 型態 (scale, ordinal, nominal) 格式 (format: xxx.x, mm/dd/yy, ) 單位 編碼 (coding: 1=, 2=, 3=, ) 2. 對於 Data 1, 請對於性別繪製 pie chart 年齡繪製 boxplot 累積劑量繪製 histogram 細胞數目繪製 stem and leaf; 對於 Data 2, 請分別對於 0 小時及 6 小時的總膽紅素列出其平均值 中位數 標準差 最大值 最小值 30 百分位數 75 百分位數
SPSS HW#1 Data 1. 國人暴露於輻射屋之個案組資料 代碼性別出生日期年齡暴露時間累積劑量細胞數目變異 % 1 M 1969/4/5 38 9.3 182.3 18 3.6 2 F 1977/7/21 30 3.8 49.15 40 8 3 M 2004/1/5 3 1.7 19.63 11 2.2 4 M 1961/12/1 46 9.5 280.5 27 5.4 5 F 1966/4/4 41 5.3 152.11 6 1.2 6 M 1977/3/4 30 11.6 162.36 23 4.6 ( 資料來源 : 節錄自戴政 江淑瓊 生物醫學統計概論 ) 7 M 1964/8/31 43 4.4 133.53 26 5.2 8 M 1992/11/3 15 2.2 58.42 30 5.8 9 F 1962/9/8 45 0.3 21.04 34 6.8
SPSS HW#1 Data 2. 三種光源組在採血後時間長度測得之新生兒膽紅素數值 編號 組別 0 小時 6 小時 24 小時 1 1 6.7 4.4 2.5 2 1 10.4 7.1 3.7 3 1 6.3 4 1.9 4 1 7 4.2 2.4 5 2 9.3 9 6.3 6 2 10 9.7 6.2 7 2 11.9 11.8 9.3 8 2 6.3 5.5 4.3 9 3 5.1 4.9 4.8 10 3 9.8 9.5 9.3 11 3 5.1 4.6 5 12 3 11.7 11.9 11.7 ( 資料來源 : 節錄自戴政 江淑瓊 生物醫學統計概論 )