Descriptive Statistics: Central Tendency

Similar documents
Microsoft Word - ACL chapter02-5ed.docx

第3章 資料的描述:數值的測量

840 提示 Excel - Excel -- Excel (=) Excel ch0.xlsx H5 =D5+E5+F5+G5 (=) = - Excel 00

0 0 = 1 0 = 0 1 = = 1 1 = 0 0 = 1

刊 的 表 现 可 圈 可 点 中 国 共 产 党 章 程 党 的 十 八 大 报 告 及 辅 导 材 料 热 爱 伟 大 祖 国, 建 设 美 好 家 园 系 列 连 环 画 等 51 种 书 籍 的 单 品 种 当 年 累 计 印 数 超 过 100 万 册, 较 2011 年 增 加 3 种,

1.3

56,,,,, :,, 1953,, 1953,1953,,1953,,,,,,,,, () ,30118, 34, ;,4912 %,5614 %, 1,1953, 1119, ,, , , 1111 (

Microsoft Word - ACI chapter00-1ed.docx




CDD全文文件水印保护

CDD全文文件水印保护

表二 105 年國中教育會考英語科閱讀與聽力答對題數對應整體能力等級加標示對照表 閱讀答 對題數 聽力答對題數 待加強待加強待加強待加強待加強待加強待加強待加強待加強待加強待加強待加強

目次 CONTENTS 2 1 乘法公式與多項式 二次方根與畢氏定理 因式分解 一元二次方程式

! # % & # % & ( ) % % %# # %+ %% % & + %, ( % % &, & #!.,/, % &, ) ) ( % %/ ) %# / + & + (! ) &, & % & ( ) % % (% 2 & % ( & 3 % /, 4 ) %+ %( %!

!! # % & ( )!!! # + %!!! &!!, # ( + #. ) % )/ # & /.

ACI pdf

二次曲線 人們對於曲線的使用及欣賞 比曲線被視為一種數學題材來探討要早 得多 各種曲線中 在日常生活常接觸的 當然比較容易引起人們的興趣 比如 投擲籃球的路徑是拋物線 盤子的形狀有圓形或橢圓形 雙曲線 是較不常見的 然而根據科學家的研究 彗星的運行軌道是雙曲線的一部 分 我們將拋物線 圓與橢圓 雙曲

《分析化学辞典》_数据处理条目_1.DOC

基本數學核心能力測驗_行為觀察記錄紙_G2版本


Microsoft PowerPoint - 第4章 資料的整理與表現-統計測量數.ppt [相容模式]

<B2C43035B3B92E646F63>

! /. /. /> /. / Ε Χ /. 2 5 /. /. / /. 5 / Φ0 5 7 Γ Η Ε 9 5 /

常用的統計檢定方法 依變項 DV 類別變數 自變項 IV 連續變數 連續變數 Type A: t 檢定 變異數分析 Type B: 相關 迴歸分析 類別變數 Type C: 卡方檢定 Type D: 判別分析 羅吉斯迴歸

99710b43ZW.PDF


Microsoft Word - _m30.doc

PowerPoint 演示文稿

2012年新闻出版产业分析报告

連續機率分配

目次 CONTENTS 1 數列與級數 幾何圖形 三角形的基本性質 平行與四邊形

!!! #! )! ( %!! #!%! % + % & & ( )) % & & #! & )! ( %! ),,, )

湖北省残疾人抽样数据分析报告(简版)

1 500 表 1: 各國平均分數

圖 01-1 PROC UNIVARIATE 的輸出結果 ( 腹膜透析 白蛋白 ) 第 1-1 節重要指令說明 : 1. NORMAL: 在報表中呈現常態檢定的結果 2. CLASS 變項名稱 ( 類別 ): 依照 class 所宣告的類別變項分組呈現資料分析結果 在這個例子中我們將資料分為腹膜透析

理性真的普遍嗎 注意力的爭奪戰 科學發展 2012 年 12 月,480 期 13


内部资料 编 号:


現在人類獲取地球內部訊息的方法, 是從可能影響我們身家性命安全的地震, 用數學模型把地震資料轉換成地震波速度, 進而獲得地底物質密度與深度的關係 地下世界知多少 km/s g/cm 3 P Gpa km S P S 3,000 3,000 ak K 透視地底 Percy Bridgma

&! +! # ## % & #( ) % % % () ) ( %

! %! &!! % &

t14phip

Ρ Τ Π Υ 8 ). /0+ 1, 234) ς Ω! Ω! # Ω Ξ %& Π 8 Δ, + 8 ),. Ψ4) (. / 0+ 1, > + 1, / : ( 2 : / < Α : / %& %& Ζ Θ Π Π 4 Π Τ > [ [ Ζ ] ] %& Τ Τ Ζ Ζ Π


Microsoft PowerPoint - spss2-1.ppt

1.1

., /,, 0!, + & )!. + + (, &, & 1 & ) ) 2 2 ) 1! 2 2

& & ) ( +( #, # &,! # +., ) # % # # % ( #


, ( 6 7 8! 9! (, 4 : : ; 0.<. = (>!? Α% ), Β 0< Χ 0< Χ 2 Δ Ε Φ( 7 Γ Β Δ Η7 (7 Ι + ) ϑ!, 4 0 / / 2 / / < 5 02

課程目標 1. 數值描述中央集中趨勢 2. 數值描述資料散佈變化情形 3. 數值資料的偏性 4. 資料的相對位置 (Numerical Measures of Relative Standing) 5. 標準差的意義與應用 3 2

!! )!!! +,./ 0 1 +, 2 3 4, # 8,2 6, 2 6,,2 6, 2 6 3,2 6 5, 2 6 3, 2 6 9!, , 2 6 9, 2 3 9, 2 6 9,

9-2

第一章  緒論

/ Ν #, Ο / ( = Π 2Θ Ε2 Ρ Σ Π 2 Θ Ε Θ Ρ Π 2Θ ϑ2 Ρ Π 2 Θ ϑ2 Ρ Π 23 8 Ρ Π 2 Θϑ 2 Ρ Σ Σ Μ Π 2 Θ 3 Θ Ρ Κ2 Σ Π 2 Θ 3 Θ Ρ Κ Η Σ Π 2 ϑ Η 2 Ρ Π Ρ Π 2 ϑ Θ Κ Ρ Π

Microsoft PowerPoint - Microsoft10.pptx

4= 8 4 < 4 ϑ = 4 ϑ ; 4 4= = 8 : 4 < : 4 < Κ : 4 ϑ ; : = 4 4 : ;

1

惠理基金管理香港有限公司 (852) (852)

Microsoft PowerPoint - 測驗常模與標準化 [相容模式]


8 9 8 Δ 9 = 1 Η Ι4 ϑ< Κ Λ 3ϑ 3 >1Ε Μ Ε 8 > = 8 9 =

1

Β 8 Α ) ; %! #?! > 8 8 Χ Δ Ε ΦΦ Ε Γ Δ Ε Η Η Ι Ε ϑ 8 9 :! 9 9 & ϑ Κ & ϑ Λ &! &!! 4!! Μ Α!! ϑ Β & Ν Λ Κ Λ Ο Λ 8! % & Π Θ Φ & Ρ Θ & Θ & Σ ΠΕ # & Θ Θ Σ Ε

lt99ok241一維數據分析

04/ / /


> # ) Β Χ Χ 7 Δ Ε Φ Γ 5 Η Γ + Ι + ϑ Κ 7 # + 7 Φ 0 Ε Φ # Ε + Φ, Κ + ( Λ # Γ Κ Γ # Κ Μ 0 Ν Ο Κ Ι Π, Ι Π Θ Κ Ι Π ; 4 # Ι Π Η Κ Ι Π. Ο Κ Ι ;. Ο Κ Ι Π 2 Η

投影片 1

teaching_corner_013

8 9 < ; ; = < ; : < ;! 8 9 % ; ϑ 8 9 <; < 8 9 <! 89! Ε Χ ϑ! ϑ! ϑ < ϑ 8 9 : ϑ ϑ 89 9 ϑ ϑ! ϑ! < ϑ < = 8 9 Χ ϑ!! <! 8 9 ΧΧ ϑ! < < < < = 8 9 <! = 8 9 <! <

100 年華僑經濟年鑑 2011 華僑經濟年鑑 IT % % % % % WEF

# # # #!! % &! # % 6 & () ) &+ & ( & +, () + 0. / & / &1 / &1, & ( ( & +. 4 / &1 5,

. /!Ι Γ 3 ϑκ, / Ι Ι Ι Λ, Λ +Ι Λ +Ι

ⅠⅡⅢ Ⅳ

7. 下列何者敘述錯誤? (A) 抽樣分佈 (sampling distribution) 的抽樣樣本數越大, 其分佈之集中趨勢 (central tendency) 越小 (B) 樣本 (sample) 可以告訴我們關於母群體 (population) 的資訊 (C) 參數 (parameter)

Microsoft PowerPoint - 第9章 簡單隨機抽樣與抽樣分配.ppt [相容模式]

的目的 的目的在於對統計分析所給定的先驗 假設條件 進行檢定, 以檢驗假設條件的 適當性 此假設條件包含 1. 分配形式的假設 : 例如在假設檢定中的常態分配假設 ; 2. 獨立性的假設 : 例如在兩個母體平均數及變異數假設檢定中的兩母體相互獨立的假設 ;

= Υ Ξ & 9 = ) %. Ο) Δ Υ Ψ &Ο. 05 3; Ι Ι + 4) &Υ ϑ% Ο ) Χ Υ &! 7) &Ξ) Ζ) 9 [ )!! Τ 9 = Δ Υ Δ Υ Ψ (

40 20% 没 没 1

4 # = # 4 Γ = 4 0 = 4 = 4 = Η, 6 3 Ι ; 9 Β Δ : 8 9 Χ Χ ϑ 6 Κ Δ ) Χ 8 Λ 6 ;3 Ι 6 Χ Δ : Χ 9 Χ Χ ϑ 6 Κ

欢迎参加 《计量基础知识》培训班

1-4 二 社會工作存在的前提 / 基本假設 Boehm

9!!!! #!! : ;!! <! #! # & # (! )! & ( # # #+

2 2 Λ ϑ Δ Χ Δ Ι> 5 Λ Λ Χ Δ 5 Β. Δ Ι > Ε!!Χ ϑ : Χ Ε ϑ! ϑ Β Β Β ϑ Χ Β! Β Χ 5 ϑ Λ ϑ % < Μ / 4 Ν < 7 :. /. Ο 9 4 < / = Π 7 4 Η 7 4 =

4. 下列何者不適合用來描述 6 年 8 班的血型分佈? (A) 長條圖 (bar chart) (B) 盒鬚圖 (box plot) (C) 圓餅圖 (pie chart) (D) 次數多邊圖 (frequency polygons) 5. 下表為 76 名高血壓住院病人之收縮壓 (SBP) 測量

第五章 機率分配

Microsoft Word - lecture 2_鐘惠民ch2_.doc

基礎統計

( ) (! +)! #! () % + + %, +,!#! # # % + +!


投影片 1

二 戶外教學的性質

Microsoft PowerPoint - ch2工程統計(97)

Chapter 3 Camera Raw Step negative clarity +25 ] P / Step 4 0 ( 下一頁 ) Camera Raw Chapter 3 089



Transcription:

蔡佳泓 國立政治大學東亞所 蔡佳泓

描述統計 以最有效率的方式描述量化或類別變數的重要特徵 例如 : 都市化 經濟成長率 競爭力 例如 : 性別 教育程度 蔡佳泓

次數分配表 次數 村代會 村委會 黨支部 聯席會議 其他 總數 蔡佳泓

長條圖 適用於類別變數, 可表示各類別的次數 百分比等 可找出相對多數的類別 蔡佳泓

蔡佳泓

蔡佳泓

直方圖 適用於連續變數 ( 如果太過離散則需要適當地分組 ) 可表示變數中各個值的次數 百分比 密度等 若用於百分比, 直方的高度累加 ( 類似百分比的長條圖 ) 用於密度, 可加上平滑曲線, 曲線下的面積, 而直方的總面積 蔡佳泓

蔡佳泓

莖葉圖 用於量化變數, 可表示次數的分佈情形 莖代表至少 位數, 葉代表觀察值最末一位 葉有可能自動四捨五入進位莖可能因為尺度一致而進位 蔡佳泓

某大學的各班修課人數的調查結果如下 : 蔡佳泓

某鄉鎮的五月新生兒人數的調查結果如下 : 蔡佳泓

蔡佳泓

中央趨勢 用一個統計值描述資料的分佈眾數中位數百分位數平均數 蔡佳泓

眾數 適用於質化及量化變數 定義為發生最多次的那一個值 有可能超過一個 蔡佳泓

蔡佳泓

平均數 用在量化變數或是二元變數 可以想成是觀察值的平衡點 : 比平均值大的數的總和等於比平均值小的數的總和的絕對值 會受到極端值的影響 可以考慮去掉頭尾的極端值再求平均數 數學上又稱為變數的第一個矩 因為變數的矩定義為: µ = ( ) () 1 第二個矩是變異數, 也就是 ( ) 2 或者是 ( 2 ) () 2 蔡佳泓

平均數計算方式 1 = 6, 7, 8, 8, 9, 10, 13, 15, 16, 45 1 = (6+7+,+45) 10 2 = 1, 6, 7, 8, 8, 9, 10, 13, 15, 16, 51 1 2 假設觀察值分為 = 1 個組, 每一組有 1, 2, 人, 每一組平均數為 1 2, 則全體的平均數為 : 蔡佳泓

百分位數及中位數 第 個分位數表示 的數比它大, 的數比它小 可以是實際存在的數, 也可以是計算所得 蔡佳泓

及 百分位 將數值由小到大排序後, 將資料分成四等份, 產生三個四分位數, 每等份有 的資料, 為第一四分位數, 相當於第 百分位數, 有 的資料小於或等於它 為第二四分位數即中位數, 為第三四分位數, 相當於第 百分位數, 有 的資料大於或等於它 原則上在小於中位數的一半觀察值以及大於中位數的另一半觀察值之中, 分別找出其中位數 前者稱為 分位數, 後者則是 分位數 例 : = 1, 1001, 1002, 1003 百分位 = 4 50 100 = 2.5 因為 落在 及 中間, 所以 0.5 1001 + 0.5 1002 = 1001.5 百分位 = 4 25 100 = 1.5 因為落在 及 中間, 所以 0.5 1 + 0.5 1001 = 751 百分位 = 4 75 100 + 0.5 = 3.5 0.5 1002 + 0.5 1003 = 1002.5 蔡佳泓

實例 例 : = 2, 3, 4, 7, 9, 10, 12, 12 中位數 2 +1 4 = 4.5 因為落在 中間所以 : 7 + 0.5 (9 7)8 分位數 = 1 8+1 4 = 2.25 因為位於 及 之間故 : 3 + 0.25 (4 3) = 3.25 分位數 = 0.75 (8 + 1) = 6.75 10 + 0.75 (12 10) = 11.5 蔡佳泓

百分位數計算方法 假設有 個數, = 1,,, 第 個數的百分位數為 : = 100 0.5 反過來說, 如果要求出 百分位數是第幾個數, 則可用以下方式 : = 100 + 0.5 例如 : = 1, 2,, 11. 百分位數 75 11 100 + 0.5 = 8.75 R 的 quantile() 指令的第五種 (type=5) 蔡佳泓

比較各種計算方法 根據 的第 頁的 資料, 根據 種公式可求出 如下 : 蔡佳泓

計算的結果 第 種是 SPSS 採用的, 第 種是 R 內定的 SPSS 先算 = ( + 1), 然後算 + ( )( +1 ) 代表整個數列, 為無條件捨去小數點後的數字 rate 統計量 個數有效的遺漏值百分位數 25 50 75 50 0 3.875 6.700 10.325 蔡佳泓

分組資料的中位數 假設有 個組, 按各組的性質加以排序之後, 計算中位數, 視該中位數落在那一組 見 蔡佳泓

偏態值 測量資料是否分佈對稱 正偏 : 右邊的尾巴較左邊長, 眾數偏左左 負偏 : 左邊的尾巴較右邊長, 眾數偏右 常態分佈的偏態值 = 樣本偏態值 = ( 1)( 2) ( ) 3 有偏態時須注意平均值是否會誤導 3 蔡佳泓

蔡佳泓

峰度 測量資料的分佈是高聳或是平坦 越平坦則兩邊尾部越長, 越高聳則是靠近平均值的部份越集中 偏態是第三個矩, 峰度是第四個矩計算峰度的公式 : 2 = 1 1 ( ) 2 4 = 1 ( ) 4 4 2 2 3 ( 1) 不同統計軟體計算峰度的公式略有不同, 如果用 R, 可以用 e1071 這個包裹裡面的 kurtosis, 用 type 指令選擇 可得到跟 一樣的答案 樣本數目越大, 理論上各種計算方式的結果越接近 蔡佳泓

蔡佳泓

蔡佳泓

離散 全距 : 最大值及最小值的差距 若是常態分佈, 全距約等於六個標準差 不同樣本的平均數相同, 全距可能不同 平均值不同, 全距可能相同 全距不受到特殊觀察值的影響 蔡佳泓

變異數 樣本變異數 : 母體變異數的無偏估計 2 = 1 1 ( ) 2 代表觀察值與平均數之間的差距 樣本標準差為變異數的平方根 如果樣本來自二元分佈, 即, 則樣本標準差為 : (1 ) 1 蔡佳泓

標準差 大於或等於 因為是樣本標準差, 故用 當分母 如果樣本成常態分配, 利用微積分可求出平均數的 ± 個標準差包含約 的樣本 ± 個標準差包含約 的樣本 ± 個標準差包含約 的樣本 例如我們有一筆 位員工薪資的資料, 畫成長條圖近似常態分配 經過調整成平均值, 標準差 之後, 一個標準差大約佔 的面積, 兩個標準差佔 的面積 標準化常態分佈 :ϕ() = (0, 1) = 1 2π ( 2 2 ) 蔡佳泓

長條圖 蔡佳泓

常態分佈圖 蔡佳泓

標準化常態分佈 蔡佳泓

標準化常態分佈 蔡佳泓

實例 年的中國 春運, 據估計有 億的旅客運量 假設把所有轉車都算成一次, 各大車站估計旅客人數 ( 單位 : 萬 ) 為 50, 52, 55, 28, 30, 35, 40, 49, 32, 19, 15, 61, 43, 47, 44, 70, 83, 66, 88, 85, 36, 3 等 計算平均值以及標準差 由此可知 的車站的估計旅客人數落在 萬及 萬之間, 也就是在 萬與 萬之間 蔡佳泓

蔡佳泓

標準差的另一種求法 由於平均數的 ± 三個標準差包含 的樣本, 如果知道樣本的平均數跟最大值及最小值, 而且樣本成常態分佈, 便可以估計標準差, 也就是 6 例如, 據說愛因斯坦 莫扎特智商, 一般人智商分佈在 以 145 55 及 之間, 平均智商為, 標準差為 6 = 15, 所以智商 到 的人約有 蔡佳泓

標準差的特性 改變樣本的單位, 標準差也會改變 例 : σ = σ = 加減樣本的值會改變平均值, 但是不會改變標準差 如果 =1 ( ) 變成 (( + ) + ), 那麼 ( + ) = + = ( ) 蔡佳泓

變異數的特性 () = () = () = 2 ( []) 2 () 2 ( []) 2 () ( []) 2 () () = 2 () ( + ) = () + () ( 2 ) = ( 2 ) (( )) 2 蔡佳泓

實例 () = 4. = 1 2 ( 1) () = ( 1 ( 1)) 2 = ( 1 2 1 2 ) = ( 1 2 )2 () = 1 4 4 = 1 蔡佳泓

四分位差 分位距與 分位之間的差距, 表示中位數附近的數的範圍 不受到極端值的影響 如果數值大於 百分位 個, 或小於 百分位 個, 稱為界外值 如果數值大於 百分位 個, 或小於 百分位 個, 稱為極端界外值 例如有四個保險的資料, 畫成盒形圖 以意外險為例, : 蔡佳泓

蔡佳泓

總結 瞭解不同的變數所使用的描述統計或圖形瞭解各種描述統計的意義瞭解中央趨勢如眾數 中位數 平均數求法瞭解四分位數 標準差的求法 蔡佳泓