-
10月6日
-
敘述統計與機率分布
- 吳漢銘
- WHY?
- 書單:
-
書單
- 統計與真理: 怎樣運用偶然性
- 科學事實與統計思維
- 我所理解的統計思維
- 看漫畫學統計
- 世界第一簡單統計學
-
為什麼用R
- FREE
- 數理與統計
- 寫程式是資料分析的必要技能
- 語言只是工具
-
什麼是統計
- 收集
- 分析
- interpretation
- presentation
-
傳統統計
- 敘述統計
- 推論統計
-
資料科學
- DATA SCIENCE
-
資料類型
-
名目變數
- 類別資料
- 屬質
- 順序資料
-
資料描述
-
中心趨勢
- 平均數
- 眾數
- 中位數
-
分散程度(離散程度)
- 四分位數
- 四分位距(IQR)
- 全距
- 百位數
- 標準差
- 離群值
- 變異數
- 偏態係數
- 峰態係數
-
DATA MATRIX
- 相關係數->看兩個數字相關的係數的線性關係
- 多變量
-
相關係數
- 線性相關
- 排名相關係數
- KENDALL'S
-
常見統計名詞
- 隨機實驗
- 結果
- 樣本空間
-
EVENT
- 所有樣本空間裡可能的結果
-
TRIAL
- 試驗
-
機率
- 事件的機率
- 有興趣發生的事件是幾次
-
隨機變數
- 用一個數學函數來映射到實數線上, 表示一個現象
- X=1
-
機率分布
- 把空間裡的機率分布描述出來
- 機率=大P
-
機率質量函數
- PMF
- 隨機變數(離散)
- X1
- X2
- S=X1+X2(兩顆骰子點數和的機率)
-
機率密度涵數(PDF)
- 橫軸->
- 一個常態分布用兩個參數描述( 橫軸 (一個觀察到的數字)& 曲線(一種分佈的曲線)
-
機率分布佈在統計學中的重要性
- CORRELATION(相關性)
- 假設與資料的推論是否符合
- 如果能決定所觀察現象的"機率分布"的參數,就能了解所觀察現象的本質
- 用數字與函數作處理
-
常用的機率分布應用
- 各種數值分布的類型
-
重要數值
- PMF
- PDF
- 分位數(小q)
- 95%的信賴區間
- 似常態機率逼近二項式機率
- 大數法則
- 樣本數增加時"樣本平均數"越接近於母的平均數
- 中央極限定理
- CLT
- 講樣本平均數 的 抽樣分配 的分布
- 資料作標準化的動作
- 應用CLT算機率
- 1.算母體的平均數與變異數
- 2. 計算平均通過的人數 的平均數與變異數
- 3. 計算通過人數>126的機率
- 練習
- 1. 先建立機率模型
- 生男0.51
- 生女0.49
- 2. 分配隨機數字(模擬)
- 用兩個數字模擬一個孩子的性別
- 3. 模擬生孩子的策略
- 觀察一件有興趣的事, 想了解發生的機率, 先寫出事件的分布模型
- 概似函數
- L 可能性函數
- MLE 最大概似估計法
- 算一個函數求極值
- 點估計
- 區間估計
- 計算母體的平均
- 每抽樣一次算一個區間
- 範例: 老年人看電視的時間
- 信賴水準95%
- 樣本平均數21.2小時
- 標準差=8小時
- 抽樣母數 n=100
- 貝氐定理
- 已在事件B
- 後驗機率=(可能性X先驗機率)/標準化常量
- 例子-紅球與白球
- A=抽2顆球的事件
- 求取一個希望知道的事件發生的機率
- 參數並非固定
- 範例應用流程
- 假設檢定
- EXAMPLE
- (P value)
- 有分布, 有標準, 就可以作假設檢定
- $2.5與$2.2 的0.3元差距是否有差?
- 虛無假設
- 擇一假設
- 顯著顏準(能容忍的最大差距)
- 型一誤差與型二誤差
- 固定型1或型2的誤差
- 平均數的檢定 IN R(表)
- T檢定(兩組兩組的比較)
- 資料需來自於常態分布
- 資料的特徵需要符合
- 單因子變異數分析(ANOVA)-多組比較
- ANOVA TABLE
- 觀察值
- 無母數統計
- 不需要常態分布的資料
- 檢定力較弱
- 做推論
- 做MODEL
- 用排序順序為主
- 用中位數
- 卡方檢定
- 適合度檢定
- 齊一性檢定
- 獨立性檢定
-
資料處理方法
- SIMPLE MOVING AVERAGE簡單移動平均
-
遺失資料補值
- Pairwise Deletion
-
K-NEAREST Neighbour Imputation
- 用屬性相近的人作補值
-
WHich Imputation Method?
- KNN是比較常適合被使用的
- 在完整的資料裡,模擬會遺失的資料的方式故意挖些資料去掉當遺失
-
資料轉換
-
為什麼要作資料轉換
- 對視覺化而言,希望資料的特徵能比較明顯
- 讓資料比較容易被解釋
- 不同的變數與類型的權重標準化才好去作比較
- 讓不同變數之間的關係能變的比較"線性'
- 比較好調整成權重的類別轉換
- 方便去編碼
-
常見的資料轉換方式
- 2元化
- 取LOG
- 開根號X10
- Truncation
-
範例: 程式錯誤的除錯時間
- 對數轉換
- Box-cox Transformations
- 跟據資料的特性讓資料能轉換成符合常態分布
- 雙波曲線不適用
- 標準化 Standardization
- 每個數值-同一個值<平移>/除以同個數字
-
範例: CRAB DATA
- 資料的特徵要能顯現出來
- 五個值只有屁股大小的值看起來比較能有機會分辨
- 由背景知識來協助導入作轉換
-
要使用那一種資料轉換方式
- EX: 分群方式
- 有助於分類的信心
- 1. 轉換方式要看目的, 為了要能容易被辨視與看出差異
-
不平衡資料問題
- 2群資料一群極大另一群很小(EX:詐騙)
- 把少的變多(分布狀況仍需要保持相似)
- 把多的變少(分布狀況仍需要保持相似)
- ubSMOTE(有名的大量被引用的方法)
- 用最短路徑補2個點之間增加值
- Racing for strategy seletction
- XGboost
-
探索性資料分析
-
John Tuken
- 對正確的問題有個近似的答案
- 勝過對錯的問題有精確的答案
- 傳立葉轉換
- Bit & Software
- 探索性的資料分析
- 統計應該是科學,而不是數學
- 數學思維 VS 統計思維
- 精枼圖/Stem and leaf
-
What Is EDA
- 要能為資料講故事的流程
- 1
- 看到數字的結構
- 找到重要的變數
- 2
- 3
-
What Do they Say About EDA?
- 問一個好問題比解決問題更重要
-
Data Analysis Procedure
- 沒有標準Step
-
範例 魚的生態
- River Doubs Map
- 背景知識. 問題
- 資料收集方式, 變數資訊
- 參與人角色
- 分析者
- 廠商
- 顧主
- 客戶
- 居民
- 不同立場的人的考量?
- 資料處理, 探索(分析)方法
- 呈現: 資料/過程/結果(怎麼讓人知道?)
- 檔案
- 前置處理
- READ DATA
- 每一檔案的大小, 資料維度, 關聯
- 列出每一變數的
- 小結&想看看
- 還有那些有趣的問題可以提出?
-
範例2 川普推特誰寫的?
- 情感分析
- 平台分析
- 時間分析
- 發文標點符號分析
- 推文按讚的正負面分析
- 連結與照片使用分析
-
要培養的是對資料的觀察能力
- Making Sense of DATA 1,2,3
- Graphical Exploratory Data Analysis
- The Seven Pillars of statistical wisdom
-
資料視覺化
- 看資料的視覺概念
- 有數據資訊的視覺圖
-
why Data Visualization
- 觀察資料的方式
- 用不同的方式呈現
- 用不同的圖像呈現
-
Index Plot 冤尾花範例
- 索引圖
- 尺度變成一樣
- 直方圖
- 散布圖(看兩兩變數之間的關係)
- heat map
- Complex Heatmap
- 類別型料的視覺化
-
Big Data
- 四種介紹的方式
- 1
- 2
- 3
- 4
- tableplot
- 未來方向
-
資料科學專案實務
- 謝宗震博士
- DSP智庫驅動
-
企業該如何導入資料科學
-
常見之挑戰
- 同仁工作繁重
- 缺乏資料分析相關技能
- 資料散落在各種資訊系統
- 需要使用其它部門的資料
- 同仁的資料素養不足
- 資料無法分享(資料太髒, 制度不允許)
- 資料科技不足
- 樂於實驗的人太少
- 文化缺乏冒險精神
- 主管是否願意支持不保證成功
- 不習慣與外界打交道
- 資料長(主責的人)
-
想像力(從一張發票開始)
- 想像一個資料科學的商業應用
- 資料想像力
- 資料建設
- 資料盤點
- 資料探索
-
先了解資料
- 結構化程度(垂直)
- 資料的來源(X軸)
- 最難在跨領域合
- 資料分析的成熟度
- 案例_AIOT 智慧製造