1. 10月6日
    1. 敘述統計與機率分布
      1. 吳漢銘
      2. WHY?
      3. 書單:
      4. 書單
        1. 統計與真理: 怎樣運用偶然性
        2. 科學事實與統計思維
        3. 我所理解的統計思維
        4. 看漫畫學統計
        5. 世界第一簡單統計學
      5. 為什麼用R
        1. FREE
        2. 數理與統計
        3. 寫程式是資料分析的必要技能
        4. 語言只是工具
      6. 什麼是統計
        1. 收集
        2. 分析
        3. interpretation
        4. presentation
      7. 傳統統計
        1. 敘述統計
        2. 推論統計
      8. 資料科學
        1. DATA SCIENCE
      9. 資料類型
        1. 名目變數
          1. 類別資料
          2. 屬質
        2. 順序資料
      10. 資料描述
        1. 中心趨勢
          1. 平均數
          2. 眾數
          3. 中位數
        2. 分散程度(離散程度)
          1. 四分位數
          2. 四分位距(IQR)
          3. 全距
          4. 百位數
          5. 標準差
          6. 離群值
          7. 變異數
        3. 偏態係數
        4. 峰態係數
      11. DATA MATRIX
        1. 相關係數->看兩個數字相關的係數的線性關係
        2. 多變量
        3. 相關係數
          1. 線性相關
          2. 排名相關係數
          3. KENDALL'S
      12. 常見統計名詞
        1. 隨機實驗
        2. 結果
        3. 樣本空間
        4. EVENT
          1. 所有樣本空間裡可能的結果
        5. TRIAL
          1. 試驗
        6. 機率
          1. 事件的機率
          2. 有興趣發生的事件是幾次
        7. 隨機變數
          1. 用一個數學函數來映射到實數線上, 表示一個現象
          2. X=1
        8. 機率分布
          1. 把空間裡的機率分布描述出來
          2. 機率=大P
        9. 機率質量函數
          1. PMF
          2. 隨機變數(離散)
          3. X1
          4. X2
          5. S=X1+X2(兩顆骰子點數和的機率)
        10. 機率密度涵數(PDF)
          1. 橫軸->
          2. 一個常態分布用兩個參數描述( 橫軸 (一個觀察到的數字)& 曲線(一種分佈的曲線)
        11. 機率分布佈在統計學中的重要性
          1. CORRELATION(相關性)
          2. 假設與資料的推論是否符合
          3. 如果能決定所觀察現象的"機率分布"的參數,就能了解所觀察現象的本質
          4. 用數字與函數作處理
        12. 常用的機率分布應用
          1. 各種數值分布的類型
        13. 重要數值
          1. PMF
          2. PDF
          3. 分位數(小q)
          4. 95%的信賴區間
          5. 似常態機率逼近二項式機率
          6. 大數法則
          7. 樣本數增加時"樣本平均數"越接近於母的平均數
          8. 中央極限定理
          9. CLT
          10. 講樣本平均數 的 抽樣分配 的分布
          11. 資料作標準化的動作
          12. 應用CLT算機率
          13. 1.算母體的平均數與變異數
          14. 2. 計算平均通過的人數 的平均數與變異數
          15. 3. 計算通過人數>126的機率
          16. 練習
          17. 1. 先建立機率模型
          18. 生男0.51
          19. 生女0.49
          20. 2. 分配隨機數字(模擬)
          21. 用兩個數字模擬一個孩子的性別
          22. 3. 模擬生孩子的策略
          23. 觀察一件有興趣的事, 想了解發生的機率, 先寫出事件的分布模型
          24. 概似函數
          25. L 可能性函數
          26. MLE 最大概似估計法
          27. 算一個函數求極值
          28. 點估計
          29. 區間估計
          30. 計算母體的平均
          31. 每抽樣一次算一個區間
          32. 範例: 老年人看電視的時間
          33. 信賴水準95%
          34. 樣本平均數21.2小時
          35. 標準差=8小時
          36. 抽樣母數 n=100
          37. 貝氐定理
          38. 已在事件B
          39. 後驗機率=(可能性X先驗機率)/標準化常量
          40. 例子-紅球與白球
          41. A=抽2顆球的事件
          42. 求取一個希望知道的事件發生的機率
          43. 參數並非固定
          44. 範例應用流程
          45. 假設檢定
          46. EXAMPLE
          47. (P value)
          48. 有分布, 有標準, 就可以作假設檢定
          49. $2.5與$2.2 的0.3元差距是否有差?
          50. 虛無假設
          51. 擇一假設
          52. 顯著顏準(能容忍的最大差距)
          53. 型一誤差與型二誤差
          54. 固定型1或型2的誤差
          55. 平均數的檢定 IN R(表)
          56. T檢定(兩組兩組的比較)
          57. 資料需來自於常態分布
          58. 資料的特徵需要符合
          59. 單因子變異數分析(ANOVA)-多組比較
          60. ANOVA TABLE
          61. 觀察值
          62. 無母數統計
          63. 不需要常態分布的資料
          64. 檢定力較弱
          65. 做推論
          66. 做MODEL
          67. 用排序順序為主
          68. 用中位數
          69. 卡方檢定
          70. 適合度檢定
          71. 齊一性檢定
          72. 獨立性檢定
    2. 資料處理方法
      1. SIMPLE MOVING AVERAGE簡單移動平均
      2. 遺失資料補值
        1. Pairwise Deletion
        2. K-NEAREST Neighbour Imputation
          1. 用屬性相近的人作補值
        3. WHich Imputation Method?
          1. KNN是比較常適合被使用的
          2. 在完整的資料裡,模擬會遺失的資料的方式故意挖些資料去掉當遺失
      3. 資料轉換
        1. 為什麼要作資料轉換
          1. 對視覺化而言,希望資料的特徵能比較明顯
          2. 讓資料比較容易被解釋
          3. 不同的變數與類型的權重標準化才好去作比較
          4. 讓不同變數之間的關係能變的比較"線性'
          5. 比較好調整成權重的類別轉換
          6. 方便去編碼
        2. 常見的資料轉換方式
          1. 2元化
          2. 取LOG
          3. 開根號X10
          4. Truncation
        3. 範例: 程式錯誤的除錯時間
          1. 對數轉換
          2. Box-cox Transformations
          3. 跟據資料的特性讓資料能轉換成符合常態分布
          4. 雙波曲線不適用
          5. 標準化 Standardization
          6. 每個數值-同一個值<平移>/除以同個數字
        4. 範例: CRAB DATA
          1. 資料的特徵要能顯現出來
          2. 五個值只有屁股大小的值看起來比較能有機會分辨
          3. 由背景知識來協助導入作轉換
        5. 要使用那一種資料轉換方式
          1. EX: 分群方式
          2. 有助於分類的信心
          3. 1. 轉換方式要看目的, 為了要能容易被辨視與看出差異
        6. 不平衡資料問題
          1. 2群資料一群極大另一群很小(EX:詐騙)
          2. 把少的變多(分布狀況仍需要保持相似)
          3. 把多的變少(分布狀況仍需要保持相似)
          4. ubSMOTE(有名的大量被引用的方法)
          5. 用最短路徑補2個點之間增加值
          6. Racing for strategy seletction
          7. XGboost
    3. 探索性資料分析
      1. John Tuken
        1. 對正確的問題有個近似的答案
        2. 勝過對錯的問題有精確的答案
        3. 傳立葉轉換
        4. Bit & Software
        5. 探索性的資料分析
        6. 統計應該是科學,而不是數學
        7. 數學思維 VS 統計思維
        8. 精枼圖/Stem and leaf
      2. What Is EDA
        1. 要能為資料講故事的流程
        2. 1
        3. 看到數字的結構
        4. 找到重要的變數
        5. 2
        6. 3
      3. What Do they Say About EDA?
        1. 問一個好問題比解決問題更重要
      4. Data Analysis Procedure
        1. 沒有標準Step
        2. 範例 魚的生態
          1. River Doubs Map
          2. 背景知識. 問題
          3. 資料收集方式, 變數資訊
          4. 參與人角色
          5. 分析者
          6. 廠商
          7. 顧主
          8. 客戶
          9. 居民
          10. 不同立場的人的考量?
          11. 資料處理, 探索(分析)方法
          12. 呈現: 資料/過程/結果(怎麼讓人知道?)
          13. 檔案
          14. 前置處理
          15. READ DATA
          16. 每一檔案的大小, 資料維度, 關聯
          17. 列出每一變數的
          18. 小結&想看看
          19. 還有那些有趣的問題可以提出?
        3. 範例2 川普推特誰寫的?
          1. 情感分析
          2. 平台分析
          3. 時間分析
          4. 發文標點符號分析
          5. 推文按讚的正負面分析
          6. 連結與照片使用分析
        4. 要培養的是對資料的觀察能力
          1. Making Sense of DATA 1,2,3
          2. Graphical Exploratory Data Analysis
          3. The Seven Pillars of statistical wisdom
      5. 資料視覺化
        1. 看資料的視覺概念
        2. 有數據資訊的視覺圖
        3. why Data Visualization
          1. 觀察資料的方式
          2. 用不同的方式呈現
          3. 用不同的圖像呈現
        4. Index Plot 冤尾花範例
          1. 索引圖
          2. 尺度變成一樣
        5. 直方圖
        6. 散布圖(看兩兩變數之間的關係)
        7. heat map
        8. Complex Heatmap
        9. 類別型料的視覺化
        10. Big Data
          1. 四種介紹的方式
          2. 1
          3. 2
          4. 3
          5. 4
          6. tableplot
        11. 未來方向
    4. 資料科學專案實務
      1. 謝宗震博士
      2. DSP智庫驅動
      3. 企業該如何導入資料科學
        1. 常見之挑戰
          1. 同仁工作繁重
          2. 缺乏資料分析相關技能
          3. 資料散落在各種資訊系統
          4. 需要使用其它部門的資料
          5. 同仁的資料素養不足
          6. 資料無法分享(資料太髒, 制度不允許)
          7. 資料科技不足
          8. 樂於實驗的人太少
          9. 文化缺乏冒險精神
          10. 主管是否願意支持不保證成功
          11. 不習慣與外界打交道
          12. 資料長(主責的人)
        2. 想像力(從一張發票開始)
          1. 想像一個資料科學的商業應用
          2. 資料想像力
          3. 資料建設
          4. 資料盤點
          5. 資料探索
        3. 先了解資料
          1. 結構化程度(垂直)
          2. 資料的來源(X軸)
        4. 最難在跨領域合
        5. 資料分析的成熟度
        6. 案例_AIOT 智慧製造