台灣資料科學愛好者年會 2015 心得筆記

今年 2015/8/22-23 去參加了台灣資料科學愛好者年會,這是當時的筆記整理。另外還有 會眾版的 hackpad 筆記

Keynote- 車品覺 香港人、阿里巴巴 數據副總裁

  • 自稱不是資料科學家,而是喜歡用數據的產品經理
  • 不是所有問題都可以用數據解決
  • 一切從定義問題開始,以知到未知的過程
  • 小心 unexpected 的資料,要去收集負面數據,例如除了紀錄吃了哪裡,也紀錄沒吃完哪些
  • 招募已經拆成兩種: data scientist、decision scientist
  • 假設數據都能獲取去思考問題,包括衍生及迴路: 例如 uber,在以前沒辦法思考計程車載客數據
  • 用探針設備可以收集會場的流量,就不需要用問卷了: 一種 IoT
  • 他問老闆: 作為 data leader,我要作什麼讓你爽? 總裁說: 我想知道我上個禮拜做了什麼 right? 什麼 wrong?
  • 更大的問題是數據失缺的問題: 真正要自動化,需要更穩定的多重 model,而不只是實驗報告
  • 要把 data availability 問題當作工程 SLA 問題,這才是工程化全面服務,而不是科學家的 toy
  • 讓數據從 support 到產生行動 -> feedback > 改變下次決策
  • 讓數據去助力描述、診斷、預測、行動建議
  • 要對數據當作資產,才能夠作大數據行業
  • 手機是數據分析的最大的數據收集感知器跟媒體
  • data product 會去未來的常態,例如 smart 水杯紀錄喝了多少水,然後傳到手機上
  • 快+準的數據: 從已知規律中產生價值
  • 廣+亂的數據: 從發現中顛覆已知
  • 數據的閉環 (lifecycle?): 布點/收集 -> 存儲/刷新 -> 辨識/關聯 (整合) -> 挖掘/決策 -> 行動/反潰 (規律)
  • 辨識的小故事: 例如帳號給老婆用,資料寫男生,但是購物行為是女生
  • data science 要思考全局: 前面的人(engineer)是苦逼的,總有一天會出頭。沒有前方,就沒有後方 (這裡幫忙平反)
  • 大數據技術就是加速與累積(數據、分析、服務)的能力
  • 大數據的能力比喻:
    • 思想: model、預測、科學、分析師
    • 血液: ETL
    • 骨骼: 雲, 基本設施
  • 科學化 -> 數據化(?) -> 產品化 -> 市場化
  • 大數據是來自很多小數據的組合

講者用高階框架去想數據要如何幫助決策,演講風格比較沒有段落

IBM Chief Scientist

  • GPU vs. CPU: GPU 的 core 有幾千個是趨勢,但是 general purpose GPU 基礎還沒有統一好
  • graph big data 問題是下一個大挑戰
  • 下一步的會往哪裡走… IBM chip…

一堆 big data 的 buzzword,投影片風格是 老派研究所 風格,圖表超複雜

清大簡姓教授

聽五分鐘就閃了,投影片密密麻麻非常多字

交大曾姓教授

怎麼又 Introduction to Big Data 了(在這類場子已經聽N遍了),我合理懷疑主辦單位沒有先過投影片

台大林軒田老師的 Learning for Big Data

  • Q1: 問題怎麼問? 從動機和能力考慮
  • Q2: 如何挑 ML 方法? 先從 KISS 開始
    • 1. linear model
    • 2. naive baye for frenency-based 機率問題
    • 3. random forests tree for non-linear
  • Q3: 如何改善 ML performance? data construction is more important
  • feature engineering: 把你所知道的 domain knowledge 放進去 feature extraction
    • 所以要先分析資料
    • 先作基本的ML (linear, random forests)也可以知道一些資訊
  • 很多研究因為用同樣的 dataset,所以也有 overfitting 問題… XD

海量視覺資料

  • 電腦圖學 ditto.us.com/
  • www.image-net.org/ dataset 辨識 object
  • CNN methods(deep learning 從2012開始大幅改善)
  • 不過還是有 overfitting
  • Place-Net 另一個 dataset
  • 感覺要產品化,先從固定問題開始,例如辨識出 logo, 場景…etc ceres-solver.org/

有點講太難太詳細了,在談視覺辨識演算法了。不過 demo 應用的部分很有趣
視覺辨識很有潛力、但是又更困難了

  • Demo: 長時間影片的自動精彩剪輯:由影片 -> 自動拼接出剪輯照片
  • Hyperlapse
  • 用 virtual data 去 train: 例如用賽車遊戲 train,然後再實際開車

本來以為是資料視覺化的 talk,沒想到是影像、影片視覺辨識的 Deep Learning 應用,聽完真是外星科技。

Big Education in the Era of Big Data

  • personalization and customization
  • good 的大學 focus 在論文數量
  • better 的大學 focus 在 citation numbers and impact factors
  • best 的大學 focus on EDUCATION
  • What's Big Education? 從 1vs1, 1vs100 到 1vs10000
  • Learning Analytics 學習分析
  • BigScholar 2015 研討會

感覺演講內容深度與 "大數據"和"Big"的出現頻率成反比
聽到現在有點虛啊……. 竟然在做趨勢介紹和介紹自己的產品

從網頁存取記錄瞭解使用者行為與網頁區塊貢獻分析-實戰篇

  • 頁面板塊貢獻分析方法
  • 處理與儲存 web access log
  • Ref 資訊
    • 在 url 加上 ?ref=fromwhichpageblock 資訊 (頁面代碼區塊代碼_順序)
    • 考題: 分析 ref 資料
    • 改進: ?ref=主題館網頁代碼KEY區塊名稱順序_板塊位置代碼

為何不用 heap map 有現成的 3rd party 工具? 比較不準? 但馬上就有了 XD

  • 改進: 加上 a/b testing
  • url ref 問題: SEO 太糟糕,改放在 data-rel 裡面,用 javascript 去補 rel 到 href 後面去 (workaroud)
  • web access log 比 GA 好的地方: 頁面板塊貢獻分析
  • parse 出紀錄 timestamp, cookieid, productid, ref, pagelogid
  • web servers -> kafka cluster -> DB(impala, postgreSQL 或 mysql)
  • 整理出商品轉換計算 A->B (從 A 商品頁 -> B)
  • 使用者搜尋與商品點擊 (可以強化全文檢索)
  • 統計使用者點擊位置(例如是標題or內文or圖片)
  • ref 好處: 減少不必要在 application 裡面去插 code

這是一場 pro tips 的 talk

  • RWD 是王道,但是 javascript 要搭配 media-query 紀錄當時的版型是哪一種,加到 ref 上。
  • 搜尋找不到什麼的資訊有時候比搜尋找到,更重要。要怎麼找出這個資訊呢?

使用 Elasticsearch 及 Kibana 進行巨量資料搜尋及視覺化

  • gogolook 的 Data Engineer
  • why? 如何對付老闆一直 request 資料問題? 今天 DAU 多少? 分國家? 分APP版本? 看一年? 畫圖? 給 raw data? 使用者晚睡嗎? 使用者性啥?…etc

跟上次看到的 500px 案例一樣,建構一個 資料分析查詢 的內部系統。而 Data Engineer 負責做 ETL -> 查詢平台和圖表

  • 使用 Kibana

Kibana 感覺是泛用型的介面,還是有 20% 的問題解不了

  • 有用 Fluentd
  • kibana 缺點: No SQL JOIN 3. no subquery
  • 所以剩下 20% 的問題在考慮用 google bigquery 或 aws redshirt 加上 tableau or periscope

我覺得正解還是乖乖作 data warehouse + 視覺化

Visualization over Web

  • D3.js
  • why web
  • responsive design

單講工具果然比較無聊,後來就睡著了…

交通網路解析

  • 超強,包含實務、模型,包員如何解決資料來源問題,例如公車只有上車資料,沒有下車
  • 90% 的刷卡交易 = 90% 的抽樣比例

做大數據,手上握有資料才是關鍵啊啊

軟工人的資料科學奇航-線上遊戲、網路學習與中華職棒

  • 交大 14 年: OOAD, 軟體工程
  • 在陳昇緯老師的實驗室
  • 軟體工程 跟 資料科學….. 嗯沒什麼關係
  • 精通資料分析的經驗: 遊戲橘子, 均一教育平台,CPBL
  • Q: 一款遊戲可以活多久? (一般只有4~9個月)
    • 由數據算出沈迷度 + 偵測臉部表情 => 預測下一款遊戲沈迷度
    • 後來遊戲橘子轉作手遊,沒派上用場
    • 表情: 厭惡表情會比較強訊號
  • Q: 均一教育平台 for K-15 翻轉教育
    • 免費幫他們分析 XD
    • 背景: 學生程度差很多, 黏著度低
    • 問題: 需要一個快速正確有趣又不影響學習意願的評量方法
    • 解法: 適性測驗。程度差很多,需要很快判斷程度給予適當的練習題,而不會嚇到他
    • 由練習題紀錄(答對答錯次數)建立使用者練習題模型 -> 練習題推薦。結果只提升 5% …orz
    • 需要更多資料來分析:
      • 改用知識地圖座標、順序 + 群眾外包去 比較練習題的相似度, 難度,增加更多資料…etc
      • Bounty Workers
    • 用 Random Forest 取得 features 的重要性
      • 造出一個 tree 是所有測驗題的相似度和難度順序關係
      • 最重要的 feature 還是知識地圖……. XDXD
    • 目標:
      • 用少量的題目,就可以知道學生程度
      • 提供老師視覺化評量圖表
      • 適當評估就可以推薦練習題

如果測驗題沒有這麼多的話,是不是 ML 其實派不上用場???? 靠人工分就好了

  • Q: 中華職棒
    • 戰績球迷現象! 找出影響票房的要素
    • 資料分析流程
      • 處理資料會花掉70~80%時間
      • 要先有問題,才有資料科學
      • 關鍵: 要有「想像力」,要有很多問題。不斷問問題,分析資料,然後詮釋結果
  • 資料科學 != big data。均一也才G
  • 資料天生有缺陷

  • QA: 跟天氣、風向也有關係

這場蠻精彩有趣的,雖然開場的軟工真的沒什麼關係
軟體工程跟資料科學的關係是…… 沒什麼關係

其他

  • Party 現場音樂有點浪費
  • 贈品杯子不錯
  • 餐點都不錯
  • 整體評價還不錯,明年還是可以來
  • 不過沒有去年感動就是了,今年的的 talk 第一天太多教授了
  • 希望多一點業界經驗分享,例如去年的 gogolook 就超級贊
  • 跟去年一樣,投影片馬上就放出來! 贊