台灣資料科學愛好者年會 2015 心得筆記

今年 2015/8/22-23 去參加了台灣資料科學愛好者年會，這是當時的筆記整理。另外還有會眾版的 hackpad 筆記

Keynote- 車品覺香港人、阿里巴巴數據副總裁

自稱不是資料科學家，而是喜歡用數據的產品經理
不是所有問題都可以用數據解決
一切從定義問題開始，以知到未知的過程
小心 unexpected 的資料，要去收集負面數據，例如除了紀錄吃了哪裡，也紀錄沒吃完哪些
招募已經拆成兩種: data scientist、decision scientist
假設數據都能獲取去思考問題，包括衍生及迴路: 例如 uber，在以前沒辦法思考計程車載客數據
用探針設備可以收集會場的流量，就不需要用問卷了: 一種 IoT
他問老闆: 作為 data leader，我要作什麼讓你爽? 總裁說: 我想知道我上個禮拜做了什麼 right? 什麼 wrong?
更大的問題是數據失缺的問題: 真正要自動化，需要更穩定的多重 model，而不只是實驗報告
要把 data availability 問題當作工程 SLA 問題，這才是工程化全面服務，而不是科學家的 toy
讓數據從 support 到產生行動 -> feedback > 改變下次決策
讓數據去助力描述、診斷、預測、行動建議
要對數據當作資產，才能夠作大數據行業
手機是數據分析的最大的數據收集感知器跟媒體
data product 會去未來的常態，例如 smart 水杯紀錄喝了多少水，然後傳到手機上
快+準的數據: 從已知規律中產生價值
廣+亂的數據: 從發現中顛覆已知
數據的閉環 (lifecycle?): 布點/收集 -> 存儲/刷新 -> 辨識/關聯 (整合) -> 挖掘/決策 -> 行動/反潰 (規律)
辨識的小故事: 例如帳號給老婆用，資料寫男生，但是購物行為是女生
data science 要思考全局: 前面的人(engineer)是苦逼的，總有一天會出頭。沒有前方，就沒有後方 (這裡幫忙平反)
大數據技術就是加速與累積(數據、分析、服務)的能力
大數據的能力比喻:
- 思想: model、預測、科學、分析師
- 血液: ETL
- 骨骼: 雲, 基本設施
科學化 -> 數據化(?) -> 產品化 -> 市場化
大數據是來自很多小數據的組合

講者用高階框架去想數據要如何幫助決策，演講風格比較沒有段落

IBM Chief Scientist

GPU vs. CPU: GPU 的 core 有幾千個是趨勢，但是 general purpose GPU 基礎還沒有統一好
graph big data 問題是下一個大挑戰
下一步的會往哪裡走… IBM chip…

一堆 big data 的 buzzword，投影片風格是老派研究所風格，圖表超複雜

清大簡姓教授

聽五分鐘就閃了，投影片密密麻麻非常多字

交大曾姓教授

怎麼又 Introduction to Big Data 了(在這類場子已經聽N遍了)，我合理懷疑主辦單位沒有先過投影片

台大林軒田老師的 Learning for Big Data

Learning for Big Data－林軒田 from 台灣資料科學年會

Q1: 問題怎麼問? 從動機和能力考慮
Q2: 如何挑 ML 方法? 先從 KISS 開始
- 1. linear model
- 2. naive baye for frenency-based 機率問題
- 3. random forests tree for non-linear
Q3: 如何改善 ML performance? data construction is more important
feature engineering: 把你所知道的 domain knowledge 放進去 feature extraction
- 所以要先分析資料
- 先作基本的ML (linear, random forests)也可以知道一些資訊
很多研究因為用同樣的 dataset，所以也有 overfitting 問題… XD

海量視覺資料

電腦圖學 ditto.us.com/
www.image-net.org/ dataset 辨識 object
CNN methods(deep learning 從2012開始大幅改善)
不過還是有 overfitting
Place-Net 另一個 dataset
感覺要產品化，先從固定問題開始，例如辨識出 logo, 場景…etc ceres-solver.org/

有點講太難太詳細了，在談視覺辨識演算法了。不過 demo 應用的部分很有趣
視覺辨識很有潛力、但是又更困難了

Demo: 長時間影片的自動精彩剪輯：由影片 -> 自動拼接出剪輯照片
Hyperlapse
用 virtual data 去 train: 例如用賽車遊戲 train，然後再實際開車

本來以為是資料視覺化的 talk，沒想到是影像、影片視覺辨識的 Deep Learning 應用，聽完真是外星科技。

Big Education in the Era of Big Data

personalization and customization
good 的大學 focus 在論文數量
better 的大學 focus 在 citation numbers and impact factors
best 的大學 focus on EDUCATION
What's Big Education? 從 1vs1, 1vs100 到 1vs10000
Learning Analytics 學習分析
BigScholar 2015 研討會

感覺演講內容深度與 "大數據"和"Big"的出現頻率成反比
聽到現在有點虛啊……. 竟然在做趨勢介紹和介紹自己的產品

從網頁存取記錄瞭解使用者行為與網頁區塊貢獻分析-實戰篇

頁面板塊貢獻分析方法
處理與儲存 web access log
Ref 資訊
- 在 url 加上 ?ref=fromwhichpageblock 資訊 (頁面代碼區塊代碼_順序)
- 考題: 分析 ref 資料
- 改進: ?ref=主題館網頁代碼KEY區塊名稱順序_板塊位置代碼

為何不用 heap map 有現成的 3rd party 工具? 比較不準? 但馬上就有了 XD

改進: 加上 a/b testing
url ref 問題: SEO 太糟糕，改放在 data-rel 裡面，用 javascript 去補 rel 到 href 後面去 (workaroud)
web access log 比 GA 好的地方: 頁面板塊貢獻分析
parse 出紀錄 timestamp, cookieid, productid, ref, pagelogid
web servers -> kafka cluster -> DB(impala, postgreSQL 或 mysql)
整理出商品轉換計算 A->B (從 A 商品頁 -> B)
使用者搜尋與商品點擊 (可以強化全文檢索)
統計使用者點擊位置(例如是標題or內文or圖片)
ref 好處: 減少不必要在 application 裡面去插 code

這是一場 pro tips 的 talk

RWD 是王道，但是 javascript 要搭配 media-query 紀錄當時的版型是哪一種，加到 ref 上。
搜尋找不到什麼的資訊有時候比搜尋找到，更重要。要怎麼找出這個資訊呢?

使用 Elasticsearch 及 Kibana 進行巨量資料搜尋及視覺化

gogolook 的 Data Engineer
why? 如何對付老闆一直 request 資料問題? 今天 DAU 多少? 分國家? 分APP版本? 看一年? 畫圖? 給 raw data? 使用者晚睡嗎? 使用者性啥?…etc

跟上次看到的 500px 案例一樣，建構一個資料分析查詢的內部系統。而 Data Engineer 負責做 ETL -> 查詢平台和圖表

使用 Kibana

Kibana 感覺是泛用型的介面，還是有 20% 的問題解不了

有用 Fluentd
kibana 缺點: No SQL JOIN 3. no subquery
所以剩下 20% 的問題在考慮用 google bigquery 或 aws redshirt 加上 tableau or periscope

我覺得正解還是乖乖作 data warehouse + 視覺化

Visualization over Web

Visualization over Web: Tools and Tips－吳泰輝 from 台灣資料科學年會

D3.js
why web
responsive design

單講工具果然比較無聊，後來就睡著了…

交通網路解析

超強，包含實務、模型，包員如何解決資料來源問題，例如公車只有上車資料，沒有下車
90% 的刷卡交易 = 90% 的抽樣比例

做大數據，手上握有資料才是關鍵啊啊

軟工人的資料科學奇航－線上遊戲、網路學習與中華職棒

軟工人的資料科學奇航－線上遊戲、網路學習與中華職棒 by 許懷中 from 台灣資料科學年會

交大 14 年: OOAD, 軟體工程
在陳昇緯老師的實驗室
軟體工程跟資料科學….. 嗯沒什麼關係
精通資料分析的經驗: 遊戲橘子, 均一教育平台,CPBL
Q: 一款遊戲可以活多久? (一般只有4~9個月)
- 由數據算出沈迷度 + 偵測臉部表情 => 預測下一款遊戲沈迷度
- 後來遊戲橘子轉作手遊，沒派上用場
- 表情: 厭惡表情會比較強訊號
Q: 均一教育平台 for K-15 翻轉教育
- 免費幫他們分析 XD
- 背景: 學生程度差很多, 黏著度低
- 問題: 需要一個快速正確有趣又不影響學習意願的評量方法
- 解法: 適性測驗。程度差很多，需要很快判斷程度給予適當的練習題，而不會嚇到他
- 由練習題紀錄(答對答錯次數)建立使用者練習題模型 -> 練習題推薦。結果只提升 5% …orz
- 需要更多資料來分析:
  - 改用知識地圖座標、順序 + 群眾外包去比較練習題的相似度, 難度，增加更多資料…etc
  - Bounty Workers
- 用 Random Forest 取得 features 的重要性
  - 造出一個 tree 是所有測驗題的相似度和難度順序關係
  - 最重要的 feature 還是知識地圖……. XDXD
- 目標:
  - 用少量的題目，就可以知道學生程度
  - 提供老師視覺化評量圖表
  - 適當評估就可以推薦練習題

如果測驗題沒有這麼多的話，是不是 ML 其實派不上用場???? 靠人工分就好了

Q: 中華職棒
- 戰績球迷現象! 找出影響票房的要素
- 資料分析流程
  - 處理資料會花掉70~80%時間
  - 要先有問題，才有資料科學
  - 關鍵: 要有「想像力」，要有很多問題。不斷問問題，分析資料，然後詮釋結果
資料科學 != big data。均一也才G
資料天生有缺陷
QA: 跟天氣、風向也有關係

這場蠻精彩有趣的，雖然開場的軟工真的沒什麼關係
軟體工程跟資料科學的關係是…… 沒什麼關係

其他

Party 現場音樂有點浪費
贈品杯子不錯
餐點都不錯
整體評價還不錯，明年還是可以來
不過沒有去年感動就是了，今年的的 talk 第一天太多教授了
希望多一點業界經驗分享，例如去年的 gogolook 就超級贊
跟去年一樣，投影片馬上就放出來! 贊

Keynote- 車品覺 香港人、阿里巴巴 數據副總裁