今年 2015/8/22-23 去參加了台灣資料科學愛好者年會,這是當時的筆記整理。另外還有 會眾版的 hackpad 筆記
Keynote- 車品覺 香港人、阿里巴巴 數據副總裁
- 自稱不是資料科學家,而是喜歡用數據的產品經理
- 不是所有問題都可以用數據解決
- 一切從定義問題開始,以知到未知的過程
- 小心 unexpected 的資料,要去收集負面數據,例如除了紀錄吃了哪裡,也紀錄沒吃完哪些
- 招募已經拆成兩種: data scientist、decision scientist
- 假設數據都能獲取去思考問題,包括衍生及迴路: 例如 uber,在以前沒辦法思考計程車載客數據
- 用探針設備可以收集會場的流量,就不需要用問卷了: 一種 IoT
- 他問老闆: 作為 data leader,我要作什麼讓你爽? 總裁說: 我想知道我上個禮拜做了什麼 right? 什麼 wrong?
- 更大的問題是數據失缺的問題: 真正要自動化,需要更穩定的多重 model,而不只是實驗報告
- 要把 data availability 問題當作工程 SLA 問題,這才是工程化全面服務,而不是科學家的 toy
- 讓數據從 support 到產生行動 -> feedback > 改變下次決策
- 讓數據去助力描述、診斷、預測、行動建議
- 要對數據當作資產,才能夠作大數據行業
- 手機是數據分析的最大的數據收集感知器跟媒體
- data product 會去未來的常態,例如 smart 水杯紀錄喝了多少水,然後傳到手機上
- 快+準的數據: 從已知規律中產生價值
- 廣+亂的數據: 從發現中顛覆已知
- 數據的閉環 (lifecycle?): 布點/收集 -> 存儲/刷新 -> 辨識/關聯 (整合) -> 挖掘/決策 -> 行動/反潰 (規律)
- 辨識的小故事: 例如帳號給老婆用,資料寫男生,但是購物行為是女生
- data science 要思考全局: 前面的人(engineer)是苦逼的,總有一天會出頭。沒有前方,就沒有後方 (這裡幫忙平反)
- 大數據技術就是加速與累積(數據、分析、服務)的能力
- 大數據的能力比喻:
- 思想: model、預測、科學、分析師
- 血液: ETL
- 骨骼: 雲, 基本設施
- 科學化 -> 數據化(?) -> 產品化 -> 市場化
- 大數據是來自很多小數據的組合
講者用高階框架去想數據要如何幫助決策,演講風格比較沒有段落
IBM Chief Scientist
- GPU vs. CPU: GPU 的 core 有幾千個是趨勢,但是 general purpose GPU 基礎還沒有統一好
- graph big data 問題是下一個大挑戰
- 下一步的會往哪裡走… IBM chip…
一堆 big data 的 buzzword,投影片風格是 老派研究所 風格,圖表超複雜
清大簡姓教授
聽五分鐘就閃了,投影片密密麻麻非常多字
交大曾姓教授
怎麼又 Introduction to Big Data 了(在這類場子已經聽N遍了),我合理懷疑主辦單位沒有先過投影片
台大林軒田老師的 Learning for Big Data
- Q1: 問題怎麼問? 從動機和能力考慮
- Q2: 如何挑 ML 方法? 先從 KISS 開始
- 1. linear model
- 2. naive baye for frenency-based 機率問題
- 3. random forests tree for non-linear
- Q3: 如何改善 ML performance? data construction is more important
- feature engineering: 把你所知道的 domain knowledge 放進去 feature extraction
- 所以要先分析資料
- 先作基本的ML (linear, random forests)也可以知道一些資訊
- 很多研究因為用同樣的 dataset,所以也有 overfitting 問題… XD
海量視覺資料
- 電腦圖學 ditto.us.com/
- www.image-net.org/ dataset 辨識 object
- CNN methods(deep learning 從2012開始大幅改善)
- 不過還是有 overfitting
- Place-Net 另一個 dataset
- 感覺要產品化,先從固定問題開始,例如辨識出 logo, 場景…etc ceres-solver.org/
有點講太難太詳細了,在談視覺辨識演算法了。不過 demo 應用的部分很有趣
視覺辨識很有潛力、但是又更困難了
- Demo: 長時間影片的自動精彩剪輯:由影片 -> 自動拼接出剪輯照片
- Hyperlapse
- 用 virtual data 去 train: 例如用賽車遊戲 train,然後再實際開車
本來以為是資料視覺化的 talk,沒想到是影像、影片視覺辨識的 Deep Learning 應用,聽完真是外星科技。
Big Education in the Era of Big Data
- personalization and customization
- good 的大學 focus 在論文數量
- better 的大學 focus 在 citation numbers and impact factors
- best 的大學 focus on EDUCATION
- What's Big Education? 從 1vs1, 1vs100 到 1vs10000
- Learning Analytics 學習分析
- BigScholar 2015 研討會
感覺演講內容深度與 "大數據"和"Big"的出現頻率成反比
聽到現在有點虛啊……. 竟然在做趨勢介紹和介紹自己的產品
從網頁存取記錄瞭解使用者行為與網頁區塊貢獻分析-實戰篇
- 頁面板塊貢獻分析方法
- 處理與儲存 web access log
- Ref 資訊
- 在 url 加上 ?ref=fromwhichpageblock 資訊 (頁面代碼區塊代碼_順序)
- 考題: 分析 ref 資料
- 改進: ?ref=主題館網頁代碼KEY區塊名稱順序_板塊位置代碼
為何不用 heap map 有現成的 3rd party 工具? 比較不準? 但馬上就有了 XD
- 改進: 加上 a/b testing
- url ref 問題: SEO 太糟糕,改放在 data-rel 裡面,用 javascript 去補 rel 到 href 後面去 (workaroud)
- web access log 比 GA 好的地方: 頁面板塊貢獻分析
- parse 出紀錄 timestamp, cookieid, productid, ref, pagelogid
- web servers -> kafka cluster -> DB(impala, postgreSQL 或 mysql)
- 整理出商品轉換計算 A->B (從 A 商品頁 -> B)
- 使用者搜尋與商品點擊 (可以強化全文檢索)
- 統計使用者點擊位置(例如是標題or內文or圖片)
- ref 好處: 減少不必要在 application 裡面去插 code
這是一場 pro tips 的 talk
- RWD 是王道,但是 javascript 要搭配 media-query 紀錄當時的版型是哪一種,加到 ref 上。
- 搜尋找不到什麼的資訊有時候比搜尋找到,更重要。要怎麼找出這個資訊呢?
使用 Elasticsearch 及 Kibana 進行巨量資料搜尋及視覺化
- gogolook 的 Data Engineer
- why? 如何對付老闆一直 request 資料問題? 今天 DAU 多少? 分國家? 分APP版本? 看一年? 畫圖? 給 raw data? 使用者晚睡嗎? 使用者性啥?…etc
跟上次看到的 500px 案例一樣,建構一個 資料分析查詢 的內部系統。而 Data Engineer 負責做 ETL -> 查詢平台和圖表
- 使用 Kibana
Kibana 感覺是泛用型的介面,還是有 20% 的問題解不了
- 有用 Fluentd
- kibana 缺點: No SQL JOIN 3. no subquery
- 所以剩下 20% 的問題在考慮用 google bigquery 或 aws redshirt 加上 tableau or periscope
我覺得正解還是乖乖作 data warehouse + 視覺化
Visualization over Web
- D3.js
- why web
- responsive design
單講工具果然比較無聊,後來就睡著了…
交通網路解析
- 超強,包含實務、模型,包員如何解決資料來源問題,例如公車只有上車資料,沒有下車
- 90% 的刷卡交易 = 90% 的抽樣比例
做大數據,手上握有資料才是關鍵啊啊
軟工人的資料科學奇航-線上遊戲、網路學習與中華職棒
- 交大 14 年: OOAD, 軟體工程
- 在陳昇緯老師的實驗室
- 軟體工程 跟 資料科學….. 嗯沒什麼關係
- 精通資料分析的經驗: 遊戲橘子, 均一教育平台,CPBL
- Q: 一款遊戲可以活多久? (一般只有4~9個月)
- 由數據算出沈迷度 + 偵測臉部表情 => 預測下一款遊戲沈迷度
- 後來遊戲橘子轉作手遊,沒派上用場
- 表情: 厭惡表情會比較強訊號
- Q: 均一教育平台 for K-15 翻轉教育
- 免費幫他們分析 XD
- 背景: 學生程度差很多, 黏著度低
- 問題: 需要一個快速正確有趣又不影響學習意願的評量方法
- 解法: 適性測驗。程度差很多,需要很快判斷程度給予適當的練習題,而不會嚇到他
- 由練習題紀錄(答對答錯次數)建立使用者練習題模型 -> 練習題推薦。結果只提升 5% …orz
- 需要更多資料來分析:
- 改用知識地圖座標、順序 + 群眾外包去 比較練習題的相似度, 難度,增加更多資料…etc
- Bounty Workers
- 用 Random Forest 取得 features 的重要性
- 造出一個 tree 是所有測驗題的相似度和難度順序關係
- 最重要的 feature 還是知識地圖……. XDXD
- 目標:
- 用少量的題目,就可以知道學生程度
- 提供老師視覺化評量圖表
- 適當評估就可以推薦練習題
如果測驗題沒有這麼多的話,是不是 ML 其實派不上用場???? 靠人工分就好了
- Q: 中華職棒
- 戰績球迷現象! 找出影響票房的要素
- 資料分析流程
- 處理資料會花掉70~80%時間
- 要先有問題,才有資料科學
- 關鍵: 要有「想像力」,要有很多問題。不斷問問題,分析資料,然後詮釋結果
- 資料科學 != big data。均一也才G
- 資料天生有缺陷
-
QA: 跟天氣、風向也有關係
這場蠻精彩有趣的,雖然開場的軟工真的沒什麼關係
軟體工程跟資料科學的關係是…… 沒什麼關係
其他
- Party 現場音樂有點浪費
- 贈品杯子不錯
- 餐點都不錯
- 整體評價還不錯,明年還是可以來
- 不過沒有去年感動就是了,今年的的 talk 第一天太多教授了
- 希望多一點業界經驗分享,例如去年的 gogolook 就超級贊
- 跟去年一樣,投影片馬上就放出來! 贊