ronnywang
各位 admin 大家好,我有件事想跟大家討論,簡單說就是我能不能把 g0v slack 的公開頻道的對話記錄匯出檔(含使用者名稱、不含非公開頻道、不含使用者email,檔案大小約 64MB,使用 slack 內建的匯出機制),在 #general 提供公開連結供大家下載研究使用。
主要目的是因為今年是十週年,想藉此機會讓社群大家可以從中做一些參與者的研究,做出各種 2014-08-16 起 slack 公開頻道的各種統計研究(例如哪些參與者發言貢獻度最多,哪些頻道的討論高峰等…)
我自己有確認裡面是不包含使用者個資(除了少數有在自己公開 profile 放入 skype 帳號或電話的人),不過仍想問問看其他 admin 有沒有什麼樣的疑慮或是想要確認的資訊,我也可以先把下載連結提供給有疑慮的 admin 來確認一下,希望各位 admin 可以幫我想想看
主要目的是因為今年是十週年,想藉此機會讓社群大家可以從中做一些參與者的研究,做出各種 2014-08-16 起 slack 公開頻道的各種統計研究(例如哪些參與者發言貢獻度最多,哪些頻道的討論高峰等…)
我自己有確認裡面是不包含使用者個資(除了少數有在自己公開 profile 放入 skype 帳號或電話的人),不過仍想問問看其他 admin 有沒有什麼樣的疑慮或是想要確認的資訊,我也可以先把下載連結提供給有疑慮的 admin 來確認一下,希望各位 admin 可以幫我想想看
ronnywang
*@clkao*, *@gugod*, *@yhsiang*, *@au*, *@ipa*, *@caasi*, *@hlb tag 現有的 admin 看看大家有沒有什麼建議或意見*
ronnywang
https://g0v-tw.slack.com/services/export?started=1&export_start_ts=1408125602&export_end_ts=1651557690
admin 應該可以直接到這個連結下載最近的匯出檔,有個我剛剛產生的,資料範圍是 August 16, 2014 – May 3, 2022,這個下載會保留十天
admin 應該可以直接到這個連結下載最近的匯出檔,有個我剛剛產生的,資料範圍是 August 16, 2014 – May 3, 2022,這個下載會保留十天
gugod
我晚點再幫忙細看一下對話內容是否摻有個人資料。不過基本上我算贊成的。理由是:以往open source 專案代管站是有提供 mailing list archive ,對成員可作為備份給日後搜尋。確實也有一些關於軟體品質的論文是參照到郵件活動的,對研究人員應該也是個高品質的資料源。
chihao
雖然不是 admin 但有在做文本分析 → 支持 😆
chihao
ronny ++ \o/
chihao
不知道為什麼想到「祝壽論文」四個字
hlb
我快速搜尋 `@gmail` 找到一些資料,以及電話號碼也有一些,例如 `我的手機是 09xx` 這類的,可能要想辦法濾掉
```$ ag @gmail | wc -l
626
$ ag ' 09[0-9]{8}' * | wc -l
23```
```$ ag @gmail | wc -l
626
$ ag ' 09[0-9]{8}' * | wc -l
23```
hlb
贊成+1,也許使用者名稱換成 UUID 更好。才不會以後在某個語料產生器出現誰的名字 LOL
ronnywang
或者使用者名稱保留,但是 users.json 裡面 profile 的 phone, skype, fields 砍掉?目前看起來有露出 gmail 和電話的應該就這幾個地方?
ronnywang
如果在對話中有出現 gmail, phone 的,可以假設他們本來目的就是要公開這些資訊嗎?
gugod
匯出檔裡面每個訊息都有 user_profile .... 但我認為我們該處理一下,把 user_profile 中幾個姓名的欄位都拿掉,只留 nickname 那一欄。(eg, "gugod", "hlb", "ronnywang" ...)
hlb
@ronnywang 我是覺得作為研究語料,不需要有 email,即使原本意圖是「在 g0v slack 公開」。如果因為在 g0v slack 公開過 email 或手機號碼,就一直收到各種詐騙,應該蠻困擾的。
使用者名稱我沒有其他意見,是否包含在語料內皆可。
使用者名稱我沒有其他意見,是否包含在語料內皆可。
hlb
任何人在公開發言的地方給出個資,因此會被仁看到記下來 vs g0v 主動整理一包記錄
這兩者我覺得不一樣
這兩者我覺得不一樣
ronnywang
所以建議的作法是在放出資料前,掃描所有的對話記錄,裡面只有 regex 有符合 email ([a-zA-Z0-9.+]+@[a-zA-Z0-9.-]+ 之類的) 的或是手機號碼(09\d\d\d\d\d\d\d\d or 09\d\d-\d\d\d-\d\d\d) 就把他替換掉?
ronnywang
假如要再做處理,統整前面一些提的需求,可能要做的有:
1. users.json 裡面的 profile 只保留 title, real_name, display_name, status_text, status_emoji 等)
2. 各種對話記錄裡面的 user_profile 只保留 display_name
3. 對話記錄中的 email, 手機號碼想辦法去識別化
大概以上?
1. users.json 裡面的 profile 只保留 title, real_name, display_name, status_text, status_emoji 等)
2. 各種對話記錄裡面的 user_profile 只保留 display_name
3. 對話記錄中的 email, 手機號碼想辦法去識別化
大概以上?
hlb
@ronnywang++ 同意
我想到後續可能會有的問題:
有人想要刪掉他的資料 -> 如果有漏掉的個資要處理,非個資的不受理
可能在哪裡有說明語料會被拿來運用更好
我想到後續可能會有的問題:
有人想要刪掉他的資料 -> 如果有漏掉的個資要處理,非個資的不受理
可能在哪裡有說明語料會被拿來運用更好
yhsiang
就即使幫他處理,但是已經被拿去用的可能要自己去聯絡?
唯一想到麻煩的狀況
唯一想到麻煩的狀況