g0v-slack

Month: 2022-05

2022-05-03

ronnywang 14:16:33
各位 admin 大家好,我有件事想跟大家討論,簡單說就是我能不能把 g0v slack 的公開頻道的對話記錄匯出檔(含使用者名稱、不含非公開頻道、不含使用者email,檔案大小約 64MB,使用 slack 內建的匯出機制),在 #general 提供公開連結供大家下載研究使用。

主要目的是因為今年是十週年,想藉此機會讓社群大家可以從中做一些參與者的研究,做出各種 2014-08-16 起 slack 公開頻道的各種統計研究(例如哪些參與者發言貢獻度最多,哪些頻道的討論高峰等…)

我自己有確認裡面是不包含使用者個資(除了少數有在自己公開 profile 放入 skype 帳號或電話的人),不過仍想問問看其他 admin 有沒有什麼樣的疑慮或是想要確認的資訊,我也可以先把下載連結提供給有疑慮的 admin 來確認一下,希望各位 admin 可以幫我想想看
*@clkao*, *@gugod*, *@yhsiang*, *@au*, *@ipa*, *@caasi*, *@hlb tag 現有的 admin 看看大家有沒有什麼建議或意見*
https://g0v-tw.slack.com/services/export?started=1&export_start_ts=1408125602&export_end_ts=1651557690

admin 應該可以直接到這個連結下載最近的匯出檔,有個我剛剛產生的,資料範圍是 August 16, 2014 – May 3, 2022,這個下載會保留十天
我晚點再幫忙細看一下對話內容是否摻有個人資料。不過基本上我算贊成的。理由是:以往open source 專案代管站是有提供 mailing list archive ,對成員可作為備份給日後搜尋。確實也有一些關於軟體品質的論文是參照到郵件活動的,對研究人員應該也是個高品質的資料源。
雖然不是 admin 但有在做文本分析 → 支持 😆
ronny ++ \o/
不知道為什麼想到「祝壽論文」四個字
我快速搜尋 `@gmail` 找到一些資料,以及電話號碼也有一些,例如 `我的手機是 09xx` 這類的,可能要想辦法濾掉

```$ ag @gmail | wc -l
626
$ ag ' 09[0-9]{8}' * | wc -l
23```
贊成+1,也許使用者名稱換成 UUID 更好。才不會以後在某個語料產生器出現誰的名字 LOL
或者使用者名稱保留,但是 users.json 裡面 profile 的 phone, skype, fields 砍掉?目前看起來有露出 gmail 和電話的應該就這幾個地方?
如果在對話中有出現 gmail, phone 的,可以假設他們本來目的就是要公開這些資訊嗎?
匯出檔裡面每個訊息都有 user_profile .... 但我認為我們該處理一下,把 user_profile 中幾個姓名的欄位都拿掉,只留 nickname 那一欄。(eg, "gugod", "hlb", "ronnywang" ...)
@ronnywang 我是覺得作為研究語料,不需要有 email,即使原本意圖是「在 g0v slack 公開」。如果因為在 g0v slack 公開過 email 或手機號碼,就一直收到各種詐騙,應該蠻困擾的。

使用者名稱我沒有其他意見,是否包含在語料內皆可。
任何人在公開發言的地方給出個資,因此會被仁看到記下來 vs g0v 主動整理一包記錄
這兩者我覺得不一樣
所以建議的作法是在放出資料前,掃描所有的對話記錄,裡面只有 regex 有符合 email ([a-zA-Z0-9.+]+@[a-zA-Z0-9.-]+ 之類的) 的或是手機號碼(09\d\d\d\d\d\d\d\d or 09\d\d-\d\d\d-\d\d\d) 就把他替換掉?
假如要再做處理,統整前面一些提的需求,可能要做的有:
1. users.json 裡面的 profile 只保留 title, real_name, display_name, status_text, status_emoji 等)
2. 各種對話記錄裡面的 user_profile 只保留 display_name
3. 對話記錄中的 email, 手機號碼想辦法去識別化
大概以上?
@ronnywang++ 同意

我想到後續可能會有的問題:
有人想要刪掉他的資料 -> 如果有漏掉的個資要處理,非個資的不受理

可能在哪裡有說明語料會被拿來運用更好
就即使幫他處理,但是已經被拿去用的可能要自己去聯絡?
唯一想到麻煩的狀況
ronnywang 14:16:33
各位 admin 大家好,我有件事想跟大家討論,簡單說就是我能不能把 g0v slack 的公開頻道的對話記錄匯出檔(含使用者名稱、不含非公開頻道、不含使用者email,檔案大小約 64MB,使用 slack 內建的匯出機制),在 #general 提供公開連結供大家下載研究使用。

主要目的是因為今年是十週年,想藉此機會讓社群大家可以從中做一些參與者的研究,做出各種 2014-08-16 起 slack 公開頻道的各種統計研究(例如哪些參與者發言貢獻度最多,哪些頻道的討論高峰等…)

我自己有確認裡面是不包含使用者個資(除了少數有在自己公開 profile 放入 skype 帳號或電話的人),不過仍想問問看其他 admin 有沒有什麼樣的疑慮或是想要確認的資訊,我也可以先把下載連結提供給有疑慮的 admin 來確認一下,希望各位 admin 可以幫我想想看
*@clkao*, *@gugod*, *@yhsiang*, *@au*, *@ipa*, *@caasi*, *@hlb tag 現有的 admin 看看大家有沒有什麼建議或意見*
https://g0v-tw.slack.com/services/export?started=1&export_start_ts=1408125602&export_end_ts=1651557690

admin 應該可以直接到這個連結下載最近的匯出檔,有個我剛剛產生的,資料範圍是 August 16, 2014 – May 3, 2022,這個下載會保留十天
我晚點再幫忙細看一下對話內容是否摻有個人資料。不過基本上我算贊成的。理由是:以往open source 專案代管站是有提供 mailing list archive ,對成員可作為備份給日後搜尋。確實也有一些關於軟體品質的論文是參照到郵件活動的,對研究人員應該也是個高品質的資料源。
雖然不是 admin 但有在做文本分析 → 支持 😆
ronny ++ \o/
不知道為什麼想到「祝壽論文」四個字
我快速搜尋 `@gmail` 找到一些資料,以及電話號碼也有一些,例如 `我的手機是 09xx` 這類的,可能要想辦法濾掉

```$ ag @gmail | wc -l
626
$ ag ' 09[0-9]{8}' * | wc -l
23```
贊成+1,也許使用者名稱換成 UUID 更好。才不會以後在某個語料產生器出現誰的名字 LOL
或者使用者名稱保留,但是 users.json 裡面 profile 的 phone, skype, fields 砍掉?目前看起來有露出 gmail 和電話的應該就這幾個地方?
如果在對話中有出現 gmail, phone 的,可以假設他們本來目的就是要公開這些資訊嗎?
匯出檔裡面每個訊息都有 user_profile .... 但我認為我們該處理一下,把 user_profile 中幾個姓名的欄位都拿掉,只留 nickname 那一欄。(eg, "gugod", "hlb", "ronnywang" ...)
@ronnywang 我是覺得作為研究語料,不需要有 email,即使原本意圖是「在 g0v slack 公開」。如果因為在 g0v slack 公開過 email 或手機號碼,就一直收到各種詐騙,應該蠻困擾的。

使用者名稱我沒有其他意見,是否包含在語料內皆可。
任何人在公開發言的地方給出個資,因此會被仁看到記下來 vs g0v 主動整理一包記錄
這兩者我覺得不一樣
所以建議的作法是在放出資料前,掃描所有的對話記錄,裡面只有 regex 有符合 email ([a-zA-Z0-9.+]+@[a-zA-Z0-9.-]+ 之類的) 的或是手機號碼(09\d\d\d\d\d\d\d\d or 09\d\d-\d\d\d-\d\d\d) 就把他替換掉?
假如要再做處理,統整前面一些提的需求,可能要做的有:
1. users.json 裡面的 profile 只保留 title, real_name, display_name, status_text, status_emoji 等)
2. 各種對話記錄裡面的 user_profile 只保留 display_name
3. 對話記錄中的 email, 手機號碼想辦法去識別化
大概以上?
@ronnywang++ 同意

我想到後續可能會有的問題:
有人想要刪掉他的資料 -> 如果有漏掉的個資要處理,非個資的不受理

可能在哪裡有說明語料會被拿來運用更好
就即使幫他處理,但是已經被拿去用的可能要自己去聯絡?
唯一想到麻煩的狀況
👍 3 💡 1
ronnywang 14:23:26
我可能先意見徵集兩週到 5/17(二),如果沒有任何反對意見的話(不限於 admin 的反對),我可能就直接進行,不過只要有任何疑慮或反對這個日期就可能先不進行
ronnywang 14:23:26
我可能先意見徵集兩週到 5/17(二),如果沒有任何反對意見的話(不限於 admin 的反對),我可能就直接進行,不過只要有任何疑慮或反對這個日期就可能先不進行

2022-05-04

2022-05-05

2022-05-06

2022-05-17

ronnywang 12:00:00
兩週到囉~
go!
7
ronnywang 12:00:00
兩週到囉~
go!
ronnywang 13:01:48
哈哈,上面那個「兩週到了」我是兩週前用排程提早發的 XD
ronnywang 13:01:48
哈哈,上面那個「兩週到了」我是兩週前用排程提早發的 XD
🚀 2 🤖 2 1
ronnywang 13:03:20
根據兩週的討論結論,會對輸出檔做以下調整後釋出:
1. users.json 裡面的 profile 只保留 title, real_name, display_name, status_text, status_emoji 等)
2. 各種對話記錄裡面的 user_profile 只保留 display_name
3. 對話記錄中的 email, 手機號碼想辦法去識別化
不好意思我想提兩個修改:

> users.json
我覺得 users.json 中只要留最小程度的: id, team_id, name 這三欄就好。有這三欄就可以跟其他對話記錄互相對照起來了 (users.json “id” 對應到 對話記錄中的 “user” , “team_id” 對應到 “user_team” 與 “source_team”)。

其他欄位看起來似乎都會有點爭議… 只有 is_bot 最沒問題 (吧)。

> 各種對話記錄裡面的 user_profile 只保留 display_name
這裡的 display_name 改為 name 比較合適。

理由:之前沒有注意到這個 “display name” 應該是一個要額外設定,而且是可以一直讓人改來改去的東西:

https://slack.com/intl/zh-tw/help/articles/216360827-%E8%AE%8A%E6%9B%B4%E9%A1%AF%E7%A4%BA%E5%90%8D%E7%A8%B1

仔細看了匯出檔以後發現有很多人的 display_name 是空字串。應該那些使用者沒有額外設定的緣故。但 “name” 看來不可能是空字串。
users.json 我改成只留 id, team_id, name, profile 四項,profile 只留 title, ‘real_name’, ‘display_name’, ‘status_text’, ’status_emoji 五項。因為我覺得 profile 這些資訊也滿重要的,像是 status 很多人會留自己的專長或是身份
ronnywang 13:03:20
根據兩週的討論結論,會對輸出檔做以下調整後釋出:
1. users.json 裡面的 profile 只保留 title, real_name, display_name, status_text, status_emoji 等)
2. 各種對話記錄裡面的 user_profile 只保留 display_name
3. 對話記錄中的 email, 手機號碼想辦法去識別化
不好意思我想提兩個修改:

> users.json
我覺得 users.json 中只要留最小程度的: id, team_id, name 這三欄就好。有這三欄就可以跟其他對話記錄互相對照起來了 (users.json “id” 對應到 對話記錄中的 “user” , “team_id” 對應到 “user_team” 與 “source_team”)。

其他欄位看起來似乎都會有點爭議… 只有 is_bot 最沒問題 (吧)。

> 各種對話記錄裡面的 user_profile 只保留 display_name
這裡的 display_name 改為 name 比較合適。

理由:之前沒有注意到這個 “display name” 應該是一個要額外設定,而且是可以一直讓人改來改去的東西:

https://slack.com/intl/zh-tw/help/articles/216360827-%E8%AE%8A%E6%9B%B4%E9%A1%AF%E7%A4%BA%E5%90%8D%E7%A8%B1

仔細看了匯出檔以後發現有很多人的 display_name 是空字串。應該那些使用者沒有額外設定的緣故。但 “name” 看來不可能是空字串。
users.json 我改成只留 id, team_id, name, profile 四項,profile 只留 title, ‘real_name’, ‘display_name’, ‘status_text’, ’status_emoji 五項。因為我覺得 profile 這些資訊也滿重要的,像是 status 很多人會留自己的專長或是身份

2022-05-18

gugod 01:46:24
不好意思我想提兩個修改:

> users.json
我覺得 users.json 中只要留最小程度的: id, team_id, name 這三欄就好。有這三欄就可以跟其他對話記錄互相對照起來了 (users.json “id” 對應到 對話記錄中的 “user” , “team_id” 對應到 “user_team” 與 “source_team”)。

其他欄位看起來似乎都會有點爭議… 只有 is_bot 最沒問題 (吧)。

> 各種對話記錄裡面的 user_profile 只保留 display_name
這裡的 display_name 改為 name 比較合適。

理由:之前沒有注意到這個 “display name” 應該是一個要額外設定,而且是可以一直讓人改來改去的東西:

https://slack.com/intl/zh-tw/help/articles/216360827-%E8%AE%8A%E6%9B%B4%E9%A1%AF%E7%A4%BA%E5%90%8D%E7%A8%B1

仔細看了匯出檔以後發現有很多人的 display_name 是空字串。應該那些使用者沒有額外設定的緣故。但 “name” 看來不可能是空字串。

Slack Help Center

變更顯示名稱

你可以選擇一個顯示名稱,只要團隊成員在 Slack 中提及你時,就會顯示這個名稱。如果你沒有在 Slack 個人檔案中填寫顯示名稱欄位,當別人提及你時...

🙏 2