cofacts

Month: 2023-05

2023-05-01

2023-05-02

2023-05-03

2023-05-04

bil 13:35:19
想問問下週會議可不可以調整到週四晚上
🆗 2
bil 13:35:19
想問問下週會議可不可以調整到週四晚上
ronnywang 14:06:06
https://developers.facebook.com/blog/post/2023/02/01/developer-platform-requiring-business-verification-for-advanced-access/
剛發現 FB 在 2/1 有改了 FB 登入的 advaneced access 權限的規定,改成一定要商家認證才能使用,針對舊的 App 也有說 7/1 之後也有強制認證,否則 8/1 就會失效, cofacts 也有 FB 登入可能要注意看看?

Meta for Developers

Developer Platform will now require Business Verification for Advanced Access

Facebook For Developers

感謝提醒
不過現在 developers.facebook.com/apps 裡面居然沒有 alert 說要趕快連上 verified business account
覺得神秘
我是昨天想要做新的需要 FB 登入的服務才發現現在新服務已經是強制要商業認證,才查到這篇文章的..看起來他真的是要照文章說的 7/1 才會通知開發者
研究了一下,感覺超麻煩的耶
筆記在這
https://g0v.hackmd.io/joEUsABVRr2aMQqD-Z8ixQ#Facebook-apps
變成還是可以做 Facebook login ,但是抓不到 email
😮 2
ronnywang 14:06:06
https://developers.facebook.com/blog/post/2023/02/01/developer-platform-requiring-business-verification-for-advanced-access/
剛發現 FB 在 2/1 有改了 FB 登入的 advaneced access 權限的規定,改成一定要商家認證才能使用,針對舊的 App 也有說 7/1 之後也有強制認證,否則 8/1 就會失效, cofacts 也有 FB 登入可能要注意看看?
感謝提醒
不過現在 developers.facebook.com/apps 裡面居然沒有 alert 說要趕快連上 verified business account
覺得神秘
我是昨天想要做新的需要 FB 登入的服務才發現現在新服務已經是強制要商業認證,才查到這篇文章的..看起來他真的是要照文章說的 7/1 才會通知開發者
研究了一下,感覺超麻煩的耶
筆記在這
https://g0v.hackmd.io/joEUsABVRr2aMQqD-Z8ixQ#Facebook-apps
變成還是可以做 Facebook login ,但是抓不到 email

2023-05-05

Sophia Soong 09:03:58
@hys.sophia has joined the channel

2023-05-08

Cartus 11:20:25
@b06208002 has joined the channel
mrorz 15:33:25
目前 Cofacts dataset 是靠使用者填寫 Google form 加上 Apps script 自動 share Google drive access to CSV files 來分享的,以確保每個下載者都有讀過 license。但我的 apps script 美 7 天會被 revoke access 要重新 authorize,過去幾年來每週都要重新 authorize 然後檢查有沒有漏掉的使用者,真的是滿煩的。

我最近才發現原來 huggingface 可以放 data set 而且可以設定 gated access,就是要留下 email 申稱自己有讀過 license 才能 access:
https://huggingface.co/docs/hub/datasets-gated

我希望這麼做可以
• 提升 Cofacts dataset visibility & usage
• 維持追蹤 Cofacts dataset 的 user
• 追蹤 Cofacts dataset use case (做得到嗎?)
好奇 <!here> 的 data scientists 覺得這樣如何?有什麼需要注意的地方嗎?

cc/ @gary96302000.eecs96
gary96302000.eecs96 2023-05-08 16:49:12
我自己是沒有在HF 上面用 datasets 過,不過這個使用場景的話在 HF 上應該是比較方便追蹤的沒錯

追蹤 use case 我猜在 additional customization 那邊要他們加上 citation 或是附上他們 github repo 搞不好也行?(就可能 optional 不是 required 的欄位這樣)

注意的地方我目前有想到的就是說明用的語言,中文英文都要有之類的?
gary96302000.eecs96 2023-05-08 19:01:54
恩 應該是作者自己寫的 沒有強制性
在 HuggingFace 上面開好了 Organization
現在要想 dataset 名稱
希望有個做查核的研究者可以搜尋得到的 dataset 名字
但老實說
大家的 dataset 名字好像都沒在考慮讓別人搜尋到
https://huggingface.co/datasets
gary96302000.eecs96 2023-05-16 11:49:07
確實
gary96302000.eecs96 2023-05-16 11:49:26
有名的 dataset 都是因為有名的 model 或是比賽才紅的
gary96302000.eecs96 2023-05-16 11:49:42
ㄎ ㄎ
dataset 一夕爆紅 www
`im-messages-and-crowd-sourced-fact-checks` 這種名字不好嗎
是不是會翻車
因為很難 cite
gary96302000.eecs96 2023-05-16 11:51:12
寫在 paper 裡的時候會佔一行
gary96302000.eecs96 2023-05-16 11:51:22
通常都是寫在paper 裡
gary96302000.eecs96 2023-05-16 11:51:26
嘿啊
gary96302000.eecs96 2023-05-16 11:51:31
都會用縮寫
但我 title 就叫 Cofacts data
只是 URL 長 im-messages-and-crowd-sourced-fact-checks
gary96302000.eecs96 2023-05-16 11:51:45
什麼 MNIST CIFAR
很難懂耶這些縮寫
gary96302000.eecs96 2023-05-16 11:52:02
恩啊
gary96302000.eecs96 2023-05-16 11:52:08
縮寫通常都看不出來意義
直接叫 cofacts 如何
URL 有點蠢就是
https://huggingface.co/datasets/cofacts/cofacts

Datasets: Cofacts/Cofacts
gary96302000.eecs96 2023-05-16 11:54:23
oasst1
gary96302000.eecs96 2023-05-16 11:54:32
也是完全不知道是什麼
gary96302000.eecs96 2023-05-16 11:55:43
感覺 url 跟組織/專案名稱一樣的話不太好 通常好像不會這麼取
目前在 github 上長這樣 https://github.com/cofacts/opendata
gary96302000.eecs96 2023-05-16 11:57:04
我猜大原則就是 specific/clear
gary96302000.eecs96 2023-05-16 11:57:11
這樣更直接一些
那就 `cofacts/archive`
或 `cofacts/im-fact-check-archive`
gary96302000.eecs96 2023-05-16 11:58:41
im 的意思是什麼啊 好奇問個
instant message?
看來不是個常用字
可能換個 msg-fact-check-archive
或就 archive
gary96302000.eecs96 2023-05-16 11:59:55
這個數量有多少筆
會成長,所以z;4gj4xu;4lc3vu;4u,3ej94ej94
gary96302000.eecs96 2023-05-16 12:00:52
歐歐
而且會有很多 CSV (訊息、回應、feedback 等等)
不然 msg-fact-check-100k 聽起來滿威
在 200k 的時候再改名就好(?
gary96302000.eecs96 2023-05-16 12:02:40
那如果是我的話 我會這樣取 `line-msg-fact-check-110k-tw`
gary96302000.eecs96 2023-05-16 12:02:47
-tw 可加可不佳
100k 感覺比較不用一直換名字 XD
因為訊息會一直長
gary96302000.eecs96 2023-05-16 12:03:55
嗯嗯
gary96302000.eecs96 2023-05-16 12:03:56
也行
但從 100k ~ 200k 應該要數年
dataset 可以換名字嗎之後
還是 200k 的時候直接上傳新的
gary96302000.eecs96 2023-05-16 12:04:33
上傳新的感覺更好
gary96302000.eecs96 2023-05-16 12:04:42
不知道到時候格式什麼的會不會改變
gary96302000.eecs96 2023-05-16 12:05:07
或是你100k上傳之後 會開始收到使用人給的回饋
原來如此
gary96302000.eecs96 2023-05-16 12:05:15
那你可能就會在 200k 做修改
但舊的版本會有人一直用嗎
就是舊的留存會有意義嗎
gary96302000.eecs96 2023-05-16 12:05:31
不見得 看好不好用
gary96302000.eecs96 2023-05-16 12:05:46
如果有人要 benchmark 那應該會有用
好喔
gary96302000.eecs96 2023-05-16 12:06:23
因為現在大家也漸漸意識到資料質量比數量重要的多
但 hugging face dataset 本身沒有 versioning 嗎
我看他背後是 git lfs
gary96302000.eecs96 2023-05-16 12:07:26
應該有versioning
gary96302000.eecs96 2023-05-16 12:08:02
嗯嗯
gary96302000.eecs96 2023-05-16 12:09:25
我指的比較像是 資料跟前一版 有著很大程度的不同 這種 例如說有先幫他們做了很多過濾 處理 分類資料
gary96302000.eecs96 2023-05-16 12:09:58
那就比較適合另外開一個
gary96302000.eecs96 2023-05-16 12:10:25
如果單純只是數量上的增加 那在原本的應該就行了
好奇加了 100k 大家會比較想用嗎
還是沒加也 ok
gary96302000.eecs96 2023-05-16 12:16:15
在意訓練資料數量的人就會想
gary96302000.eecs96 2023-05-16 12:17:56
大部分是都沒加就是了 但這通常都是有名的work或是org做的
我先加好了
可能之後會放個有圖片與影片的版本(這樣 dataset 會很大就是了)再更新名字
話說 dataset 含有圖片跟影片的話不會超大嗎
gary96302000.eecs96 2023-05-16 12:19:41
會歐
gary96302000.eecs96 2023-05-16 12:21:07
不過影像的資料集
gary96302000.eecs96 2023-05-16 12:21:12
好像在上面很少就是了
gary96302000.eecs96 2023-05-16 13:14:44
嗯嗯 那個在search filter 也有的樣子
gary96302000.eecs96 2023-05-16 13:15:13
不過一般人通常不會直接這樣搜(?
但我有一堆 csv
他好像只顯示 analytics.csv 的內容(會自己解 zip 就是了)
這樣如果 python 這裡呼叫 `load_dataset`
是不是只會回傳 analytics.csv 呀囧
gary96302000.eecs96 2023-05-16 15:33:58
科科
mrorz 15:33:25
目前 Cofacts dataset 是靠使用者填寫 Google form 加上 Apps script 自動 share Google drive access to CSV files 來分享的,以確保每個下載者都有讀過 license。但我的 apps script 美 7 天會被 revoke access 要重新 authorize,過去幾年來每週都要重新 authorize 然後檢查有沒有漏掉的使用者,真的是滿煩的。

我最近才發現原來 huggingface 可以放 data set 而且可以設定 gated access,就是要留下 email 申稱自己有讀過 license 才能 access:
https://huggingface.co/docs/hub/datasets-gated

我希望這麼做可以
• 提升 Cofacts dataset visibility & usage
• 維持追蹤 Cofacts dataset 的 user
• 追蹤 Cofacts dataset use case (做得到嗎?)
好奇 <!here> 的 data scientists 覺得這樣如何?有什麼需要注意的地方嗎?

cc/ @gary96302000.eecs96

huggingface.co

Gated datasets

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

gary96302000.eecs96 2023-05-08 16:49:12
我自己是沒有在HF 上面用 datasets 過,不過這個使用場景的話在 HF 上應該是比較方便追蹤的沒錯

追蹤 use case 我猜在 additional customization 那邊要他們加上 citation 或是附上他們 github repo 搞不好也行?(就可能 optional 不是 required 的欄位這樣)

注意的地方我目前有想到的就是說明用的語言,中文英文都要有之類的?
gary96302000.eecs96 2023-05-08 19:01:54
恩 應該是作者自己寫的 沒有強制性
在 HuggingFace 上面開好了 Organization
現在要想 dataset 名稱
希望有個做查核的研究者可以搜尋得到的 dataset 名字
但老實說
大家的 dataset 名字好像都沒在考慮讓別人搜尋到
https://huggingface.co/datasets
gary96302000.eecs96 2023-05-16 11:49:07
確實
gary96302000.eecs96 2023-05-16 11:49:26
有名的 dataset 都是因為有名的 model 或是比賽才紅的
gary96302000.eecs96 2023-05-16 11:49:42
ㄎ ㄎ
dataset 一夕爆紅 www
`im-messages-and-crowd-sourced-fact-checks` 這種名字不好嗎
是不是會翻車
因為很難 cite
gary96302000.eecs96 2023-05-16 11:51:12
寫在 paper 裡的時候會佔一行
gary96302000.eecs96 2023-05-16 11:51:22
通常都是寫在paper 裡
gary96302000.eecs96 2023-05-16 11:51:26
嘿啊
gary96302000.eecs96 2023-05-16 11:51:31
都會用縮寫
但我 title 就叫 Cofacts data
只是 URL 長 im-messages-and-crowd-sourced-fact-checks
gary96302000.eecs96 2023-05-16 11:51:45
什麼 MNIST CIFAR
很難懂耶這些縮寫
gary96302000.eecs96 2023-05-16 11:52:02
恩啊
gary96302000.eecs96 2023-05-16 11:52:08
縮寫通常都看不出來意義
直接叫 cofacts 如何
URL 有點蠢就是
https://huggingface.co/datasets/cofacts/cofacts

Datasets: Cofacts/Cofacts
gary96302000.eecs96 2023-05-16 11:54:23
oasst1
gary96302000.eecs96 2023-05-16 11:54:32
也是完全不知道是什麼
gary96302000.eecs96 2023-05-16 11:55:43
感覺 url 跟組織/專案名稱一樣的話不太好 通常好像不會這麼取
目前在 github 上長這樣 https://github.com/cofacts/opendata
gary96302000.eecs96 2023-05-16 11:57:04
我猜大原則就是 specific/clear
gary96302000.eecs96 2023-05-16 11:57:11
這樣更直接一些
那就 `cofacts/archive`
或 `cofacts/im-fact-check-archive`
gary96302000.eecs96 2023-05-16 11:58:41
im 的意思是什麼啊 好奇問個
instant message?
看來不是個常用字
可能換個 msg-fact-check-archive
或就 archive
gary96302000.eecs96 2023-05-16 11:59:55
這個數量有多少筆
會成長,所以z;4gj4xu;4lc3vu;4u,3ej94ej94
gary96302000.eecs96 2023-05-16 12:00:52
歐歐
而且會有很多 CSV (訊息、回應、feedback 等等)
不然 msg-fact-check-100k 聽起來滿威
在 200k 的時候再改名就好(?
gary96302000.eecs96 2023-05-16 12:02:40
那如果是我的話 我會這樣取 `line-msg-fact-check-110k-tw`
gary96302000.eecs96 2023-05-16 12:02:47
-tw 可加可不佳
100k 感覺比較不用一直換名字 XD
因為訊息會一直長
gary96302000.eecs96 2023-05-16 12:03:55
嗯嗯
gary96302000.eecs96 2023-05-16 12:03:56
也行
但從 100k ~ 200k 應該要數年
dataset 可以換名字嗎之後
還是 200k 的時候直接上傳新的
gary96302000.eecs96 2023-05-16 12:04:33
上傳新的感覺更好
gary96302000.eecs96 2023-05-16 12:04:42
不知道到時候格式什麼的會不會改變
gary96302000.eecs96 2023-05-16 12:05:07
或是你100k上傳之後 會開始收到使用人給的回饋
原來如此
gary96302000.eecs96 2023-05-16 12:05:15
那你可能就會在 200k 做修改
但舊的版本會有人一直用嗎
就是舊的留存會有意義嗎
gary96302000.eecs96 2023-05-16 12:05:31
不見得 看好不好用
gary96302000.eecs96 2023-05-16 12:05:46
如果有人要 benchmark 那應該會有用
好喔
gary96302000.eecs96 2023-05-16 12:06:23
因為現在大家也漸漸意識到資料質量比數量重要的多
但 hugging face dataset 本身沒有 versioning 嗎
我看他背後是 git lfs
gary96302000.eecs96 2023-05-16 12:07:26
應該有versioning
gary96302000.eecs96 2023-05-16 12:08:02
嗯嗯
gary96302000.eecs96 2023-05-16 12:09:25
我指的比較像是 資料跟前一版 有著很大程度的不同 這種 例如說有先幫他們做了很多過濾 處理 分類資料
gary96302000.eecs96 2023-05-16 12:09:58
那就比較適合另外開一個
gary96302000.eecs96 2023-05-16 12:10:25
如果單純只是數量上的增加 那在原本的應該就行了
好奇加了 100k 大家會比較想用嗎
還是沒加也 ok
gary96302000.eecs96 2023-05-16 12:16:15
在意訓練資料數量的人就會想
gary96302000.eecs96 2023-05-16 12:17:56
大部分是都沒加就是了 但這通常都是有名的work或是org做的
我先加好了
可能之後會放個有圖片與影片的版本(這樣 dataset 會很大就是了)再更新名字
話說 dataset 含有圖片跟影片的話不會超大嗎
gary96302000.eecs96 2023-05-16 12:19:41
會歐
gary96302000.eecs96 2023-05-16 12:21:07
不過影像的資料集
gary96302000.eecs96 2023-05-16 12:21:12
好像在上面很少就是了
gary96302000.eecs96 2023-05-16 13:14:44
嗯嗯 那個在search filter 也有的樣子