general

Month: 2024-09

2024-09-01

josh87523 23:10:04
@josh87523 has joined the channel

2024-09-02

yihuang.edu 13:10:33
📍*誠徵 9/29 大松小幫手*
g0v 大松開始報名啦~!邀請你來當小幫手一起支持社群~~~
(這次大松在`星期日`,地點是大坪林捷運站附近的`台北矽谷國際會議中心`,不要跑錯地點囉!)
• *報到(1-3人):* 協助大松參與者報到、拿頸繩&名牌、親切地向舊雨新知 say HI👋
• *攝影(1-2人):* 用相機為各專案留下認真報告、討論的身影,並為本次大松的參與者拍攝大合照。
• *主持(提案、短講、成果報告、松前哈拉)*:主持、協助大松各階段活動進行,一起維護大松溫暖友善的氛圍
• *新手導覽*:於新手導覽期間(13:10 開始),帶著新參者了解 g0v、了解各專案的內容&目標,一起建立新手友善的大松!
有意願報名小幫手者,歡迎在下方留言報名,或是私訊職工 Yi(就是我),感謝大家:cherry_blossom:!
誠徵大松小幫手.png
yihuang.edu 2024-09-02 13:11:33
先感謝 @sdfghj1001 跳坑松前哈拉主持 @terry.f.wang 跳坑主持~~
跳新手導覽(可中文 & 英文)
Ted 顥天 2024-09-02 18:33:46
開場提案 ++
3 2 😍 1 🙌 1 🖐️ 1 🤚 1
Mika Chou 13:26:50
@chou1005.tw has joined the channel
Mark Chang 14:35:15


各位g0v夥伴你們好
 
我是聯發創新基地(MR)的工程師Mark Chang。聯發創新基地預計在近期陸續開源台灣FineWeb預訓練等級資料集,想邀請各方共襄盛舉,一同壯大台灣的AI基礎。
 
專案緣起:
台灣/繁體中文AI長遠發展最重要的兩件基礎分別是資料與算力,其次才是模型,而台灣目前缺乏預訓練等級的開源資料,
因此MR希望打造這個基於FineWeb技術的開源資料集,希望可以彌補這個缺口。
 
為什麼FineWeb技術那麼重要?
FineWeb 是 HuggingFace 開源的一套資料包和資料處理方法,HuggingFace 團隊對每一步過濾的成效都進行了對比式驗證以檢測其有效性,最終證明其方法成果優於其他方法。
為目前資料處理的State-of-the-art,詳細可參考連結:https://huggingface.co/datasets/HuggingFaceFW/fineweb
不過FineWeb過濾掉其他語言只留下英文,所以這個專案我們修改其程式碼並適配繁體中文上,進而產生fineweb-traditional-chinese資料集。

我們預計開源計畫時刻表:
•            9/3 開源CC-MAIN-2024-30 50GB
•            9/15 開源CC-MAIN-2024-33 50GB (共100GB)
•            9/30 開源CC-MAIN-2024-26 50GB
•            10/15 開源CC-MAIN-2024-22 50GB(共200GB)
•            10/30  開源CC-MAIN-2024-18 50GB
•            11/15 開源CC-MAIN-2024-SEP 50GB(共300GB)
•            11/30 開源CC-MAIN-2024-OCT 50GB
•            12/15 開源CC-MAIN-2024-10 50GB(共400GB)
•            12/30 開源CC-MAIN-2024-NOV 50GB
•            2025/1/15 開源CC-MAIN-2023-50 50GB(共500GB)
•            2025/1/30 開源CC-MAIN-2023-40 50GB
•            2025/2/15 開源CC-MAIN-2023-23 50GB(共600GB)
•            2025/2/28 開源CC-MAIN-2025-DEC 50GB
•            2025/3/15 開源CC-MAIN-2025-JAN 50GB(共700GB)
•            2025/3/30 開源CC-MAIN-2023-14 50GB
•            2025/4/15 開源CC-MAIN-2023-06 50GB(共800GB)
•            2025/4/30 開源CC-MAIN-2025-FEB 50GB
•            2025/5/15 開源CC-MAIN-2025-MAR 50GB(共900GB)
•            2025/5/30 開源CC-MAIN-2025-APR 50GB
•            2025/6/15 開源CC-MAIN-2022-49 50GB(共1TB)
•            2025/6/30 開源CC-MAIN-2022-40 50GB
•            2025/7/15 開源CC-MAIN-2022-33 50GB(共1.1TB)
•            2025/7/30 開源CC-MAIN-2022-27 50GB
•            2025/8/15 開源CC-MAIN-2025-MAY 50GB(共1.2TB)
•            2025/8/30 開源CC-MAIN-2025-JUNE 50GB
•            2025/9/15 開源CC-MAIN-2025-JULY 50GB(共1.3TB)
 
我們想邀請您一同健全這個開源計畫:
由於品質高且量級大的預訓練資料開源只是個起點,因此MR想邀請您一同為台灣開源社群做出貢獻,
我們列了一些(包含但不限)可能的後續貢獻,想邀請您一同參與和宣傳。
l   基於fineweb-traditional-chinese開發進一步過濾資料的方法
l   基於fineweb-traditional-chinese訓練開源模型
l   使用Model Based Filtering作用在fineweb-traditional-chinese來打造更高品質的資料
l   基於fineweb-traditional-chinese來產生synthetic data
l   基於fineweb-traditional-chinese來建立台灣詞彙庫
l   基於fineweb-traditional-chinese來建立台灣知識圖譜
 
讓我們一同做出里程碑的貢獻,如果你們對於這個計畫有興趣,麻煩請寄信給:Yi-Chang.Chen@mtkresearch.com
後續我們會再約一場線上會議做細部的討論,感謝!
 


huggingface.co

HuggingFaceFW/fineweb · Datasets at Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

已幫忙轉到 # ,另外也偷偷問 @chiehg0v 有沒有覺得哪個頻道需要知道這個訊息的owo)
喔喔喔 如果 @ckmarkoh 不介意,我可以把訊息轉到生成式AI的 Discord~
其實原本就有 # ,看起來頻道已經多到大家彼此都不知道了 XD
Mark Chang 2024-09-02 16:52:13
歡迎幫忙轉推 謝謝🙏
🙌 6 4 3
Mark Chang 14:35:15


各位g0v夥伴你們好
 
我是聯發創新基地(MR)的工程師Mark Chang。聯發創新基地預計在近期陸續開源台灣FineWeb預訓練等級資料集,想邀請各方共襄盛舉,一同壯大台灣的AI基礎。
 
專案緣起:
台灣/繁體中文AI長遠發展最重要的兩件基礎分別是資料與算力,其次才是模型,而台灣目前缺乏預訓練等級的開源資料,
因此MR希望打造這個基於FineWeb技術的開源資料集,希望可以彌補這個缺口。
 
為什麼FineWeb技術那麼重要?
FineWeb 是 HuggingFace 開源的一套資料包和資料處理方法,HuggingFace 團隊對每一步過濾的成效都進行了對比式驗證以檢測其有效性,最終證明其方法成果優於其他方法。
為目前資料處理的State-of-the-art,詳細可參考連結:https://huggingface.co/datasets/HuggingFaceFW/fineweb
不過FineWeb過濾掉其他語言只留下英文,所以這個專案我們修改其程式碼並適配繁體中文上,進而產生fineweb-traditional-chinese資料集。

我們預計開源計畫時刻表:
•            9/3 開源CC-MAIN-2024-30 50GB
•            9/15 開源CC-MAIN-2024-33 50GB (共100GB)
•            9/30 開源CC-MAIN-2024-26 50GB
•            10/15 開源CC-MAIN-2024-22 50GB(共200GB)
•            10/30  開源CC-MAIN-2024-18 50GB
•            11/15 開源CC-MAIN-2024-SEP 50GB(共300GB)
•            11/30 開源CC-MAIN-2024-OCT 50GB
•            12/15 開源CC-MAIN-2024-10 50GB(共400GB)
•            12/30 開源CC-MAIN-2024-NOV 50GB
•            2025/1/15 開源CC-MAIN-2023-50 50GB(共500GB)
•            2025/1/30 開源CC-MAIN-2023-40 50GB
•            2025/2/15 開源CC-MAIN-2023-23 50GB(共600GB)
•            2025/2/28 開源CC-MAIN-2025-DEC 50GB
•            2025/3/15 開源CC-MAIN-2025-JAN 50GB(共700GB)
•            2025/3/30 開源CC-MAIN-2023-14 50GB
•            2025/4/15 開源CC-MAIN-2023-06 50GB(共800GB)
•            2025/4/30 開源CC-MAIN-2025-FEB 50GB
•            2025/5/15 開源CC-MAIN-2025-MAR 50GB(共900GB)
•            2025/5/30 開源CC-MAIN-2025-APR 50GB
•            2025/6/15 開源CC-MAIN-2022-49 50GB(共1TB)
•            2025/6/30 開源CC-MAIN-2022-40 50GB
•            2025/7/15 開源CC-MAIN-2022-33 50GB(共1.1TB)
•            2025/7/30 開源CC-MAIN-2022-27 50GB
•            2025/8/15 開源CC-MAIN-2025-MAY 50GB(共1.2TB)
•            2025/8/30 開源CC-MAIN-2025-JUNE 50GB
•            2025/9/15 開源CC-MAIN-2025-JULY 50GB(共1.3TB)
 
我們想邀請您一同健全這個開源計畫:
由於品質高且量級大的預訓練資料開源只是個起點,因此MR想邀請您一同為台灣開源社群做出貢獻,
我們列了一些(包含但不限)可能的後續貢獻,想邀請您一同參與和宣傳。
l   基於fineweb-traditional-chinese開發進一步過濾資料的方法
l   基於fineweb-traditional-chinese訓練開源模型
l   使用Model Based Filtering作用在fineweb-traditional-chinese來打造更高品質的資料
l   基於fineweb-traditional-chinese來產生synthetic data
l   基於fineweb-traditional-chinese來建立台灣詞彙庫
l   基於fineweb-traditional-chinese來建立台灣知識圖譜
 
讓我們一同做出里程碑的貢獻,如果你們對於這個計畫有興趣,麻煩請寄信給:Yi-Chang.Chen@mtkresearch.com
後續我們會再約一場線上會議做細部的討論,感謝!
 


已幫忙轉到 # ,另外也偷偷問 @chiehg0v 有沒有覺得哪個頻道需要知道這個訊息的owo)
喔喔喔 如果 @ckmarkoh 不介意,我可以把訊息轉到生成式AI的 Discord~
其實原本就有 # ,看起來頻道已經多到大家彼此都不知道了 XD
Mark Chang 2024-09-02 16:52:13
歡迎幫忙轉推 謝謝🙏
HANK LIU 17:09:23
@hank0923 has joined the channel
Doris Chao 20:30:26
@fangyu199909 has joined the channel

2024-09-03

99aldrich 09:54:45
@99aldrich has joined the channel
曾小工 09:56:03
@y7hhf624z8 has joined the channel
魚凱 16:42:49
@picaljk has joined the channel
yihuang.edu 16:42:58
推推八月的社群紀錄共筆,歡迎各專案上來分享這個月的成果唷

<https://g0v.hackmd.io/@jothon/community99/%2F%40jothon%2Fcommunity99-2408|八月的社群九分鐘開好了!> 八月開始了,炎炎夏日來到,你的專案有沒有什麼新計畫呢:index_pointing_at_the_viewer:? 歡迎一起來共編,一起記錄八月大小事!

🙌 1
yihuang.edu 16:42:58
推推八月的社群紀錄共筆,歡迎各專案上來分享這個月的成果唷

<https://g0v.hackmd.io/@jothon/community99/%2F%40jothon%2Fcommunity99-2408|八月的社群九分鐘開好了!> 八月開始了,炎炎夏日來到,你的專案有沒有什麼新計畫呢:index_pointing_at_the_viewer:? 歡迎一起來共編,一起記錄八月大小事!

TRYL 23:29:07
@tryl7423 has joined the channel

2024-09-04

caleb 21:42:36
我正在考慮一個新的行人權利項目,但可能已經存在一個類似的項目,但我沒有註意到,因為我總是誤讀項目 :P

我的整體想法是多方面的:
1. 收集並辨識行人痛點位置。例如:人行道缺少護柱、行人穿越道計時器太快、緊鄰非常繁忙的道路的人行道太小等。
2.圍繞政治壓力組織力量解決這些痛點。
3. 組織圍繞法律直接行動和公民抗命的行動,例如放置交通錐以減緩人行道和人行道周圍的交通,或遊擊交通違規舉報工作。

我知道 "Vision Zero Taipei",但除了他們的抗議之外,我不知道他們採取了更直接的行動。

如果我的專案會重複另一個團隊的工作,請告訴我,這樣我就可以把時間交給他們。

我的用詞很奇怪,請隨時要求我澄清我寫的任何內容。

2024-09-05

Peter 22:05:07
台灣時間9/18 00:00-1:30 Global Taiwan Institute 有一個關於公民科技的分享,ipa 是其中一位講者!
主題:Innovating Citizen Engagement: Taiwan’s Leadership in Civic Technology
活動連結:https://globaltaiwan.org/events/innovating-citizen-engagement-taiwans-leadership-in-civic-technology/?mc_cid=7525156ea8&mc_eid=06000c0d52

2024-09-06

yutin 09:57:10
剛剛在查建照時,發現 @ronnywang 強大的查詢系統 http://tpebuilding.g0v.ronny.tw/
在你一個大大的 👍👍👍
Peter 20:48:41
在整理數位公共參與工具時,找到了一個有趣的東西,不確定之前有沒有討論過。Cityvisor 這個平台是讓捷克的市政機關將政府預算與財政資料視覺化的工具與平台。各地的市政員工只要把資料上傳,就可以提供當地的財政資訊的視覺化資料。這個平台最早由捷克財政部發起,後來交給非營利組織 Otevřená města 進一步開發,到 2021年由志願者社群 Česko.Digital 負責維護。

2024-09-07