各位g0v夥伴你們好
我是聯發創新基地(MR)的工程師Mark Chang。聯發創新基地預計在近期陸續開源台灣FineWeb預訓練等級資料集,想邀請各方共襄盛舉,一同壯大台灣的AI基礎。
專案緣起:
台灣/繁體中文AI長遠發展最重要的兩件基礎分別是資料與算力,其次才是模型,而台灣目前缺乏預訓練等級的開源資料,
因此MR希望打造這個基於FineWeb技術的開源資料集,希望可以彌補這個缺口。
為什麼FineWeb技術那麼重要?
FineWeb 是 HuggingFace 開源的一套資料包和資料處理方法,HuggingFace 團隊對每一步過濾的成效都進行了對比式驗證以檢測其有效性,最終證明其方法成果優於其他方法。
為目前資料處理的State-of-the-art,詳細可參考連結:<https://huggingface.co/datasets/HuggingFaceFW/fineweb|https://huggingface.co/datasets/HuggingFaceFW/fineweb>
不過FineWeb過濾掉其他語言只留下英文,所以這個專案我們修改其程式碼並適配繁體中文上,進而產生fineweb-traditional-chinese資料集。
我們預計開源計畫時刻表:
• 9/3 開源CC-MAIN-2024-30 50GB
• 9/15 開源CC-MAIN-2024-33 50GB (共100GB)
• 9/30 開源CC-MAIN-2024-26 50GB
• 10/15 開源CC-MAIN-2024-22 50GB(共200GB)
• 10/30 開源CC-MAIN-2024-18 50GB
• 11/15 開源CC-MAIN-2024-SEP 50GB(共300GB)
• 11/30 開源CC-MAIN-2024-OCT 50GB
• 12/15 開源CC-MAIN-2024-10 50GB(共400GB)
• 12/30 開源CC-MAIN-2024-NOV 50GB
• 2025/1/15 開源CC-MAIN-2023-50 50GB(共500GB)
• 2025/1/30 開源CC-MAIN-2023-40 50GB
• 2025/2/15 開源CC-MAIN-2023-23 50GB(共600GB)
• 2025/2/28 開源CC-MAIN-2025-DEC 50GB
• 2025/3/15 開源CC-MAIN-2025-JAN 50GB(共700GB)
• 2025/3/30 開源CC-MAIN-2023-14 50GB
• 2025/4/15 開源CC-MAIN-2023-06 50GB(共800GB)
• 2025/4/30 開源CC-MAIN-2025-FEB 50GB
• 2025/5/15 開源CC-MAIN-2025-MAR 50GB(共900GB)
• 2025/5/30 開源CC-MAIN-2025-APR 50GB
• 2025/6/15 開源CC-MAIN-2022-49 50GB(共1TB)
• 2025/6/30 開源CC-MAIN-2022-40 50GB
• 2025/7/15 開源CC-MAIN-2022-33 50GB(共1.1TB)
• 2025/7/30 開源CC-MAIN-2022-27 50GB
• 2025/8/15 開源CC-MAIN-2025-MAY 50GB(共1.2TB)
• 2025/8/30 開源CC-MAIN-2025-JUNE 50GB
• 2025/9/15 開源CC-MAIN-2025-JULY 50GB(共1.3TB)
我們想邀請您一同健全這個開源計畫:
由於品質高且量級大的預訓練資料開源只是個起點,因此MR想邀請您一同為台灣開源社群做出貢獻,
我們列了一些(包含但不限)可能的後續貢獻,想邀請您一同參與和宣傳。
l 基於fineweb-traditional-chinese開發進一步過濾資料的方法
l 基於fineweb-traditional-chinese訓練開源模型
l 使用Model Based Filtering作用在fineweb-traditional-chinese來打造更高品質的資料
l 基於fineweb-traditional-chinese來產生synthetic data
l 基於fineweb-traditional-chinese來建立台灣詞彙庫
l 基於fineweb-traditional-chinese來建立台灣知識圖譜
讓我們一同做出里程碑的貢獻,如果你們對於這個計畫有興趣,麻煩請寄信給:<mailto:Yi-Chang.Chen@mtkresearch.com|Yi-Chang.Chen@mtkresearch.com>
後續我們會再約一場線上會議做細部的討論,感謝!