Hi 我想回饋 目前想到的資料格式, 以及一些討論後的感想
個人背景是資安公司的 data scientist & llm research, 威脅情報有一個常見的分享格式叫做 STIX (<https://ithelp.ithome.com.tw/articles/10289306|intro>)
使得蠻多分析平台容易匯入或是匯出資料, 是基於 JSON 再加上屬於網路空間作戰的 node & linke語意
也許有一些境外影響力資料庫或研究使用這樣的交換格式
台灣民主實驗室似乎有使用 STIX (<https://medium.com/doublethinklab-tw/%E4%BA%BA%E9%80%A0%E5%A4%9A%E9%87%8D%E5%AE%87%E5%AE%99-2024-%E5%8F%B0%E7%81%A3%E5%A4%A7%E9%81%B8%E5%A2%83%E5%A4%96%E8%B3%87%E8%A8%8A%E6%93%8D%E4%BD%9C%E8%88%87%E5%BD%B1%E9%9F%BF%E8%A7%80%E5%AF%9F%E5%A0%B1%E5%91%8A-493423f9bba8|reference report>)
今天和 chihao 的討論知道也許他們也有一些用起來不合適的情況
我在想自己可以從目前的 google sheet 表單, 去理解目前的 entity & link是否合適
後續線下做些轉換的小實驗, 也許從兩岸作為案例, 增加一些更合適的自定義欄位或是關係
或是產出只要兼容STIX 部分功能, 但是對於開放料使用者更容易的格式也有可能
<https://github.com/DAD-CDM> -> 是open-CTI組織的類似嘗試,
另外補充歐洲對外事務部, 有使用針對線上 disinformation, 境外影響 (FIMI) 的討論框架
<https://disarmframework.herokuapp.com/|DISARM> (雖然目前他的實作上好像和STIX綁在一起, 但是照理也可以借用語意就好)
線上網軍的研究相對是成熟的, 感覺難度在於scale-up, 以及變化很迅速
我覺得目前資料庫有差異的點是: 線下關係的搜集, 有不同的挑戰
爬蟲資料截取, 或是設計多人協作資料同步
怎麼是好用且有代表性的的使用情境, 對資料使用者有價值
我沒有那麼熟悉XD
之後一起探索感覺蠻有趣的