#dada

2025-03-11
Peter 16:00:03
大家午安!vTaiwan 社群延續之前在黑魔法防禦松的討論,目前將於 4/2 與六月舉辦兩場與 TWNIC 合作的「面對網路詐騙,哪些還沒做?」討論,歡迎大家針對目前我們設計的種子意見提出討論!意見在此:面對網路詐騙,哪些還沒做?
Peter 16:00:03
大家午安!vTaiwan 社群延續之前在黑魔法防禦松的討論,目前將於 4/2 與六月舉辦兩場與 TWNIC 合作的「面對網路詐騙,哪些還沒做?」討論,歡迎大家針對目前我們設計的種子意見提出討論!意見在此:https://docs.google.com/spreadsheets/d/1xXjnptMcKItVa_9o83R2gnxp-zDwliWnJjNMCK3mW18/edit
  • 👀1
  • 🪄1
  • 1
  • 💡1
2025-03-12
jimyhuang 20:40:24
Replied to a thread: 2025-01-19 21:34:32
1. 詐騙案例更新到 3/10,大約30000筆左右
2. 新增「尋找相關文件」的功能
Screenshot_20250312-203952_Chrome.png
  • 2
  • 1
2025-03-17
2025-03-19
jimyhuang 23:35:40
Replied to a thread: 2025-01-19 21:34:32
測試 Clustering ,結果周杰倫居然上榜... 將近 700 篇詐騙

以前分群出來,還得想辦法弄出個名字,現在直接把 center 丟去 LLM API 請他給 title 就好,不過50群的話,投資詐騙好像佔了一半,OpenAI 給的 title 很多都滿類似的,好像得換個 prompt

可以在這裡看結果,抬頭可以按,但排序沒有任何意義:
https://165case.cofacts.tw/cluster.html

Prompt現況是這樣,歡迎測試、意見:
https://github.com/Open165/165cases/blob/main/cmd/clustering/main.go#L390
圖片.png
``` prompt := "請幫我用10個繁體中文字,為這篇內容下標題,請僅回傳標題即可" ```
  • 3
2025-03-21
mrorz 14:43:07
如果要 summarize 這些 case,我覺得請他描述人事時地物比較重要耶
例如
「IG 帳號 ps1_028
jimyhuang 14:47:22
的確值得試試看
mrorz 14:47:23
prompt 部分可以弄個 few shot prompting

```請從「詐騙故事」抽取關鍵詐騙者、詐騙手法,寫成簡短的標題。

# 詐騙故事
聽聞偶像周杰倫即將舉行演唱會,身為死忠粉絲的我,自然不想錯過這場演出。不過,由於門票搶購實在太激烈,官方售票早已售馨。我遍尋各處都買不到票,心情非常沮喪。就在我準備放棄的時候,一個社交平台 Threads 上的一則貼文,有人宣稱有幾張周杰倫演唱會的門票在出售。這條消息就像一道曙光,再次燃起我的希望。點進去看發文者的資訊,覺得這帳號看起來很正常,並不像詐騙。我立即加了對方的1G,帳號名稱是「ps1_028」,並熱切地發訊息表示自己有興趣購買門票。我們很快就展開了對話,對方回覆速度很快,看起來非常熱心,甚至還發來了一些「門票照片」,並且描述了門票的細節。對方說這張票是朋友臨時不能去了,才決定轉售給有緣人,而且價格不算太高,讓我覺得十分划算。興奮之餘,我也没有多想,當下決定將對方提供的帳戶資訊紀錄下來,並約定當晚完成轉帳。我馬上網路轉帳一萬元新台幣到對方帳戶,心想著接下來就能開心準備參加演唱會了。
然而,就在轉帳後不久,我開始覺得事情有些不對勁,對方的回應突然變得非常慢,接著更讓人意想不到的事發生了,對方的帳號不僅再也無法聯繫,甚至整個人「消失」了。這才驚覺自己可能遇上了詐騙,心情從期待瞬間跌入谷底。

# 簡短標題
IG 帳號 ps1_028 賣假周杰倫門票,轉帳一萬元後後消失

# 詐騙故事
%s

# 簡短標題```
mrorz 14:47:58
啊,上面這是 completion API 的用法
是用 chat completion API 的話
mrorz 14:50:06
```requestData := OpenAIChatRequest{
Model: "gpt-3.5-turbo-0125",
Messages: []Message{
{Role: "system", Content: "請從user 所給的「詐騙故事」中抽取關鍵詐騙者、詐騙手法,寫成簡短的標題。"},

// In-context learning examples
{Role: "user", Content: "聽聞偶像周杰倫即將舉行演唱會,身為死忠粉絲的我,自然不想錯過這場演出。不過,由於門票搶購實在太激烈,官方售票早已售馨。我遍尋各處都買不到票,心情非常沮喪。就在我準備放棄的時候,一個社交平台 Threads 上的一則貼文,有人宣稱有幾張周杰倫演唱會的門票在出售。這條消息就像一道曙光,再次燃起我的希望。點進去看發文者的資訊,覺得這帳號看起來很正常,並不像詐騙。我立即加了對方的1G,帳號名稱是「ps1_028」,並熱切地發訊息表示自己有興趣購買門票。我們很快就展開了對話,對方回覆速度很快,看起來非常熱心,甚至還發來了一些「門票照片」,並且描述了門票的細節。對方說這張票是朋友臨時不能去了,才決定轉售給有緣人,而且價格不算太高,讓我覺得十分划算。興奮之餘,我也没有多想,當下決定將對方提供的帳戶資訊紀錄下來,並約定當晚完成轉帳。我馬上網路轉帳一萬元新台幣到對方帳戶,心想著接下來就能開心準備參加演唱會了。
然而,就在轉帳後不久,我開始覺得事情有些不對勁,對方的回應突然變得非常慢,接著更讓人意想不到的事發生了,對方的帳號不僅再也無法聯繫,甚至整個人「消失」了。這才驚覺自己可能遇上了詐騙,心情從期待瞬間跌入谷底。"},
{Role: "assistant", Content: "IG 帳號 ps1_028 賣假周杰倫門票,轉帳一萬元後後消失"},

// Actual content
{Role: "user", Content: content},
},
}```
mrorz 14:50:19
然後建議用 batch API 比較省錢
mrorz 14:51:40
也希望 in-context learning examples 可以被 OpenAI 選入 prompt cache 讓他更便宜
mrorz 14:51:48
(這部分好像沒辦法自己控制)
jimyhuang 14:51:53
我上面 cluster. 只丟了中心點的文章去, @mrorz 是指 30000篇都丟去取人事時地物,補齊 metadata 的意思嗎?
mrorz 14:52:46
喔我以為抽 title 是 batch 的

如果是 on-demand 的話那就不要 batch XD
jimyhuang 14:53:39
那個 title 很糟糕啦, prompt 我用的很爛,但其實有在想 clustering 的意義是什麼,好像沒什麼用處的樣子
mrorz 14:54:41
我沒想過 clustering XD
但人事時地物抽出來可能不錯
jimyhuang 14:55:44
但補齊人、事、時、地、物,有想過,有點有趣
jimyhuang 14:56:06
剛好說同樣的話,哈哈