cofacts

Month: 2024-09

2024-09-02

mrorz 15:58:29
今日議程
https://g0v.hackmd.io/@cofacts/meetings/%2FIrRBabPXQBOVQTjSNlIdwg
週一時還沒好的 wayback machine snapshot 今天補上囉
https://github.com/cofacts/rumors-api/pull/344#issue-2499588263

那個 screenshot https://web.archive.org/web/20240902074808/http://web.archive.org/screenshot/https://learningpa.cc/lp_form_v8/ 看起來很滑稽
看來 wayback machine 存檔的邏輯是開一個長長的瀏覽器視窗來截圖
所以如果人家 landing page 用 `100vh` 做 first-fold,他就會佔滿整個長長的視窗 XD
code 沒問題的話我晚上 merge + deploy to master 唷~
mrorz 15:58:29
今日議程
https://g0v.hackmd.io/@cofacts/meetings/%2FIrRBabPXQBOVQTjSNlIdwg
週一時還沒好的 wayback machine snapshot 今天補上囉
https://github.com/cofacts/rumors-api/pull/344#issue-2499588263

那個 screenshot https://web.archive.org/web/20240902074808/http://web.archive.org/screenshot/https://learningpa.cc/lp_form_v8/ 看起來很滑稽
看來 wayback machine 存檔的邏輯是開一個長長的瀏覽器視窗來截圖
所以如果人家 landing page 用 `100vh` 做 first-fold,他就會佔滿整個長長的視窗 XD
code 沒問題的話我晚上 merge + deploy to master 唷~
mrorz 17:02:13
分析 https://cofacts.tw/article/13cpj45zy2qq3https://cofacts.tw/article/232ubygjqajyc 這兩篇由同一個 LINE 使用者送出的訊息以及下面的互動,都集中在 8/24 白天中午,以及 8/26 中午時間,我覺得確實很可疑,像是一團帳號在互捧。

尤其是那 2 個 LINE 使用者,第一篇表明想要發表,而兩篇都有一堆人在短時間內回應,感覺像是想洗 SEO;但內文好像也沒有違規的東西。

我應該只要 block 那個源頭的 LINE user,就可以達到讓兩篇文章、使其無法繼續洗 SEO。其他帳號就先不動。不知道這樣大家覺得如何?
mrorz 17:38:26
我今天想要再 raise 一下「把 Open165 license 換成 AGPL 來讓詐騙集團很難直接 clone 來用」這件事,看有沒有人有 concern。
想法是
• AGPL 強制 host Open165 的人都要開源
• 詐騙集團應該不會想開源(會暴露多餘的資訊),此時我們可以試著向詐騙網域的 Domain registrar 發 copyright infrigement 要求其下架該網域
看大家對這件事情有沒有什麼想法(這會 work 嗎、轉 AGPL 是否有其他隱憂⋯⋯等)
kiang 19:41:20
open165 是系統還是資料啊?
這裡是指系統,資料本身是政府開放資料條款授權的 165 資料
我原本一直以為是資料 XD
之後會加強 SEO 的部分(畢竟專案標的就是幫 165 資料弄 SEO)
所以才會擔心詐團也來用
kiang 19:41:20
open165 是系統還是資料啊?
這裡是指系統,資料本身是政府開放資料條款授權的 165 資料
我原本一直以為是資料 XD
之後會加強 SEO 的部分(畢竟專案標的就是幫 165 資料弄 SEO)
所以才會擔心詐團也來用

2024-09-03

Peter 11:18:20
今天收到的通知,不知道他們怎麼聯合165來阻詐的
IMG_7904
找到一個昨天發佈的新聞稿:https://www.ctee.com.tw/news/20240903700087-43990
情資共享吧
(透過 LINE channel 等方式)
Peter 11:18:48
然後打開網址發現是一個反詐騙的心理測驗(現在好多單位都好愛心理測驗
😂 1
Peter 11:18:48
然後打開網址發現是一個反詐騙的心理測驗(現在好多單位都好愛心理測驗

2024-09-04

mrorz 13:56:59
週一時還沒好的 wayback machine snapshot 今天補上囉
https://github.com/cofacts/rumors-api/pull/344#issue-2499588263

那個 screenshot https://web.archive.org/web/20240902074808/http://web.archive.org/screenshot/https://learningpa.cc/lp_form_v8/ 看起來很滑稽
看來 wayback machine 存檔的邏輯是開一個長長的瀏覽器視窗來截圖
所以如果人家 landing page 用 `100vh` 做 first-fold,他就會佔滿整個長長的視窗 XD

2024-09-09

2024-09-10

mrorz 17:58:34
@ronnywang 在處理資料的時候,發現有些中文字其實在電腦裡面是不同的,要經過 normalization 才能變成一樣的字。

例如 “⽴” (U+2F74) 跟 “立” (U+F9F7) 肉眼根本看不出差異,但搜尋的時候就是不一樣。

這讓我很好奇,Cofacts 資料庫與 165 資料集的字裡,如果做 unicode normalization 後,會有多少筆資料其實會跟 normalization 前不同。如果有相當比例的話,在寫入前與搜尋前都自動 normalize 的話,應該可以提高文字比對效率。

這裡有提到 PHP / Python / JS 解 <https://blog.sean.taipei/2021/12/unicode>

Bridge test
mrorz 17:58:34
@ronnywang 在處理資料的時候,發現有些中文字其實在電腦裡面是不同的,要經過 normalization 才能變成一樣的字。

例如 “⽴” (U+2F74) 跟 “立” (U+F9F7) 肉眼根本看不出差異,但搜尋的時候就是不一樣。

這讓我很好奇,Cofacts 資料庫與 165 資料集的字裡,如果做 unicode normalization 後,會有多少筆資料其實會跟 normalization 前不同。如果有相當比例的話,在寫入前與搜尋前都自動 normalize 的話,應該可以提高文字比對效率。

這裡有提到 PHP / Python / JS 解 <https://blog.sean.taipei/2021/12/unicode>

Bridge test
helloworld_bot 17:59:39
File from mgpcofacts2@mygopen with comment: File from mrorz@g0v-tw with comment: 看起來連 Google index 都沒有 normalize
image
看起來 bridge 抽搐了一下,把 sync 到 MGP 的訊息 sync 回來了 lol

2024-09-13

mrorz 00:56:24
Google 也要連到 wayback machine 惹

https://9to5google.com/2024/09/11/google-search-internet-archive-wayback-machine/

9to5Google

Google will now link to The Internet Archive to add more context to Search results

Rolling out starting today, Google Search results will now directly link to The Internet Archive to add historical context for...

2024-09-14

jacky228186 17:26:31
@jacky228186 has joined the channel

2024-09-16

mrorz 10:14:58
今日議程
https://g0v.hackmd.io/@cofacts/meetings/%2FUHKMm7h_QIe5EB4Z0cGQ3g
今天在線上舉行唷!

HackMD

Cofacts 會議記錄 - HackMD

# Cofacts 會議記錄 - [搜尋](<https://cse.google.com/cse?cx=71f4f7ee215d54fe6>)[target=_blank] ## 2024 -

mrorz 10:14:58
今日議程
https://g0v.hackmd.io/@cofacts/meetings/%2FUHKMm7h_QIe5EB4Z0cGQ3g
今天在線上舉行唷!