#cofacts
2018-09-01
fly
14:12:28
原來如此XD。" 雙引號其實看起來不奇怪,可以考慮看看。馬上排第一
2018-09-02
kchistark
15:31:23
@kchistark has joined the channel
caasi
16:54:46
@kchistark 在今天的基礎松好奇,是否可以用上什麼自然語言處理技術,來協助 cofacts
caasi
16:55:15
而 @kchistark 自己的專業則是 ML 的樣子
kchistark
16:58:08
沒啦沒啦 我還是個初學者
kchistark
16:58:40
只是想說人工會不會很難一直持續下去 能否用一下基本的語言處理 像是語意分析之類的
2018-09-03
mrorz
00:48:38
@kchistark 我覺得 NLP 最能處理的應該是分類唷!
我目前有請 @darkbtf 幫忙看看有沒有機會自動分類。一旦能分類,那後面就可以接「讓編輯訂閱特定分類」之類的功能,讓不同領域的編輯都能用最短時間找到 matching 的訊息。
我目前有請 @darkbtf 幫忙看看有沒有機會自動分類。一旦能分類,那後面就可以接「讓編輯訂閱特定分類」之類的功能,讓不同領域的編輯都能用最短時間找到 matching 的訊息。
darkbtf
2018-09-05 21:22:04
我應該會先用一些簡單的方法做做看… (e.g. TFIDF, LDA …)
目前主要的 effort 其實會是在清資料那邊 XDD
目前主要的 effort 其實會是在清資料那邊 XDD
mrorz
00:48:56
不過目前還沒有進度,所以 @kchistark 與 @darkbtf 可以交流一下 XD
mrorz
00:52:13
具體來說我這個階段想處理的是,若這些同婚相關訊息(網頁裡的那一堆 URL)作為 positive label:
https://g0v.hackmd.io/c/B1iHBvVPQ/https%3A%2F%2Fhackmd.io%2Fs%2FBJ20SxQPm
然後以所有資料庫內的文章作為語料庫:https://github.com/cofacts/opendata (articles.csv)
我們是否可以訓練一個分類器,來決定一篇新傳進來的轉傳訊息是否是「同婚相關」,以及其信心水準。
https://g0v.hackmd.io/c/B1iHBvVPQ/https%3A%2F%2Fhackmd.io%2Fs%2FBJ20SxQPm
然後以所有資料庫內的文章作為語料庫:https://github.com/cofacts/opendata (articles.csv)
我們是否可以訓練一個分類器,來決定一篇新傳進來的轉傳訊息是否是「同婚相關」,以及其信心水準。
mrorz
00:53:47
註:語料庫裡面其實還有超多同婚相關訊息,不只有我上面那個 hackmd 列出來的那些。訓練的時候要注意 QQ
2018-09-04
yukai
11:40:59
@yukai has joined the channel
2018-09-05
ttcat
15:56:18
Hello~
ttcat
15:57:10
除了上次開發 fb chatbot 的經費之外,如果我們這邊增加一點經費,請各位研究 whatsapp 的新 API(只要做可行性評估即可)適不適合 cofacts,這樣目前團隊有人有興趣可以執行嗎?
ttcat
15:58:17
具體來說是閱讀 whatsapp api doc 然後出一個 1~2 page 報告包括 cofacts 要在 whatsapp 上面 run 的話需要哪些資源、哪些功能不可行、需要修改哪些流程等等
ttcat
15:58:36
但是需要寫成英文(像是 github readme 即可不用到正式報告)
mrorz
17:22:47
1~2 page report 呀
請問有時程嗎
請問有時程嗎
ttcat
17:23:39
對方沒有説喔,要不要這邊提議?
mrorz
17:30:53
好唷我們晚上開會時討論
ttcat
19:06:52
備註(whatsapp 的 api 蠻怪異的,要用的人自己好像要開台機器跑一個軟體還是程式)
mrorz
21:08:21
請問 @ttcat
mrorz
21:08:36
whatsapp 可行性研究,可以 11/24 之後再進行嗎
mrorz
21:08:58
還是案主也有大選要趕 ._.
darkbtf
21:22:04
Replied to a thread: 2018-09-03 00:48:38
我應該會先用一些簡單的方法做做看… (e.g. TFIDF, LDA …)
目前主要的 effort 其實會是在清資料那邊 XDD
目前主要的 effort 其實會是在清資料那邊 XDD
ttcat
21:36:34
沒問題我來問問
ttcat
21:36:45
cc 你們
ttcat
21:39:33
有討論大概要多少錢嗎
mrorz
22:02:01
我說我覺得這好像很便宜,NTD 100 吧 (欸
ttcat
22:02:25
….
ttcat
22:02:49
我開公司好了,要來當我員工嗎
mrorz
22:02:49
實際上是沒有討論到錢呢
ttcat
22:02:57
XD
2018-09-07
ttcat
10:25:19
話說有人不想去 g0v 年會,想去 DC 一趟演講的嗎
ttcat
10:25:24
4-5 Oct
ttcat
10:26:03
美國政府辦的 disinformation 活動邀請
mrorz
10:27:24
只好請華盛頓改期了(欸
ttcat
10:28:28
XD 我個人是已經拒絕了啦,但是還是來問問 cofacts team
ttcat
10:28:38
今天晚上回我應該都還有效喔
mrorz
10:37:02
好的感謝,已經詢問團隊成員,不知道會不會有人剛好在國外想去
ttcat
18:55:31
不用錢唷 XD
2018-09-08
Leo
17:58:39
@leoleelf has joined the channel
2018-09-09
mrorz
01:42:26
@acerxp511 你在接 GA 的時候是不是有遇過 real time report 都空空的問題呀
我後來發現在我們上線之後,有這張新 ticket:
https://github.com/peaksandpies/universal-analytics/issues/104
由於我想加個新功能但苦無 real time report 可讀,所以我也在最下面回應了。
我後來發現在我們上線之後,有這張新 ticket:
https://github.com/peaksandpies/universal-analytics/issues/104
由於我想加個新功能但苦無 real time report 可讀,所以我也在最下面回應了。
GitHub
I'm starting to use universal-analytics exclusively on the server-side. My browser clients send custom events to my servers, and my servers then post events to google analytics using universal-...
mrorz
2018-09-10 11:25:04
後來發現解了,就是多送個 screen view
nonumpa
2018-09-10 19:13:00
我遇到的問題是 non-interactionHit 在 ActiveUser 的頁籤看不到,要在 event 才有
mrorz
2018-09-11 10:07:25
咦,interaction hit 就有嗎
mrorz
2018-09-11 10:07:33
我遇到的狀況是啥都看不到 囧
2018-09-10
nonumpa
19:13:00
我遇到的問題是 non-interactionHit 在 ActiveUser 的頁籤看不到,要在 event 才有
2018-09-11
mrorz
10:07:25
咦,interaction hit 就有嗎
mrorz
10:07:33
我遇到的狀況是啥都看不到 囧
ttcat
15:21:52
哈囉~fb bot 有進度嗎?
mrorz
2018-09-11 15:41:20
@changhc84
mrorz
2018-09-11 17:37:32
他回信給 ttcat 囉
mrorz
15:41:20
@changhc84
mrorz
17:37:32
他回信給 ttcat 囉
2018-09-12
mrorz
11:28:23
2018-09-13
agameofprivacy
07:03:29
- 🌪️1
yiji
2018-09-17 13:51:04
不是很懂,為何他不加入真的假的,而要自己另外弄一個 Orz
mrorz
2018-09-18 10:49:44
??? 是說 FEMA 該加入真的假的嗎?
yiji
2018-09-24 01:06:29
Orz 我手殘。我是說這個 https://www.mygopen.com/
mrorz
2018-09-24 12:38:45
mygopen 比我們早呀
mrorz
2018-09-24 12:39:08
mygopen 是內容產製者
我們是傳播渠道
所以不太一樣唷
我們是傳播渠道
所以不太一樣唷
mrorz
2018-09-24 12:40:00
mygopen 實際生產闢謠內容
cofacts 搜集謠言並且把謠言與闢謠內容連在一起
兩個缺一不可唷
cofacts 搜集謠言並且把謠言與闢謠內容連在一起
兩個缺一不可唷
mrorz
2018-09-24 12:59:46
合作方式有:
1. mygopen 除了自己的搜集管道 (LINE@) 之外,也可以來 Cofacts 看訊息的熱門度
2. 寫完回應之後,Mygopen 可以在 Cofacts 回應,貼上自己平台的回應,讓 Cofacts 導流量給他們
1. mygopen 除了自己的搜集管道 (LINE@) 之外,也可以來 Cofacts 看訊息的熱門度
2. 寫完回應之後,Mygopen 可以在 Cofacts 回應,貼上自己平台的回應,讓 Cofacts 導流量給他們
yiji
2018-09-30 21:29:49
原來如此!乾蝦~~
2018-09-17
chihao
01:25:50
我是不是 lag 了 XD https://www.mygopen.com/
2018-09-18
ronnywang
13:15:22
有一位蘋果日報的記者唐鎮宇最近在做假新聞相關的專題,想要訪問真的假的,你們有意願接受訪問嗎?
mrorz
13:23:21
我們有收到~~感謝提醒
2018-09-19
mrorz
00:08:34
有的有的
ttcat
15:08:48
@changhc84 合約 slack 私訊你了
ttcat
2018-09-20 14:44:42
@mrorz有樓上同學其他聯絡方式嗎 XD
mrorz
2018-09-20 16:42:20
我把它其他聯絡方式私訊你好了 XD
mrorz
2018-09-20 16:45:03
正在詢問中
mrorz
2018-09-20 17:35:08
sent
ttcat
2018-09-20 17:36:12
++
mrorz
20:04:43
HackMD
20180919 會議記錄 ===== > Previous meeting note: <https://g0v.hackmd.io/At7YimndTOWcS1Zej0UHYQ> > ##
2018-09-20
ttcat
14:44:42
@mrorz有樓上同學其他聯絡方式嗎 XD
mrorz
16:42:20
我把它其他聯絡方式私訊你好了 XD
mrorz
16:45:03
正在詢問中
mrorz
17:35:08
sent
ttcat
17:36:12
++
2018-09-23
2018-09-24
yiji
01:06:29
Orz 我手殘。我是說這個 https://www.mygopen.com/
nonumpa
08:31:48
https://m.facebook.com/LINE-免費貼圖-2308669512692825/
今天看到免費貼圖的fb bot,才意識到這個因為科技發展產生的新職業:詐騙機器人工程師 🤑
今天看到免費貼圖的fb bot,才意識到這個因為科技發展產生的新職業:詐騙機器人工程師 🤑
mrorz
12:09:31
這樣也行 lol
mrorz
12:39:08
mygopen 是內容產製者
我們是傳播渠道
所以不太一樣唷
我們是傳播渠道
所以不太一樣唷
mrorz
12:40:00
mygopen 實際生產闢謠內容
cofacts 搜集謠言並且把謠言與闢謠內容連在一起
兩個缺一不可唷
cofacts 搜集謠言並且把謠言與闢謠內容連在一起
兩個缺一不可唷
mrorz
12:59:46
合作方式有:
1. mygopen 除了自己的搜集管道 (LINE@) 之外,也可以來 Cofacts 看訊息的熱門度
2. 寫完回應之後,Mygopen 可以在 Cofacts 回應,貼上自己平台的回應,讓 Cofacts 導流量給他們
1. mygopen 除了自己的搜集管道 (LINE@) 之外,也可以來 Cofacts 看訊息的熱門度
2. 寫完回應之後,Mygopen 可以在 Cofacts 回應,貼上自己平台的回應,讓 Cofacts 導流量給他們
mrorz
22:29:28
@darkbtf @ggm
我正在爬 article / reply 裡的所有 URL,目前爬了 3000 個 URL,但 `urls` index 就快 250 MB 了。
這樣一來整個資料庫爬完, `urls` index 大概會上看 2GB Orz
現在 `urls` index 裡會把爬到的 raw html 存下來,想說如果頁面爆炸了,還有個 html 可以當頁庫存檔。但現在看起來他的大小會影響我平常的備份工作,這樣我應該怎麼處理好呢?
我正在爬 article / reply 裡的所有 URL,目前爬了 3000 個 URL,但 `urls` index 就快 250 MB 了。
這樣一來整個資料庫爬完, `urls` index 大概會上看 2GB Orz
現在 `urls` index 裡會把爬到的 raw html 存下來,想說如果頁面爆炸了,還有個 html 可以當頁庫存檔。但現在看起來他的大小會影響我平常的備份工作,這樣我應該怎麼處理好呢?
是指 elastic search 的備份會炸嗎?
mrorz
2018-09-25 10:17:33
嗯,因為我的 elastic search 備份方式是打包整個 elasticsearch 的 `esdata`
mrorz
2018-09-25 10:17:48
如果有 index 超大,那包起來就會超大囧
mrorz
2018-09-25 10:18:13
另外我覺得應該要準備搬家了,url resolver 有點吃資源 QQ
2018-09-25
mrorz
00:10:47
https://github.com/cofacts/rumors-api/pull/104 中秋節 PR:URL preview 的 migration script 完成啦,現在正在爬 20000 篇文章、20000 篇回應的各個 URL。
GitHub
This PR is the last missing piece of #41 -- the filler of existing hyperlinks and URLs for all articles & replies in the database. During execution: The urls index and hyperlinks of the fetch...
mrorz
00:11:48
scrapper 本體是這個服務:
https://github.com/cofacts/url-resolver
如果大家想架一個會自己做 text summarization 的爬蟲,可以直接載這個 cofacts url resolver 的 docker image 來玩玩看~
https://github.com/cofacts/url-resolver
如果大家想架一個會自己做 text summarization 的爬蟲,可以直接載這個 cofacts url resolver 的 docker image 來玩玩看~
GitHub
Automatically resolves the given URL into useful data - cofacts/url-resolver
ggm
01:22:56
是指 elastic search 的備份會炸嗎?
mrorz
10:17:33
嗯,因為我的 elastic search 備份方式是打包整個 elasticsearch 的 `esdata`
mrorz
10:17:48
如果有 index 超大,那包起來就會超大囧
mrorz
10:18:13
另外我覺得應該要準備搬家了,url resolver 有點吃資源 QQ
2018-09-26
mrorz
14:57:23
mglee
2018-09-26 15:04:18
今天有別的攤,不去打擾了~
2018-09-27
patcon
18:05:51
@patcon has joined the channel
2018-09-28
fly
07:28:20
請問cofacts在桌機筆電上有使用管道嗎?
mrorz
10:43:04
chatbot 的部分 LINE 桌面版是可以使用的唷
mrorz
10:43:40
不過有些按鈕(例如說「傳理由給我們」)按下去會跟你說「請到手機版確認內容」就是了
mrorz
10:44:06
(但那個步驟其實可以直接在輸入框打字所以不影響使用)
mrorz
10:44:18
可以參考有話好說陳信聰大哥怎麼用 XDD
2018-09-29
fly
12:39:07
謝謝!原來用line桌面版就解決了
2018-09-30
viktor
16:04:48
@mrorz 在這問一下,「 Building social media monitoring networks, tools and techniques for Asian elections」的講者詢問 Summit 議程組能不能幫忙聯繫 cofacts,他們想邀請一位去他們的 workshop 參與討論,有意願的話我先把那封信 cc 給你們?
mrorz
16:16:50
好的,麻煩請 cc 到 cofacts@googlegroups.com 唷
感謝感謝
感謝感謝
mrorz
16:33:47
@viktor
yiji
21:29:49
原來如此!乾蝦~~