decentralizehk

Month: 2021-10

2021-10-22

aurora 09:01:12
@aurora90376 has joined the channel

2021-10-23

pm5 10:05:29
@pm5 has joined the channel
Penghsuan 10:06:03
@penghsuanlee has joined the channel
Josh 10:06:10
@joshuacyyang has joined the channel
jr_farmer 10:06:24
@jrchen.ceo has joined the channel
chihao 10:08:25
@chihao has joined the channel
chihao 10:08:45
\ decentralize hk / \ archive hk /
🙌 3
CH 10:13:17
@colocolo317 has joined the channel
stella 10:25:22
@stella has joined the channel
ken200203231 10:31:32
@ken200203231 has joined the channel
chihao 10:32:01
#disinfo 也有一些關於備份的討論,也歡迎 decentralizehk 的朋友去看看 😄
1 👍 2
aurora 10:53:50
我們坑位在 面對講台右邊第四排&第五排呦
aurora 11:16:48
今天的目標 是試爬 獨立媒體官網IG & studioincendohk IG 然後整理出 csv 資料
Edmond Yu 12:32:46
Instagram 爬蟲是否有朋友會幫忙寫?會建一個 repo 分享出來嗎?
Hung Wei Jun 12:42:40
@edmond.kcyu 覺得獨媒的csv標題格式 用上面這份sample如何 還是要多加其他的嗎 比方說新聞分類?
Edmond Yu 12:47:47
覺得能抓到的 metadata 愈多愈好
Edmond Yu 12:54:37
但之前我有用過 apify.com 爬Instagram
ken200203231 12:55:47
想問如果我們直接把獨媒的新聞頁面整個抓下來上傳到 IPFS 上再注冊 ISCN 這樣會不會比較好?
ken200203231 12:56:16
把 html css javascript 甚麼的都抓下來這樣
Edmond Yu 13:02:53
可能要試試抓下來再看看效果,才能決定呢
ken200203231 13:04:25
我抓下來試試
Edmond Yu 13:04:40
@aurora90376 Studio Incendo 的 IG 可能仍有一些版權考慮(他們的 Flickr 是肯定 CC 4.0 沒錯),反正時間不多不如先集中做 inmediahk 的 IG?
aurora 13:06:04
好的
Edmond Yu 13:08:22
> 但之前我有用過 apify.com 爬Instagram
Apify 要付月費而且不便宜。如果我們有個可靠的 Instagram scraper 算是很大進展
ken200203231 13:14:11
https://github.com/arc298/instagram-scraper 這個是可以把圖片和 story 抓下來 可是文字還不行

arc298/instagram-scraper

Scrapes an instagram user's photos and videos

你是指圖片的文字抓不下來𠳕
ken200203231 2021-10-23 13:18:46
只有這樣
aurora 13:21:12
@wei949 ISCN App (like.co)

app.like.co

ISCN App

Register an ISCN for your content, mark an immutable record on blockchain for better authenticity.

LU 13:45:01
@hypothesquerelle has joined the channel
Edmond Yu 14:14:39
用 Apify 抓了 inmediahknet 完整的 instagram 數據:
inmedia_instagram.csv
產生了的 sh 檔用來真正下載的
🙌 1
fewa110010 14:50:10
@fewa110010 has joined the channel
ken200203231 14:50:45
更正 https://github.com/arc298/instagram-scraper 這個可以把 metadata 抓下來

arc298/instagram-scraper

Scrapes an instagram user's photos and videos

👍 2 👏 1
ken200203231 14:51:31
image.png
ken200203231 14:52:07
inmediahknet.json
產生這個 json 的代碼能分享一下嗎?
Hung Wei Jun 2021-10-23 15:29:13
安裝ken分享的repo後
```pip install instagram-scraper```
在terminal登入自己的account 設定要抓取的貼文數量 並加上`--media-metadata`選項
```instagram-scraper <username> -u <your username> -p <your password> -m 10 --media-metadata```
ken200203231 2021-10-23 15:32:23
instagram-scraper inmediahknet -u username -p password --media-metadata
ken200203231 2021-10-23 15:32:40
就是上面那個
👏 2
宇宸 15:31:20
獨媒官網的 demo result
result.csv
太棒了
Hung Wei Jun 2021-10-23 15:44:24
真的是神速
🙌 2
aurora 15:35:51
CreativeWork - Schema.org Type

schema.org

CreativeWork - Schema.org Type

<http://Schema.org|Schema.org> Type: CreativeWork - The most generic kind of creative work, including books, movies, photographs, software programs, etc.

❤️ 1
aurora 16:07:05
<iscn://likecoin-chain/kgVudpeNkmbxcI836pNvhBPepN6w2U7_Em1CsllrLok/1>
支聯會3常委准保釋 低調離開法院 未見梁錦威身影 | 獨媒報導 | 獨立媒體 (inmediahk.net)
IG的部分,目前在整理爬完的 2,135 筆資料
有沒有一個地方是分享爬了下來的檔案的?
還沒,目前都還存在自己的電腦
👏 1
Edmond Yu 16:37:53
有個問題:SocialMediaPost 一般沒有標題 ( `name` field)這會導致註冊到 ISCN 後不好找。
建議:在內文extract頭一句放在當作標題放在 name field。或用 regular expression 凡讀到一開始在【】或 [] 內的字串都當作標題
Hung Wei Jun 2021-10-23 16:44:15
所以這個建議是for instagram的嗎
對。in general 所有 SocialMediaPost 都有這問題
另外,若 Instagram post 出現多於一張圖(蠻常見的),打算怎樣處理呢?因為 schema.org 的 CreativeWork 或衍生出來的 SocialMediaPost type 好像都沒有適當的欄位儲存多於一個 media 檔
aurora 16:50:23
謝謝大家今天的參與,大家記得到共筆留下自己的名字,紀錄今天的貢獻!
1
aurora 16:51:44
手上的檔案也記得分享到共筆喔