#decentralizehk
2021-10-22
aurora
09:01:12
@aurora90376 has joined the channel
2021-10-23
pm5
10:05:29
@pm5 has joined the channel
Penghsuan
10:06:03
@penghsuanlee has joined the channel
Josh
10:06:10
@joshuacyyang has joined the channel
jr_farmer
10:06:24
@jrchen.ceo has joined the channel
chihao
10:08:25
@chihao has joined the channel
CH
10:13:17
@colocolo317 has joined the channel
stella
10:25:22
@stella has joined the channel
ken200203231
10:31:32
@ken200203231 has joined the channel
aurora
10:53:50
我們坑位在 面對講台右邊第四排&第五排呦
aurora
11:16:48
Edmond Yu
12:32:46
Instagram 爬蟲是否有朋友會幫忙寫?會建一個 repo 分享出來嗎?
Hung Wei Jun
12:42:40
@edmond.kcyu 覺得獨媒的csv標題格式 用上面這份sample如何 還是要多加其他的嗎 比方說新聞分類?
Edmond Yu
12:47:47
覺得能抓到的 metadata 愈多愈好
ken200203231
12:55:47
想問如果我們直接把獨媒的新聞頁面整個抓下來上傳到 IPFS 上再注冊 ISCN 這樣會不會比較好?
ken200203231
12:56:16
把 html css javascript 甚麼的都抓下來這樣
Edmond Yu
13:02:53
可能要試試抓下來再看看效果,才能決定呢
ken200203231
13:04:25
我抓下來試試
Edmond Yu
13:04:40
@aurora90376 Studio Incendo 的 IG 可能仍有一些版權考慮(他們的 Flickr 是肯定 CC 4.0 沒錯),反正時間不多不如先集中做 inmediahk 的 IG?
aurora
13:06:04
好的
ken200203231
13:14:11
https://github.com/arc298/instagram-scraper 這個是可以把圖片和 story 抓下來 可是文字還不行
Edmond Yu
2021-10-23 13:15:32
你是指圖片的文字抓不下來𠳕
ken200203231
2021-10-23 13:18:46
只有這樣
Edmond Yu
13:15:32
你是指圖片的文字抓不下來𠳕
ken200203231
13:18:46
只有這樣
LU
13:45:01
@hypothesquerelle has joined the channel
kin465
13:52:29
https://docs.google.com/presentation/d/1Ih2Ri27a5RodRvybFY3bpPqxFyaHHzFASXyvhS3IDwE/edit?usp=sharing
Edmond Yu
14:14:39
用 Apify 抓了 inmediahknet 完整的 instagram 數據:
- 🙌1
Edmond Yu
2021-10-23 14:25:35
產生了的 sh 檔用來真正下載的
Edmond Yu
14:25:35
產生了的 sh 檔用來真正下載的
fewa110010
14:50:10
@fewa110010 has joined the channel
ken200203231
14:52:07
- 👏2
Edmond Yu
2021-10-23 15:20:08
產生這個 json 的代碼能分享一下嗎?
Hung Wei Jun
2021-10-23 15:29:13
安裝ken分享的repo後
```pip install instagram-scraper```
在terminal登入自己的account 設定要抓取的貼文數量 並加上`--media-metadata`選項
```instagram-scraper <username> -u <your username> -p <your password> -m 10 --media-metadata```
```pip install instagram-scraper```
在terminal登入自己的account 設定要抓取的貼文數量 並加上`--media-metadata`選項
```instagram-scraper <username> -u <your username> -p <your password> -m 10 --media-metadata```
ken200203231
2021-10-23 15:32:23
instagram-scraper inmediahknet -u username -p password --media-metadata
ken200203231
2021-10-23 15:32:40
就是上面那個
Edmond Yu
15:20:08
產生這個 json 的代碼能分享一下嗎?
Hung Wei Jun
15:29:13
安裝ken分享的repo後
```pip install instagram-scraper```
在terminal登入自己的account 設定要抓取的貼文數量 並加上`--media-metadata`選項
```instagram-scraper <username> -u <your username> -p <your password> -m 10 --media-metadata```
```pip install instagram-scraper```
在terminal登入自己的account 設定要抓取的貼文數量 並加上`--media-metadata`選項
```instagram-scraper <username> -u <your username> -p <your password> -m 10 --media-metadata```
宇宸
15:31:20
獨媒官網的 demo result
- 🙌2
aurora
2021-10-23 15:38:43
太棒了
Hung Wei Jun
2021-10-23 15:44:24
真的是神速
ken200203231
15:32:23
instagram-scraper inmediahknet -u username -p password --media-metadata
ken200203231
15:32:40
就是上面那個
aurora
15:35:51
CreativeWork - Schema.org Type
schema.org
<http://Schema.org|Schema.org> Type: CreativeWork - The most generic kind of creative work, including books, movies, photographs, software programs, etc.
- ❤️1
aurora
15:38:43
太棒了
Hung Wei Jun
15:44:24
真的是神速
aurora
16:07:05
<iscn://likecoin-chain/kgVudpeNkmbxcI836pNvhBPepN6w2U7_Em1CsllrLok/1>
- 👏1
aurora
2021-10-23 16:07:25
支聯會3常委准保釋 低調離開法院 未見梁錦威身影 | 獨媒報導 | 獨立媒體 (inmediahk.net)
aurora
2021-10-23 16:19:40
@wei949 獨立媒體 inmediahk.net(@inmediahknet)• Instagram 相片與影片
aurora
2021-10-23 16:20:37
IG的部分,目前在整理爬完的 2,135 筆資料
Edmond Yu
2021-10-23 16:44:09
有沒有一個地方是分享爬了下來的檔案的?
aurora
2021-10-23 16:45:17
還沒,目前都還存在自己的電腦
aurora
16:07:25
支聯會3常委准保釋 低調離開法院 未見梁錦威身影 | 獨媒報導 | 獨立媒體 (inmediahk.net)
aurora
16:19:40
@wei949 獨立媒體 inmediahk.net(@inmediahknet)• Instagram 相片與影片
aurora
16:20:37
IG的部分,目前在整理爬完的 2,135 筆資料
Edmond Yu
16:37:53
有個問題:SocialMediaPost 一般沒有標題 ( `name` field)這會導致註冊到 ISCN 後不好找。
建議:在內文extract頭一句放在當作標題放在 name field。或用 regular expression 凡讀到一開始在【】或 [] 內的字串都當作標題
建議:在內文extract頭一句放在當作標題放在 name field。或用 regular expression 凡讀到一開始在【】或 [] 內的字串都當作標題
Hung Wei Jun
2021-10-23 16:44:15
所以這個建議是for instagram的嗎
Edmond Yu
2021-10-23 16:44:56
對。in general 所有 SocialMediaPost 都有這問題
Edmond Yu
2021-10-23 16:46:48
另外,若 Instagram post 出現多於一張圖(蠻常見的),打算怎樣處理呢?因為 schema.org 的 CreativeWork 或衍生出來的 SocialMediaPost type 好像都沒有適當的欄位儲存多於一個 media 檔
Edmond Yu
16:44:09
有沒有一個地方是分享爬了下來的檔案的?
Hung Wei Jun
16:44:15
所以這個建議是for instagram的嗎
Edmond Yu
16:44:56
對。in general 所有 SocialMediaPost 都有這問題
aurora
16:45:17
還沒,目前都還存在自己的電腦
Edmond Yu
16:46:48
另外,若 Instagram post 出現多於一張圖(蠻常見的),打算怎樣處理呢?因為 schema.org 的 CreativeWork 或衍生出來的 SocialMediaPost type 好像都沒有適當的欄位儲存多於一個 media 檔
aurora
16:51:44
手上的檔案也記得分享到共筆喔