tp-city-council-query

Month: 2021-02

2021-02-02

Ofelia Chen 11:46:16
這個計畫的共筆
ael 11:49:04
@aelcenganda has joined the channel
Rage 11:51:40
目前關鍵字生成的部分 (見共筆Task3),暫時先嘗試使用非NLP的做法
Kay 11:53:00
Peter是NLP的高手,也許也可以採用並行的方式,看看NLP的效果如何
Kay 11:53:26
因為我記得大松當天Rage跟Ofelia對準確性有一定的期待跟要求,這點Peter也許有機會可以協助
Rage 11:53:31
很樂意喔,可以並行當然更好
Kay 11:53:49
@peter.w 不知道您意下如何?
PeterWolf 15:34:05
我對這個政策的領域不太熟悉。請教一下,你們會怎麼判定一個詞彙為「關鍵字」?

我試試用你們的描述來設計。
Kay 15:50:31
@rrrageee @chienchienchen 請兩位協助解答
Rage 18:36:48
現在的做法(概念)是,每一段文字(目前是40字以內)交給google搜尋,得到的前幾個(目前是10個)標題去比對重複的文字作為參考詞。一個段落(數段文字)得到的所有參考詞會再互相比較過濾,作為大略的段落關鍵字。一個質詢主題的數個段落會再用相似的方法獲得質詢主題的關鍵字。
Rage 18:41:35
這個方法目前並沒有真正去了解獲得的關鍵字是什麼意思,而是利用出現的頻率來推敲
PeterWolf 00:18:24
瞭解了。我思考一下。
Kay 11:54:54
另外覺得這個案子,也許可以另外督促政府縮短公告逐字稿的時間
Ofelia Chen 15:14:52
我也是蠻希望台北市議會能快點提供逐字稿,但是今天打去問對方是說,因為稿子要一校二校,然後還要給議員校稿,所以需要一個月時間。
PeterWolf 17:14:16
校完以後,和錄影內容對得上嗎?
Rage 00:41:36
我知道不是每一句完全相同,但大部分不會相距甚遠,將比對的時間切成小段來回比對應該可行。畢竟不講求效能只講求結果
Kay 11:55:24
像議會這種面對民眾的,應該會有聽打部分,那麼應該可以假設有部分逐字稿的底
Ofelia Chen 15:17:14
您說的「逐字稿的底」是誰提供的呢?議會的聽打人員嗎?
Kay 15:17:51
理論上聽打的人會有檔案,但是如果議會要統一(議員過稿後)才給的話,這邊拿到的機會很低了
Rage 12:01:27
關鍵字現在是利用對比文字去google結果的方式,找每個段落大約的方向及關鍵字,再匯集做過濾
Rage 12:02:39
如果中間有適合加入NLP的切入點也會很有幫助

2021-02-03

John Huang 01:26:36
@little78926 has joined the channel
SweetCow 15:51:45
@ssweetcoww has joined the channel

2021-02-04

Alice Huang 12:35:15
@do810375 has joined the channel