文章詳情頁
django - python實現(xiàn)兩篇文章相似度分析
瀏覽:95日期:2022-08-08 10:30:47
問題描述
如題,最近有需求要做文章相似度分析,需求很簡單,具體就是對比兩篇分別300字左右的文章的相似度情況,目前查到的方法,需要先中文分詞(jieba),然后對比相似度,時間緊任務(wù)重,不知道有沒有做過類似功能的大神可以指點一二的
問題解答
回答1:第一步你已經(jīng)給出了,首先對文章進(jìn)行中文分詞,然后計算每個詞在兩篇文章中的tf-idf值。然后計算兩個文章的余弦相似度,可以用Python中的gensim實現(xiàn)。
有疑問請繼續(xù)提問。
回答2:補一下一樓的答案在食用余弦相似性或TF-IDF,應(yīng)該首先去掉停止詞。
停止詞,是由英文單詞:stopword翻譯過來的,原來在英語里面會遇到很多a,the,or等使用頻率很多的字或詞,常為冠詞、介詞、副詞或連詞等。因為副詞,連詞這類詞語并不會十分影響我們對語義的判斷。
但是單純的余弦相似性和TF-IDF某種情況下并不能十分的可靠。推一波自己的鏈接2333這里
建議使用textrank和以上算法進(jìn)行結(jié)合
相關(guān)文章:
1. 一個走錯路的23歲傻小子的提問2. python - 如何使用pykafka consumer進(jìn)行數(shù)據(jù)處理并保存?3. javascript - SuperSlide.js火狐不兼容怎么回事呢4. java - 創(chuàng)建maven項目失敗了 求解決方法5. node.js - 函數(shù)getByName()中如何使得co執(zhí)行完后才return6. java-se - 正在學(xué)習(xí)Java SE,為什么感覺學(xué)習(xí)Java就是在學(xué)習(xí)一些API。7. 運行python程序時出現(xiàn)“應(yīng)用程序發(fā)生異常”的內(nèi)存錯誤?8. python - django 里自定義的 login 方法,如何使用 login_required()9. java - 安卓電視盒子取得了root權(quán)限但是不能安裝第三方應(yīng)用,請問該怎么辦?10. 一個mysql聯(lián)表查詢的問題
排行榜

熱門標(biāo)簽