文章詳情頁

django - python實現(xiàn)兩篇文章相似度分析

瀏覽：95日期：2022-08-08 10:30:47

問題描述

如題，最近有需求要做文章相似度分析，需求很簡單，具體就是對比兩篇分別300字左右的文章的相似度情況，目前查到的方法，需要先中文分詞（jieba），然后對比相似度，時間緊任務(wù)重，不知道有沒有做過類似功能的大神可以指點一二的

問題解答

回答1：

第一步你已經(jīng)給出了，首先對文章進(jìn)行中文分詞，然后計算每個詞在兩篇文章中的tf-idf值。然后計算兩個文章的余弦相似度，可以用Python中的gensim實現(xiàn)。

有疑問請繼續(xù)提問。

回答2：

補一下一樓的答案在食用余弦相似性或TF-IDF，應(yīng)該首先去掉停止詞。

停止詞，是由英文單詞:stopword翻譯過來的，原來在英語里面會遇到很多a，the，or等使用頻率很多的字或詞，常為冠詞、介詞、副詞或連詞等。因為副詞，連詞這類詞語并不會十分影響我們對語義的判斷。

但是單純的余弦相似性和TF-IDF某種情況下并不能十分的可靠。推一波自己的鏈接2333這里

建議使用textrank和以上算法進(jìn)行結(jié)合

Python 編程

上一條：python - 為什么感覺 pyspider 爬取的速度好慢下一條：python - 標(biāo)簽樹的下行遍歷如何跳過第一個標(biāo)簽

相關(guān)文章：

1. 一個走錯路的23歲傻小子的提問2. python - 如何使用pykafka consumer進(jìn)行數(shù)據(jù)處理并保存？3. javascript - SuperSlide.js火狐不兼容怎么回事呢4. java - 創(chuàng)建maven項目失敗了求解決方法5. node.js - 函數(shù)getByName()中如何使得co執(zhí)行完后才return6. java-se - 正在學(xué)習(xí)Java SE，為什么感覺學(xué)習(xí)Java就是在學(xué)習(xí)一些API。7. 運行python程序時出現(xiàn)“應(yīng)用程序發(fā)生異常”的內(nèi)存錯誤？8. python - django 里自定義的 login 方法，如何使用 login_required()9. java - 安卓電視盒子取得了root權(quán)限但是不能安裝第三方應(yīng)用，請問該怎么辦？10. 一個mysql聯(lián)表查詢的問題

排行榜

					
					python - 如何使用pykafka consumer進(jìn)行數(shù)據(jù)處理并保存？
node.js - 函數(shù)getByName()中如何使得co執(zhí)行完后才return
javascript - SuperSlide.js火狐不兼容怎么回事呢
一個走錯路的23歲傻小子的提問
java - 創(chuàng)建maven項目失敗了  求解決方法
android - 離線地圖的這種列表該怎么實現(xiàn)？
主從備份 - 跪求mysql 高可用主從方案
angular.js - 不適用其他構(gòu)建工具，怎么搭建angular1項目
python - django 里自定義的  login 方法，如何使用 login_required()
一個mysql聯(lián)表查詢的問題
運行python程序時出現(xiàn)“應(yīng)用程序發(fā)生異常”的內(nèi)存錯誤？
				

熱門標(biāo)簽

亚洲精品久久久中文字幕-亚洲精品久久片久久-亚洲精品久久青草-亚洲精品久久婷婷爱久久婷婷-亚洲精品久久午夜香蕉

django - python實現(xiàn)兩篇文章相似度分析