亚洲精品久久久中文字幕-亚洲精品久久片久久-亚洲精品久久青草-亚洲精品久久婷婷爱久久婷婷-亚洲精品久久午夜香蕉

您的位置:首頁技術(shù)文章
文章詳情頁

django - python實現(xiàn)兩篇文章相似度分析

瀏覽:95日期:2022-08-08 10:30:47

問題描述

如題,最近有需求要做文章相似度分析,需求很簡單,具體就是對比兩篇分別300字左右的文章的相似度情況,目前查到的方法,需要先中文分詞(jieba),然后對比相似度,時間緊任務(wù)重,不知道有沒有做過類似功能的大神可以指點一二的

問題解答

回答1:

第一步你已經(jīng)給出了,首先對文章進(jìn)行中文分詞,然后計算每個詞在兩篇文章中的tf-idf值。然后計算兩個文章的余弦相似度,可以用Python中的gensim實現(xiàn)。

有疑問請繼續(xù)提問。

回答2:

補一下一樓的答案在食用余弦相似性或TF-IDF,應(yīng)該首先去掉停止詞。

停止詞,是由英文單詞:stopword翻譯過來的,原來在英語里面會遇到很多a,the,or等使用頻率很多的字或詞,常為冠詞、介詞、副詞或連詞等。因為副詞,連詞這類詞語并不會十分影響我們對語義的判斷。

但是單純的余弦相似性和TF-IDF某種情況下并不能十分的可靠。推一波自己的鏈接2333這里

建議使用textrank和以上算法進(jìn)行結(jié)合

標(biāo)簽: Python 編程
相關(guān)文章:
主站蜘蛛池模板: 91香蕉国产线在线观看免费 | 乱人伦99久久 | 黄色的网站免费观看 | 久久久久99精品成人片三人毛片 | 国内精品一区二区三区 | 国产精品欧美亚洲韩国日本99 | 日韩视频播放 | 日本特黄特黄刺激大片免费 | 欧美毛片性视频区 | 国产精品入口麻豆免费看 | 在线观看 一区 | 欧美日韩亚洲一区二区三区 | 99久久精品免费看国产 | 97久视频精品视频在线老司机 | 国产亚洲一区在线 | 日韩第一区 | 中国女人特级毛片 | 国语高清精品一区二区三区 | 免费毛片在线视频 | 国产成a人片在线观看视频 国产成a人片在线观看视频99 | 男女晚上日日麻批视频不挡 | 在线免费看黄的网站 | 黄色网日本| 亚洲福利在线观看 | 一级毛片免费在线观看网站 | 在线一区视频 | 日本精品一区二区三区在线观看 | 午夜性刺激片免费观看成人 | 最近中文日本字幕免费完整 | 亚洲福利秒拍一区二区 | 免费一级黄色 | www免费播放观看在线视频 | 国产孕妇做受视频在线观看 | 久久精品是免费100 久久精品首页 | 毛片成人永久免费视频 | 国产成人一区二区三区 | 免费看a级黄色片 | 国产好痛疼轻点好爽的视频 | 小明看看成人免费 | 中文字幕精品视频在线观看 | 国产中日韩一区二区三区 |