SQL多表聯合查詢時如何采用字段模糊匹配
目錄
- 先說一下背景和要求
- 方法一
- 方法二
- 方法三
先說一下背景和要求
背景:由于業務或是其他不描述的原因的問題導致原有存儲的數據發生變動,與現有數據有差別,但還是能勉強看明白數據內容。
要求:實現A表的名稱字段和B表的名稱字段要模糊匹配。
上圖:
假如A表長這樣:
B表長這樣:
然后我要想變成這樣:
簡單說就是在我關聯查詢兩表時,條件字段的取值看起來不一樣,但是意思是一樣的,應該要把這種數據關聯起來。但是SQL里面“=”兩邊又必須嚴格相同,所以現在怎么辦呢?
方法一
可以采用類似于LIKE模糊查詢的辦法。
MySQL:
SELECT a.id,a.`name`,b.newid,b.newname FROM z_good a,z_good_new bWHERE INSTR(a.`name`,b.newname)>0 OR INSTR(b.newname,a.`name`)>0
或者
SELECT a.id,a.`name`,b.newid,b.newname FROM z_good a,z_good_new bWHERE a.`name` LIKE CONCAT("%",b.newname,"%") OR b.newname LIKE CONCAT("%",a.`name`,"%")
Oracle:
SELECT a.id,a.`name`,b.newid,b.newname FROM z_good a,z_good_new bWHERE a.`name` LIKE "%"||b.newname||"%"
SQL Server:
SELECT a.id,a.`name`,b.newid,b.newname FROM z_good a,z_good_new bWHERE a.`name` LIKE "%"+b.newname+"%" OR b.newname LIKE "%"+a.`name`+"%"
順便說一下這里用到的字符串拼接功能在三類數據庫中的寫法:
SQL Server:
SELECT "123"+"456"
Oracle:
SELECT "123"||"456" FROM dual或SELECT CONCAT("123","456") FROM dual
MySQL:
SELECT CONCAT("123","456")
Oracle和MySQL中雖然都有CONCAT,但是Oracle中只能拼接2個字符串,所以建議用||的方式,MySQL中的CONCAT則可以拼接多個字符串。
此外,MySQL中的INSTR(STR,SUBSTR)函數,在一個字符串(STR)中搜索指定的字符(SUBSTR),返回發現指定的字符的位置(INDEX)。
- STR—被搜索的字符串;
- SUBSTR—希望搜索的字符串;
結論:在字符串STR里面,字符串SUBSTR出現的第一個位置(INDEX),INDEX是從1開始計算,如果沒有找到就直接返回0,沒有返回負數的情況。
到這兒,有同學就會發現,你這應用場景也太單一了吧,要是這種:A表被關聯字段值為“城鄉規劃”,B表被關聯字段值為“城市規劃”;或者A表被關聯字段值為“漂亮”,B表被關聯字段值為“美麗”。這樣的兩個字段值也是一個意思,但是用上面的方法就行不通了。
沒辦法了嘛?
有的。
方法二
你還可以使用NLP的算法來做上面最后提到的那種情況,關于這點,在我之前發表的文章《Word2Vec可視化展示》中已有詳細說明,感興趣的同學可以研究研究。
另外就是,不管哪種辦法,總有漏網之魚,也就是總有你匹配不到的情況,或是匹配錯誤的情況。所以還需要根據自己的需求、業務以及數據情況,具體問題具體分析,結合各種方法開發代碼實現自己想要的功能,做到因地制宜。
那有同學又問了,就沒有那種一招打天下的辦法了嗎?
有的。
方法三
你可以用你的最強大腦去手動處理~~~~~~~~~~
咳咳,我的意思是:就算要手動處理,我們也要減少手動處理的工作量嘛。要不“會急死人的”,真的“會急死人的”!
以上為個人經驗,希望能給大家一個參考,也希望大家多多支持。
相關文章:
