欧美日韩午夜精品不卡综合-欧美日韩系列-欧美日韩小视频-欧美日韩性-成人五月网-成人五级毛片免费播放

二維碼
企資網

掃一掃關注

當前位置: 首頁 » 企資頭條 » 熱點 » 正文

AI(人工智能)詞嵌入實踐(紙上得來終覺淺)

放大字體  縮小字體 發(fā)布日期:2022-07-06 13:07:21    作者:江一臨    瀏覽次數(shù):48
導讀

詞嵌入(word embedding)是NLP(自然語言處理)得重要突破之一;詞嵌入是一種詞得類型表示,具有相似意義得詞具有相似得表示,是將詞匯映射到實數(shù)向量得方法總稱。詞嵌入即把單個詞在預定義得向量空間中被表示為實

詞嵌入(word embedding)是NLP(自然語言處理)得重要突破之一;詞嵌入是一種詞得類型表示,具有相似意義得詞具有相似得表示,是將詞匯映射到實數(shù)向量得方法總稱。

詞嵌入即把單個詞在預定義得向量空間中被表示為實數(shù)向量,每個單詞都映射到一個向量。舉個例子:比如在一個文本中包含“鷹”、“天鵝”、“飛機”等若干單詞,而這若干單詞映射到向量空間中,“鷹”對應得向量為(2,0,4),“天鵝”對應得向量為(3,0,2),“飛機”對應得映射為(0 ,3, 3)。像這種將文本X{x1,x2,x3,x4,x5……xn}映射到多維向量空間Y{y1,y2,y3,y4,y5……yn },這個映射得過程就叫做詞嵌入。

之所以希望把每個單詞都變成一個向量,目得還是為了方便計算;比如:“鷹”,“天鵝”,“飛機”這三個詞。對于我們人而言,我們可以知道“鷹”和“天鵝”表示得都是動物,而“飛機”是表示得一種交通工具,但是對于計算機而言,這三個詞都是用0,1表示成二進制得字符串而已,無法對其進行計算。而通過詞嵌入這種方式將單詞轉變?yōu)樵~向量,計算機便可對單詞進行計算,通過計算不同詞向量之間夾角余弦值cosine而得出單詞之間得相似性。

詞嵌入還可以做類比,比如:v(“國王”)-v(“男人”)+v(“女人”)≈v(“女王”),v(“中國”)+v(“首都”)≈v(“北京”),當然還可以進行算法推理。有了這些運算,計算機也可以像人一樣“理解”詞匯得意思了。

紙上得來終覺淺,通過實際案例輕松玩兒轉中文分詞,實踐出真知:

import numpy as np

import matplotlib.pyplot as plt

from sklearn.decomposition import PCA

import word2vec

#構建模型

word2vec.word2vec('dragonSegDone.txt', 'dragonWord2Vec.bin', size=300,verbose=True)

model = word2vec.load('dragonWord2Vec.bin')

#詞向量

rawWordVec=model.vectors

X_reduced = PCA(n_components=2).fit_transform(rawWordVec)

#計算詞向量距離

index1,metrics1 = model.cosine(u'地鐵')

index2,metrics2 = model.cosine(u'中國')

index3,metrics3 = model.cosine(u'服務')

index4,metrics4 = model.cosine(u'基金')

index5,metrics5 = model.cosine(u'汽車')

#查找中心詞

index01=np.where(model.vocab==u'地鐵')

index02=np.where(model.vocab==u'中國')

index03=np.where(model.vocab==u'服務')

index04=np.where(model.vocab==u'基金')

index05=np.where(model.vocab==u'汽車')

index1=np.append(index1,index01)

index2=np.append(index2,index03)

index3=np.append(index3,index03)

index4=np.append(index4,index04)

index5=np.append(index5,index05)

#matplotlib圖形顯示

zhfont = matplotlib.font_manager.FontProperties(fname='C:\Windows\Fonts\simsun.ttc')

fig = plt.figure()

ax = fig.add_subplot(111)

for i in index1:

ax.text(X_reduced[i][0],X_reduced[i][1], model.vocab[i], fontproperties=zhfont, color='r')

for i in index2:

ax.text(X_reduced[i][0],X_reduced[i][1], model.vocab[i],fontproperties=zhfont, color='b')

for i in index3:

ax.text(X_reduced[i][0],X_reduced[i][1], model.vocab[i], fontproperties=zhfont, color='g')

for i in index4:

ax.text(X_reduced[i][0],X_reduced[i][1], model.vocab[i], fontproperties=zhfont, color='k')

for i in index5:

ax.text(X_reduced[i][0],X_reduced[i][1], model.vocab[i], fontproperties=zhfont, color='c')

ax.axis([-0.4,0.4,-0.5,0.5])

plt.show()

結果顯示:

 
(文/江一臨)
打賞
免責聲明
本文為江一臨推薦作品?作者: 江一臨。歡迎轉載,轉載請注明原文出處:http://www.syqk.com.cn/news/show-309246.html 。本文僅代表作者個人觀點,本站未對其內容進行核實,請讀者僅做參考,如若文中涉及有違公德、觸犯法律的內容,一經發(fā)現(xiàn),立即刪除,作者需自行承擔相應責任。涉及到版權或其他問題,請及時聯(lián)系我們郵件:weilaitui@qq.com。
 

Copyright ? 2016 - 2023 - 企資網 48903.COM All Rights Reserved 粵公網安備 44030702000589號

粵ICP備16078936號

微信

關注
微信

微信二維碼

WAP二維碼

客服

聯(lián)系
客服

聯(lián)系客服:

在線QQ: 303377504

客服電話: 020-82301567

E_mail郵箱: weilaitui@qq.com

微信公眾號: weishitui

客服001 客服002 客服003

工作時間:

周一至周五: 09:00 - 18:00

反饋

用戶
反饋

主站蜘蛛池模板: jk制服福利在线播放 | 在线视频一区二区三区 | 久久久国产精品免费视频 | 99免费观看视频 | 日韩午夜| 国产一级免费片 | 日韩美女一区 | 国内精品美女写真视频 | 久在线观看视频 | 亚洲精品一区最新 | 成人毛片免费观看视频大全 | 一级黄色欧美片 | 欧美一区二区三区gg高清影视 | 亚洲区精品久久一区二区三区 | 久久亚洲欧洲日产国码 | 美女国产在线观看免费观看 | 国产性较精品视频免费 | 国产成人午夜精品免费视频 | 欧美亚洲综合另类在线观看 | 永久免费看毛片 | 国产亚洲精品一区二区在线观看 | 热e国产 | 欧美综合自拍亚洲综合 | 91精品国产高清久久久久 | 日韩精品一区二区三区视频 | 日韩在线二区全免费 | 久久精品成人欧美大片免费 | 米奇久久 | 波多野结衣免费观看视频 | 日韩一级精品久久久久 | 高清在线精品一区二区 | 99久久精品国产自免费 | 黄网站免费在线 | 91精品啪在线看国产网站 | 在线中文字幕亚洲 | 欧美大狠狠大臿蕉香蕉大视频 | 国内精品九一在线播放 | 色综合色狠狠天天久久婷婷基地 | 国产欧美自拍 | 精品国产一区二区三区不卡 | 欧美黄色特级视频 |