可以分為最大(最長)匹配和最小(最短)匹配;按照是否與詞性標(biāo)注過程相結(jié)合,又可以分為單純分詞方法和分詞與標(biāo)注相結(jié)合的一體化方法。
中文分詞,即 Chinese Word Segmentation,即將一個漢字序列進行切分,得到一個個單獨的詞。
CRF分詞算法可以說是目前最常用的分詞、詞性標(biāo)注和實體識別算法,它對未登陸詞也有很好的識別能力,是目前在速度、準(zhǔn)確率以及未登錄詞識別上綜合表現(xiàn)最突出的算法,也是我們目前所采用的解決方案,但速度會比感知機慢一些。
現(xiàn)有的分詞算法可分為三大類:基于字符串匹配的分詞方法、基于理解的分詞方法和基于統(tǒng)計的分詞方法。
分詞算法分類:字符匹配 這種方法又叫做機械分詞方法,它是按照一定的策略將待分析的漢字串與一個“充分大的”機器詞典中的詞條進行匹配,若在詞典中找到某個字符串,則匹配成功(識別出一個詞)。
分詞有很多種方法,三種是我們常用的,第一是基于字符串匹配的分詞方法、詞義分詞法、統(tǒng)計分詞法;目前百度是將三種算法結(jié)合在一起,構(gòu)成一套分詞算法系統(tǒng)。
使用正向最大匹配算法給一個長句子分詞的順序應(yīng)該如下:從句子的開頭開始掃描,取出最長的匹配詞作為分詞結(jié)果。將掃描指針移動至已經(jīng)分詞的末尾,繼續(xù)掃描未分詞的文本,重復(fù)步驟1,直至掃描完整個句子。
常用的幾種機械分詞方法如下:1)正向最大匹配法(由左到右的方向);首先粗分,按照句子把文本切成一個一個句子。然后把每個句子切成單字。
簡單點說便是從左到右從事分詞,比方baidu:武林別傳說,武林別傳與傳說是兩個不一樣的詞,憑據(jù)用戶索習(xí)慣與詞庫分析baidu會前往一個正向最大的婚配,也便是分詞為:武林別傳 說。
1、主要缺點 :黑盒操作,變量間的關(guān)系不清楚,不可視?;谧值膮^(qū)分模型有利于處理集外詞,而基于詞的生成模型更多地考慮了詞匯之間以及詞匯內(nèi)部字與字之間的依存關(guān)系。因此,可以將兩者的優(yōu)勢結(jié)合起來。
2、自然語言處理(NLP)是計算機科學(xué),人工智能,語言學(xué)關(guān)注計算機和人類(自然)語言之間的相互作用的領(lǐng)域。
3、句法的模糊性自然語言的文法通常是模棱兩可的,針對一個句子通??赡軙饰觯≒arse)出多棵剖析樹(Parse Tree),而我們必須要仰賴語意及前后文的資訊才能在其中選擇一棵最為適合的剖析樹。
4、在自然語言中詞與詞之間通常是連貫的,而正確劃分、界定不同的詞語實體是正確理解語言的基礎(chǔ) 。這個問題對于漢語尤其突出。界定字詞邊界通常使用的辦法是取用能讓給定的上下文最為通順且在方法上無誤的一種最佳組合。
5、NLP:計算機或系統(tǒng)真正理解人類語言并以與人類相同的方式處理它的能力。難度:理解話中的潛在意圖;理解句子中的歧義。歧義包括:單詞、句子、語義中歧義。
6、自然語言處理(Natural Language Processing,簡稱NLP)是人工智能領(lǐng)域的一個重要分支,主要研究如何讓計算機理解、處理和生成人類自然語言的技術(shù)。
分詞技術(shù)是指,一個關(guān)鍵詞,舉例子來說,我的網(wǎng)站里有“空中英語教室”這個關(guān)鍵詞,分詞技術(shù)是把這個短語分為“空中”“英語”“教室”這三個詞。
何謂搜索引擎中的seo分詞技術(shù),就是說,搜索引擎建立一個索引庫,將頁面上的文字進行拆分,然后將分好的詞一個個都放在索引庫里的技術(shù),叫做分詞;搜索引擎的這種技術(shù),就叫做分詞技術(shù)。
百度搜索引擎分詞技術(shù)(用百度的官方說法)是百度對于用戶提交查詢的關(guān)鍵詞串進行的查詢處理后,根據(jù)用戶的關(guān)鍵詞串用各種匹配方法進行處理的一種技術(shù)。
1、漢語分詞是由計算機自動識別文本中的詞邊界的過程。從計算機處理過程上看,分詞系統(tǒng)的輸入是連續(xù)的字符串(C1C2C3……Cn),輸出是漢語的詞串(W1W2W3……Wm), 這里,Wi 可以是單字詞也可以是多字詞。
2、中文分詞,即 Chinese Word Segmentation,即將一個漢字序列進行切分,得到一個個單獨的詞。
3、把中文的漢字序列切分成有意義的詞,就是中文分詞,有些人也稱為切詞。我是一個學(xué)生,分詞的結(jié)果是:我是 一個 學(xué)生。
4、中文切詞(又稱中文分詞,Chinese Word Segmentation)指的是將一個漢字序列切分成一個一個單獨的詞。中文分詞是文本挖掘的基礎(chǔ),對于輸入的一段中文,成功的進行中文分詞,可以達(dá)到電腦自動識別語句含義的效果。
5、中文分詞主要有三種技術(shù),分別為:基于統(tǒng)計的分詞模型其主要思想是把每個詞看作是由詞的最小單位的各個字組成的,如果相連的字在不同的文本中出現(xiàn)的次數(shù)越多,就證明這相連的字很可能就是一個詞。
6、百度的中文分詞是將一個漢語句子切分成一個個的單獨的詞,然后按照一定的規(guī)則重新組合成一個序列的過程,簡稱中文切詞。
正向匹配法 根絕句子的正序(由左至右)進行匹配,例如:發(fā)展中國家,切分為:發(fā)展/中國/家。逆向匹配法 根據(jù)句子的逆序(由右至左)進行匹配,例如:發(fā)展中國家,切分為:發(fā)展/中/國家。
考慮到各種綜合因素(例如品牌、頁面內(nèi)容、用戶體驗等),大型網(wǎng)站的頁面優(yōu)化價值大多數(shù)呈現(xiàn)逆向順序,即:最終頁》專題頁》欄目頁》頻道頁》首頁。
精確匹配,意思就是目標(biāo)人群搜索詞語與關(guān)鍵詞完全一致,才能展現(xiàn)。對于廣泛以及短語兩個匹配方式而已,由精準(zhǔn)匹配的關(guān)鍵詞展現(xiàn)幾率較低,相對的消費同樣較低。