本文小編為大家詳細介紹“Extracting, transforming和selecting features的使用方法是什么”,內(nèi)容詳細,步驟清晰,細節(jié)處理妥當(dāng),希望這篇“Extracting, transforming和selecting features的使用方法是什么”文章能幫助大家解決疑惑,下面跟著小編的思路慢慢深入,一起來學(xué)習(xí)新知識吧。
創(chuàng)新互聯(lián)公司專注為客戶提供全方位的互聯(lián)網(wǎng)綜合服務(wù),包含不限于成都做網(wǎng)站、成都網(wǎng)站設(shè)計、隆林網(wǎng)絡(luò)推廣、小程序開發(fā)、隆林網(wǎng)絡(luò)營銷、隆林企業(yè)策劃、隆林品牌公關(guān)、搜索引擎seo、人物專訪、企業(yè)宣傳片、企業(yè)代運營等,從售前售中售后,我們都將竭誠為您服務(wù),您的肯定,是我們最大的嘉獎;創(chuàng)新互聯(lián)公司為所有大學(xué)生創(chuàng)業(yè)者提供隆林建站搭建服務(wù),24小時服務(wù)熱線:18980820575,官方網(wǎng)址:www.jbt999.com
Table of Contents
Feature Extractors 特征提取
TF-IDF
Word2Vec
CountVectorizer
Feature Transformers 特征變換
Tokenizer 分詞器
StopWordsRemover 停用字清除
nn-gram
Binarizer 二元化方法
PCA 主成成分分析
PolynomialExpansion 多項式擴展
Discrete Cosine Transform (DCT-離散余弦變換)
StringIndexer 字符串-索引變換
IndexToString 索引-字符串變換
OneHotEncoder 獨熱編碼
VectorIndexer 向量類型索引化
Interaction
Normalizer 范數(shù)p-norm規(guī)范化
StandardScaler 標(biāo)準(zhǔn)化 基于特征矩陣的列,將屬性值轉(zhuǎn)換至服從正態(tài)分布
MinMaxScaler 最大-最小歸一化[0,1]
MaxAbsScaler 絕對值歸一化[-1,1]
Bucketizer 分箱器
ElementwiseProduct Hadamard乘積
SQLTransformer SQL變換
VectorAssembler 特征向量合并
QuantileDiscretizer 分位數(shù)離散化
Imputer
Feature Selectors 特征選擇
VectorSlicer 向量選擇
RFormula R模型公式
ChiSqSelector 卡方特征選擇
Locality Sensitive Hashing 局部哈希敏感
Bucketed Random Projection for Euclidean Distance 歐式距離分桶隨機投影
MinHash for Jaccard Distance 杰卡德距離
Feature Transformation 特征轉(zhuǎn)換
Approximate Similarity Join 近似相似聯(lián)接
Approximate Nearest Neighbor Search 近似最近鄰搜索
LSH Operations
LSH Algorithms
詞頻-逆向文件頻率(TF-IDF)是一種特征向量化方法,廣泛用于文本挖掘中,以反映詞語對語料庫中文檔的重要性。 用tt表示詞語,用dd表示文檔,用DD表示語料庫。 詞語頻率TF(t,d)TF(t,d)是詞語tt在文檔dd中出現(xiàn)的次數(shù),而文檔頻率DF(t,D)DF(t,D)是包含詞語的文檔數(shù)量 tt。 如果我們僅使用詞語頻率來衡量重要性,則很容易過分強調(diào)那些經(jīng)常出現(xiàn)但幾乎沒有有關(guān)文檔信息的詞語,e.g. “a”, “the”, and “of”。 如果一個詞語在整個語料庫中經(jīng)常出現(xiàn),則表示該詞語不包含有關(guān)特定文檔的重要信息。 反向文檔頻率是一個詞語提供多少信息的數(shù)字度量:
IDF(t,D)=log|D|+1DF(t,D)+1,
D
是語料庫中文檔的總數(shù)。由于使用了log函數(shù),如果某個詞語出現(xiàn)在所有文檔中,則其IDF值將變?yōu)?。加1是為了避免分母為0的情況。TF-IDF 度量值表示如下:
TFIDF(t,d,D)=TF(t,d)?IDF(t,D).
在 MLlib ,TF-IDF被分成兩部分:TF 和 IDF,這樣會更靈活。

TF: HashingTF和CountVectorizer都可以用來生成詞語頻率向量。.
HashingTF是一個轉(zhuǎn)換器,它接受詞條并將這些術(shù)語集轉(zhuǎn)換為固定長度的特征向量。在文本處理中,一個詞袋模型。HashingTF utilizes the hashing trick.原始特征使用hash 函數(shù)映射成為索引。這里hash函數(shù)是MurmurHash 3。然后根據(jù)映射的索引計算詞頻。這種方法避免了需要計算一個全局 term-to-index 地圖,在映射大量語料庫時需要花費更長的時間。但是存在的哈希沖突,即哈希后,不同的原始特征可能會是同一個詞。為了減少碰撞的機會,我們可以增加特征維度,i.e., 提高hash表的桶數(shù)。由于使用了簡單的模將哈希函數(shù)轉(zhuǎn)換為列索引,建議使用2的冪作為特征維,否則,要素將不會均勻地映射到列。默認的特征維度是218=262,144218=262,144。可選的binary toggle parameter控制項頻率計數(shù)。設(shè)置為true時,所有非零頻率計數(shù)都設(shè)置為1。這對于模擬二進制計數(shù)而非整數(shù)計數(shù)的離散概率模型特別有用。
將文本文檔轉(zhuǎn)換為詞語計數(shù)的向量。 有關(guān)更多詳細信息,請參考 CountVectorizer。.
IDF: IDF是一個Estimator,在一個數(shù)據(jù)集上應(yīng)用它的fit()方法,產(chǎn)生一個IDFModel。 該IDFModel 接收特征向量(由HashingTF產(chǎn)生),然后計算每一個詞在文檔中出現(xiàn)的頻次。IDF會減少那些在語料庫中出現(xiàn)頻率較高的詞的權(quán)重。
Note: spark.ml沒有提供文本分割工具。 We refer users to the Stanford NLP Group and scalanlp/chalk.
讀到這里,這篇“Extracting, transforming和selecting features的使用方法是什么”文章已經(jīng)介紹完畢,想要掌握這篇文章的知識點還需要大家自己動手實踐使用過才能領(lǐng)會,如果想了解更多相關(guān)內(nèi)容的文章,歡迎關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道。
本文題目:Extracting,transforming和selectingfeatures的使用方法是什么
文章位置:http://www.jbt999.com/article22/iiepjc.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供網(wǎng)站維護、網(wǎng)站建設(shè)、企業(yè)建站、定制開發(fā)、商城網(wǎng)站、微信小程序
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:[email protected]。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)