<del id="d4fwx"><form id="d4fwx"></form></del>
      <del id="d4fwx"><form id="d4fwx"></form></del><del id="d4fwx"><form id="d4fwx"></form></del>

            <code id="d4fwx"><abbr id="d4fwx"></abbr></code>
          • Extracting,transforming和selectingfeatures的使用方法是什么

            本文小編為大家詳細介紹“Extracting, transforming和selecting features的使用方法是什么”,內(nèi)容詳細,步驟清晰,細節(jié)處理妥當(dāng),希望這篇“Extracting, transforming和selecting features的使用方法是什么”文章能幫助大家解決疑惑,下面跟著小編的思路慢慢深入,一起來學(xué)習(xí)新知識吧。

            創(chuàng)新互聯(lián)公司專注為客戶提供全方位的互聯(lián)網(wǎng)綜合服務(wù),包含不限于成都做網(wǎng)站、成都網(wǎng)站設(shè)計、隆林網(wǎng)絡(luò)推廣、小程序開發(fā)、隆林網(wǎng)絡(luò)營銷、隆林企業(yè)策劃、隆林品牌公關(guān)、搜索引擎seo、人物專訪、企業(yè)宣傳片、企業(yè)代運營等,從售前售中售后,我們都將竭誠為您服務(wù),您的肯定,是我們最大的嘉獎;創(chuàng)新互聯(lián)公司為所有大學(xué)生創(chuàng)業(yè)者提供隆林建站搭建服務(wù),24小時服務(wù)熱線:18980820575,官方網(wǎng)址:www.jbt999.com

            Table of Contents

            • Feature Extractors 特征提取

              • TF-IDF

              • Word2Vec

              • CountVectorizer

            • Feature Transformers 特征變換

              • Tokenizer 分詞器

              • StopWordsRemover 停用字清除

              • nn-gram

              • Binarizer 二元化方法

              • PCA 主成成分分析

              • PolynomialExpansion 多項式擴展

              • Discrete Cosine Transform (DCT-離散余弦變換) 

              • StringIndexer 字符串-索引變換

              • IndexToString 索引-字符串變換

              • OneHotEncoder 獨熱編碼

              • VectorIndexer 向量類型索引化

              • Interaction 

              • Normalizer 范數(shù)p-norm規(guī)范化

              • StandardScaler  標(biāo)準(zhǔn)化  基于特征矩陣的列,將屬性值轉(zhuǎn)換至服從正態(tài)分布

              • MinMaxScaler  最大-最小歸一化[0,1]

              • MaxAbsScaler 絕對值歸一化[-1,1]

              • Bucketizer  分箱器

              • ElementwiseProduct Hadamard乘積

              • SQLTransformer SQL變換

              • VectorAssembler 特征向量合并

              • QuantileDiscretizer 分位數(shù)離散化

              • Imputer

            • Feature Selectors  特征選擇

              • VectorSlicer 向量選擇

              • RFormula R模型公式

              • ChiSqSelector 卡方特征選擇

            • Locality Sensitive Hashing  局部哈希敏感

              • Bucketed Random Projection for Euclidean Distance   歐式距離分桶隨機投影

              • MinHash for Jaccard Distance 杰卡德距離

              • Feature Transformation   特征轉(zhuǎn)換

              • Approximate Similarity Join   近似相似聯(lián)接

              • Approximate Nearest Neighbor Search   近似最近鄰搜索

              • LSH Operations

              • LSH Algorithms

            Feature Extractors

            TF-IDF

            詞頻-逆向文件頻率(TF-IDF)是一種特征向量化方法,廣泛用于文本挖掘中,以反映詞語對語料庫中文檔的重要性。 用tt表示詞語,用dd表示文檔,用DD表示語料庫。 詞語頻率TF(t,d)TF(t,d)是詞語tt在文檔dd中出現(xiàn)的次數(shù),而文檔頻率DF(t,D)DF(t,D)是包含詞語的文檔數(shù)量 tt。 如果我們僅使用詞語頻率來衡量重要性,則很容易過分強調(diào)那些經(jīng)常出現(xiàn)但幾乎沒有有關(guān)文檔信息的詞語,e.g. “a”, “the”, and “of”。 如果一個詞語在整個語料庫中經(jīng)常出現(xiàn),則表示該詞語不包含有關(guān)特定文檔的重要信息。 反向文檔頻率是一個詞語提供多少信息的數(shù)字度量:

            IDF(t,D)=log|D|+1DF(t,D)+1,

            D 是語料庫中文檔的總數(shù)。由于使用了log函數(shù),如果某個詞語出現(xiàn)在所有文檔中,則其IDF值將變?yōu)?。加1是為了避免分母為0的情況。TF-IDF 度量值表示如下:

            TFIDF(t,d,D)=TF(t,d)?IDF(t,D).

             在 MLlib ,TF-IDF被分成兩部分:TF 和 IDF,這樣會更靈活。

            Extracting, transforming和selecting features的使用方法是什么

            TF: HashingTF和CountVectorizer都可以用來生成詞語頻率向量。.
            HashingTF是一個轉(zhuǎn)換器,它接受詞條并將這些術(shù)語集轉(zhuǎn)換為固定長度的特征向量。在文本處理中,一個詞袋模型。HashingTF utilizes the hashing trick.原始特征使用hash 函數(shù)映射成為索引。這里hash函數(shù)是MurmurHash 3。然后根據(jù)映射的索引計算詞頻。這種方法避免了需要計算一個全局 term-to-index 地圖,在映射大量語料庫時需要花費更長的時間。但是存在的哈希沖突,即哈希后,不同的原始特征可能會是同一個詞。為了減少碰撞的機會,我們可以增加特征維度,i.e., 提高hash表的桶數(shù)。由于使用了簡單的模將哈希函數(shù)轉(zhuǎn)換為列索引,建議使用2的冪作為特征維,否則,要素將不會均勻地映射到列。默認的特征維度是218=262,144218=262,144。可選的binary toggle parameter控制項頻率計數(shù)。設(shè)置為true時,所有非零頻率計數(shù)都設(shè)置為1。這對于模擬二進制計數(shù)而非整數(shù)計數(shù)的離散概率模型特別有用。

            將文本文檔轉(zhuǎn)換為詞語計數(shù)的向量。 有關(guān)更多詳細信息,請參考 CountVectorizer。.

            IDF: IDF是一個Estimator,在一個數(shù)據(jù)集上應(yīng)用它的fit()方法,產(chǎn)生一個IDFModel。 該IDFModel 接收特征向量(由HashingTF產(chǎn)生),然后計算每一個詞在文檔中出現(xiàn)的頻次。IDF會減少那些在語料庫中出現(xiàn)頻率較高的詞的權(quán)重。 

            Note: spark.ml沒有提供文本分割工具。 We refer users to the Stanford NLP Group and scalanlp/chalk.

            讀到這里,這篇“Extracting, transforming和selecting features的使用方法是什么”文章已經(jīng)介紹完畢,想要掌握這篇文章的知識點還需要大家自己動手實踐使用過才能領(lǐng)會,如果想了解更多相關(guān)內(nèi)容的文章,歡迎關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道。

            本文題目:Extracting,transforming和selectingfeatures的使用方法是什么
            文章位置:http://www.jbt999.com/article22/iiepjc.html

            成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供網(wǎng)站維護、網(wǎng)站建設(shè)、企業(yè)建站、定制開發(fā)商城網(wǎng)站、微信小程序

            廣告

            聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:[email protected]。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)

            成都seo排名網(wǎng)站優(yōu)化

              <del id="d4fwx"><form id="d4fwx"></form></del>
              <del id="d4fwx"><form id="d4fwx"></form></del><del id="d4fwx"><form id="d4fwx"></form></del>

                    <code id="d4fwx"><abbr id="d4fwx"></abbr></code>
                  • 最黄视频伦乱日本 | 中文天堂视频在线观看 | PORNY九色视频9l自拍 | 免费A∨在线观看 | 色五月婷婷乱伦 |