扒开老师双腿猛进入白浆小说,熟女人妻私密按摩内射,成人A片激情免费视频,亚洲欧洲AV无码区玉蒲区

當(dāng)前位置: > 投稿>正文

unlabeled是什么意思,unlabeled中文翻譯,unlabeled發(fā)音、用法及例句

2025-09-04 投稿

unlabeled是什么意思,unlabeled中文翻譯,unlabeled發(fā)音、用法及例句

?unlabeled

unlabeled發(fā)音

英:  美:

unlabeled中文意思翻譯

adj. 沒有標(biāo)簽的

unlabeled常見例句

1 、Active Learning with Labeled and Unlabeled Samples for Content-Based Image Retrieval───圖像檢索中基于標(biāo)記與未標(biāo)記樣本的主動(dòng)學(xué)習(xí)算法

2 、In this thesis, we propose a new algorithm to obtain edit distance between unlabeled ordered trees derived from streaming XML data.───在本篇論文中,我們提出一個(gè)新的樹狀距離嵌入演算法,用來比較從串流可擴(kuò)展標(biāo)記語言文件中取得的無標(biāo)記有序樹狀結(jié)構(gòu)。

3 、Anomaly Detection Model with Unlabeled Training Data───一種無類標(biāo)訓(xùn)練數(shù)據(jù)異常檢測模型

4 、unlabeled block───無標(biāo)號(hào)分程序可變塊

5 、Fur from China - much of it unlabeled - ends up in stores all across America.───美國所有的商店都已經(jīng)禁止銷售中國用這種方法生產(chǎn)的皮毛.

6 、Need for government relieve program approx 88 containers, tins of fish can be unlabeled or labeled just need some printing o...───政府救濟(jì)計(jì)劃需要魚罐頭約88集裝箱,罐體無標(biāo)簽,或?qū)?biāo)簽印在外包裝箱上。

7 、As a generalization of chromatic polynomials of labeled and unlabeled graphs,the notion of chromatic polynomials of partial labeled graphs is introduced.───引入了局部標(biāo)定圖的概念,使得標(biāo)定圖和非標(biāo)定圖都成為它的兩個(gè)特殊情形,它的色多項(xiàng)式統(tǒng)一了標(biāo)定圖的色多項(xiàng)式和非標(biāo)定圖的色多項(xiàng)式。

8 、The machine learning accuracy can be improved by making use of both labeled and unlabeled data in semi-supervised learning.───摘要同時(shí)利用半監(jiān)督學(xué)習(xí)中的標(biāo)記數(shù)據(jù)與非標(biāo)記數(shù)據(jù),可以提高機(jī)器學(xué)習(xí)的能力。

9 、But the new ingredient in the tomato is invisible because transgenic crops are, for the most part, unlabeled and mixed in with the rest of the harvest.───但是,番茄中的新成分是看不見的,因?yàn)榇蠖鄶?shù)情況下轉(zhuǎn)基因作物是不標(biāo)明的,并且與其余的作物混在一起。"

10 、unlabeled statement───無標(biāo)號(hào)語句

11 、The algorithm marks unlabeled instances using classifier ensemble technology and class-center method in each subspace, which update the classification model.───該算法在每個(gè)子空間上通過分類器集成技術(shù)和類中心法給未標(biāo)記樣本進(jìn)行標(biāo)記,從而使分類器模型得以更新。

12 、Consequently the method can classify the unlabeled text accurately and also can gain a better result of classification.───在訓(xùn)練過程中,首先用訓(xùn)練文本訓(xùn)練分類器,得到最優(yōu)的文本特征集合。

13 、Expand Components, and then expand the unlabeled member of the Model Name level.───展開“組件”,再展開“型號(hào)名稱”級(jí)別的未標(biāo)記成員。

14 、(2) For all unlabeled columns so far, those between two successive non-segmentation-regions belong to a segmentation region.───( 2 )對(duì)于所有標(biāo)簽欄到目前為止,這些接連兩次非分割區(qū)域?qū)儆诜指顓^(qū)域。

15 、NIGAM K,MCCALLUM A,THRUN S,et al.Text classification from labeled and unlabeled documents using EM[J].Machine Learning,2000,39(2-3):103-134.───任美睿,李建中,楊艷.基于樸素貝葉斯方法的自動(dòng)文本分類系統(tǒng)的實(shí)現(xiàn)[J].計(jì)算機(jī)科學(xué),2002(8,增刊):285-87.

16 、unlabeled compound statement───無標(biāo)號(hào)復(fù)合語句

17 、Found in his apartment with various unlabeled prescription med bottles and a few syringes.─── 在他的家里發(fā)現(xiàn)了很多 沒有標(biāo)簽的處方藥瓶子和一些注射器

18 、In this paper, an online semi-supervised learning method based on multi-kernel ensemble is proposed, which enables online learning even if the received example is unlabeled.───提出一種基于多核集成的在線半監(jiān)督學(xué)習(xí)方法,使得在線學(xué)習(xí)器即使在接收到?jīng)]有標(biāo)記的數(shù)據(jù)時(shí)也能進(jìn)行在線學(xué)習(xí)。

19 、If no label has been specified,dynamic panels will be identified as "Unlabeled".───沒有指定標(biāo)簽時(shí),動(dòng)態(tài)面板將標(biāo)識(shí)為“Unlabeled”。

20 、All chromosomes of the large genomes, maize and barley, were densely labeled with strongly labeled regions and weakly labeled or unlabeled regions being arranged alternatively throughout the lengths.───大基因組的玉米和大麥的所有染色體都被密集地標(biāo)記,并在染色體全長顯示出強(qiáng)標(biāo)記區(qū)與弱標(biāo)記或不標(biāo)記區(qū)的交替排列。

21 、But I agree with him that “unlabeled, it’s a fun test of your knowledge of nations , can you guess them all?───這是一項(xiàng)考察你對(duì)世界各國知識(shí)的有趣測試,你能全部猜中嗎?

22 、In brief, the paper holds that caring activities unlabeled as education still is education, whereas caring education is more meaningful, more educative education.───總之,筆者認(rèn)為:沒有貼著教育標(biāo)簽的關(guān)懷仍然是教育,而融入關(guān)懷的教育則是意蘊(yùn)更豐富的教育、更體現(xiàn)教育性的教育。

23 、Illustration of Jet Striking Galaxy (unlabeled) Each wavelength shows a different aspect of this system, known as 3C321.───撞擊星系發(fā)射物的**圖在每一個(gè)波段都展示了名叫3c321系統(tǒng)的不同面貌。

24 、Some basic properties of the chromatic polynomials of connected unlabeled graphs arediscussed and expressions of some important connected unlabeled graphs are given in thispaper.───本文研究連通的非標(biāo)定圖色多項(xiàng)式的基本性質(zhì),給出了若干類常見連通非標(biāo)定圖色多項(xiàng)式的一般表達(dá)式。

25 、unlabeled document───未標(biāo)注文本

26 、unlabeled common storage───無標(biāo)號(hào)公用存儲(chǔ)器

27 、unlabeled antigen───非標(biāo)記抗原

28 、In this paper, we present an algorithm called Weighted Unlabeled Sample Support Vector Machine (WUS-SVM), based on which a new partially supervised classification method is proposed.───提出了一種基于加權(quán)無標(biāo)識(shí)樣本支撐向量機(jī)(WUS-SVM),并在其基礎(chǔ)發(fā)展出一種不完全監(jiān)督分類方法。

29 、19 An unlabeled bottle is known to contain either n-pentane,1-pentene,or 1-pentyne.How would you distinguish the samples by means of NMR and IR───答:一個(gè)沒有標(biāo)簽的試劑瓶中裝的可能是正戊烷,1-戊烯或1-戊炔,借助核磁共振和紅外光譜如何去分析出樣品

30 、However, most of the state-of-art online learning methods that tackle the real-time prediction problem work are not able to exploit the unlabeled data.───然而,目前的在線學(xué)習(xí)方法并不能利用未標(biāo)記數(shù)據(jù)進(jìn)行學(xué)習(xí),致使學(xué)得的模型并不能即時(shí)反映數(shù)據(jù)的動(dòng)態(tài)變化,降低其實(shí)時(shí)響應(yīng)能力。

31 、unlabeled arc───無標(biāo)記弧

32 、unlabeled luggage is liable to be lost.───未貼標(biāo)簽的行李當(dāng)然會(huì)丟。

33 、The changes of activity and fluorescence spectrum of the labeled and unlabeled lipase were examined under various temperatures, pH and different concentrations of guanidine hydrochloride.───在不同變性條件下,比較了標(biāo)記與未標(biāo)記的脂肪酶活性變化及相對(duì)應(yīng)的熒光光譜。

34 、Research on Using Unlabeled Data to Improve the Performance of SVM Classifier───利用未標(biāo)記數(shù)據(jù)提高SVM分類器性能的研究

35 、There are a lot of unlabeled meds in her place.─── 在她家里有很多無標(biāo)簽的藥物

36 、unlabeled file───無標(biāo)號(hào)文件

37 、According to "semisupervised learning", both labeled and unlabeled data are used to train classifier.───摘要根據(jù)“半監(jiān)督學(xué)習(xí)”方法,利用已經(jīng)標(biāo)注好的訓(xùn)練樣本和無標(biāo)注的訓(xùn)練樣本一起訓(xùn)練分類器。

38 、Produces a classification scheme for a set of unlabeled objects───給出一組未標(biāo)記的對(duì)象

39 、One of the key challenges in deformable shape modeling is to estimate a meaningful average or mean shape from a set of unlabeled shapes.───摘要可形變形狀模型化的一個(gè)關(guān)鍵問題就是從一系列未標(biāo)記的形狀點(diǎn)集中估計(jì)一個(gè)有意義的平均形狀。

40 、unlabeled data set───未標(biāo)注集

41 、Extracting initial strongly negative data set from positive data and unlabeled data is a base for constructing a PU-oriented text classifier by two stage frame method.───利用正樣例集合和未標(biāo)識(shí)樣例集合獲取初始的最強(qiáng)反例集合是使用兩步框架方法構(gòu)造一個(gè)面向PU問題文本分類器的基礎(chǔ)。

42 、This clustering algorithm can deal with network intrusion detection from mass unlabeled data, distinguish between normal and abnormal data and detect unknown attacks.───該算法可實(shí)現(xiàn)對(duì)大規(guī)模無標(biāo)識(shí)原始數(shù)據(jù)的入侵檢測,區(qū)分正常和異常行為,并能檢測到未知攻擊。

43 、unlabeled basic statement───無標(biāo)號(hào)基本語句

44 、Unlabeled data───未標(biāo)注數(shù)據(jù)

45 、unlabeled sample───無標(biāo)簽樣本

46 、In addition, CISC outperforms three compared methods in efficiency for labeled graphs.For graphs with little regularity, CISC is the best even the graphs are unlabeled.───CISC在標(biāo)簽圖形的表現(xiàn)較其他三種知名的方法為佳,具有最少的比對(duì)時(shí)間,特別當(dāng)圖形沒有規(guī)律性時(shí),CISC在非標(biāo)簽圖形的表現(xiàn)也是最好的。

47 、Results Multinucleated giant cells were mainly labeled by CD68, ACT,AACT and lysozyme, but were unlabeled by PCNA.───結(jié)果多核巨細(xì)胞主要表達(dá)CD68、AACT、ACT以及溶菌酶,無一表達(dá)PCNA;

CONTAINER: Few-Shot Named Entity Recognition via Contrastive Learning

FewShot NER對(duì)于低資源域中的實(shí)體標(biāo)記至關(guān)重要?,F(xiàn)有的方法僅從源域?qū)W習(xí)特定于類的語義特征和中間表示。這會(huì)影響對(duì)看不見的目標(biāo)域的通用性,從而導(dǎo)致性能不佳。為此,我們提出了CONTAINER,這是一種新的對(duì)比學(xué)習(xí)技術(shù),它優(yōu)化了標(biāo)記間的分布距離。CONTAINER沒有優(yōu)化特定于類的屬性,而是 優(yōu)化了一個(gè)廣義目標(biāo) ,即基于高斯分布embedding區(qū)分token類別。這有效地緩解了源自訓(xùn)練領(lǐng)域的過度匹配問題。

few-shot learning涉及從很少的標(biāo)記示例中學(xué)習(xí)看不見的類。為了避免對(duì)有限的可用數(shù)據(jù)進(jìn)行過度擬合,引入了元學(xué)習(xí)來重點(diǎn)關(guān)注如何學(xué)習(xí)。提出原型網(wǎng)絡(luò)來學(xué)習(xí)度量空間,其**定未知類的示例圍繞單個(gè)原型聚集。雖然它主要部署在計(jì)算機(jī)視覺中,但Fritzler等人和Hou等人也使用了fewshot-NER的原型網(wǎng)絡(luò)。另一方面,Yang和Katiyar提出了一個(gè)有監(jiān)督的NER模型學(xué)習(xí)特定于類的功能并將中間表示擴(kuò)展到看不見的域。此外,他們還采用了維特比**模型的變體“StructShot”

Few shot NER比其他few shot學(xué)習(xí)任務(wù)更加困難。首先,作為序列標(biāo)注任務(wù),NER要求根據(jù)上下文以及標(biāo)簽內(nèi)的依賴關(guān)系進(jìn)行標(biāo)簽分配。其次,在NER中,在訓(xùn)練集中被標(biāo)記為O的token很可能對(duì)應(yīng)于測試集中的有效目標(biāo)實(shí)體,這對(duì)于原型網(wǎng)絡(luò)等元學(xué)習(xí)方法提出了挑戰(zhàn)。(對(duì)于原型網(wǎng)絡(luò),這對(duì)圍繞單個(gè)原型聚集實(shí)體示例的概念提出了挑戰(zhàn))。對(duì)于Yang和Katiyar(2020)等基于最近鄰的方法,它們最初是“預(yù)訓(xùn)練”的,目標(biāo)是源類特定的監(jiān)督。因此,訓(xùn)練的權(quán)重將與源類緊密聯(lián)系,網(wǎng)絡(luò)將投影訓(xùn)練集O標(biāo)記,以便它們?cè)谇度肟臻g中聚集。 這將迫使embedding在測試集中刪除許多與真正目標(biāo)實(shí)體相關(guān)的有用特征。第三,在少數(shù)鏡頭設(shè)置中,沒有足夠的樣本可以從中選擇驗(yàn)證集。這降低了超參數(shù)調(diào)整的能力,這尤其會(huì)影響基于模板的方法,其中提示選擇對(duì)于良好的性能至關(guān)重要(Cui等人,2021)。事實(shí)上,由于缺乏持續(xù)有效的驗(yàn)證集,許多早期的少數(shù)鏡頭作品都受到了質(zhì)疑,他們的策略是否真的是“少數(shù)鏡頭”(Perez et al.,2021)

為了應(yīng)對(duì)這些挑戰(zhàn),作者提出了一種新的方法 CONTAINER,利用對(duì)比學(xué)習(xí)的來解決fewshot NER。 CONTAINER試圖減少對(duì)相似實(shí)體的token embedding的距離,同時(shí)增加對(duì)不同實(shí)體的token embedding的距離(圖1) 。這使得CONTAINER能夠更好地捕獲標(biāo)簽依賴關(guān)系。此外,由于CONTAINER是用一個(gè)廣義目標(biāo)進(jìn)行訓(xùn)練的,因此它可以有效地避免先前的方法打O的缺陷。最后,CONTAINER不需要任何特定于數(shù)據(jù)集的prompt或超參數(shù)調(diào)整。

與傳統(tǒng)的對(duì)比學(xué)習(xí)不同優(yōu)化point embedding優(yōu)化樣本距離, container優(yōu)化了分布散度,有效地建模高斯embedding。高斯embedding顯式地建模實(shí)體類分布,這不僅促進(jìn)了廣義特征表示,而且有助于少樣本目標(biāo)域自適應(yīng)

因此高斯嵌入顯式地建模實(shí)體類分布,這不僅促進(jìn)了廣義特征表示,而且有助于少樣本目標(biāo)域的自適應(yīng)。之前在高斯嵌入方面的工作也表明, 映射到密度可以捕獲表示的不確定性(Vilnis和McCallum,2014),并表示自然不對(duì)稱性(Qian等人,2021),同時(shí)顯示出更好的泛化,用更少的數(shù)據(jù)來實(shí)現(xiàn)最佳績效 (Bojchevski和Günnemann,2017)。受高斯嵌入的這些獨(dú)特特性的啟發(fā),在這項(xiàng)工作中,我們利用高斯embedding進(jìn)行對(duì)比學(xué)習(xí)for few-shot。評(píng)估期間的最近鄰分類方案顯示,平均而言,CONTAINER在廣泛的測試中顯著優(yōu)于之前的SOTA方法,其F1絕對(duì)分?jǐn)?shù)高達(dá)13%。特別是,我們根據(jù)Yang和Katiyar(2020)在各種數(shù)據(jù)集(CoNLL'03,OntoNotes 5.0,WNUT'17,I2B2),在域內(nèi)和域外實(shí)驗(yàn)中廣泛測試了我們的模型。我們還在提出的一個(gè)大型數(shù)據(jù)集Few-Shot NERD(Ding等人,2021)中測試了我們的模型,其中CONTAINER優(yōu)于所有其他SOTA方法,在排行榜上設(shè)定了一個(gè)新的基準(zhǔn)結(jié)果

綜上所述,我們的貢獻(xiàn)如下:

(1)CONTAINER利用對(duì)比學(xué)習(xí)來推斷其高斯embedding的分布距離。

(2)CONTAINER representation更適合于適應(yīng)看不見的新類,即使支持樣本數(shù)量較少

訓(xùn)練集和測試集tag沒有交集,N-wayK-shot表示測試集tag數(shù)量為N,每一個(gè)tag有K個(gè)examples

遵循IO標(biāo)記方案,其中I-type表示所有標(biāo)記都在一個(gè)實(shí)體內(nèi),O-type表示所有其他標(biāo)記

在此,通過計(jì)算多個(gè)測試集的micro-F1分?jǐn)?shù)來評(píng)估模型。每集由一個(gè)K-shot support set和一個(gè)K-shot unlabeled (test)set組成做出預(yù)測。從原始開發(fā)集中抽取多個(gè)支持集,用它們進(jìn)行預(yù)測。

CONTAINER利用對(duì)比學(xué)習(xí)來優(yōu)化不同標(biāo)記實(shí)體表示之間的分布差異。 沒有關(guān)注特定標(biāo)簽的屬性 ,而是 顯式地訓(xùn)練模型來區(qū)分不同類別的標(biāo)記 。

此外,高斯embedding代替?zhèn)鹘y(tǒng)的point representation可以有效地讓CONTAINER對(duì)實(shí)體類分布進(jìn)行建模,從而激發(fā)標(biāo)記的廣義表示。

最后,它允許我們仔細(xì)微調(diào)我們的模型,即使使用少量樣本,也不會(huì)過度擬合,這對(duì)于域自適應(yīng)來說是必不可少的。

如圖2所示,我們首先在源域中訓(xùn)練模型。接下來,我們使用幾個(gè)示例支持集對(duì)模型表示進(jìn)行微調(diào),以使其適應(yīng)目標(biāo)域。算法1說明了容器的訓(xùn)練和微調(diào)。最后,我們使用 實(shí)例級(jí)最近鄰分類器在測試集中進(jìn)行推理 。

用BERT作為PLM編碼器。因此,給定n個(gè)token序列[x1,x2,…,xn],我們將PLM的最終隱藏層輸出作為中間表征

然后,這些中間表示通過簡單的投影層傳遞,以生成embedding,我們假設(shè)token embedding遵循高斯分布。我們使用投影網(wǎng)絡(luò)fµ和f∑來生成高斯分布參數(shù):

mu和sigma表示平均值和對(duì)角協(xié)方差(僅含非零元素分別沿矩陣的對(duì)角線)的高斯嵌入

為了計(jì)算對(duì)比損失,我們考慮了樣本批次中所有有效token對(duì)之間的KL散度,兩個(gè)token如果有相同的label,那么就被視為positive樣本

KL散度的兩個(gè)方向都是計(jì)算的,因?yàn)樗遣粚?duì)稱的。

我們首先在資源豐富的源域中,Xtr的訓(xùn)練我們的模型。在每個(gè)訓(xùn)練步驟中,我們隨機(jī)抽取一批序列X∈ 來自訓(xùn)練集中的Xtr,每個(gè)批次大小為b,我們通過將相應(yīng)的token序列通過模型獲得其高斯嵌入N(µi,∑i)。

我們?cè)谂沃姓业綐颖緋的正樣本Xp,然 后計(jì)算Xp相對(duì)于批次中所有其他有效token的高斯embedding損失

通過這種方式,我們計(jì)算 批次中 所有token對(duì)的分布散度,X表示所有token對(duì),分母項(xiàng)表示正集,分子項(xiàng)目表示在token對(duì)中,除了自己對(duì)以外的對(duì)。

在源域中進(jìn)行訓(xùn)練后,我們使用少量目標(biāo)域支持樣本,按照與訓(xùn)練階段類似的步驟對(duì)模型進(jìn)行微調(diào)。由于我們只有少量樣本可供微調(diào),所以我們將其化為single batch。當(dāng)目標(biāo)類有多個(gè)few-shot sample(例如,5-shot)可用時(shí),模型可以通過優(yōu)化高斯embedding的KL散度有效地適應(yīng)新域

相比之下,對(duì)于1-shot的情況,模型適應(yīng)目標(biāo)類分布的難度很大。如果模型沒有關(guān)于目標(biāo)類的先驗(yàn)知識(shí),單個(gè)示例可能不足以推斷目標(biāo)類分布的方差。因此,對(duì)于one-shot場景,我們優(yōu)化了

嵌入分布均值之間的平方歐氏距離。當(dāng)模型對(duì)所涉及的目標(biāo)類別有直接/間接的先驗(yàn)知識(shí)時(shí),我們?nèi)匀粫?huì)優(yōu)化分布的KL散度,類似于5-shot場景。

我們?cè)诒?中證明,使用平方歐幾里德距離進(jìn)行優(yōu)化可以使我們?cè)趏ne-shot場景中獲得更好的性能。

然而,在所有情況下,在5-shot支持集下,優(yōu)化高斯embedding之間的KL散度可以得到最好的結(jié)果。

使用較小的支持集進(jìn)行微調(diào),則會(huì)有過度擬合的風(fēng)險(xiǎn),并且由于目標(biāo)域中的數(shù)據(jù)不足,無法訪問保留的驗(yàn)證集,因此我們無法跟蹤需要停止微調(diào)的飽和點(diǎn)。為了緩解這種情況,我們計(jì)算出對(duì)比損失,并將其作為我們的早期停止標(biāo)準(zhǔn),previous_score=1e+6

在分別使用訓(xùn)練數(shù)據(jù)和支持?jǐn)?shù)據(jù)對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練和微調(diào)后,提取預(yù)訓(xùn)練的語言模型編碼器PLM進(jìn)行推理。與SimCLR(Chen et al.,2020)類似,我們發(fā)現(xiàn)投影層之前的 representations實(shí)際上包含比最終輸出表示更多的信息,這有助于提高性能,因此fµ和f∑投影頭不用于推理。因此,我們計(jì)算PLM中測試數(shù)據(jù)的表示,并找到用于推理的最近鄰支持集表示

對(duì)于每一個(gè)support token求出的表征h(j,sup) from support set,對(duì)于每一個(gè)test token求出的表征h(j,test) from test set,我們?yōu)樵谧罱廝LM的表征空間里為x(i,test)分配與support token相同的label

之前的大多數(shù)工作都注意到使用CRF可以消除錯(cuò)誤預(yù)測以提高性能,從而提高了性能。因此我們還在推理階段使用維特比**,并使用StructShot中的抽象轉(zhuǎn)移分布。對(duì)于轉(zhuǎn)移概率,通過計(jì)算三個(gè)抽象標(biāo)記O、I和I-other在訓(xùn)練集中的出現(xiàn)次數(shù)來估計(jì)它們之間的轉(zhuǎn)移。然后,對(duì)于目標(biāo)域標(biāo)記集,將這些轉(zhuǎn)移概率均勻分布到相應(yīng)的目標(biāo)分布中. 對(duì)于發(fā)射概率,通過近鄰?fù)茢嘤?jì)算。將領(lǐng)域遷移結(jié)果(表3)于其它任務(wù)(表2,4,5)比較,作者發(fā)現(xiàn),如果測試數(shù)據(jù)中沒有涉及明顯的領(lǐng)域遷移,對(duì)比學(xué)習(xí)允許CONTaiNER自動(dòng)抽取標(biāo)簽依賴,避免了額外維特比**階段的要求

Write a paragraph of classification and example w

Title:

System for estimating a distribution of message content categories in source data

United States Patent Application 20090030862 Kind Code: A1

Abstract:

A method of computerized content analysis that gives “approximately unbiased and statistically consistent estimates” of a distribution of elements of structured, unstructured, and partially structured source data among a set of categories. In one embodiment, this is done by analyzing a distribution of small set of individually-classified elements in a plurality of categories and then using the information determined from the analysis to extrapolate a distribution in a larger population set. This extrapolation is performed without constraining the distribution of the unlabeled elements to be equal to the distribution of labeled elements, nor constraining a content distribution of content of elements in the labeled set (e.g., a distribution of words used by elements in the labeled set) to be equal to a content distribution of elements in the unlabeled set. Not being constrained in these ways allows the estimation techniques described herein to provide distinct advantages over conventional aggregation techniques.

本站其他內(nèi)容推薦

版權(quán)聲明: 本站僅提供信息存儲(chǔ)空間服務(wù),旨在傳遞更多信息,不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任,不代表本網(wǎng)贊同其觀點(diǎn)和對(duì)其真實(shí)性負(fù)責(zé)。如因作品內(nèi)容、版權(quán)和其它問題需要同本網(wǎng)聯(lián)系的,請(qǐng)發(fā)送郵件至 舉報(bào),一經(jīng)查實(shí),本站將立刻刪除。