imagery是什么意思,imagery中文翻譯,imagery發(fā)音、用法及例句
?imagery
imagery發(fā)音
英:['?m?d??r?] 美:[??m?d?r?]
英: 美:
imagery中文意思翻譯
n.意象, 肖像, 圖像, 比喻
imagery詞形變化
名詞復(fù)數(shù): imageries |
imagery常見例句
1 、His poetry abounds in imagery.───他的詩富于形象。
2 、In what seemed a logical extension, we have tried, a bit naively, to use macroscopic imagery to describe submicroscopic entities.───似乎是作為這種做法的一種邏輯**,我們有點天真地試圖用宏觀形象來描述亞微觀體。
3 、The number of wind imagery in the North Dynasty's poems was not very much , but had its own naivete style.───北朝詩中的風(fēng)意象數(shù)量不多,但有著質(zhì)樸剛健的獨特風(fēng)格,它們與西晉以來綿延不斷的悲情風(fēng)意象一起,代表了此期風(fēng)意象傳統(tǒng)的一面。
4 、Despite the beautiful imagery, it's not certain that each posturing pair is actually a mated pair.───盡管**表現(xiàn)得盡善盡美,但實際上并不一定每一對在鏡頭前展現(xiàn)風(fēng)姿的都是情侶。
5 、"Love is blind." It is one of the most familiar imagery in English.───“愛情是盲目的”這句話是英語中最為人所熟悉的比喻之一。
6 、Public users have access to regional ice charts &bulletins, weather analysis &forecasts, marine forecasts, weather models and the satellite imagery.───公眾用戶能夠進(jìn)入?yún)^(qū)域冰圖表和公報、天氣分析與預(yù)測、海上預(yù)報、天氣模型和衛(wèi)星圖像。
7 、Yeah, I'm very uncomfortable with that imagery.─── 是啊 那惡心的畫面讓我很不舒服
8 、Dual Coding Theory; reading process; mental imagery; affective responses; language concreteness.───01雙重代碼理論;閱讀過程;意象;情感反應(yīng);語言的具體性
9 、One scene of ERS-2 SLC imagery was selected as major test data and Ground Control Points (GCP) were manually collected.───從中選擇了一景ERS-2 SLC數(shù)據(jù)作為主要實驗數(shù)據(jù),并手工采集了控制點。
10 、Q4.What is Imagery (the common word in review of poem) in your opinion?───你認(rèn)為的“意象”(詩論中常用詞)是什么?
11 、Euphemisms are a means through which a culture may alter its imagery and by so doing subtly change its style, its priorities, and its values.───委婉表達(dá)是一種方式,通過這種方式,文化可以改變其表意,并據(jù)此微妙地改變這種文化的風(fēng)格、優(yōu)先權(quán)和價值。
12 、Yet in the long run such concerns could boost the desire for products that combine modern hygiene with unsullied, back-to-the-land imagery.───在很長一段時間里,人們對于合乎現(xiàn)代衛(wèi)生標(biāo)準(zhǔn)的無污染、純天然產(chǎn)品的需求將會增加。
13 、A style using subco cious mental activity as its subject matter, characterized by dreamlike, hallucinatory imagery.───將下意識的精神活動作為描寫對象,多運用夢幻意象的藝術(shù)形式。
14 、Imagery conversing technique was dan gerous to some degree because it contacted directly the deep personality of the client.───但意象對話技術(shù)可以直接面對來訪者人格的深層面,這在一定程度上存在危險性。
15 、But, this time we get social messages and metaphorical imagery.───但這出**卻包含一些社會信息和對社會的隱喻。
16 、The imagery network is born out of Buddha culture, but it is ended with more aesthetic modern meaning.───《野草》中的這個意象網(wǎng)絡(luò)脫胎于佛家文化,但被魯迅賦予了更具審美質(zhì)感的現(xiàn)代意蘊。
17 、I believe the imagery speaks for itself.─── 我相信圖像本身就能說明問題
18 、There is typically a 0-3 hour outage of imagery each day as GOES progresses through eclipse season.───在整個星蝕季節(jié)每天通常有這樣0-3個小時的停機(jī)。
19 、But for white viewers, this sort of imagery encourages a fantasy.───但是,對于白人觀眾來說,這種想像助長了人們的幻覺。
20 、With the drone imagery you can see a tremendous amount more detail than you can see with the satellite imagery.─── 通過無人機(jī)圖像 你可以看到 比衛(wèi)星圖像更詳細(xì)的細(xì)節(jié)
21 、Imagery and Habitability in Urban Design: Can these Two Functions be Reconciled?───城市設(shè)計中的形象性與適居性可以兼顧嗎?
22 、I checked satellite imagery of your property.─── 我查了你們住所的衛(wèi)星圖像
23 、In fact, this metaphor is part of a pattern of fire imagery that involves two other related terms as well.───實際上,這個詞屬于火的一組類比,相關(guān)詞匯另有兩個。
24 、He says the United States is providing satellite imagery to help aid the search.───他還說,美國提供衛(wèi)星圖像協(xié)助搜尋。
25 、Official newspapers were probably glad not to have to second-guess censors' concerns about that kind of imagery.───官方報紙可能會很高興地看到市民們對這樣的情形不感到擔(dān)心。
26 、The word "designer" has become an adjective loaded with the symbolism and imagery of the consumer society.───“名牌”這個詞已成為一個形容詞,包含消費社會的象征和形象化的意思。
27 、"Ice Age: Dawn of the Dinosaurs" impresses with vibrant CGI imagery and animation by the wizards at Blue Sky Studios.───“冰河時代:恐龍的黎明”通過藍(lán)天工作室的魔法,以其令人震撼的CGI圖像和動畫制作給人留下深刻的印象。
28 、He draws diction, style and imagery from works of Shakespeare, Milton and Dante.───他在措詞,風(fēng)格和比喻上都參考了莎士比亞,彌爾頓和但丁的作品。
29 、Abstract: Phase Congruency was introduced as a new method to detect features from high-resolution remotely sensed imagery.───中文摘要: 精確檢測圖像邊緣特征是進(jìn)行高分辨率遙感圖像分割和識別的關(guān)鍵。
30 、Use visual and mental imagery of yourself achieving and surpassing your goals.───從視覺上、心理上暗示你自己達(dá)到或超過你的目標(biāo)。
31 、Experiments on visible/near-infrared OMIS-I hyperspectral imagery justify the effectiveness of the algorithm.───使用可見光/近紅外波段OMIS-I高光譜圖像進(jìn)行了實驗,實驗結(jié)果證明了算法的有效性。
32 、It was this rich mass of imagery and allegory that the Zohar contains that served as the inspiration for all subsequent generations of Kabbalists.───它就是《光明篇》包含的更多豐富的比喻和寓言適合作為所有卡巴拉學(xué)家后代的靈感。
33 、It was only then that the Radarsat 2 satellite, which gives us very high resolution imagery, could be used.───“雷達(dá)2號衛(wèi)星”提供給我們高分辨率的照片,這對身處冰天雪地的我們來說是一個極佳的開始。
34 、The Transformers were created with a mix of computer-generated imagery (from Industrial Light &Magic and Digital Doman) and props (from KNB Effects).───變形金剛的設(shè)計是通過計算機(jī)三維模型(工業(yè)光魔公司和數(shù)字域共同完成)和實際模型(KNB特效公司完成)兩種方式混合完成的。
35 、For example, in holographic imagery the speckle pattern corresponds to troublesome background noise.───例如,在全息照相中,斑紋圖樣相當(dāng)于討厭的背景噪聲。
36 、If we step between him and his past, it could fragment the imagery.─── 如果我們介入他和他的過去之間 有可能破壞他所回憶起的畫面
37 、Their early films tried to convey revolutionary propaganda through grotesque and fantastic imagery.───他們早期的**試圖通過離奇古怪異想天開的形象來進(jìn)行革命宣傳。
38 、The author's imagery mystifies me.───作者的比喻令我迷惑。
39 、Christlike vagrant wanders through a perverse and grotesque land filled with religious and sacrilegious imagery.───一個長得像基督的流浪漢在一個充滿宗教和瀆圣景象的怪異墮落之地游蕩。
40 、Stuart Anstee, “Removal of Range-dependant Artifacts from Sidescan Sonar Imagery,” DSTO Aeronautical and Maritime Research Laboratory, 2001.───吳聲瑋,“墾丁附近海域珊瑚礁分布現(xiàn)況之調(diào)查與研究”,國立中山大學(xué)海洋環(huán)境及工程研究所碩士論文,民94.6。
41 、Kandinsky produced __ art characterized by imagery that had a musical quality.───康定斯創(chuàng)作的__作品有一種音樂美。
42 、O'Keeffe's imagery is concrete, but the consequence of her concise recounting shocks us to a new awareness.───奧基夫的意象是具體的,但她簡要敘述沖擊的結(jié)果,我們到一個新的認(rèn)識。
43 、Michael's aim was to produce mugs that looked alive with colour and imagery, and were cheaper to produce in capital costs and labour.───Michael的目標(biāo)是生產(chǎn)具有色彩和形象從而外觀生動的咖啡杯,而且在制作上比較節(jié)省費用和勞動。
44 、Unfortunately, this imagery and language colors our thinking more than we might admit.───不幸的是,這種比喻和語言嚴(yán)重歪曲了我們的思維。
45 、Lesploitation :The use of sapphic imagery for commercial purposes.───使用帶有拉拉信息圖像以達(dá)到商業(yè)目的;
46 、Magic, on the sea as the sea-and mountain fog is illusionary imagery ever imagined is granted!───奇妙之處,就在似海非海,山峰云霧相幻化,意象萬千,想象更是萬萬千千!
47 、The rigor geometric model based on affine transform is a good algorithm for optic imagery with few GCPs.───嚴(yán)密投影仿射變換模型是針對少地面控制點的星載光學(xué)影像的一種有效的校正算法;
48 、In response, alternative analysis techniques are under development which take advantage of improved IR camera imagery.───因此,基于改進(jìn)紅外攝像技術(shù)的紅外決策分析技術(shù)正在研究之中。
49 、Try to associate your brand with positive imagery that can better remind your customers of who you are and what you are trying to achieve.───努力使你的品牌和積極的意象相關(guān)聯(lián),這些積極的意象能很好地提醒你的顧客你是誰以及你正努力做什么。
50 、Home and business units create imagery with a single DLP chip and a color wheel [see illustration below].───家用與商用機(jī)種內(nèi)有一個DLP晶片與一個旋轉(zhuǎn)色輪;
51 、The discussion of her petrifaction imagery in Dickinson’s literary works can be divided into six parts.───全文針對詩人作品中,對石化意像的討論,可分為六部份。
52 、Early this year the publication of commercial satellite imagery explained the coyness.───今年早些時候公布的商業(yè)衛(wèi)星圖片解釋了這種三緘其口。
53 、Clouds are a powerful logo, conjuring imagery of dreams, creativity and playfulness.───云狀物是一個極有表現(xiàn)力的標(biāo)志,憑空幻化意象,即有創(chuàng)造性,又很好玩。
54 、There is sufficient exit pupil distance to match simulator exit pupil to the LWIR imagery system entrance pupil.───在滿足設(shè)計指標(biāo)的前提下,和變焦系統(tǒng)相比,該光學(xué)系統(tǒng)結(jié)構(gòu)簡單、成本低、可行性高。
55 、It's almost overwhelming to see all this imagery of him.─── 各種關(guān)于他的畫像簡直讓人眼花繚亂
56 、Double imagery was extremely popular during the eighteenth, nineteenth, and twentieth centuries.───雙面畫像在十八,十九,及二十世紀(jì)相當(dāng)流行。
57 、Detection of dim targets in FLIR imagery using multiscale transforms.───基于分形理論的紅外圖像邊緣檢測。紅外技術(shù)。
58 、Symmetry Waveforms.Ideally, each human face is bilaterally symmetrical when viewed in either visual or IR imagery.───對稱波形技術(shù)在理想狀況下,無論是可見光圖像還是紅外圖像中每個人臉都是兩側(cè)對稱的。
59 、First, jing Literary School's imagery is different from Chinese classical poetry and the Western imagism.───京派意象是中國傳統(tǒng)詩藝與西方象征主義、意象派等詩學(xué)思潮相融合的產(chǎn)物。
60 、I'm talking to him to calm him down which is improving our imagery.─── 我和他說話是想安慰他 這對成像有利
61 、It recognizes the power of personal imagery and symbols, and encourages the use of unconvential cures that have great personal significance to you.───它能識別個人形象和符號的力量,并鼓舞使用非傳統(tǒng)的但是對某個個體有顯著影響的方法。
62 、Warhammer's imagery and style are influenced heavily by gritty, classic fantasy authors, such as Michael Moorcock, Robert E.Howard, and H.───在傳遞過程中我首先把自已服用產(chǎn)品前后健康情況的好轉(zhuǎn)變化,從產(chǎn)品原料和作用。。。。
63 、His great achievement lies in his efforts to blend Celtic and English cultures together and in his imagery of mythological poetic world.───他的功績在于他把凱爾特文化和英國文化糅合進(jìn)他的充滿幻想的神話般的詩歌世界之中。
64 、Imagery and Habitability in Urban Design:Can these Two Functions be Reconciled?───城市設(shè)計中的可居住性與城市形象:兩者能否協(xié)調(diào)?
65 、Students will study in detail medical acupuncture, homeopathy. osteopathic manipulation and guided imagery.───學(xué)生們將詳細(xì)學(xué)習(xí)針灸、順勢療法、骨療手法以及暗示療法。
66 、Marosi uses his early childhood experience to transform the mundane into spectacular, bold imagery.───他運用這些兒時的回憶和體驗把現(xiàn)實景物轉(zhuǎn)化成大膽精彩的想象。
67 、International Society for Mental Imagery Techniques in Psychotherapy and Psychology?───國際心智圖技術(shù)學(xué)會
68 、Users recognize the imagery of the metaphor and, by extension, can presumably understand the purpose of the thing.───即用于描繪事物目的和特征的圖片,用戶識別隱喻的圖像通過外延理解事物的目的。
69 、Her very normativeness is being demonstrated as a facade for Hitchcock's mocking imagery.───(4)她的一本正經(jīng)做派,使希區(qū)柯克的影片又加深了一層嘲弄色彩。
70 、Most of her poems abound in imagery.───她的詩歌大多數(shù)富于形象。
71 、Surrounded by fantastic imagery and evocative of medieval center and the park of monti sibillini.───Sarnano -配有 會議設(shè)施 的酒店:The Hotel is located in the panoramic position.
72 、I find your imagery both colorful and accurate.─── 我覺得你的比喻既有畫面感又很準(zhǔn)確
73 、A few other techniques you might find in a speechwriter's toolbox might be the use of imagery, anecdotes and alliteration.───其他一些可能會在一個撰稿人的工具箱中發(fā)現(xiàn)的,可能是可以使用圖像,軼事和頭韻。
74 、That's what I do best verbal imagery.─── 這是我的專長啊 文字意象
75 、Lowliness and Commonness, this is a visualize body of own imagery, it is a most direct education deal from the universe.───卑微與平凡,這是一個自喻的形象,是宇宙給予的最直接的訓(xùn)導(dǎo)。
76 、Interested in all was happening at the time,Herge collected a century's worth of mythic andhistoric imagery.───憑借對那個時代發(fā)生的大事的濃厚興趣,埃爾熱將歷史時間和虛構(gòu)情節(jié)巧妙結(jié)合。
77 、Firstly,the accurate contour of the target in SAR imagery is extracted after the image segmentation based on Markov Random Field(MRF)model.───利用基于馬爾可夫隨機(jī)場(MRF)的圖像分割提取準(zhǔn)確的目標(biāo)成像輪廓。
78 、A fantastic sequence of haphazardly associative imagery, as seen in dreams or fever.───幻覺效應(yīng)一連串偶然聯(lián)想的幻景,如在夢中或發(fā)燒時
79 、He argued that Shakespeare's plays were patterns of imagery.───他認(rèn)為莎士比亞的劇本是形象塑造的典范。
80 、I'm pulling up satellite imagery of the area.─── 我來調(diào)出那個區(qū)域的衛(wèi)星圖像
81 、A style that emphasizes Christian imagery, brilliant color, and strong verticality in composition.───以基督教題材、亮麗的色彩、明顯的垂直線條為特點的繪畫風(fēng)格。流行于12至16世紀(jì)。
82 、Kandinsky produced nonfigurative art characterized by imagery that had a musical quality.───康定斯創(chuàng)作的抽象作品有一種音樂美。
83 、A style using subconscious mental activity as its subject matter, characterized by dreamlike, hallucinatory imagery.───將下意識的精神活動作為描寫對象,多運用夢幻意象的藝術(shù)形式。
84 、Kandi ky produced a tract art characterized by imagery that had a musical quality.───康定斯創(chuàng)作的抽象派作品有一種音樂美。
85 、Use imagery that can help consumers remember your brand whenever they see things that can point back to you.───使用那些能幫助你的顧客在看到指向你的事物時就能想起你的品牌的意象。
86 、The result shows that the method is better for SAR imagery speckle redution.───實驗表明,所提出的圖像濾波方法能夠更好地抑制雷達(dá)圖像的斑點噪聲。
87 、She refuses to mask her real face behind imagery.───她拒絕掩飾她形象后面的真實臉面。
88 、The experimental group received training on imagery mnemonics, while the control group received the thinking method training unrelated to mnemonics.───圖像記憶術(shù)使用視覺心像作為策略,使儲存更有效率,進(jìn)而增加整個工作記憶的容量。
89 、Can people feel safe in their own backyards when real-time satellite imagery is being collected from overhead?───如果人們待在自家后院時有一個實時衛(wèi)星正在頭頂掃描,他們會有安全感嗎?
90 、A style using subconscious mental activity as its subject matter,characterized by dreamlike,halluncinatoyy imagery.───將下意識的精神活動描寫對象,多運用夢幻意象的藝術(shù)形式。
如何成為?Kaggle頂級大師?
Vladimir I. Iglovikov 是一名 Kaggle 頂級大師(Grandmaster),曾獲得過 Carvana 圖像遮蔽挑戰(zhàn)的冠軍,以及 Dstl 衛(wèi)星圖像特征檢測挑戰(zhàn)的第三名。他曾在 UC Davis 獲得過理論凝聚態(tài)物理學(xué)博士的學(xué)位,現(xiàn)在是一名 Lyft 的計算機(jī)視覺工程師,主要研究自動駕駛。
最近,Vladimir 分享了自己成為 Kaggle 高手的經(jīng)驗。目前,Kaggle 注冊用戶數(shù)量已超 100 萬,其中只有 124 人擁有 Grandmaster 頭銜,如何成為全球排名前千分之一的數(shù)據(jù)科學(xué)家?讓我們看看他是怎么說的。
我叫 Vladimir,本科畢業(yè)并獲得理論物理學(xué)位后搬到了硅谷,從事數(shù)據(jù)科學(xué)相關(guān)的工作。我當(dāng)前在 Lyft 公司的自動駕駛部門工作,研究與計算機(jī)視覺相關(guān)的應(yīng)用。
過去幾年來,我花了很多時間參加關(guān)于機(jī)器學(xué)習(xí)的比賽。這樣做是因為,一方面我覺得它本身很好玩,而另一方面,我覺得這是一種非常高效的數(shù)據(jù)科學(xué)技能提升方法。當(dāng)然,不是所有的比賽都很容易,我也不是在每場比賽中都能獲得好成績。但時不時地參加這些比賽,讓我不斷地提高了自己的相關(guān)技能,甚至最終獲得了 Kaggle Grandmaster 的稱號。
我要向 @Lasteg 表示感謝,是他提議我參加這期的 AMA(Ask Me Anything session)并在 Reddit、kaggle、science.d3.ru(in Russian)上收集問題。他收集有很多問題,我會盡我所能去回答,但沒辦法在本篇博客中解決所有問題。如果你的疑問未能在本文獲得解答,可以在評論中留言。
以下是我(或我的團(tuán)隊)有幸躋身排行榜前列的一些深度學(xué)習(xí)挑戰(zhàn):
在 Ultrasound Nerve Segmentation 中獲得第十名
在 Dstl Satellite Imagery Feature Detection 中獲得第三名
在 Safe passage: Detecting and classifying vehicles in aerial imagery 中獲得第二名
在 Kaggle: Planet: Understanding the Amazon from Space 中獲得第七名
在 MICCAI 2017: Gastrointestinal Image ANAlysis (GIANA) 中獲得第一名
在 MICCAI 2017: Robotic Instrument Segmentation 中獲得第一名
在 Kaggle: Carvana Image Masking Challenge 中獲得第一名
在 Kaggle: IEEE's Signal Processing Society—Camera Model Identification 中獲得第九名
在 CVPR 2018 Deepglobe. Road Extraction. 中獲得第二名
在 CVPR 2018 Deepglobe. Building Detection. 中獲得第二名
在 CVPR 2018 Deepglobe. Land Cover Classification. 中獲得第三名
在 MICCAI 2018: Gastrointestinal Image ANAlysis (GIANA) 中獲得第三名
Q:除了數(shù)據(jù)科學(xué)以外,您生活中喜歡做些什么?
A:當(dāng)然,我喜歡徒步旅行、攀巖。如果你早上去 Mission Cliffs 攀巖館,見到我可以打個招呼。
我也喜歡跳舞,特別是 Bules Fusion。舊金山的 Misiion Fusion 和 South Bay Fusion 舞蹈產(chǎn)地是我經(jīng)常去的。
旅行對我來說很重要。春天的時候我去了白俄羅斯、摩洛哥、約旦。九月,我在芬蘭、德國、奧地利呆了三周。當(dāng)然,2018 Burning Man 是今年最爽的活動。
Q:你如何在工作的同時花很多時間做 kaggle 呢?
A:對我來說,雖然沒有薪酬,但參加 Kaggle 比賽是我的第二職業(yè)。我這么做理由很充足?;钴S的 Kaggle 參與者追求領(lǐng)域的改變很常見。我也不例外。當(dāng)我從學(xué)界轉(zhuǎn)向業(yè)界時,我開始參加比賽。我需要一個高效的方法來盡快熟悉 ML 需要解決的問題,掌握那些工具,并將思維擴(kuò)展機(jī)器學(xué)習(xí)的新領(lǐng)域。
后來,當(dāng)我在 Bidgely 開始我的第一份工作之后,我參與的 Kaggle 賽事更多了。有段時間,我在研究信號處理任務(wù),同時幾乎將所有晚上的時間用來處理參加比賽用的表格數(shù)據(jù)。那段時間我的工作和生活有些失衡,但我獲得的知識卻是值得的。
再后來,我做好準(zhǔn)備換工作以后,加入了 TrueAccord,在那里我做了很多傳統(tǒng)的機(jī)器學(xué)習(xí)任務(wù)。但我不想停止對 Kaggle 的研究,所以我白天做的是傳統(tǒng)機(jī)器學(xué)習(xí),晚上和周末研究深度學(xué)習(xí)。也因此,工作和生活更加無法保持平衡。但我學(xué)到了很多東西,獲得了很好的附加技能,成為了 Kaggle Master。當(dāng)我加入 Lyft Level 5 時,我知道所有這些努力都沒有白費,在這份工作里我將深度學(xué)習(xí)應(yīng)用于自動駕駛問題上。
最終,我沒有全職做 Kaggle,但我仍在積極地學(xué)習(xí)。工作中有很多有趣的計算機(jī)視覺問題,我正嘗試在 Kaggle 沒有涉足的領(lǐng)域里獲得更多的知識。我仍然時不時地向各種比賽提交參賽作品,但這主要是為了更好地理解其他參賽者正面臨的問題和挑戰(zhàn),這樣做反過來有助于我從論壇分享的信息中獲得很大的收益。
Q:幫助你提高工作效率的日常慣例是什么?你如何安排一天的行程?
A:首先,我不太確定自己是否高效,因為我總是在尋找新的辦法優(yōu)化工作方式。
需要解決的問題和需要參與的活動總是很多,但不是所有的都有用又好玩。所以我做什么事情都要優(yōu)先考慮。有兩本書對這個話題進(jìn)行了精彩的討論:《So Good They Can't Ignore You: Why Skills Trump Passion in the Quest for Work You Love》和《Deep Work: Rules for Focused Success in a Distracted World》。
工作日,我一般早上 6 點起床,然后去攀巖館。這樣做能幫助我保持身材并讓我一天都保持清醒。之后,我開車去上班。我們的自動駕駛工程中心位于 Palo Alto,這對我來說有點憂桑,因為我更喜歡住在市區(qū)。開車很有趣,但通勤很煩。為了讓通勤時間更有效率,我會在車?yán)锫犛新曌x物。開車時當(dāng)然沒法專心聽書,但在駕駛時聽聽這些文學(xué)、有關(guān)軟技能和商業(yè)的書總是不錯的。
我想好好把握工作和生活之間的平衡,但沒有做到。當(dāng)然,我花了很多時間和朋友參加不同的活動,而且很多活動是在舊金山。同時,我仍需要學(xué)習(xí);我還要保持機(jī)器學(xué)習(xí)的狀態(tài),不能把目光局限在工作中遇到的問題上。所以我晚上有時候會閱讀技術(shù)文獻(xiàn),或者為比賽、輔助項目和開源項目編寫代碼。
談到開源項目,我想借此機(jī)會**一個圖像增強(qiáng)庫,該庫是由我和 Alexander Buslaev、Alex Parinov、Eugene Khvedchenia 一起基于我們有關(guān)視覺挑戰(zhàn)賽的研究創(chuàng)建的。
如果不闡述細(xì)節(jié)的話,可能沒法說清楚這個問題:
我更喜歡 Ubuntu+i3 的電腦,而不是 MacBook,因為這樣能讓我的效率提升 10%。
我很少用 Jupyter notebook,僅用于 EDA 和可視化。幾乎所有的代碼我都是在 PyCharm 上寫的,然后用 flake8 檢查,再傳到 GitHub 上。很多 ML 問題都非常相似。找一個更好的代碼庫,而不是重復(fù)自己的代碼,然后思考如何最好地重構(gòu)。這樣做雖然在開始時進(jìn)展緩慢,但后面會加快你的進(jìn)步。
我正在嘗試編寫單元測試。所有人都在討論單元測試在數(shù)據(jù)科學(xué)中的重要性,但很少有人花時間去寫。Alex Parinov 寫了一個很好的文檔(https://albumentations.readthedocs.io/en/latest/writing_tests.html),教你怎么從簡單的測試做到復(fù)雜的測試。你可以嘗試一下,然后再你的學(xué)術(shù)或 Kaggle ML 流程中添加更多測試。
目前,我正在試用模型版本化工具 DVC,我希望它能增加我的 ML 流程的復(fù)現(xiàn)率和代碼的可重用率。
我很少用鼠標(biāo)。因此我有時候需要在頁面上寫熱鍵,然后盡可能多地使用它們。
我不使用社交網(wǎng)絡(luò)。
我一天僅查收幾次郵件。
我甚至?xí)谠缟狭幸粋€當(dāng)日任務(wù)清單,然后解決它們。我使用 Trello 來做這個。
我不會把一天的時間分割得很亂。很多任務(wù)需要集中精力,而總是切換焦點沒什么用。
以上大概就我的一些工作標(biāo)準(zhǔn)了。
Q:你如何跟上這個領(lǐng)域的最新研究?
A:「跟上」這個詞對我也不太準(zhǔn)確,機(jī)器學(xué)習(xí)領(lǐng)域近來很活躍,有關(guān)的論文數(shù)量、比賽、博客和書籍非常多,不可能全部瀏覽。實際上,當(dāng)我遇到一些問題時,我會把注意力放在最新的研究上,并深入挖掘。解決完這個問題后,我再轉(zhuǎn)向另一個問題。因此,我只對那些我親身經(jīng)歷過的領(lǐng)域了解較深。同時,我對研究過的問題都有較深的專業(yè)知識,這個問題清單很長,而且還在持續(xù)增加。這個事實也讓我確信,將自己編寫并保存在私人存儲庫中的經(jīng)驗和代碼將有助于我快速開始任何新的 ML 相關(guān)任務(wù)。
此外,這還意味著我對很多問題的處理方式都有大概的了解,這樣我下次面對類似的問題時心里也有譜。
我還參加過像 NIPS、CVPR 這樣的人工智能會議,在這些大會上展示的研究成果能夠很好地代表我們當(dāng)前的研究水平。
Q:四五年前,在非機(jī)器學(xué)習(xí)領(lǐng)域拿到一個博士學(xué)位(如物理學(xué))對雇主是有利的。但現(xiàn)在的情況好像變了,非機(jī)器學(xué)習(xí)領(lǐng)域的博士學(xué)位和機(jī)器學(xué)習(xí)的碩士學(xué)位相比,IT/ML 行業(yè)更愿意選后者擔(dān)任機(jī)器學(xué)習(xí)工程師/開發(fā)者職位,至于研究崗我不太清楚。您獲得了物理學(xué)博士學(xué)位,然后轉(zhuǎn)到機(jī)器學(xué)習(xí)領(lǐng)域,我認(rèn)為您的經(jīng)歷可能適合回答這個問題。
如果獲得非機(jī)器學(xué)習(xí)博士想轉(zhuǎn)到機(jī)器學(xué)習(xí)行業(yè),您對此有何看法?這有助于獲取企業(yè)內(nèi)的研究職位嗎?與機(jī)器學(xué)習(xí)相關(guān)碩士相比有優(yōu)勢嗎?
A:這個問題比較困難,我不知道答案。
物理學(xué)是一門偉大的學(xué)科。即使回到過去,可以在物理學(xué)和計算機(jī)科學(xué)之間進(jìn)行選擇,即使知道我最終會轉(zhuǎn)到計算機(jī)科學(xué)領(lǐng)域,我仍然會選擇物理學(xué)。
當(dāng)然,主要原因是我對物理學(xué)和自然科學(xué)比較感興趣。機(jī)器學(xué)習(xí)能夠講授浩翰多彩宇宙的運行原理嗎?不能,但是物理學(xué)可以。不止如此。我的轉(zhuǎn)型之路相對容易的原因之一是物理學(xué),這門學(xué)科給予我的不僅是量子力學(xué)、相對論等知識,還有數(shù)學(xué)、統(tǒng)計學(xué)、編程技巧,這些技能有利于向其他領(lǐng)域的轉(zhuǎn)換。
物理學(xué)教會你如何在嚴(yán)謹(jǐn)理論和實驗之間以結(jié)構(gòu)化的方式進(jìn)行轉(zhuǎn)換,這對機(jī)器學(xué)習(xí)從業(yè)者而言也是一項必備技能。另外,自學(xué)集合不可能學(xué)習(xí)物理學(xué)或高等數(shù)學(xué)。這點也是我的公司信條,即深度學(xué)習(xí)的下一個大突破將在我們明白如何將高等數(shù)學(xué)應(yīng)用到機(jī)器學(xué)習(xí)中的時候出現(xiàn)?,F(xiàn)在具備大一水平的數(shù)學(xué)知識在計算機(jī)視覺領(lǐng)域已經(jīng)足夠了。
所有這些都意味著目前數(shù)學(xué)不是攔路虎,這也是掌握了數(shù)學(xué)/物理學(xué)/化學(xué)和其他 STEM 學(xué)科的額外知識對于解決大部分商業(yè)問題幾乎無用的原因,也是這些學(xué)科的畢業(yè)生轉(zhuǎn)行的原因。他們擁有大量專門知識,有博士學(xué)位,在學(xué)界待了很多年,但無法得到有趣且高薪的工作。網(wǎng)絡(luò)上到處是這種類型的博客文章。
另一方面,能寫代碼在各個地方都是必要的,這也是潛在雇主在了解數(shù)學(xué)的人和能寫代碼的人中間幾乎總是選擇后者的原因。
但我認(rèn)為這種情況會改變的。不是現(xiàn)在,是未來的某個時間點。
你讀的論文、你上的課可能與你在行業(yè)中所需的技能并不直接相關(guān),注意到這一點很重要。這是對的,但無傷大雅。
通常,在業(yè)界作為數(shù)據(jù)科學(xué)家或軟件開發(fā)者工作所需的技能可以通過自學(xué)學(xué)習(xí),不能在大學(xué)里學(xué)到。人們在工業(yè)界學(xué)到的大部分事情可以通過在某家公司的全職工作來獲取。
此外,找工作的同時還要寫理論物理學(xué)論文、研究數(shù)據(jù)科學(xué),這對我來說壓力太大了。
當(dāng)時,我并未掌握所有必備知識,我也不理解硅谷的運作和他們對我的期望。我基本上是一張白紙,我做的唯一一件事是不斷地把簡歷投給不同的公司,不斷地面試,從每次失敗中學(xué)習(xí),然后再繼續(xù),直到面試成功。
我記得有一次面試官問我畢業(yè)論文主題是什么,我當(dāng)時在研究量子蒙特卡羅(Quantum Monte Carlo),我如實回答了這個問題,然后盡力解釋它的意思以及我們?yōu)槭裁葱枰?。面試官看著我,問了一句話:「這項技術(shù)如何幫助我們提高客戶參與度?」
我想說對于非計算機(jī)科學(xué)專業(yè)的人來說,最好的方法是參加計算機(jī)科學(xué)系內(nèi)部的數(shù)據(jù)科學(xué)(DS)相關(guān)課程。業(yè)余時間學(xué)習(xí) DS / ML。幸運的是,有很多資源。在自己院系中找到一個想使用機(jī)器學(xué)習(xí)解決自己問題的教授也是個好主意。申請技術(shù)公司的 ML 相關(guān)實習(xí)崗位,拿到實習(xí)崗位比獲得全職工作容易一些。
實習(xí)后轉(zhuǎn)為正式崗就很直接了。比如我的朋友胡文健,他和我同一個研究小組研究物理學(xué),他先在 Facebook 實習(xí),后來得到了 Facebook AI Research 的研究科學(xué)家職位。
不要高估專業(yè)、大學(xué)對找工作的影響。企業(yè)雇傭你時,主要是付錢讓你解決他們面臨的問題。你的學(xué)位和專業(yè)只是他們用來估計你能力的東西。如果你的簡歷中沒有他們想看到的內(nèi)容,那很難通過 HR 的簡歷篩選,對找工作很重要的人際關(guān)系網(wǎng)也會減弱,但這仍然不應(yīng)該影響你決定自己學(xué)什么專業(yè)。
我的想法可能有點天真,但我覺得人們選擇自己專業(yè)的標(biāo)準(zhǔn),不應(yīng)該是高薪,而是熱情(passion)。
Q:你覺得數(shù)據(jù)科學(xué)/ML 中有趣的問題是什么?我的碩士學(xué)位完成了一半,但我不知道以后要從事 ML 哪方面的工作。我和認(rèn)為 Algo 創(chuàng)建與擴(kuò)展是最好領(lǐng)域的人交談過(對于 DS / ML 應(yīng)用程序而言,更可能是庫**件和 chug)。對此你有什么看法?或者關(guān)于職業(yè)靈活性的建議?
A:我認(rèn)為 DS/ML 中有趣的問題與當(dāng)今主流相去甚遠(yuǎn)。研究主流問題的人太多。將 ML 應(yīng)用于信用評分、推薦系統(tǒng)和零售等我都覺得很無聊。如果你用 DS/ML 來解決那些數(shù)學(xué)、物理、生物、化學(xué)、歷史、考古、地理問題或者那些人們很少應(yīng)用 ML 的問題,你可能會找到下一個屬于你的 Purple Cow。
至于職業(yè)選擇,與生物或物理不同,你在 DS/ML 中學(xué)到的技能很容易從一個領(lǐng)域轉(zhuǎn)到另一個領(lǐng)域。當(dāng)然,開發(fā)銀行或?qū)_基金交易的算法和開發(fā)自動駕駛汽車不是一回事,但差別也沒有那么大。只要你基礎(chǔ)牢固,很快就能掌握必要的技能。
Q:30 歲(有學(xué)習(xí)背景,但不是 Math/CS 方面)加入 ML 社區(qū)是否為時已晚?是否有可能趕上末班車?如果可以,你覺得最低要求是什么?
A:當(dāng)然不晚。90% 的 ML 只需要技術(shù)大學(xué)大一的數(shù)學(xué)知識,不需要超深的數(shù)學(xué)知識。DS 中使用最廣泛的語言是 Python 和 R 語言,這兩種語言比較高級,因此你可以從它們?nèi)胧?,而不是在技術(shù)細(xì)節(jié)方面死磕。
我建議參加一些 DS 的在線課程,然后研究一些 Kaggle 問題。當(dāng)然,很多概念聽起來都很新,但你只要保持自律和專注,慢慢就會懂了。
這兒有兩個關(guān)于年齡的例子:
Kaggle Grandmaster Evgeny Patekha 40 歲才開始數(shù)據(jù)科學(xué)研究。
Kaggle Grandmaster Alexander Larko 55 歲才開始參加 Kaggle。
Q:你認(rèn)為技術(shù)領(lǐng)域的正規(guī)基礎(chǔ)教育對獲得數(shù)據(jù)科學(xué)和 Kaggle 比賽的成功是必要的嗎?在你的工作經(jīng)歷中有沒有遇到相反的例子?
A:我只能說這些很有用,但并非必要。很多在 Kaggle 中獲得成功的人并沒有技術(shù)領(lǐng)域的基礎(chǔ)教育背景。典型的例子就是 Mikel Bober-Irizar,他是一名 Kaggle Grandmaster,但還在念高中……
不過你要記住的另一件事是:你在 Kaggle 中學(xué)到的技能只是你將來在 ML 業(yè)界或?qū)W界所需技能的一小部分。而那些在 Kaggle 中無法學(xué)到的技能,基礎(chǔ)教育可以為你提供。
不過話說回來,就算沒有高中學(xué)歷你也能擅長 Kaggle。
Q:你用了多長時間學(xué)習(xí)數(shù)據(jù)科學(xué)/機(jī)器學(xué)習(xí),才成為了 Kaggle 高手?
A:我是在 2015 年 1 月決定轉(zhuǎn)向數(shù)據(jù)科學(xué)的。在這之后,我開始在 Coursera 上學(xué)習(xí)線上課程。在當(dāng)年 2 月底,我知道了 Kaggle 的存在并注冊了自己的賬號,兩個月之后我獲得了自己的第一個銀牌。
Q:使用家用臺式機(jī)不用云服務(wù)在 Kaggle 比賽里能得高分嗎?
A:我不在比賽中使用云服務(wù),但我家里有兩臺比較強(qiáng)力的計算機(jī):一臺有 4 塊 GPU,另一臺有兩塊。你可以在沒有強(qiáng)大深度學(xué)習(xí)機(jī)器的情況下獲得 Kaggle 比賽的好成績,但是缺乏算力的限制會使你在單位時間內(nèi)嘗試思路的數(shù)量——而思路的數(shù)量和最終的結(jié)果密切相關(guān)。所以如果你以 24/7 的投入訓(xùn)練模型,你就需要投資購買一臺好機(jī)器。
在幾代更新之后,我的開發(fā)硬件最終變成了這樣:一臺 4GPU 的機(jī)器用于高負(fù)載,另一臺雙卡的機(jī)器用于原型設(shè)計。
僅有一臺強(qiáng)大的計算機(jī)還是不夠的,你需要學(xué)一些編程技巧,來利用它的算力。
我從 Keras 轉(zhuǎn)到 PyTorch 的一個原因是當(dāng)時后者的 DataLoader 更加強(qiáng)大。
我們看到 imgaug 太慢了,于是寫了 albumentations,以利用 100% 的 CPU 算力,不過它沒法充分利用 GPU。
如果想加速硬盤上 jpeg 圖像的吞吐速度,我們不應(yīng)該使用 PIL、skimageand 甚至 OpenCV,而是應(yīng)該用 libjpeg-turbo 或 PyVips。
其他
Q:對于從 Kaggle 競賽開始數(shù)據(jù)科學(xué)家生涯的人,你對他們有什么建議嗎?特別是那些首次參加競賽的菜鳥,有什么最好的建議?
A:有很多方式來參加 Kaggle 競賽,但根據(jù)我的觀察經(jīng)驗,獲取所需知識的最高效方法是使用黑客的方法。
觀看一些包含 Python 編程基礎(chǔ)和機(jī)器學(xué)習(xí)的在線課程。
參加一個 Kaggle 競賽。如果你可以寫出一個從數(shù)據(jù)到提交的端到端流程,這很好。如果你是新手,這可能很難。在這種情況下,可以去論壇復(fù)制粘貼別人共享的 kernel。
在你的計算機(jī)上運行,生成一個提交,在排行榜上獲取名次。在這一階段,操作系統(tǒng)、驅(qū)動程序、庫版本、I/O 等問題可能會讓你覺得很痛苦。你要盡快習(xí)慣。如果你不能理解 kernel 里寫的什么,沒關(guān)系,問題不大。
調(diào)整一些參數(shù),隨便調(diào)也沒關(guān)系,重新訓(xùn)練你的模型,提交預(yù)測。希望某些修改可以讓你的排名提升。不要擔(dān)心,很多人都是這么做的。他們都在做不同的調(diào)整,你不需要對相關(guān)知識或原理有深刻或直觀的理解。
為了超越周圍的調(diào)參俠,你要發(fā)展出一種直覺,并獲取關(guān)于什么方案可行、什么方案不可行的基礎(chǔ)知識,從而可以更加智能和高效地探索可能方法的相空間。在這一步,你需要將學(xué)習(xí)作為實驗的一部分。從兩個方向?qū)W習(xí),首先是像 mlcourse.ai、CS231n、數(shù)學(xué)、統(tǒng)計學(xué)、如何寫更好的代碼等基礎(chǔ)。一般來說,自主學(xué)習(xí)很難,但從長期來看,這很重要。其次你會在相關(guān)問題的論壇上看到很多新術(shù)語。記得注意這些術(shù)語。嘗試激勵自己在排行榜中取得更好成績作為外部動力來學(xué)習(xí)新事物。但不要在學(xué)習(xí)和實驗之間進(jìn)行選擇,同時做兩件事。機(jī)器學(xué)習(xí)是一門應(yīng)用科學(xué)。
在競賽結(jié)束之后,雖然付出了很大的努力,但你也很可能在排行榜上取得很低的名次。這不奇怪。好好閱讀論壇的內(nèi)容,看看 winner 分享的解決方案,嘗試找出比之前更好的解決方案。下一次當(dāng)你看到相似的問題時,你的起點會高得多。
在多個競賽中重復(fù)該過程,然后到達(dá) top。更重要的是,你將對很多問題擁有好的解決方案,并且對于如何處理在競賽中遇到的機(jī)器學(xué)習(xí)挑戰(zhàn)能夠發(fā)展良好的直覺。
Q:作為物理學(xué)背景的人,當(dāng)競賽更多的是過擬合 vs 具體任務(wù)上的實際泛化效果時,你會覺得挫敗嗎?如果會,那你會怎么處理?
A:通常,你需要過擬合數(shù)據(jù)和指標(biāo),以獲取好的結(jié)果。這沒什么問題。人們在 ImageNet 數(shù)據(jù)集上過擬合了很多年,訓(xùn)練過程中仍然會出現(xiàn)很多新知識。但是你需要理解指標(biāo)和數(shù)據(jù)的細(xì)微之處,這是知識的來源。只要競賽過程中能夠得到新知識,那過擬合不會讓我覺得很挫敗。你可能注意到了,當(dāng)你擅長一個問題的流程和想法時,這些可以作為你下一個問題的可靠基線模型,這表明了一定的泛化性。
Q:你對 Kaggle 的數(shù)據(jù)泄露(如 Santander、Airship prediction 和 Google Analytics)有什么看法?在 Kaggle 比賽中使用泄露的數(shù)據(jù)是否合乎道德?
A:我承認(rèn)組織比賽很難,所以當(dāng)發(fā)現(xiàn)數(shù)據(jù)泄露時,我不會指責(zé)組織者。而人們利用泄露的數(shù)據(jù)參加比賽,我也覺得 OK。我承認(rèn)數(shù)據(jù)泄露阻礙了我參與一次挑戰(zhàn),但這主要是因為我無法輕易地把獲得的知識擴(kuò)展到其它挑戰(zhàn)。我仍然認(rèn)為 Kaggle 管理員需要創(chuàng)建一份可能會泄露的數(shù)據(jù)清單,并在比賽前檢查數(shù)據(jù)以防止同樣的事件一次又一次發(fā)生。我相信他們正在為此努力。
Q:Kaggle 比賽對做一名 DL 工程師有多大用處?
A:這很難說。Kaggle 在一些重要但非常狹窄的領(lǐng)域提升你的技能。這是一個非常重要的技能組合,對某些職位可能非常有用,但對另一些來說則幫助不大。而對我從事過的工作,尤其是現(xiàn)在從事的自動駕駛來說,Kaggle 技能是我從學(xué)界和其它知識來源中獲取的有力加分項。
不過,要掌握 Kaggle 技能,光有扎實的基礎(chǔ)并不夠。很多東西你只能從業(yè)界學(xué)習(xí)。
雖然成為 Kaggle Master 對你的工作來說不是必需的,也并不代表你會在工作中做得很好。但我相信,如果你是 Kaggle Master,你的簡歷會更容易通過 HR 的篩選,然后有機(jī)會進(jìn)入技術(shù)展示階段。
Q:成為 Kaggle Grandmaster 之后繼續(xù)參加比賽還有什么用處?已經(jīng)成為數(shù)據(jù)科學(xué)家之后繼續(xù)前進(jìn)的動力是什么?
A:正如我前面所說的,我現(xiàn)在不再參加 Kaggle 比賽了,但我開始關(guān)注很多會議上出現(xiàn)的挑戰(zhàn)賽。我的團(tuán)隊在 MICCAI 2017、CVPR 2018 和 MICCAI 2018 取得了不錯的成績。競賽通常包括漂亮、干凈的數(shù)據(jù)集,這些數(shù)據(jù)需要的清理工作最少,可以讓你少關(guān)注數(shù)據(jù),多關(guān)注數(shù)值技術(shù)。這是你在工作中通常沒有的奢侈品,數(shù)據(jù)選擇過程通常是創(chuàng)建實用流程的最重要的組成部分。
Q:你對于本科生和研究生的學(xué)習(xí)和競爭力有什么看法?什么水平才能真正掌握數(shù)據(jù)科學(xué)?
A:我甚至不知道是什么決定了數(shù)據(jù)科學(xué)。這個問題有很多回答的方式,但在這里我們的主題是 Kaggle Grandmaster,所以讓我們把第一個里程碑設(shè)置為「Kaggle Master」。這是相對直接的標(biāo)準(zhǔn),一旦你開始朝著這個方面努力,你就會對這一領(lǐng)域有更多的了解。
Q:如果沒有數(shù)學(xué)/計算機(jī)科學(xué)或其他一些高級計算課程教育背景,你在 Kaggle(或者更廣泛地說是數(shù)據(jù)科學(xué)領(lǐng)域)上可以走多遠(yuǎn)?激情和求知欲能帶你走多遠(yuǎn)?
如果以目標(biāo)為導(dǎo)向并且愿意學(xué)習(xí),你可以在 Kaggle 或其他任何數(shù)據(jù)科學(xué)領(lǐng)域獲得最高成績。最艱難的是邁出第一步。Just do it!最好的時間是此時此刻,因為明天,通常意味著永不。
沒有人問過我這個問題:在一場特定的比賽中,你是如何找到幫助你提高成績的人的?我覺得這是一個目前在博客中還沒有看到過的重要話題。
最常見的方法:一些朋友、同事對這個比賽很有熱情,他們聊這個比賽,一起開會、討論問題并組隊。一些人想做些事情;但另外一些忙于其他活動。這種團(tuán)隊可以往前走一段,但走不遠(yuǎn)。
對于我以及其他一些參賽者來說更好的方式有以下幾種:
1. 寫出你的流程或平臺上分享的重構(gòu)流程。
2. 這個流程應(yīng)該以適當(dāng)?shù)母袷綄⑤斎霐?shù)據(jù)映射到提交的文件中,并生成交叉驗證分?jǐn)?shù)。
3. 驗證交叉驗證分?jǐn)?shù)的改進(jìn)與排行榜上的改進(jìn)相關(guān)。
4. 執(zhí)行探索性數(shù)據(jù)分析,仔細(xì)瀏覽論壇,閱讀論文、書籍和之前類似競賽的解決方案。獨立工作。
5. 在某個時間點,比如競賽截止前 2-4 周,你會陷入困境。什么想法都沒法改進(jìn)你的排名。你嘗試了一切,這時你需要新的想法來源。
6. 這時你可以看下排行榜,與排名接近的積極參賽者進(jìn)行溝通。
7. 首先,你的預(yù)測平均值會帶來微小卻重要的提升。其次,很可能你的方法有一點不同,分享試過或沒試過的想法是有益的。第三,由于競賽最初是個人單獨參賽,因此所有參賽者都會看數(shù)據(jù)、寫流程、將競賽的重要性置于其他活動之上,以及受實時排行榜帶來的游戲效應(yīng)的刺激。
但更重要的是,人們傾向于高估自己愿意花在競賽上的時間,低估獲取穩(wěn)定端到端流程之前要面臨的問題。用排行榜來創(chuàng)建團(tuán)隊可以作為過濾器,確保你的潛在隊友和你達(dá)成共識。
在一些競賽中,領(lǐng)域知識對于性能結(jié)果非常重要。例如,表格數(shù)據(jù)(tabular data)和對應(yīng)的特征工程或醫(yī)學(xué)成像,你可以考慮和具備深厚領(lǐng)域知識的人組隊,即使他/她沒有強(qiáng)大的數(shù)據(jù)科學(xué)背景,不過這種情況比較稀少。
另一方面,業(yè)界組建團(tuán)隊的方式完全不同。使用 Kaggle 的方式在業(yè)界組隊是不明智的。
在這里,我要感謝所有曾經(jīng)與我組隊的人,他們在比賽中教會了我很多:
Artem Sanakoeu, Alexander Buslaev, Sergey Mushinskiy, Evgeny Nizhibitsky, Konstantin Lopuhin, Alexey Noskov, Artur Kuzin, Ruslan Baikulov, Pavel Nesterov, Arseny Kravchenko, Eugene Babakhin, Dmitry Pranchuk, Artur Fattakhov, Ilya Kibardin, Liam Damewood, Alexey Shvets, Anton Dobrenkii, Selim Seferbekov, Alexandr Kalinin, Alexander Rakhlin.
了
如何成為?Kaggle頂級大師?
Vladimir I. Iglovikov 是一名 Kaggle 頂級大師(Grandmaster),曾獲得過 Carvana 圖像遮蔽挑戰(zhàn)的冠軍,以及 Dstl 衛(wèi)星圖像特征檢測挑戰(zhàn)的第三名。他曾在 UC Davis 獲得過理論凝聚態(tài)物理學(xué)博士的學(xué)位,現(xiàn)在是一名 Lyft 的計算機(jī)視覺工程師,主要研究自動駕駛。
最近,Vladimir 分享了自己成為 Kaggle 高手的經(jīng)驗。目前,Kaggle 注冊用戶數(shù)量已超 100 萬,其中只有 124 人擁有 Grandmaster 頭銜,如何成為全球排名前千分之一的數(shù)據(jù)科學(xué)家?讓我們看看他是怎么說的。
我叫 Vladimir,本科畢業(yè)并獲得理論物理學(xué)位后搬到了硅谷,從事數(shù)據(jù)科學(xué)相關(guān)的工作。我當(dāng)前在 Lyft 公司的自動駕駛部門工作,研究與計算機(jī)視覺相關(guān)的應(yīng)用。
過去幾年來,我花了很多時間參加關(guān)于機(jī)器學(xué)習(xí)的比賽。這樣做是因為,一方面我覺得它本身很好玩,而另一方面,我覺得這是一種非常高效的數(shù)據(jù)科學(xué)技能提升方法。當(dāng)然,不是所有的比賽都很容易,我也不是在每場比賽中都能獲得好成績。但時不時地參加這些比賽,讓我不斷地提高了自己的相關(guān)技能,甚至最終獲得了 Kaggle Grandmaster 的稱號。
我要向 @Lasteg 表示感謝,是他提議我參加這期的 AMA(Ask Me Anything session)并在 Reddit、kaggle、science.d3.ru(in Russian)上收集問題。他收集有很多問題,我會盡我所能去回答,但沒辦法在本篇博客中解決所有問題。如果你的疑問未能在本文獲得解答,可以在評論中留言。
以下是我(或我的團(tuán)隊)有幸躋身排行榜前列的一些深度學(xué)習(xí)挑戰(zhàn):
在 Ultrasound Nerve Segmentation 中獲得第十名
在 Dstl Satellite Imagery Feature Detection 中獲得第三名
在 Safe passage: Detecting and classifying vehicles in aerial imagery 中獲得第二名
在 Kaggle: Planet: Understanding the Amazon from Space 中獲得第七名
在 MICCAI 2017: Gastrointestinal Image ANAlysis (GIANA) 中獲得第一名
在 MICCAI 2017: Robotic Instrument Segmentation 中獲得第一名
在 Kaggle: Carvana Image Masking Challenge 中獲得第一名
在 Kaggle: IEEE's Signal Processing Society—Camera Model Identification 中獲得第九名
在 CVPR 2018 Deepglobe. Road Extraction. 中獲得第二名
在 CVPR 2018 Deepglobe. Building Detection. 中獲得第二名
在 CVPR 2018 Deepglobe. Land Cover Classification. 中獲得第三名
在 MICCAI 2018: Gastrointestinal Image ANAlysis (GIANA) 中獲得第三名
Q:除了數(shù)據(jù)科學(xué)以外,您生活中喜歡做些什么?
A:當(dāng)然,我喜歡徒步旅行、攀巖。如果你早上去 Mission Cliffs 攀巖館,見到我可以打個招呼。
我也喜歡跳舞,特別是 Bules Fusion。舊金山的 Misiion Fusion 和 South Bay Fusion 舞蹈產(chǎn)地是我經(jīng)常去的。
旅行對我來說很重要。春天的時候我去了白俄羅斯、摩洛哥、約旦。九月,我在芬蘭、德國、奧地利呆了三周。當(dāng)然,2018 Burning Man 是今年最爽的活動。
Q:你如何在工作的同時花很多時間做 kaggle 呢?
A:對我來說,雖然沒有薪酬,但參加 Kaggle 比賽是我的第二職業(yè)。我這么做理由很充足?;钴S的 Kaggle 參與者追求領(lǐng)域的改變很常見。我也不例外。當(dāng)我從學(xué)界轉(zhuǎn)向業(yè)界時,我開始參加比賽。我需要一個高效的方法來盡快熟悉 ML 需要解決的問題,掌握那些工具,并將思維擴(kuò)展機(jī)器學(xué)習(xí)的新領(lǐng)域。
后來,當(dāng)我在 Bidgely 開始我的第一份工作之后,我參與的 Kaggle 賽事更多了。有段時間,我在研究信號處理任務(wù),同時幾乎將所有晚上的時間用來處理參加比賽用的表格數(shù)據(jù)。那段時間我的工作和生活有些失衡,但我獲得的知識卻是值得的。
再后來,我做好準(zhǔn)備換工作以后,加入了 TrueAccord,在那里我做了很多傳統(tǒng)的機(jī)器學(xué)習(xí)任務(wù)。但我不想停止對 Kaggle 的研究,所以我白天做的是傳統(tǒng)機(jī)器學(xué)習(xí),晚上和周末研究深度學(xué)習(xí)。也因此,工作和生活更加無法保持平衡。但我學(xué)到了很多東西,獲得了很好的附加技能,成為了 Kaggle Master。當(dāng)我加入 Lyft Level 5 時,我知道所有這些努力都沒有白費,在這份工作里我將深度學(xué)習(xí)應(yīng)用于自動駕駛問題上。
最終,我沒有全職做 Kaggle,但我仍在積極地學(xué)習(xí)。工作中有很多有趣的計算機(jī)視覺問題,我正嘗試在 Kaggle 沒有涉足的領(lǐng)域里獲得更多的知識。我仍然時不時地向各種比賽提交參賽作品,但這主要是為了更好地理解其他參賽者正面臨的問題和挑戰(zhàn),這樣做反過來有助于我從論壇分享的信息中獲得很大的收益。
Q:幫助你提高工作效率的日常慣例是什么?你如何安排一天的行程?
A:首先,我不太確定自己是否高效,因為我總是在尋找新的辦法優(yōu)化工作方式。
需要解決的問題和需要參與的活動總是很多,但不是所有的都有用又好玩。所以我做什么事情都要優(yōu)先考慮。有兩本書對這個話題進(jìn)行了精彩的討論:《So Good They Can't Ignore You: Why Skills Trump Passion in the Quest for Work You Love》和《Deep Work: Rules for Focused Success in a Distracted World》。
工作日,我一般早上 6 點起床,然后去攀巖館。這樣做能幫助我保持身材并讓我一天都保持清醒。之后,我開車去上班。我們的自動駕駛工程中心位于 Palo Alto,這對我來說有點憂桑,因為我更喜歡住在市區(qū)。開車很有趣,但通勤很煩。為了讓通勤時間更有效率,我會在車?yán)锫犛新曌x物。開車時當(dāng)然沒法專心聽書,但在駕駛時聽聽這些文學(xué)、有關(guān)軟技能和商業(yè)的書總是不錯的。
我想好好把握工作和生活之間的平衡,但沒有做到。當(dāng)然,我花了很多時間和朋友參加不同的活動,而且很多活動是在舊金山。同時,我仍需要學(xué)習(xí);我還要保持機(jī)器學(xué)習(xí)的狀態(tài),不能把目光局限在工作中遇到的問題上。所以我晚上有時候會閱讀技術(shù)文獻(xiàn),或者為比賽、輔助項目和開源項目編寫代碼。
談到開源項目,我想借此機(jī)會**一個圖像增強(qiáng)庫,該庫是由我和 Alexander Buslaev、Alex Parinov、Eugene Khvedchenia 一起基于我們有關(guān)視覺挑戰(zhàn)賽的研究創(chuàng)建的。
如果不闡述細(xì)節(jié)的話,可能沒法說清楚這個問題:
我更喜歡 Ubuntu+i3 的電腦,而不是 MacBook,因為這樣能讓我的效率提升 10%。
我很少用 Jupyter notebook,僅用于 EDA 和可視化。幾乎所有的代碼我都是在 PyCharm 上寫的,然后用 flake8 檢查,再傳到 GitHub 上。很多 ML 問題都非常相似。找一個更好的代碼庫,而不是重復(fù)自己的代碼,然后思考如何最好地重構(gòu)。這樣做雖然在開始時進(jìn)展緩慢,但后面會加快你的進(jìn)步。
我正在嘗試編寫單元測試。所有人都在討論單元測試在數(shù)據(jù)科學(xué)中的重要性,但很少有人花時間去寫。Alex Parinov 寫了一個很好的文檔(https://albumentations.readthedocs.io/en/latest/writing_tests.html),教你怎么從簡單的測試做到復(fù)雜的測試。你可以嘗試一下,然后再你的學(xué)術(shù)或 Kaggle ML 流程中添加更多測試。
目前,我正在試用模型版本化工具 DVC,我希望它能增加我的 ML 流程的復(fù)現(xiàn)率和代碼的可重用率。
我很少用鼠標(biāo)。因此我有時候需要在頁面上寫熱鍵,然后盡可能多地使用它們。
我不使用社交網(wǎng)絡(luò)。
我一天僅查收幾次郵件。
我甚至?xí)谠缟狭幸粋€當(dāng)日任務(wù)清單,然后解決它們。我使用 Trello 來做這個。
我不會把一天的時間分割得很亂。很多任務(wù)需要集中精力,而總是切換焦點沒什么用。
以上大概就我的一些工作標(biāo)準(zhǔn)了。
Q:你如何跟上這個領(lǐng)域的最新研究?
A:「跟上」這個詞對我也不太準(zhǔn)確,機(jī)器學(xué)習(xí)領(lǐng)域近來很活躍,有關(guān)的論文數(shù)量、比賽、博客和書籍非常多,不可能全部瀏覽。實際上,當(dāng)我遇到一些問題時,我會把注意力放在最新的研究上,并深入挖掘。解決完這個問題后,我再轉(zhuǎn)向另一個問題。因此,我只對那些我親身經(jīng)歷過的領(lǐng)域了解較深。同時,我對研究過的問題都有較深的專業(yè)知識,這個問題清單很長,而且還在持續(xù)增加。這個事實也讓我確信,將自己編寫并保存在私人存儲庫中的經(jīng)驗和代碼將有助于我快速開始任何新的 ML 相關(guān)任務(wù)。
此外,這還意味著我對很多問題的處理方式都有大概的了解,這樣我下次面對類似的問題時心里也有譜。
我還參加過像 NIPS、CVPR 這樣的人工智能會議,在這些大會上展示的研究成果能夠很好地代表我們當(dāng)前的研究水平。
Q:四五年前,在非機(jī)器學(xué)習(xí)領(lǐng)域拿到一個博士學(xué)位(如物理學(xué))對雇主是有利的。但現(xiàn)在的情況好像變了,非機(jī)器學(xué)習(xí)領(lǐng)域的博士學(xué)位和機(jī)器學(xué)習(xí)的碩士學(xué)位相比,IT/ML 行業(yè)更愿意選后者擔(dān)任機(jī)器學(xué)習(xí)工程師/開發(fā)者職位,至于研究崗我不太清楚。您獲得了物理學(xué)博士學(xué)位,然后轉(zhuǎn)到機(jī)器學(xué)習(xí)領(lǐng)域,我認(rèn)為您的經(jīng)歷可能適合回答這個問題。
如果獲得非機(jī)器學(xué)習(xí)博士想轉(zhuǎn)到機(jī)器學(xué)習(xí)行業(yè),您對此有何看法?這有助于獲取企業(yè)內(nèi)的研究職位嗎?與機(jī)器學(xué)習(xí)相關(guān)碩士相比有優(yōu)勢嗎?
A:這個問題比較困難,我不知道答案。
物理學(xué)是一門偉大的學(xué)科。即使回到過去,可以在物理學(xué)和計算機(jī)科學(xué)之間進(jìn)行選擇,即使知道我最終會轉(zhuǎn)到計算機(jī)科學(xué)領(lǐng)域,我仍然會選擇物理學(xué)。
當(dāng)然,主要原因是我對物理學(xué)和自然科學(xué)比較感興趣。機(jī)器學(xué)習(xí)能夠講授浩翰多彩宇宙的運行原理嗎?不能,但是物理學(xué)可以。不止如此。我的轉(zhuǎn)型之路相對容易的原因之一是物理學(xué),這門學(xué)科給予我的不僅是量子力學(xué)、相對論等知識,還有數(shù)學(xué)、統(tǒng)計學(xué)、編程技巧,這些技能有利于向其他領(lǐng)域的轉(zhuǎn)換。
物理學(xué)教會你如何在嚴(yán)謹(jǐn)理論和實驗之間以結(jié)構(gòu)化的方式進(jìn)行轉(zhuǎn)換,這對機(jī)器學(xué)習(xí)從業(yè)者而言也是一項必備技能。另外,自學(xué)集合不可能學(xué)習(xí)物理學(xué)或高等數(shù)學(xué)。這點也是我的公司信條,即深度學(xué)習(xí)的下一個大突破將在我們明白如何將高等數(shù)學(xué)應(yīng)用到機(jī)器學(xué)習(xí)中的時候出現(xiàn)?,F(xiàn)在具備大一水平的數(shù)學(xué)知識在計算機(jī)視覺領(lǐng)域已經(jīng)足夠了。
所有這些都意味著目前數(shù)學(xué)不是攔路虎,這也是掌握了數(shù)學(xué)/物理學(xué)/化學(xué)和其他 STEM 學(xué)科的額外知識對于解決大部分商業(yè)問題幾乎無用的原因,也是這些學(xué)科的畢業(yè)生轉(zhuǎn)行的原因。他們擁有大量專門知識,有博士學(xué)位,在學(xué)界待了很多年,但無法得到有趣且高薪的工作。網(wǎng)絡(luò)上到處是這種類型的博客文章。
另一方面,能寫代碼在各個地方都是必要的,這也是潛在雇主在了解數(shù)學(xué)的人和能寫代碼的人中間幾乎總是選擇后者的原因。
但我認(rèn)為這種情況會改變的。不是現(xiàn)在,是未來的某個時間點。
你讀的論文、你上的課可能與你在行業(yè)中所需的技能并不直接相關(guān),注意到這一點很重要。這是對的,但無傷大雅。
通常,在業(yè)界作為數(shù)據(jù)科學(xué)家或軟件開發(fā)者工作所需的技能可以通過自學(xué)學(xué)習(xí),不能在大學(xué)里學(xué)到。人們在工業(yè)界學(xué)到的大部分事情可以通過在某家公司的全職工作來獲取。
此外,找工作的同時還要寫理論物理學(xué)論文、研究數(shù)據(jù)科學(xué),這對我來說壓力太大了。
當(dāng)時,我并未掌握所有必備知識,我也不理解硅谷的運作和他們對我的期望。我基本上是一張白紙,我做的唯一一件事是不斷地把簡歷投給不同的公司,不斷地面試,從每次失敗中學(xué)習(xí),然后再繼續(xù),直到面試成功。
我記得有一次面試官問我畢業(yè)論文主題是什么,我當(dāng)時在研究量子蒙特卡羅(Quantum Monte Carlo),我如實回答了這個問題,然后盡力解釋它的意思以及我們?yōu)槭裁葱枰?。面試官看著我,問了一句話:「這項技術(shù)如何幫助我們提高客戶參與度?」
我想說對于非計算機(jī)科學(xué)專業(yè)的人來說,最好的方法是參加計算機(jī)科學(xué)系內(nèi)部的數(shù)據(jù)科學(xué)(DS)相關(guān)課程。業(yè)余時間學(xué)習(xí) DS / ML。幸運的是,有很多資源。在自己院系中找到一個想使用機(jī)器學(xué)習(xí)解決自己問題的教授也是個好主意。申請技術(shù)公司的 ML 相關(guān)實習(xí)崗位,拿到實習(xí)崗位比獲得全職工作容易一些。
實習(xí)后轉(zhuǎn)為正式崗就很直接了。比如我的朋友胡文健,他和我同一個研究小組研究物理學(xué),他先在 Facebook 實習(xí),后來得到了 Facebook AI Research 的研究科學(xué)家職位。
不要高估專業(yè)、大學(xué)對找工作的影響。企業(yè)雇傭你時,主要是付錢讓你解決他們面臨的問題。你的學(xué)位和專業(yè)只是他們用來估計你能力的東西。如果你的簡歷中沒有他們想看到的內(nèi)容,那很難通過 HR 的簡歷篩選,對找工作很重要的人際關(guān)系網(wǎng)也會減弱,但這仍然不應(yīng)該影響你決定自己學(xué)什么專業(yè)。
我的想法可能有點天真,但我覺得人們選擇自己專業(yè)的標(biāo)準(zhǔn),不應(yīng)該是高薪,而是熱情(passion)。
Q:你覺得數(shù)據(jù)科學(xué)/ML 中有趣的問題是什么?我的碩士學(xué)位完成了一半,但我不知道以后要從事 ML 哪方面的工作。我和認(rèn)為 Algo 創(chuàng)建與擴(kuò)展是最好領(lǐng)域的人交談過(對于 DS / ML 應(yīng)用程序而言,更可能是庫**件和 chug)。對此你有什么看法?或者關(guān)于職業(yè)靈活性的建議?
A:我認(rèn)為 DS/ML 中有趣的問題與當(dāng)今主流相去甚遠(yuǎn)。研究主流問題的人太多。將 ML 應(yīng)用于信用評分、推薦系統(tǒng)和零售等我都覺得很無聊。如果你用 DS/ML 來解決那些數(shù)學(xué)、物理、生物、化學(xué)、歷史、考古、地理問題或者那些人們很少應(yīng)用 ML 的問題,你可能會找到下一個屬于你的 Purple Cow。
至于職業(yè)選擇,與生物或物理不同,你在 DS/ML 中學(xué)到的技能很容易從一個領(lǐng)域轉(zhuǎn)到另一個領(lǐng)域。當(dāng)然,開發(fā)銀行或?qū)_基金交易的算法和開發(fā)自動駕駛汽車不是一回事,但差別也沒有那么大。只要你基礎(chǔ)牢固,很快就能掌握必要的技能。
Q:30 歲(有學(xué)習(xí)背景,但不是 Math/CS 方面)加入 ML 社區(qū)是否為時已晚?是否有可能趕上末班車?如果可以,你覺得最低要求是什么?
A:當(dāng)然不晚。90% 的 ML 只需要技術(shù)大學(xué)大一的數(shù)學(xué)知識,不需要超深的數(shù)學(xué)知識。DS 中使用最廣泛的語言是 Python 和 R 語言,這兩種語言比較高級,因此你可以從它們?nèi)胧?,而不是在技術(shù)細(xì)節(jié)方面死磕。
我建議參加一些 DS 的在線課程,然后研究一些 Kaggle 問題。當(dāng)然,很多概念聽起來都很新,但你只要保持自律和專注,慢慢就會懂了。
這兒有兩個關(guān)于年齡的例子:
Kaggle Grandmaster Evgeny Patekha 40 歲才開始數(shù)據(jù)科學(xué)研究。
Kaggle Grandmaster Alexander Larko 55 歲才開始參加 Kaggle。
Q:你認(rèn)為技術(shù)領(lǐng)域的正規(guī)基礎(chǔ)教育對獲得數(shù)據(jù)科學(xué)和 Kaggle 比賽的成功是必要的嗎?在你的工作經(jīng)歷中有沒有遇到相反的例子?
A:我只能說這些很有用,但并非必要。很多在 Kaggle 中獲得成功的人并沒有技術(shù)領(lǐng)域的基礎(chǔ)教育背景。典型的例子就是 Mikel Bober-Irizar,他是一名 Kaggle Grandmaster,但還在念高中……
不過你要記住的另一件事是:你在 Kaggle 中學(xué)到的技能只是你將來在 ML 業(yè)界或?qū)W界所需技能的一小部分。而那些在 Kaggle 中無法學(xué)到的技能,基礎(chǔ)教育可以為你提供。
不過話說回來,就算沒有高中學(xué)歷你也能擅長 Kaggle。
Q:你用了多長時間學(xué)習(xí)數(shù)據(jù)科學(xué)/機(jī)器學(xué)習(xí),才成為了 Kaggle 高手?
A:我是在 2015 年 1 月決定轉(zhuǎn)向數(shù)據(jù)科學(xué)的。在這之后,我開始在 Coursera 上學(xué)習(xí)線上課程。在當(dāng)年 2 月底,我知道了 Kaggle 的存在并注冊了自己的賬號,兩個月之后我獲得了自己的第一個銀牌。
Q:使用家用臺式機(jī)不用云服務(wù)在 Kaggle 比賽里能得高分嗎?
A:我不在比賽中使用云服務(wù),但我家里有兩臺比較強(qiáng)力的計算機(jī):一臺有 4 塊 GPU,另一臺有兩塊。你可以在沒有強(qiáng)大深度學(xué)習(xí)機(jī)器的情況下獲得 Kaggle 比賽的好成績,但是缺乏算力的限制會使你在單位時間內(nèi)嘗試思路的數(shù)量——而思路的數(shù)量和最終的結(jié)果密切相關(guān)。所以如果你以 24/7 的投入訓(xùn)練模型,你就需要投資購買一臺好機(jī)器。
在幾代更新之后,我的開發(fā)硬件最終變成了這樣:一臺 4GPU 的機(jī)器用于高負(fù)載,另一臺雙卡的機(jī)器用于原型設(shè)計。
僅有一臺強(qiáng)大的計算機(jī)還是不夠的,你需要學(xué)一些編程技巧,來利用它的算力。
我從 Keras 轉(zhuǎn)到 PyTorch 的一個原因是當(dāng)時后者的 DataLoader 更加強(qiáng)大。
我們看到 imgaug 太慢了,于是寫了 albumentations,以利用 100% 的 CPU 算力,不過它沒法充分利用 GPU。
如果想加速硬盤上 jpeg 圖像的吞吐速度,我們不應(yīng)該使用 PIL、skimageand 甚至 OpenCV,而是應(yīng)該用 libjpeg-turbo 或 PyVips。
其他
Q:對于從 Kaggle 競賽開始數(shù)據(jù)科學(xué)家生涯的人,你對他們有什么建議嗎?特別是那些首次參加競賽的菜鳥,有什么最好的建議?
A:有很多方式來參加 Kaggle 競賽,但根據(jù)我的觀察經(jīng)驗,獲取所需知識的最高效方法是使用黑客的方法。
觀看一些包含 Python 編程基礎(chǔ)和機(jī)器學(xué)習(xí)的在線課程。
參加一個 Kaggle 競賽。如果你可以寫出一個從數(shù)據(jù)到提交的端到端流程,這很好。如果你是新手,這可能很難。在這種情況下,可以去論壇復(fù)制粘貼別人共享的 kernel。
在你的計算機(jī)上運行,生成一個提交,在排行榜上獲取名次。在這一階段,操作系統(tǒng)、驅(qū)動程序、庫版本、I/O 等問題可能會讓你覺得很痛苦。你要盡快習(xí)慣。如果你不能理解 kernel 里寫的什么,沒關(guān)系,問題不大。
調(diào)整一些參數(shù),隨便調(diào)也沒關(guān)系,重新訓(xùn)練你的模型,提交預(yù)測。希望某些修改可以讓你的排名提升。不要擔(dān)心,很多人都是這么做的。他們都在做不同的調(diào)整,你不需要對相關(guān)知識或原理有深刻或直觀的理解。
為了超越周圍的調(diào)參俠,你要發(fā)展出一種直覺,并獲取關(guān)于什么方案可行、什么方案不可行的基礎(chǔ)知識,從而可以更加智能和高效地探索可能方法的相空間。在這一步,你需要將學(xué)習(xí)作為實驗的一部分。從兩個方向?qū)W習(xí),首先是像 mlcourse.ai、CS231n、數(shù)學(xué)、統(tǒng)計學(xué)、如何寫更好的代碼等基礎(chǔ)。一般來說,自主學(xué)習(xí)很難,但從長期來看,這很重要。其次你會在相關(guān)問題的論壇上看到很多新術(shù)語。記得注意這些術(shù)語。嘗試激勵自己在排行榜中取得更好成績作為外部動力來學(xué)習(xí)新事物。但不要在學(xué)習(xí)和實驗之間進(jìn)行選擇,同時做兩件事。機(jī)器學(xué)習(xí)是一門應(yīng)用科學(xué)。
在競賽結(jié)束之后,雖然付出了很大的努力,但你也很可能在排行榜上取得很低的名次。這不奇怪。好好閱讀論壇的內(nèi)容,看看 winner 分享的解決方案,嘗試找出比之前更好的解決方案。下一次當(dāng)你看到相似的問題時,你的起點會高得多。
在多個競賽中重復(fù)該過程,然后到達(dá) top。更重要的是,你將對很多問題擁有好的解決方案,并且對于如何處理在競賽中遇到的機(jī)器學(xué)習(xí)挑戰(zhàn)能夠發(fā)展良好的直覺。
Q:作為物理學(xué)背景的人,當(dāng)競賽更多的是過擬合 vs 具體任務(wù)上的實際泛化效果時,你會覺得挫敗嗎?如果會,那你會怎么處理?
A:通常,你需要過擬合數(shù)據(jù)和指標(biāo),以獲取好的結(jié)果。這沒什么問題。人們在 ImageNet 數(shù)據(jù)集上過擬合了很多年,訓(xùn)練過程中仍然會出現(xiàn)很多新知識。但是你需要理解指標(biāo)和數(shù)據(jù)的細(xì)微之處,這是知識的來源。只要競賽過程中能夠得到新知識,那過擬合不會讓我覺得很挫敗。你可能注意到了,當(dāng)你擅長一個問題的流程和想法時,這些可以作為你下一個問題的可靠基線模型,這表明了一定的泛化性。
Q:你對 Kaggle 的數(shù)據(jù)泄露(如 Santander、Airship prediction 和 Google Analytics)有什么看法?在 Kaggle 比賽中使用泄露的數(shù)據(jù)是否合乎道德?
A:我承認(rèn)組織比賽很難,所以當(dāng)發(fā)現(xiàn)數(shù)據(jù)泄露時,我不會指責(zé)組織者。而人們利用泄露的數(shù)據(jù)參加比賽,我也覺得 OK。我承認(rèn)數(shù)據(jù)泄露阻礙了我參與一次挑戰(zhàn),但這主要是因為我無法輕易地把獲得的知識擴(kuò)展到其它挑戰(zhàn)。我仍然認(rèn)為 Kaggle 管理員需要創(chuàng)建一份可能會泄露的數(shù)據(jù)清單,并在比賽前檢查數(shù)據(jù)以防止同樣的事件一次又一次發(fā)生。我相信他們正在為此努力。
Q:Kaggle 比賽對做一名 DL 工程師有多大用處?
A:這很難說。Kaggle 在一些重要但非常狹窄的領(lǐng)域提升你的技能。這是一個非常重要的技能組合,對某些職位可能非常有用,但對另一些來說則幫助不大。而對我從事過的工作,尤其是現(xiàn)在從事的自動駕駛來說,Kaggle 技能是我從學(xué)界和其它知識來源中獲取的有力加分項。
不過,要掌握 Kaggle 技能,光有扎實的基礎(chǔ)并不夠。很多東西你只能從業(yè)界學(xué)習(xí)。
雖然成為 Kaggle Master 對你的工作來說不是必需的,也并不代表你會在工作中做得很好。但我相信,如果你是 Kaggle Master,你的簡歷會更容易通過 HR 的篩選,然后有機(jī)會進(jìn)入技術(shù)展示階段。
Q:成為 Kaggle Grandmaster 之后繼續(xù)參加比賽還有什么用處?已經(jīng)成為數(shù)據(jù)科學(xué)家之后繼續(xù)前進(jìn)的動力是什么?
A:正如我前面所說的,我現(xiàn)在不再參加 Kaggle 比賽了,但我開始關(guān)注很多會議上出現(xiàn)的挑戰(zhàn)賽。我的團(tuán)隊在 MICCAI 2017、CVPR 2018 和 MICCAI 2018 取得了不錯的成績。競賽通常包括漂亮、干凈的數(shù)據(jù)集,這些數(shù)據(jù)需要的清理工作最少,可以讓你少關(guān)注數(shù)據(jù),多關(guān)注數(shù)值技術(shù)。這是你在工作中通常沒有的奢侈品,數(shù)據(jù)選擇過程通常是創(chuàng)建實用流程的最重要的組成部分。
Q:你對于本科生和研究生的學(xué)習(xí)和競爭力有什么看法?什么水平才能真正掌握數(shù)據(jù)科學(xué)?
A:我甚至不知道是什么決定了數(shù)據(jù)科學(xué)。這個問題有很多回答的方式,但在這里我們的主題是 Kaggle Grandmaster,所以讓我們把第一個里程碑設(shè)置為「Kaggle Master」。這是相對直接的標(biāo)準(zhǔn),一旦你開始朝著這個方面努力,你就會對這一領(lǐng)域有更多的了解。
Q:如果沒有數(shù)學(xué)/計算機(jī)科學(xué)或其他一些高級計算課程教育背景,你在 Kaggle(或者更廣泛地說是數(shù)據(jù)科學(xué)領(lǐng)域)上可以走多遠(yuǎn)?激情和求知欲能帶你走多遠(yuǎn)?
如果以目標(biāo)為導(dǎo)向并且愿意學(xué)習(xí),你可以在 Kaggle 或其他任何數(shù)據(jù)科學(xué)領(lǐng)域獲得最高成績。最艱難的是邁出第一步。Just do it!最好的時間是此時此刻,因為明天,通常意味著永不。
沒有人問過我這個問題:在一場特定的比賽中,你是如何找到幫助你提高成績的人的?我覺得這是一個目前在博客中還沒有看到過的重要話題。
最常見的方法:一些朋友、同事對這個比賽很有熱情,他們聊這個比賽,一起開會、討論問題并組隊。一些人想做些事情;但另外一些忙于其他活動。這種團(tuán)隊可以往前走一段,但走不遠(yuǎn)。
對于我以及其他一些參賽者來說更好的方式有以下幾種:
1. 寫出你的流程或平臺上分享的重構(gòu)流程。
2. 這個流程應(yīng)該以適當(dāng)?shù)母袷綄⑤斎霐?shù)據(jù)映射到提交的文件中,并生成交叉驗證分?jǐn)?shù)。
3. 驗證交叉驗證分?jǐn)?shù)的改進(jìn)與排行榜上的改進(jìn)相關(guān)。
4. 執(zhí)行探索性數(shù)據(jù)分析,仔細(xì)瀏覽論壇,閱讀論文、書籍和之前類似競賽的解決方案。獨立工作。
5. 在某個時間點,比如競賽截止前 2-4 周,你會陷入困境。什么想法都沒法改進(jìn)你的排名。你嘗試了一切,這時你需要新的想法來源。
6. 這時你可以看下排行榜,與排名接近的積極參賽者進(jìn)行溝通。
7. 首先,你的預(yù)測平均值會帶來微小卻重要的提升。其次,很可能你的方法有一點不同,分享試過或沒試過的想法是有益的。第三,由于競賽最初是個人單獨參賽,因此所有參賽者都會看數(shù)據(jù)、寫流程、將競賽的重要性置于其他活動之上,以及受實時排行榜帶來的游戲效應(yīng)的刺激。
但更重要的是,人們傾向于高估自己愿意花在競賽上的時間,低估獲取穩(wěn)定端到端流程之前要面臨的問題。用排行榜來創(chuàng)建團(tuán)隊可以作為過濾器,確保你的潛在隊友和你達(dá)成共識。
在一些競賽中,領(lǐng)域知識對于性能結(jié)果非常重要。例如,表格數(shù)據(jù)(tabular data)和對應(yīng)的特征工程或醫(yī)學(xué)成像,你可以考慮和具備深厚領(lǐng)域知識的人組隊,即使他/她沒有強(qiáng)大的數(shù)據(jù)科學(xué)背景,不過這種情況比較稀少。
另一方面,業(yè)界組建團(tuán)隊的方式完全不同。使用 Kaggle 的方式在業(yè)界組隊是不明智的。
下一次 Kaggle 比賽里見!
本站其他內(nèi)容推薦
1、ant garnishee Ophelia leveret unskillful overhead extraordinaire skin-tight statutory superimpose
2、shir中文翻譯,shir是什么意思,shir發(fā)音、用法及例句
3、eBay中文翻譯,eBay是什么意思,eBay發(fā)音、用法及例句
4、porous中文翻譯,porous是什么意思,porous發(fā)音、用法及例句
5、belief中文翻譯,belief是什么意思,belief發(fā)音、用法及例句
6、the lion and the mouse中文翻譯,the lion and the mouse是什么意思,the lion and the mouse發(fā)音、用法及例句
7、gallows是什么意思,gallows中文翻譯,gallows發(fā)音、用法及例句
8、aggregator是什么意思,aggregator中文翻譯,aggregator發(fā)音、用法及例句
9、各自的近義詞,各別的近義詞,各別是什么意思,各別的同義詞
版權(quán)聲明: 本站僅提供信息存儲空間服務(wù),旨在傳遞更多信息,不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任,不代表本網(wǎng)贊同其觀點和對其真實性負(fù)責(zé)。如因作品內(nèi)容、版權(quán)和其它問題需要同本網(wǎng)聯(lián)系的,請發(fā)送郵件至 舉報,一經(jīng)查實,本站將立刻刪除。