Facebook在2018年過的并不好,一連串的數(shù)據(jù)泄露丑聞打的小扎和他同事措手不及。
但是,一年的時(shí)間,F(xiàn)acebook仍然做出了許多的成績,尤其在AI方面,這家社交媒體公司利用人工智能開發(fā)了許多的應(yīng)用。例如智能推薦系統(tǒng),例如對一些色情內(nèi)容進(jìn)行識別的智能識別工具等等。
拋去那些不好的事情,我們?nèi)绾螐腇acebook 的2018年的成長中獲取養(yǎng)分?相信下面這篇Facebook 2018年的工作總結(jié)可以給你帶來一些靈感。
這篇文章,發(fā)布在code.fb.com上,大數(shù)據(jù)文摘有刪改的進(jìn)行了編譯。
Facebook瞅準(zhǔn)AI發(fā)展的眼光一直很在行,在這一領(lǐng)域里的行動(dòng)也從未停止。
我們不滿足于在當(dāng)前機(jī)器學(xué)習(xí)瓶頸的發(fā)展,而是希望找尋更新、更高效的學(xué)習(xí)方式。我們抱有利用AI造福世界的信念和對機(jī)器學(xué)習(xí)研究的堅(jiān)持,我們的工程師將更多前沿的算法和工具開源到AI社區(qū),例如Pytorch深度學(xué)習(xí)的開源框架及其升級,更新后的Pytorch還專門開發(fā)了支持新手的接口,使得他們更容易接觸深度學(xué)習(xí),在一定的程度上推動(dòng)了相關(guān)AI項(xiàng)目的落地。
除了一些論文和數(shù)據(jù)集之外,還有一些很棒的日常生活助手,比如加持人工智能的MRI掃描變得更加高效了,在救災(zāi)工作和預(yù)防自殺方面也有提高。
2018年,我們找到了使用較少監(jiān)督數(shù)據(jù)進(jìn)行相關(guān)研究的可行性的方法,也將研究項(xiàng)目從最初的圖像識別擴(kuò)展到了語言的翻譯和理解。
通過半監(jiān)督和無監(jiān)督培訓(xùn)推進(jìn)AI學(xué)習(xí)
當(dāng)前,大多數(shù)AI系統(tǒng)更多使用的還是監(jiān)督式學(xué)習(xí),這意味著他們必須使用大量被標(biāo)記過的樣本才能進(jìn)行學(xué)習(xí)任務(wù),而這些樣本數(shù)量對于訓(xùn)練需求來說是嚴(yán)重不足的,因而這也就限制了技術(shù)長期發(fā)展的潛力,而想要改變以上問題可能需要多年的研究。
Facebook AI Research(FAIR)小組成立后,在人工智能研究上進(jìn)行了多樣的探索。2018年,該小組使用了無監(jiān)督機(jī)器翻譯,通過減少對標(biāo)記訓(xùn)練數(shù)據(jù)的依賴,打開了翻譯“小語種”的大門,讓我們的系統(tǒng)支持更多的語言翻譯。
主要采用多種方法來避免標(biāo)簽訓(xùn)練數(shù)據(jù)不足的問題,包括使用多語言建模來利用給定語言組中方言之間的相似性,例如白俄羅斯語和烏克蘭語、烏爾都語等語言的資源目前都很少,與英語相比,他們現(xiàn)有數(shù)據(jù)集十分有限。
雖然使用的是無監(jiān)督的數(shù)據(jù),但是它的性能卻能與“打標(biāo)簽”數(shù)據(jù)訓(xùn)練的系統(tǒng)相媲美?,F(xiàn)在無監(jiān)督方法有了更實(shí)質(zhì)性的改進(jìn)。
這就是為什么我們要探索更多的訓(xùn)練方法,讓監(jiān)督學(xué)習(xí)變得不再那么重要的原因。半監(jiān)督和無監(jiān)督式的學(xué)習(xí)方法或許是不錯(cuò)的選擇。
在這項(xiàng)研究在今年已經(jīng)被應(yīng)用。并且為自動(dòng)翻譯軟件增加了24種語言。此外,在與紐約大學(xué)合作過程中,我們?yōu)楝F(xiàn)有的MultiNLI數(shù)據(jù)集添加了14種語言,這些數(shù)據(jù)集廣泛用于自然語言理解研究,此前僅有英語版本。
我們最新的XNLI數(shù)據(jù)集中包括兩種低資源語言:斯瓦希里語和烏爾都語,這一方法有助于整體采用跨語言的語言理解,從而減少了對標(biāo)記數(shù)據(jù)的需求。
為了研究基于標(biāo)簽的圖像識別,我們顛覆了傳統(tǒng)的研究方法,新的方法能夠使得數(shù)據(jù)進(jìn)行自我標(biāo)記并形成大型訓(xùn)練集,例如35億個(gè)公開的Instagram圖像就是用這么形成的。
我們的結(jié)果不僅證明使用數(shù)十億個(gè)數(shù)據(jù)點(diǎn)對于基于圖像的任務(wù)非常有效,而且它還使我們打破了一個(gè)記錄,比ImageNet上先前最先進(jìn)的圖像識別模型的準(zhǔn)確率高出一個(gè)百分比。
Hashtags可以幫助計(jì)算機(jī)視覺系統(tǒng)快速識別圖像的額外信息以及特定的子類。
加快人工智能研究和產(chǎn)業(yè)應(yīng)用的融合
AI已成為Facebook幾乎所有產(chǎn)品和服務(wù)的基礎(chǔ)。這點(diǎn)從我們的工程師正在構(gòu)建和增強(qiáng)的各種基于AI的平臺(tái)和工具中可以看出。
但是在2018年Facebook有了一個(gè)共同的主題:如何將人工智能技術(shù)嵌入到人工智能系統(tǒng)中。
自2017年P(guān)yTorch發(fā)布以來,深度學(xué)習(xí)框架已被AI社區(qū)廣泛采用,它目前是GitHub上增長速度第二快的開源項(xiàng)目。 PyTorch的用戶友好界面和靈活的編程環(huán)境使其成為AI開發(fā)中快速迭代的通用資源。由于代碼庫的貢獻(xiàn)和反饋,其開放式設(shè)計(jì)確保了框架將繼續(xù)改進(jìn)。對于2018年,我們希望為PyTorch社區(qū)提供更加統(tǒng)一的工具集,重點(diǎn)是將他們的AI實(shí)驗(yàn)轉(zhuǎn)變?yōu)樯a(chǎn)就緒的應(yīng)用程序。
我們在5月份的F8會(huì)議上發(fā)布了更新的框架,我們詳細(xì)介紹了它的原型系統(tǒng)和設(shè)置,以及它是如何集成Caffe2模塊的。還有產(chǎn)品為導(dǎo)向的能力和新擴(kuò)展的ONNX。這一切都簡化了整個(gè)AI開發(fā)流程。
10月,我們在第一屆PyTorch開發(fā)者大會(huì)上發(fā)布了PyTorch 1.0開發(fā)人員預(yù)覽版。也展示了該框架的平臺(tái)生態(tài)系統(tǒng)。谷歌,微軟,NVIDIA,特斯拉和許多其他技術(shù)提供商在該活動(dòng)中對PyTorch 1.0進(jìn)行討論,且fast.ai和Udacity都上線了新版本課程,教授深度學(xué)習(xí)。
我們在本月早些時(shí)候完成了PyTorch 1.0的推出,放出了其完整版本的所有功能,例如在eager和圖形執(zhí)行模式之間無縫轉(zhuǎn)換的混合前端,改進(jìn)的分布式訓(xùn)練,以及純C ++前端,用于高性能研究。
我們今年還發(fā)布了一些工具和平臺(tái),擴(kuò)展了PyTorch的核心功能,包括一對內(nèi)核庫(QNNPACK和FBGEMM),它可以使移動(dòng)設(shè)備和服務(wù)器更容易運(yùn)行最新的人工智能模型。還有一個(gè)加速自然語言處理開發(fā)的框架—PyText。
PyTorch還為Horizon提供了基礎(chǔ)。Horizon是第一個(gè)使用應(yīng)用強(qiáng)化學(xué)習(xí)(RL)來優(yōu)化大規(guī)模生產(chǎn)環(huán)境中的系統(tǒng)的開源端到端平臺(tái)。
Horizon對RL進(jìn)行了大量研究,但很少嘗試進(jìn)行決策,也沒有用于那種可能包含數(shù)十億條記錄的數(shù)據(jù)集的應(yīng)用程序。 在Facebook內(nèi)部部署平臺(tái)后,在優(yōu)化流視頻質(zhì)量和改進(jìn)Messenger中的M建議等用例中,我們使Horizon開源橋接RL研究和生產(chǎn),讓任何人都可以下載。
這是一個(gè)顯示Horizon的反饋路徑的高級圖表。首先,我們預(yù)處理現(xiàn)有系統(tǒng)記錄的一些數(shù)據(jù)。然后,我們訓(xùn)練模型并在離線設(shè)置中分析反事實(shí)政策結(jié)果。最后,我們讓專門人員配置模型,衡量真正的政策。新模型的數(shù)據(jù)反饋到下一次迭代,大多數(shù)團(tuán)隊(duì)每天都會(huì)部署一個(gè)新模型。
我們還發(fā)布了Glow——一個(gè)開源的、社區(qū)驅(qū)動(dòng)的框架。其支持機(jī)器學(xué)習(xí)(ML)的硬件加速。Glow與一系列不同的編譯器,硬件平臺(tái)和深度學(xué)習(xí)框架(包括PyTorch)合作,現(xiàn)在由包括Cadence,Esperanto,Intel,Marvell和Qualcomm Technologies Inc.在內(nèi)的合作伙伴提供支持。
為了進(jìn)一步鼓勵(lì)在整個(gè)行業(yè)中使用機(jī)器學(xué)習(xí),我們發(fā)布了一種新的機(jī)器學(xué)習(xí)優(yōu)化服務(wù)器設(shè)計(jì),稱為Big Basin v2,作為開放計(jì)算項(xiàng)目的一部分。我們已將新的模塊化硬件添加到我們的數(shù)據(jù)中心機(jī)隊(duì)中,并且任何人都可以在OCP市場下載Big Basin v2的規(guī)格。
2018年標(biāo)志著Oculus Research轉(zhuǎn)變?yōu)镕acebook Reality Labs,以及對AI和AR / VR研究重疊的新探索。作為我們盡可能多地開源人工智能相關(guān)工具的持續(xù)努力的一部分,我們發(fā)布了DeepFocus項(xiàng)目的數(shù)據(jù)和模型,該項(xiàng)目使用深度學(xué)習(xí)算法在VR中渲染逼真的視網(wǎng)膜模糊。
在未來一年,我們希望獲得有關(guān)所有這些版本的更多反饋。我們將繼續(xù)構(gòu)建和開源工具,完成PyTorch 1.0的使命,幫助整個(gè)開發(fā)人員社區(qū)從實(shí)驗(yàn)室和研究論文中,提取最先進(jìn)的AI系統(tǒng)并投入生產(chǎn)。
建立有益于每個(gè)人的AI
我們在開發(fā)非常廣泛的AI技術(shù)的技術(shù)方面有著悠久的歷史記錄。在過去的一年中,我們繼續(xù)部署應(yīng)用人工智能的工具使世界受益,包括我們對自殺預(yù)防工具的擴(kuò)展開發(fā),這些工具使用文本分類來識別那些表達(dá)自殺的想法和語言的帖子。該系統(tǒng)使用單獨(dú)的文本分類器來分析帖子和評論,接著如果可以的話,將它們發(fā)送給我們的社區(qū)運(yùn)營團(tuán)隊(duì)進(jìn)行審核。
該系統(tǒng)利用我們已建立的文本理解模型和跨語言功能,讓我們能夠接觸到需要獲得服務(wù)的人群數(shù)量得到提升。
我們還發(fā)布了一種使用AI的方法,可以快速準(zhǔn)確地幫助查明災(zāi)難影響最嚴(yán)重的區(qū)域,而無需等待手動(dòng)標(biāo)注數(shù)據(jù)。
這種方法是與CrowdAI合作開發(fā)的,能夠以更快速和更高效為受害者提供援助。將來,這項(xiàng)技術(shù)還可用于量化森林火災(zāi),洪水和地震等大規(guī)模災(zāi)害造成的破壞程度。
我們部署了一個(gè)名為Rosetta的機(jī)器學(xué)習(xí)系統(tǒng),每天從超過十億個(gè)公共圖像和視頻幀中提取文本,并使用文本識別模型一起理解文本和圖像的上下文。 Rosetta適用于多種語言,它自動(dòng)識別有助于我們了解模因meme(目前比較公認(rèn)的定義是“一個(gè)想法,行為或風(fēng)格從一個(gè)人到另一個(gè)人的傳播過程。)和視頻或違反政策內(nèi)容。
2018年,一個(gè)與紐約大學(xué)醫(yī)學(xué)院的長期合作的項(xiàng)目—fastMRI啟動(dòng)。這個(gè)項(xiàng)目的目標(biāo)是改進(jìn)現(xiàn)有的診斷成像技術(shù),使MRI掃描速度提高10倍。
fastMRI的目標(biāo)不是開發(fā)專有流程,而是為了加速該領(lǐng)域技術(shù)。我們的合作伙伴已經(jīng)為這項(xiàng)研究制作了有史以來最大的全采樣MRI原始數(shù)據(jù)集(由紐約大學(xué)學(xué)院完全匿名發(fā)布),以及開源模型,可以幫助更廣泛的研究群體開始這項(xiàng)任務(wù)。我們還推出了在線排行榜,其他人可以發(fā)布并比較他們的結(jié)果。
-
AI
+關(guān)注
關(guān)注
87文章
29447瀏覽量
267772 -
Facebook
+關(guān)注
關(guān)注
3文章
1429瀏覽量
54588
原文標(biāo)題:Facebook全年成果總結(jié):我們在AI領(lǐng)域的行動(dòng)從未停止
文章出處:【微信號:BigDataDigest,微信公眾號:大數(shù)據(jù)文摘】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論