91偷拍精品一区二区三区_欧美亚洲免费在线_日本不卡高清视频_中文字幕无码一区二区视频_日韩毛片无码一区二区三区,将夜 猫腻 小说,欢乐颂第二季,如何发布网络小说

?
    行業新聞 / Industry contribution
    您的當前位置:網站首頁 > 行業洞察 > 行業新聞

    微軟開源核心技術,布局下一代產業格局

    日期:2015年12月4日  作者:超級管理員  來源:昆明逆火科技股份有限公司    點擊:813

       還記得11月9日Google Research推出第二代開源機器學習軟件庫TensorFlow吧,谷歌稱在建立和訓練神經網絡方面,TensorFlow速度要比第一代系統快5倍,可支持 CPU、GPU、桌面機、服務器和移動計算等平臺。TensorFlow吸引了開發者廣泛的眼球。

       就在同一天,微軟亞洲研究院也開源了分布式機器學習工具包DMTK。開源版DMTK包含了目前世界上最大規模的主題模型和分布式詞向量模型,據稱比同類模型高了好幾個數量級。以至于有開發者驚呼,怎么微軟也能把這樣的核心技術給開源了?

       那么,什么是DMTK分布式機器學習包?這還要從DMTK的開發歷史說起。DMTK的主要研發負責人、微軟亞洲研究院人工智能研究組首席研究員、美國卡耐基·梅隆大學(CMU)博士生導師劉鐵巖告訴記者,

    近年來全球機器學習領域主要有三大趨勢:更大規模的機器學習、更深度的機器學習以及更強交互性的機器學習,這些都是基于大數據與云計算的興起。

       微軟亞洲研究院從兩年前開始研發DMTK分布式機器學習系統。首先,DMTK通過分布式計算部署的方式滿足了大規模機器學習的要求。由于云計算和高性能處理器的普及,讓機器學習從單機環境擴展到多機環境甚至是集群系統。分布式機器學習就是通過在更為廉價的集群系統上部署機器學習的算法,把原來單機的計算能力擴展到成千上萬臺服務器上。

       DMTK開源版提供了簡單高效的分布式機器學習框架,它由參數服務器和客戶端軟件開發包(SDK)兩部分構成。開發者只需要簡單幾行代碼,就可以非常容易地把自己開發的機器學習算法從單機環境擴展到多機或集群環境。這大幅降低了機器學習的門檻,無論是高校研究者或是商用機器學習開發商,都能基于微軟DMTK開源版輕松擴展機器學習算法的計算環境和計算資源,從而實現基于大數據的大規模機器學習。

       其次,DMTK還提供了豐富的機器學習算法,以滿足更為深度、更為快速的機器學習。目前開源版的DMTK包含了其中兩款獨具特色的機器學習算法:LightLDA主題模型和分布式詞向量模型。

       什么是主題模型呢?互聯網和社交平臺等催生了龐大的文本內容,通過機器學習對這些內容進行數據挖掘,可以得出相關的主題(Topic),這是機器學習和文本理解的基礎。據劉鐵巖介紹,DMTK提供的LightLDA算法是當前世界上唯一一款能訓練超過100萬個主題的機器學習算法,它僅用20臺服務器(300余個CPU內核)就能訓練如此龐大的主題模型,這讓其它同類系統望塵莫及。

       去年曾經獲得國際數據挖掘大會(KDD)最佳論文獎的AliasLDA算法,要用多達1萬個CPU內核才能完成2000個主題的訓練。 LightLDA算法之所以能夠用比AliasLDA少很多的計算資源訓練出高若干數量級的模型,是因為它具有一種獨創的、讓運算復雜度與主題數目無關的高效采樣方法。這樣一來,即使訓練再多的主題數,也無需更大規模的計算資源。據了解,LightLDA已經幫助微軟的很多關鍵產品實現了性能的飛躍。

       另一個更為神奇的分布式詞向量訓練模型算法,能夠更好地計算兩個詞之間的“距離”。簡單地說,過去通過搜索引擎搜索內容,主要依靠搜索關鍵詞的精確匹配。如果在被搜索的網頁上出現了與搜索關鍵詞相同的詞匯,被搜索網頁鏈接就會出現在搜索結果頁面。但在廣告展示、話題探索、垂直搜索等應用領域,更多需要的是語義級別匹配,也就是在語義方面的相關性匹配。詞向量模型通過挖掘文本數據,為每一個詞訓練出上千個相關指標(維度),而帶有上千個維度的一個詞即為一個向量,通過數學方式計算兩個詞向量之間的距離,即可以有效地表征兩個詞之間的語義相關度。

       DMTK中包含的分布式詞向量模型是目前市面上唯一的一款詞向量模型的多機版,它可以把單機計算資源擴展到多機或集群中,從而更快、更高效地學習詞向量。分布式詞向量模型把“搜索”推進到了“探索”階段,這有望給整個搜索和相關產業帶來顛覆性變化。

       據了解,DMTK已經被應用到了微軟的必應搜索引擎、廣告、小冰等多款在線產品當中,實現了更強交互性的機器學習。以微軟小冰為例,作為聊天機器人,人類用戶與小冰的平均每次對話輪數達到了18輪,而此前最領先同類機器人的平均輪數僅有1.5至2輪。這就說明微軟小冰在與人類對話中對相關詞匯的“命中率”遠高于同類技術,創造了更好的交互性機器學習體驗。

       DMTK開源版在Github開源社區發布一周以來始終保持在Top 10的位置,DMTK官網目前的訪問量已經突破百萬,DMTK可執行文件下載量達到十余萬次,而GitHub開發人員也是在一周之內就給DMTK上千顆星,這是很多同類開源項目幾年都無法達到的熱度。

       同一天開源的TensorFlow和DMTK之間到底有什么區別呢?記者了解到,谷歌目前開源出來的TensorFlow,作為單機深度學習工具并不支持分布式計算,而微軟DMTK開源版則支持分布式、異構、異步計算集群環境部署。另外,谷歌的TensorFlow主要是系統實現,并不包含算法方面的創新;而DMTK則兩者兼顧,因此可以用更少的資源,訓練出大N個數量級的模型。

       那么為何科技巨頭們紛紛將機器學習技術開源?這一方面是為了推進整個機器學習應用的普及,通過開源高端算法和軟件,為人工智能和機器人產業打開新的機遇之門。另一方面則是在更深層次拉動各自的軟件與算法生態,從戰略技術制高點布局下一代產業格局。

    主站蜘蛛池模板: 丹棱县| 合山市| 黔西| 大方县| 北安市| 依兰县| 集安市| 临武县| 高淳县| 龙海市| 台中县| 清丰县| 桃园市| 开鲁县| 嘉定区| 望城县| 察隅县| 屯留县| 汉川市| 南江县| 河北区| 玛多县| 遂宁市| 拜城县| 周宁县| 江山市| 敦化市| 武平县| 横山县| 吉首市| 郁南县| 苗栗县| 柯坪县| 阳曲县| 湘潭市| 大余县| 梅州市| 修文县| 科尔| 自贡市| 康平县|