IBM展示10倍速GPU机器学习处理30GB训练数据只要1分钟

2020-07-16 聪慧网sxxjymy90

核心提示：发表于: 2020年07月16日 19时59分36秒

研究团队为训练数据集标记重要性，只训练重要的数据，那多数不必要的数据就不再需要送进GPU，大大节省数据传输时间。

IBM研究院与瑞士洛桑联邦理工学院共同于2017 NIPS Conference发表大数据机器学习解决方案，此方法可以利用GPU在一分钟内处理完30GB的训练数据集，是现存有限内存训练方法的10倍。

研究团队表示，机器训练在大数据时代遇到的挑战是动辄TB等级起跳的训练数据，这是常见却又棘手的问题，或许一台有足够内存容量的服务器，就能将所有训练数据都加载内存中进行运算，但是仍要花费数小时，甚至是数周。

IBM展示10倍速GPU机器学习处理30GB训练数据只要1分钟

他们认为，目前如GPU等特殊的运算硬件，的确能有效加速运算，但仅限于运算密集的工作，而非数据密集的任务。如果想要善用GPU运算密集的优势，便需要把数据预先加载到GPU内存，而目前GPU内存的容量最多只有16GB，对于机器学习实作来说并不算宽裕。

批次作业看似是一个可行的方法，将训练数据切分成一块一块，并且依造顺序加载至GPU做模型训练，不过经实验发现，从CPU将数据搬移进GPU的传输成本，完全盖过将数据放进GPU高速运算所带来的好处。，IBM研究员Celestine Dünner表示，在GPU做机器学习的大挑战，就是不能把所有的数据都丢进内存里面。

为了解决这样的问题，研究团队开发为训练数据集标记重要性的技术，因此训练只使用重要的数据，那多数不必要的数据就不需要送进GPU，藉此大大节省训练的时间。像是要训练分辨狗与猫图片的模型，一旦模型发现猫跟狗的差异之一为猫耳必定比狗小，系统将保留这项特征，在往后的训练模型中都不再重复回顾这个特征，因此模型的训练会越来越快。IBM研究员Thomas Parnell表示，这样的特性便于更频繁的训练模型，也能更及时的调整模型。

这个技术是用来衡量每个数据点对学习算法的贡献有多少，主要利用二元差距的概念并及时影响调整训练算法。将这个方法实际应用，研究团队在异质平台（Heterogeneous computeplat forms）上，为机器学习训练模型开发了一个全新可重复使用的组件DuHL，专为二元差距的异质学习之用。

IBM表示，他们的下一个目标是在云端上提供DuHL，因为目前云端GPU服务的计费单位是小时，如果训练模型的时间从十小时缩短为一小时，那成本节省将非常惊人。

数据模型机器

点赞 0举报收藏 0打赏 0评论 0

更多>同类资讯

sxxjymy
加关注0
~~没有留下签名~~~~

推荐图文

2019智能家居展会时刻	福临门世家受邀参加美
大视野的简约生活，都	奥合门窗创新黑科技—

推荐资讯

点击排行

版权所有: 门窗资源网 (c)2008-2030 MCZYW.COM All Rights Reserved	门窗资源网微信公众号	门窗资源网APP
版权所有: 门窗资源网 (c)2008-2030 MCZYW.COM All Rights Reserved

• 荆门市会计师事务所名单荆门会计师事务所名录	• 荆门市律师事务所名单荆门市律师所名录数据
• 荆门京山市律师事务所名单京山市律师所名录数	• 荆门钟祥市律师事务所名单钟祥市律师所名录数
• 澳门大数据澳门GDP排行澳门人口澳门面积澳门	• 2021全国BHEI数据发布：全国建材家居市场延续过
• 创敏科技：上海数据交易所揭牌成立！	• 行业数据
• 四大数据分析定制家居的现状和趋势	• 数据化驱动制造新篇章丨梦天木门庆元智能制造生

IBM展示10倍速GPU机器学习 处理30GB训练数据只要1分钟

IBM展示10倍速GPU机器学习处理30GB训练数据只要1分钟