【中国智能制造网 企业动态】Facebook近日十分漂亮地在媒体上做了一次公关,目前为止,已经有超过8家数得上名字的国外科技媒体,报道了这家公司位于Prineville的第二家数据中心,以及Facebook想要推广的主角——开源硬件BigSur。
深入Facebook“大脑”
自去年以来,Facebook的用户和数据都大幅增长,Prineville数据中心也随之扩建,增添了更多的高性能服务器,以支撑这家公司在大数据处理方面的需求,尤其是分析图像和视频。
现在,Facebook在Prineville新建的第二家数据中心面积已经超过了9万平方米,大楼地排成一排,好让来自西北干燥而凉爽的夏季风吹过。
从Prineville新数据中心楼顶看到的风景。选址Prineville是看中了这里的沙漠气候和干燥的空气,有利于数据中心工作。
Prineville数据中心外的太阳能板,负责为数据中心的办公室供电。
针对散热优化的架构
Facebook的BigSur服务器基于高性能图形处理器(GPU)设计。这些芯片为AI技术的进步提供了支持。软件已经能更好地理解图像和语言,支撑更加智能的助理。
每台BigSur服务器配有8个NvidaTeslaM40GPU(每个M40有3072CUDA计算核),2个CPU和SSD存储及热插拔风扇,计算速度达到40petaflop。
BigSur荧光绿的保护膜利用Venturi效应还具有加速空气流通的性能。
Facebook初想扩建数据中心时,当时市面上还没有合适的硬件,因此Facebook选择了自己研发。然后他们找到了Nvidia。
Nvidia的副总裁IanBuck说,他们次训练单个神经网络花了3个月。Ian负责Nvidia公司的加速计算,与Facebook的AI团队、数据中心都有紧密合作。用新一版NvidiaGPU升级训练硬件后,所需时间减少到了1个月。Ian表示,现在使用M40的BigSur不到一天就能训练一个神经网络。
研发这些服务器的工程师KevinLee说,BigSur帮助Facebook的研究员使用更多的数据来更快地训练软件。“这些服务器是专门用于AI研究和机器学习的,GPU能将图片分割成极小的碎片再一次性将其全部处理。”
由于GPU非常耗能,Facebook只能将其组装得更加分散,以免GPU过热,为冷却系统增加负担,同时增加能耗。将近2.2米高的机架,只放了4台BigSur服务器。
Facebook希望用更多更加强大的部件提升BigSur的性能。Lee表示,BigSur系统是模块化的,因此能够支持更新版本的GPU、服务器和机架设计。眼下,在正式投入使用前,Facebook的数据科学家和AI研究员能够登陆Prineville的服务器,访问BigSur来训练离线算法。Lee说,这些算法有时要训练好几周甚至是几个月。
Lee拒绝透露配置服务器的具体数量,但表示有“thousands”GPU在工作。
领跑机器学习军备竞赛
Facebook不是建造大型数据中心或是使用大量GPU支持机器学习的公司。微软、谷歌,以及百度都在使用GPU帮助深度学习研究。
Facebook的不同之处在于,它开源了BigSur和其他服务器的设计,以及BigSur数据中心的计划。Facebook将这些信息发布在OpenComputeProject,这是Facebook于2011年成立的非营利性项目,旨在鼓励计算机公司一起研发成本低、效率高的数据中心硬件设施。该项目被认为能帮助亚洲硬件公司的发展,也挤占了戴尔、惠普等传统供应商的市场份额。
Facebook的AI研究负责人YannLeCun说,在今年早期开源BigSur时,他就相信开源设计能使更多机构参与制造强大的机器学习基础设施,从而加快该领域的发展。
不过,谷歌和微软也都参与了OpenComputeProject项目,如果它们愿意,可以建造自己的BigSur。
此外,许多公司正在努力为深度学习研发新的芯片。谷歌在5月份宣布,已经开始使用自己设计的芯片TPU来支持深度学习软件的研发,如语音识别。不过,据Lee表示,TPU更适合运行已经训练过的算法,而不是用于初始训练阶段,而这一阶段是BigSur服务器要做的。
而且,现在谷歌正在研发第二代芯片。谷歌CEOPichai表示年底即将推出Assistant,已经有上亿人在测试。相比之下,Facebook的Messager平台虽然表现不错,但在用户数量以及由此造成的数据收集方面还稍逊于谷歌。
AI是Facebook未来三大支柱之一。CEOMarkZuckerberg在4月份举办的大会上介绍了公司未来10年的发展蓝图,并表示Facebook.com只是公司迈出的步,第二步是开发多个移动应用。Zuckerberg希望Facebook10年后,能在互联网连接、无人机、AR、VR和AI方面占据。
对于Facebook来说,目前巨头机器学习竞争激烈,开源硬件有着巨大的好处:首先,开源能树立名声,从而吸引更多的人才加入Facebook;其次,使用BigSur设计的其他中小公司可以提升自己的服务,这样Facebook就可能外包业务,得到更好的结果同时进一步节省开支;第三,如果有足够多的人选择购买硬件设备,这种规模经济或许能进一步降低Facebook在硬件上的支出。
重要的是,没有什么比开源能更好更快地改善设计结构和性能方案了,开源协作有助于创新设计,这也将为Facebook在机器学习硬件上带来优势。
当被问及Facebook是否正在研发自己的芯片,Lee说公司“正在考虑”。