一,对普通人来说,从上千张图片中准确找到一张,可能需要几个小时甚至更久,而通过上面的视频可以看到,麒麟970能在一分钟内识别2005张照片,与传统的CPU相比,速度提升了20倍。
在极速图片识别展台,麒麟970与IPhone 8 Plus和三星S8并排放置,在同一时间开启相同的100张图片识别任务,结果表明,麒麟970完成100张图片识别只需要3秒,完全秒杀苹果和三星。
麒麟970的HiAI移动计算架构
相较于四个Cortex-A73核心,在处理同样的AI应用任务时,新的异构计算架构拥有大约50倍能效和25倍性能优势,这意味着麒麟970可以用更少的能耗更快地完成AI计算任务。
二,2017年7月,Intel发布了基于Movidius技术的神经计算棒,售价79美元,可以接入多种设备,部署深度学习推理任务。半年之后,Laceli* 人工智能计算棒问世,根据官网参数,性能是Movidius神经计算棒的90倍, 售价仅为69美元。
推出这款产品的,正是硅谷的一家AI芯片初创公司 Gyrfalcon Technology。在此之前,公司已推出“光矛处理器 Lightspeeur* 2801S”,于2017年9月成功流片,基于自研的APiM架构,有28000个并行神经计算核,180mW功耗下基于VGG模型每秒处理图片150张,适用于CNN、RNN等常见深度神经网络的模型训练及推理。
Gyrfalcon Technology成立于2017年,公司成立时正式AI芯片备受关注之时。深度学习技术的成熟及应用,原有的芯片算力已经难以应对巨大的算力消耗。简单来说,深度学习的过程可以抽象理解为利用大量标注的数据进行训练,训练出一个行之有效的模型,再将这一模型运用于新数据的推理。因为这一算法是建立在多层大规模神经网络之上的,后者本质上是包含了矩阵乘积和卷积操作的大运算量函数,往往需要先定义一个包含回归问题的方差、分类时的交叉熵的代价函数,再数据分批传递进网络,根据参数求导出代价函数值,从而更新整个网络模型。这通常意味着至少几百万次的相乘处理,计算量巨大。
有多年半导体行业经验的董琪、杨林、林建国、Terry Torng也看中了其中的市场机遇,于2017年一起创业,在硅谷创办了Gyrfalcon Technology,希望打造AI芯片。
2017年,团队推出了第一款芯片,名为Lightspeeur*光矛系列智能神经网络处理器。从官网公布的性能参数上看,这款产品采用了28nm制造工艺,片上集成高达28000个运算单元,单芯片峰值运算能力为5.6TOPS,效率能耗比达到9.3Tops/W,180mW功耗下基于VGG模型每秒处理图片150张,支持 常见的多种网络模型,同时支持标准的开源框架,如 Caffe, TensorFlow和 MXNet,表现亮眼。
之所以能做到这一点,团队分析主要是因为两大创新。一是采用了不同于传统处理器架构,而是采用了二维的矩阵芯片架构,第一代的芯片产品已经可以做到 168核X168个核的矩阵架构,相当于片上集成28000个运算单元。
传统的处理器基本是冯诺依曼架构,如Intel X86 CPU,单点架构,基于指令集处理各种简单或复杂的任务;或是类似NVDIA GPU这样的一维架构,可以做大量并行计算,适用图形计算,计算单元大幅提高但总量依然受限,功耗很高。而基于Gyrfalcon Technology的二维矩阵式结构,单品可以轻易集成几十到几十万计算单元,多单品之间还可随意无缝互联,非常适合不同场景下的AI计算。,为降低功耗和发热,其时钟设计可以很慢,但由于计算单元海量增加,芯片整体速度却会远远超过其他传统架构的处理器。目前,团队已经为这一技术申请了专利。
二是自研了 APiM架构(存储计算融合一体的本地并行AI运算),消除了数据搬运的环节,解决了数据搬运墙难题。AI算法在芯片实现时遇到的核心问题不是计算资源而是存储问题,强如GPU提供众多的计算资源,但实际计算能力与计算资源大为降低,很多情况下芯片80%左右的功耗都用于了数据搬运上。
Gyrfalcon Technology的 APiM架构提升内存的地位,将数据和运算写在了内存里,相当于减少了一半以上的能耗。团队告诉36氪,近期他们在ARM的云端AI服务器测试时,节省了90%左右的电量。
Gyrfalcon Technology告诉36氪,之所以能做到上面的这些创新,与团队成员的经历、背景相关。首席科学家杨林博士毕业于复旦大学电子工程系,后获清华大学无线电系硕士和美国加大伯克利电子工程系博士学位,研究领域为图像处理、神经网络、图像识别和深度学习芯片,拥有近30年通讯、数字电视、芯片设计工作经验,他是细胞神经网络(CNN)和中国数字电视传输标准核心技术发明人,拥有CNN领域30多项中美专利。CEO董琪是图像传感器专家,拥有20多年国际半导体开发与生产管理经验,曾是美国OMINVISION公司初创管理团队成员。
另一方面,要实现这样的创新,还需要更多底层技术的支持。比如,采用APiM的架构,也意味着对内存的要求提升,但目前市面上的DRAM、RRAM、Flash等存储元器件,虽然技术成熟,但各自都存在某种使用上的缺欠,如漏电、功耗大、性能表现随环境变化不稳定等等,,需要在材料方面创新。团队中的资深技术副总裁Terry Torng,是明尼苏达大学材料工程系博士,有近30年磁性记忆、磁性材料、高温超导、微电子机械系统和传感器研发经验,是高温超导YBaCuO、93K发明人之一,带领团队研发了适用于AI芯片的新材料。
Gyrfalcon Technology的产品,目前可以适用于深度学习的训练、推理环节,同时可以适用于云端和终端。团队分析,推理环节会是未来AI芯片的重要应用场景,而在云端团队很难撼动NVIDIA的优势,因此主要聚焦终端的推理环节。
目前的产品主要包括单芯片、计算棒、板卡等多种形态,适用于移动边缘计算、智能监控、智能玩具、智能家居、VR AR、机器人、自动驾驶等。根据此前腾讯科技的采访,公司目前已经与一家自动驾驶公司启动无人驾驶深度学习的产品合作,与韩国手机品牌开始AI手机方案合作、与日本知名企业合作专用AI服务器、与中国制造业知名企业联合启动AI工业智能自动化项目、以及与国内安防企业筹划真正具备本地AI识别能力的摄像头等等。
三,
人工智能究竟能为我们带来什么?
我最近看到这样一颗AI芯片,在一个简单的开发板上,没有外置的存储器,通过训练每秒能识别150张图标。该芯片的联合创始人董琪先生说,这颗AI芯片的一个功能,可以把手机变成寻宝器,鉴别奇珍异宝。比如说,你把冬虫夏草的特征数据存储在手机中,到西部地区有人给你兜售冬虫夏草,那里是没有网络信号的偏远地区,你对着产品拍照,手机马上就会告诉你冬虫夏草的真伪和品质等级,即时处理,非常快。
联想到现在公安部门追捕罪犯时运用的人脸识别,需要后台计算识别,结果延时造成嫌疑人已经离开摄像机覆盖区域。未来通过这款芯片强大的声音和图像处理能力,无需再把图片传送到后台,即时识别,犯人再也无处可逃。
GTI与NVidia和寒武纪的区别
现在活跃在AI芯片领域的,形成影响力的有Nvidia和华为麒麟970 带红的寒武纪等中国新星,他们也有不少创新。但是大部分品牌能做到在终端产品内大容量本地计算,不用后台计算机支撑吗?功耗方面,他们和GTI同级别的产品显然有很大的差距。
GTI的芯片能真正实现图片,视频和语音在手持设备的本地学习和识别!
我看到了真实的开发板演示,才敢相信这是真实存在的。
人工智能是对人类能力的增强!董先生的想法是让GTI的芯片给更多有才华的工程师和开发者带来新的创新空间。低功耗和高性能同时具备是GTI的核心竞争力。据董先生介绍,未来GTI的第二代芯片产品的功耗将做到更低,明年上半年将会出品。我认为这样的超低功耗配合GTI强大的声音和图像处理能力这些将为智能终端领域带来颠覆性的改变!更多个性化的产品,更多基于SDK的二次开发,不仅仅是产品的改变,新的商业模式也会出现,值得大家共同期待!
那么,有没有一种不用存储图片,占有几百K-几兆字节存储空间,而仅存储图片特征值,从而减少存储,减少计算量,完全本机实现学习和决策的芯片途径?
人工智能领域的竞争就是一场芯片革命!我看到董先生沿着卷积神经网络的路线,实现深度学习的AI处理器。他的团队由一批有情怀的硅片人组成,真正做到低功耗、计算快和无需芯片外数据交换的终端应用,这颗芯片实现了革命性的创新!
GTI的AI处理器芯片- “光矛”Lightspeeur(R) 2801S 已于2017年9月成功流片,该芯片拥有高达9.3 TOPS/Watt 的卓越效率能耗比表现,在人工智能边缘计算与数据中心机器学习领域相比目前市场上的其他方案高出几个数量级。它有二低二高特点,低功耗低存储,高并行和原位计算,能有效推动各种人工智能应用在终端侧及云端的产业化落地。
光矛(R) 基于APiM架构,该架构使用内存作为人工智能处理单元,能够消除在其他架构中的大量数据移动,极大降低功耗。这一架构支持真正的片上并行和原位计算,成功克服了由存储器带宽而导致的性能瓶颈。它有28000个并行计算核,不需要使用外部存储单元用于人工智能推断。
光矛(R) 支持卷积神经网络,其分布式内存块结构对CNN计算相当友好并且支持多层结构,每层的尺寸可以不同,内置模型压缩算法能够实现快速且低功耗的CNN计算。此外,Lightspeeur(R) 还同时支持Caffe、TensorFlow等主流开源深度学习系统。
光矛(R) 2801S采用28nm工艺,并已进入量产阶段,实测功能如下:
1, 效率能耗比为9.3Tops/W
2, 单芯片峰值运算能力5.6Tops,运行VGG网络可到130FPS
3, 在功耗180毫瓦下,运行VGG网络可达30FPS;运行AlexNet网络可达48FPS.
4, ImageNet 图像分类运行网络精度:VGG为66%,Alexnet为58%,
该芯片无需外挂DDR,多芯片可无缝连接,支持更强大计算要求的AI应用如AI服务器、自动驾驶、智慧安防和复杂条件下工业应用等不同场景。
在极速图片识别展台,麒麟970与IPhone 8 Plus和三星S8并排放置,在同一时间开启相同的100张图片识别任务,结果表明,麒麟970完成100张图片识别只需要3秒,完全秒杀苹果和三星。
麒麟970的HiAI移动计算架构
相较于四个Cortex-A73核心,在处理同样的AI应用任务时,新的异构计算架构拥有大约50倍能效和25倍性能优势,这意味着麒麟970可以用更少的能耗更快地完成AI计算任务。
二,2017年7月,Intel发布了基于Movidius技术的神经计算棒,售价79美元,可以接入多种设备,部署深度学习推理任务。半年之后,Laceli* 人工智能计算棒问世,根据官网参数,性能是Movidius神经计算棒的90倍, 售价仅为69美元。
推出这款产品的,正是硅谷的一家AI芯片初创公司 Gyrfalcon Technology。在此之前,公司已推出“光矛处理器 Lightspeeur* 2801S”,于2017年9月成功流片,基于自研的APiM架构,有28000个并行神经计算核,180mW功耗下基于VGG模型每秒处理图片150张,适用于CNN、RNN等常见深度神经网络的模型训练及推理。
Gyrfalcon Technology成立于2017年,公司成立时正式AI芯片备受关注之时。深度学习技术的成熟及应用,原有的芯片算力已经难以应对巨大的算力消耗。简单来说,深度学习的过程可以抽象理解为利用大量标注的数据进行训练,训练出一个行之有效的模型,再将这一模型运用于新数据的推理。因为这一算法是建立在多层大规模神经网络之上的,后者本质上是包含了矩阵乘积和卷积操作的大运算量函数,往往需要先定义一个包含回归问题的方差、分类时的交叉熵的代价函数,再数据分批传递进网络,根据参数求导出代价函数值,从而更新整个网络模型。这通常意味着至少几百万次的相乘处理,计算量巨大。
有多年半导体行业经验的董琪、杨林、林建国、Terry Torng也看中了其中的市场机遇,于2017年一起创业,在硅谷创办了Gyrfalcon Technology,希望打造AI芯片。
2017年,团队推出了第一款芯片,名为Lightspeeur*光矛系列智能神经网络处理器。从官网公布的性能参数上看,这款产品采用了28nm制造工艺,片上集成高达28000个运算单元,单芯片峰值运算能力为5.6TOPS,效率能耗比达到9.3Tops/W,180mW功耗下基于VGG模型每秒处理图片150张,支持 常见的多种网络模型,同时支持标准的开源框架,如 Caffe, TensorFlow和 MXNet,表现亮眼。
之所以能做到这一点,团队分析主要是因为两大创新。一是采用了不同于传统处理器架构,而是采用了二维的矩阵芯片架构,第一代的芯片产品已经可以做到 168核X168个核的矩阵架构,相当于片上集成28000个运算单元。
传统的处理器基本是冯诺依曼架构,如Intel X86 CPU,单点架构,基于指令集处理各种简单或复杂的任务;或是类似NVDIA GPU这样的一维架构,可以做大量并行计算,适用图形计算,计算单元大幅提高但总量依然受限,功耗很高。而基于Gyrfalcon Technology的二维矩阵式结构,单品可以轻易集成几十到几十万计算单元,多单品之间还可随意无缝互联,非常适合不同场景下的AI计算。,为降低功耗和发热,其时钟设计可以很慢,但由于计算单元海量增加,芯片整体速度却会远远超过其他传统架构的处理器。目前,团队已经为这一技术申请了专利。
二是自研了 APiM架构(存储计算融合一体的本地并行AI运算),消除了数据搬运的环节,解决了数据搬运墙难题。AI算法在芯片实现时遇到的核心问题不是计算资源而是存储问题,强如GPU提供众多的计算资源,但实际计算能力与计算资源大为降低,很多情况下芯片80%左右的功耗都用于了数据搬运上。
Gyrfalcon Technology的 APiM架构提升内存的地位,将数据和运算写在了内存里,相当于减少了一半以上的能耗。团队告诉36氪,近期他们在ARM的云端AI服务器测试时,节省了90%左右的电量。
Gyrfalcon Technology告诉36氪,之所以能做到上面的这些创新,与团队成员的经历、背景相关。首席科学家杨林博士毕业于复旦大学电子工程系,后获清华大学无线电系硕士和美国加大伯克利电子工程系博士学位,研究领域为图像处理、神经网络、图像识别和深度学习芯片,拥有近30年通讯、数字电视、芯片设计工作经验,他是细胞神经网络(CNN)和中国数字电视传输标准核心技术发明人,拥有CNN领域30多项中美专利。CEO董琪是图像传感器专家,拥有20多年国际半导体开发与生产管理经验,曾是美国OMINVISION公司初创管理团队成员。
另一方面,要实现这样的创新,还需要更多底层技术的支持。比如,采用APiM的架构,也意味着对内存的要求提升,但目前市面上的DRAM、RRAM、Flash等存储元器件,虽然技术成熟,但各自都存在某种使用上的缺欠,如漏电、功耗大、性能表现随环境变化不稳定等等,,需要在材料方面创新。团队中的资深技术副总裁Terry Torng,是明尼苏达大学材料工程系博士,有近30年磁性记忆、磁性材料、高温超导、微电子机械系统和传感器研发经验,是高温超导YBaCuO、93K发明人之一,带领团队研发了适用于AI芯片的新材料。
Gyrfalcon Technology的产品,目前可以适用于深度学习的训练、推理环节,同时可以适用于云端和终端。团队分析,推理环节会是未来AI芯片的重要应用场景,而在云端团队很难撼动NVIDIA的优势,因此主要聚焦终端的推理环节。
目前的产品主要包括单芯片、计算棒、板卡等多种形态,适用于移动边缘计算、智能监控、智能玩具、智能家居、VR AR、机器人、自动驾驶等。根据此前腾讯科技的采访,公司目前已经与一家自动驾驶公司启动无人驾驶深度学习的产品合作,与韩国手机品牌开始AI手机方案合作、与日本知名企业合作专用AI服务器、与中国制造业知名企业联合启动AI工业智能自动化项目、以及与国内安防企业筹划真正具备本地AI识别能力的摄像头等等。
三,
人工智能究竟能为我们带来什么?
我最近看到这样一颗AI芯片,在一个简单的开发板上,没有外置的存储器,通过训练每秒能识别150张图标。该芯片的联合创始人董琪先生说,这颗AI芯片的一个功能,可以把手机变成寻宝器,鉴别奇珍异宝。比如说,你把冬虫夏草的特征数据存储在手机中,到西部地区有人给你兜售冬虫夏草,那里是没有网络信号的偏远地区,你对着产品拍照,手机马上就会告诉你冬虫夏草的真伪和品质等级,即时处理,非常快。
联想到现在公安部门追捕罪犯时运用的人脸识别,需要后台计算识别,结果延时造成嫌疑人已经离开摄像机覆盖区域。未来通过这款芯片强大的声音和图像处理能力,无需再把图片传送到后台,即时识别,犯人再也无处可逃。
GTI与NVidia和寒武纪的区别
现在活跃在AI芯片领域的,形成影响力的有Nvidia和华为麒麟970 带红的寒武纪等中国新星,他们也有不少创新。但是大部分品牌能做到在终端产品内大容量本地计算,不用后台计算机支撑吗?功耗方面,他们和GTI同级别的产品显然有很大的差距。
GTI的芯片能真正实现图片,视频和语音在手持设备的本地学习和识别!
我看到了真实的开发板演示,才敢相信这是真实存在的。
人工智能是对人类能力的增强!董先生的想法是让GTI的芯片给更多有才华的工程师和开发者带来新的创新空间。低功耗和高性能同时具备是GTI的核心竞争力。据董先生介绍,未来GTI的第二代芯片产品的功耗将做到更低,明年上半年将会出品。我认为这样的超低功耗配合GTI强大的声音和图像处理能力这些将为智能终端领域带来颠覆性的改变!更多个性化的产品,更多基于SDK的二次开发,不仅仅是产品的改变,新的商业模式也会出现,值得大家共同期待!
那么,有没有一种不用存储图片,占有几百K-几兆字节存储空间,而仅存储图片特征值,从而减少存储,减少计算量,完全本机实现学习和决策的芯片途径?
人工智能领域的竞争就是一场芯片革命!我看到董先生沿着卷积神经网络的路线,实现深度学习的AI处理器。他的团队由一批有情怀的硅片人组成,真正做到低功耗、计算快和无需芯片外数据交换的终端应用,这颗芯片实现了革命性的创新!
GTI的AI处理器芯片- “光矛”Lightspeeur(R) 2801S 已于2017年9月成功流片,该芯片拥有高达9.3 TOPS/Watt 的卓越效率能耗比表现,在人工智能边缘计算与数据中心机器学习领域相比目前市场上的其他方案高出几个数量级。它有二低二高特点,低功耗低存储,高并行和原位计算,能有效推动各种人工智能应用在终端侧及云端的产业化落地。
光矛(R) 基于APiM架构,该架构使用内存作为人工智能处理单元,能够消除在其他架构中的大量数据移动,极大降低功耗。这一架构支持真正的片上并行和原位计算,成功克服了由存储器带宽而导致的性能瓶颈。它有28000个并行计算核,不需要使用外部存储单元用于人工智能推断。
光矛(R) 支持卷积神经网络,其分布式内存块结构对CNN计算相当友好并且支持多层结构,每层的尺寸可以不同,内置模型压缩算法能够实现快速且低功耗的CNN计算。此外,Lightspeeur(R) 还同时支持Caffe、TensorFlow等主流开源深度学习系统。
光矛(R) 2801S采用28nm工艺,并已进入量产阶段,实测功能如下:
1, 效率能耗比为9.3Tops/W
2, 单芯片峰值运算能力5.6Tops,运行VGG网络可到130FPS
3, 在功耗180毫瓦下,运行VGG网络可达30FPS;运行AlexNet网络可达48FPS.
4, ImageNet 图像分类运行网络精度:VGG为66%,Alexnet为58%,
该芯片无需外挂DDR,多芯片可无缝连接,支持更强大计算要求的AI应用如AI服务器、自动驾驶、智慧安防和复杂条件下工业应用等不同场景。