企业信息

NVIDIA Tesla K10 及 K20 技术规格详解
在GTC 2012大会上，NVIDIA老总黄仁勋公布了新一代Tesla加速卡的详情，不过此次发布的Tesla显卡算是双胞胎，一款是基于双芯GK104架构的Tesla K10，另外一款则使用了真正的新架构，基于GK110核心的Tesla K20。

K10和K20的特性有所不同，重点也不一样



    首先来看K10，它的物理外观与GTX 690显卡没什么区别，但是NVIDIA公布的几项参数耐人寻味， 单精度浮点能力为4.58TFLOPS，带宽为320GB/s ，作为对比的是GTX 680单精度运算能力3.09TFLOPS，192GB/s带宽，而GTX 690也有5.62TFLOPS，384GB/s带宽，上一代Fermi核心浮点运算能力为1.58TFLOPS，带宽192GB/s。

    从参数上看，K10达到了NVIDIA所说的三倍于Fermi家族的单精度浮点能力，但是比GTX 680只提高了50%，带宽也只高了了67%左右，明显不如GTX 690显卡。

    由于是同样的架构，Tesla K10很明显在核心和显存频率上做了妥协，由于GK104架构的能效比很高，而HPC领域对功耗、发热也不甚敏感，不知NVIDIA为何将K10的规格定的比GTX 690还低。

    现场的图片没有公布K10的显存容量和TDP信息，但是GeForce GRID页面出现的K520显卡规格与K10一致，而显存容量是8GB，TDP是250W，二者其实都是双芯GK104显卡，因此Tesla K10也是8GB显存，250W TDP 。 （这个功耗低于GTX 690的300W，或许是规格降低一可能的解释了）

    Tesla K10现在就可以出货，但是它并不是重点， 个人觉得它只是个过渡产品，扮演救火队员的角色 ，因为GK104先天孱弱的双精度运算能力注定了它不可能在HPC市场有多高的成就，NVIDIA之所以推GTX 690上阵是因为GK110架构来的比预期的还要晚。

    GK110是NVIDIA针对高性能GPU计算市场开发的架构， 之**直传闻到今年8月份就会发布，但是NVIDIA给出的日期是今年*四季度 ，不论是28nm产能还是芯片自身的问题，这大半年的空白期总需要有人先**上，这就是K10的使命了。

Tesla K20与GK110架构

    NVIDIA对K20的描述是“3倍双精度浮点性能”，并有Hyper-Q、Dynamic Parallelism等多种并行计算技术加持，这些是现有的GK104架构不具备的。 

NVIDIA的PDF资料中介绍了GK110的SMX架构，也是192个CUDA核心


    必须要承认，以前泄露的有关GK110架构的消息是错误的，GK110的SMX架构其实跟GK104还是一样的，都是192个CUDA核心，32组SFU单元以及32个LD/ST单元。

GK110架构图


    除去其他的功能单元之外，GK110核心总共有15组SMX单元，2880个CUDA核心， 但是Heise声称并非所有单元都是启用的，实际上可能只有13-14组SMX单元，实际CUDA核心是2496或者2688个。

    显存位宽是384bit，已为黄仁勋和NVIDIA CTO确认 。 由于CUDA核心数已经低于之前的报导，显存位宽降到384bit也是很自然的事，如果保持GK104的6Gbps显存速率，那么GK110的带宽将达到288GB/s，终于**过AMD GCN架构的260GB /s了。

    NVIDIA给出的3倍双精度浮点性能不知是跟GF110显卡还是跟GF110核心的Tesla加速卡做的比较，GF110的单精度浮点能力为1.58TFLOPS，显卡中的双精度为单精度的1/ 4，也就是0.4TFLOPS，但是GF110核心的Tesla卡双精度能力可达单精度1/2，大约是0.8TFLOPS。

    如此一来，如果以显卡为基础，GK110的双精度浮点性能大约是1.2TFLOPS以上，如果是Tesla卡的3倍，那就是2.4TFLOPS以上，鉴于后者已经**出之前传闻的2TFLOPS的能力， GK110的双精度浮点能力应该是1.2TFLOPS或更高 。 

Tesla K20配置了6pin+8pin供电接口


    核心面积和TDP未知，不过K20配备的是6pin和8pin供电接口，较大TDP不会**过300W。 晶体管数量也是一个70亿，准确点说是71亿。


◆ GK110并行计算技术介绍

显卡规格方面的信息基本就是这么多了，再来看一下NVIDIA为GK110所增加的新技术吧。

Dynamic Parallelism（动态并行） 


    GK110架构的首要目标之一就是使程序员更方便地调用GPU强大的并行计算能力 。 传统的模式下，GPU每次操作都需要CPU的参与，而Dynamic Paralleliom的存在使得GPU接收数据时会动态刷新线程而*CPU参与。 由于内核有了独立加载工作负载的能力，动态并行技术允许程序直接在GPU上运行。

    这项技术的好处就是可以降低编程的复杂性，原本需要200-300行代码才能完成的工作在GK110显卡上只需要30行就可以了。

Hyper-Q 


    上一项技术强调的是简化操作，是给CPU减负，而Hyper-Q则是增加了CPU同时加载工作的核心数，是在提升=高CPU的利用率，避免CPU过多的闲置。

    Fermi架构中CPU只能同时运行一个MPI（Message Passing Interface消息传递接口）任务，但是在GK110架构中CPU同时运行的MPI任务数多达32个。

    传统的MPI任务主要基于多核CPU应用，与GPU强大的并行计算能力相比，CPU处理的MPI任务量实在是太小了，往往会带来虚假的GPU依赖性，导致GPU的性能无法有效利用， Hyper-Q大幅提高了CPU可以分配给GPU的MPI任务量，如果同时传递32个任务给GPU，那么理论性能会达到Fermi架构的32倍，实际应用中虽然不会这么夸张，但是优化调度之后GPU的并行计算能力还是会有改善。

GPU Direct 


    GPU Direct直连是NVIDIA官方PDF中没有提到的，不过依然值得解释一下。 NVIDIA已经推出了基于Kepler架构的GeForce GRID云游戏技术，那么使用Kepler显卡的服务器就免不了要互相交换数据。 GPU Direct技术可以让服务器的中不同显卡直接读取显存的数据，甚至不同服务器之间的显卡也可以通过网卡读取另一块显卡显存中的数据，简单来说就是提高了显卡的数据交换能力，所需的步骤更少，延迟更低。

CUDA 5

    要想使用上面介绍的技术就必须使用新的CUDA 5，GTC大会上NVIDIA已经发布了一个预览版的CUDA 5 SDK，正式版将在今年三季度发布。

    Kepler显卡发布之后，Tesla家族也终于迎来架构更新，而且很快就会有更新架构的Tesla加速卡，得益于GK104良好的效能比，NVIDIA的Tesla加速卡也具备了这样的能力，性能更强的同时功耗更低。

    新一代GK110架构重点针对GPU计算性能做了加强，双精度浮点能力提升到之前架构的三倍，并有动态并行、Hyper-Q、GPU Direct等技术辅助，无论是易用性还是性能都有明显改善，担当起GPU计算的光荣使命了。
NVIDIA CUDA GPU计算软件
    NVIDIA CUDA技术基于一种全新的用于开拓GPU运算性能的软件架构，CUDA程序执行时，GPU作为主CPU的协处理器工作，GPU可以处理大量的并行信息，同时CPU组织、解释、与后台交流要处理的信息。应用程序的计算密集型部分要被执行很多次，每次由主应用程序提交的不同数据，经过编译后由GPU并行执行。
 

  CUDA辅助CPU进行通用运算功能的示意图
    CUDA包含3个主要的组件，可以高效执行并行程序的GEFORCE8 系列GPU；一个可访问GPU上并行计算资源的编译器，以及一个计算**的运行时驱动。

    CUDA的核心部分是专门开发的C编译器。首开先河的编程环境简化了并行程序的编码。C语言对大多数开发人员都十分熟悉的，可以使编程人员专注于开发并行程序而不是处理负责的图形API。为了简化开发，CUDA的C编译器允许程序员将CPU 和 GPU的代码混合记录到一个程序文件中。一些简单代码被增加到的C程序中，通知CUDA编译器哪些函数由CPU处理，哪些为GPU编译。然后程序被CUDA编译器编译，而CPU处理的代码则由开发者的标准C编译器编。
A9.jpg
 

  CUDA的计算流程
开发人员使用一种全新的编程模式将并行数据映射、安排到GPU中。CUDA程序则把要处理的数据细分成更小的区块，然后并行的执行它们。这种编程模式允许开发人员只需对GPU编程一次，无论是包含多处理器的GPU产品或是低成本、处理器数量较少的产品。当GPU计算程序运行的时候，开发者只是需要在主CPU上运行程序，CUDA驱动会自动在GPU上载入和执行程序。主机端程序可以通过高速的PCI Express总线与GPU进行信息交互。数据的传输、GPU运算功能的启动以及其它一些CPU 和GPU交互都可以通过调用专门的运行时驱动中的专门操作来完成。这些高级操作把程序员从手动管理GPU运算资源中解放出来。对大规模数据进行解译与处理的能力处于计算科学的*领域，通过可以广泛普及CUDA的开发工具，任何程序都可以释放GPU的计算力量。通过CUDA软件和Tesla GPUs的结合，开发者现在能够在桌面平台进行大规模**级计算，同时也可以戏剧性的增加服务器集群的处理能力。
GPU计算实例研究
    下面的一些实例展示了GPU计算的性能，众多运算密集型的应用程序执行速度已经可以通过NVIDIA的GPU产品获得令人瞩目的提升。
医学成像：数字层析 X 射线照相组合
    数字层析X 射线照相组合是一种早期胸部**X射线透视法，可以使癌症对乳房组织的损害被更早的检测、发现。在这种应用中，美国马萨诸塞州综合医院就使用了NVIDIA的 GPU产品，通过对X射线透视所获取的数据进行高强度计算来重建图像。
    为了更好的显现**或其它癌变，层析X射线照相使用了视差技术，可以使图像上相邻物体间的距离更远、成像更清晰。电脑的任务就是将病人胸部的X光扫描图像电子式的排列组合起来。通过使用这种技术，可以消除层叠结构对癌变组织图像的模糊作用。
A10.jpg
 
 
    层析X 射线照相组合作为一种医学成像概念问世于上世纪60年代，但是直到90年代，当数字感光器具有足够的灵敏度之后才得以成为现实。但是，当时的处理器性能还不足以满足这项任务。**通过层析 X 射线照相获得的数据进行医学成像的尝试中，花费了5个小时才完成对一个病人的扫描，时间太长，无法进入实际应用。使用一个由34台PC的服务器集群也耗费了20分钟才完成处理，结果还不错，但是在医院的放射实验室安置服务器集群是不切实际的。
    现在，在使用NVIDIA的GPU产品进行计算后，马萨诸塞州综合医院在图像重建的过程中获得了100倍的速度提升，使用一台PC只用5分钟就可以完成计算，使医生很快就可以得到成像图片并给出诊断结果。
模拟与设计：生物医学核磁共振成像植入设备
    在医学领域内，为了保证核磁共振成像或是其它一些诊疗成像设备的安全使用，许多生物医学植入设备被广泛使用。在这些植入设备的模拟与设计过程中，需要进行高强度的计算，用传统的电脑集群将耗费相当多的时间。
A11.jpg
 
 
    着名的美国波士顿科学国际有限公司就是一个设计和制造起搏器和其他一些生物医学植入设备的公司，他们使用了NVIDIA GPU 运算技术加速整个计算过程。通过NVIDIA的 并行 GPU 架构，模拟过程的执行速度提高了25倍。不仅速度方面提高很多，在成本方面也比过去使用CPU集群时大大降低。

 
地球科学: 石油与天然气勘探
    现在，石油与天然气的勘探正变得越来越困难。大型的油气储藏带经常处于地表下很深的地方以至于难于勘测。例如较近在墨西哥湾发现的油田就处于海床下20000英尺深的地方。为了解释地质数据，就必须对获得与处理大量的地震数据。
   大多数人今天仍然认为GPU是一种用于娱乐消费的技术。但是，休斯敦的Headwave正着手开发新一代计算平台，以充分利用图形卡的并行计算潜力了。
A12.jpg
 
 
    Headwave的解决方案也通过NVIDIA 的GPU技术，并使用CUDA SDK来运行。地球物理学者可以更快速的筛选他们的数据，即便这些数据多达几TB的容量。过去处理这些多达几TB的数据需要数月的计算时间，而使用NVIDIA GPU 计算技术后，计算速度比过去提高了20倍。所以说，没有NVIDIA 的GPU 计算技术，即时演算这些数据是不可能的，石油与天然气公司将成为这项新技术的直接受益者。
计算生物学：分子动力学模拟
    在分子动力学模拟领域内，模拟复杂的分子系统需要要耗费大量的时间，并使用复杂的计算机集群。位于Urbana-Champaign的美国伊利诺伊大学的研究人员就使用了NVIDIA的 GPU 产品用于计算生物分子、离子的相互作用，结果是运算速度比过去采用CPU集群提高了100倍。
A13.jpg
 

  关于人类疾病的研究是高性能科学计算的主要用途之一
    使用GPU工作站后，实际运算速度达到了705 gigaflops。这样非凡的成绩也使得生物科学研不再被限制在服务器集群平台，有了GPU计算，在个人实验室、桌面平台都可以很轻松的进行这些生物分子的模拟，从而使研究者之间不再争夺有限的计算资源。
    更进一步，在一些大规模服务器集群中引入GPU之后，一些过去无法实现的梦想现在也可以成为可能。纳米级分子动力学与NVIDIA计算技术的结合是尖端研究与软件开发技术的联姻，用于帮助**级计算机解读活性细胞分子的微小组成。
科学计算：MathWorks MATLAB
    MATLAB是一种非常适合于对科学和数学算法进行快速编码的高级语言，并广泛应用于各种研究领域，例如信号与图像处理、测量、商业建模与分析、计算生物学等。
    使用NVIDIA 的GPU产品来加速MATLAB有两种方法，**种不需要改变MATLAB的代码，仅通过插入CUDA FFT 或BLAS 函数库就可完成。为了进一步加速MATLAB程序，CUDA 中的MATLAB插件允许编程人员使用优化过的CUDA程序来替换某些关键函数，这些新的CUDA函数可以被MATLAB程序所调用。由于使用了CUDA函数，MATLAB的使用者可以方便的加速计算而不必重写整个应用程序。
神经电路模拟：
A14.jpg
 
 
    大脑神经电路的模拟需要大规模的进行大规模的生物电路模拟，其中也涉及到大量的并行计算。模拟一个神经细胞需要在一秒钟内求解2亿个方程式。一个神经系统矩阵则有成千上万个神经细胞构成，对一格神经系统的即时模拟则需要**过10teraflops的计算能力。Evolved Machines公司在2006年与NVIDIA 合作，将神经系统的模拟速度比当今的x86 微处理器提高了130倍。
 
北京思腾创新科技发展有限公司
联系人：张瑜
手机：
Q  旺旺：奇宝大世界 支持淘宝交
http://zhangyu1112.cn.b2b168.com
企业信息

北京思腾创新科技发展有限公司

供应分类

友情链接

英伟达 TESLA K20

英伟达 TESLA K20详细内容

主营产品

amd皓龙全系列cpu nvidia全系列运算卡 **微全系列勤诚机箱组装服务器

联系我们

快捷入口

企业信息

北京思腾创新科技发展有限公司

供应分类

友情链接

英伟达 TESLA K20

英伟达 TESLA K20详细内容

主营产品

amd皓龙全系列cpu nvidia全系列运算卡 **微全系列 勤诚机箱 组装服务器

联系我们

快捷入口

amd皓龙全系列cpu nvidia全系列运算卡 **微全系列勤诚机箱组装服务器