环境与版本
- OS:centos 7
- JDK版本:1.8
- Spark版本:2.1.0
- Scala版本:2.11
- IDE:intellij idea 14.1.4
WholeStageCodeGen简介
Spark2.0集成了第二代Tungsten engine,经过我们的测试,性能相对spark1.6有明显的提升,而其中一个重要的特性就是WholeStageCodeGen,在databricks的官博上有详细讲解这个新特性的文章:
https://databricks.com/blog/2016/05/23/apache-spark-as-a-compiler-joining-a-billion-rows-per-second-on-a-laptop.html
简而言之,利用WholeStageCodeGen技术,可以将一次计算过程中的多个operators作为一个整体,生成与手写代码性能相近的代码。