Spark spark.yarn.jars 使用说明

spark 优化将依赖包传入HDFS 使用 spark.yarn.jar

前言

问题描述请转移十：WARN yarn.Client: Neither spark.yarn.jars nor spark.yarn.archive is set,解决案例

启动 Spark 任务时，在没有配置 spark.yarn.archive 或者 spark.yarn.jars 时，会看到不停地上传jar，非常耗时

处理

如果使用了 spark.yarn.archive 配置将会替换 spark.yarn.jars 的配置，所以这里使用
spark.yarn.jars 可以大大地减少任务的启动时间，整个处理过程如下。

上传依赖jar包, /user/spark/jars 为 hfds 上的目录，如果没有自行新建；
spark/jars/* 为 spark 服务自带的 jar 包

1	hadoop fs -put spark/jars/* /user/spark/jars

配置spark-defaut.conf，下方 hdfs://reh 为我这 HDFS nameserver 名字，你自行改成你自己的

spark.yarn.jars=local:/opt/cloudera/parcels/CDH-6.3.1-1.cdh6.3.1.p0.1470567/lib/spark/jars/*,local:/opt/cloudera/parcels/CDH-6.3.1-1.cdh6.3.1.p0.1470567/lib/spark/hive/*,hdfs://reh/user/spark/jars/*.jar

注：本地配置local,hdfs标记为hdfs目录即可

参考链接