0%

Spark spark.yarn.jars 使用说明

spark 优化将依赖包传入HDFS 使用 spark.yarn.jar


前言

问题描述请转移 十:WARN yarn.Client: Neither spark.yarn.jars nor spark.yarn.archive is set,解决案例

启动 Spark 任务时,在没有配置 spark.yarn.archive 或者 spark.yarn.jars 时, 会看到不停地上传jar,非常耗时

处理

如果使用了 spark.yarn.archive 配置将会替换 spark.yarn.jars 的配置,所以这里使用
spark.yarn.jars 可以大大地减少任务的启动时间,整个处理过程如下。

上传依赖jar包, /user/spark/jars 为 hfds 上的目录,如果没有自行新建;
spark/jars/* 为 spark 服务自带的 jar 包

1
hadoop fs -put spark/jars/* /user/spark/jars

配置spark-defaut.conf,下方 hdfs://reh 为我这 HDFS nameserver 名字,你自行改成你自己的

1
spark.yarn.jars=local:/opt/cloudera/parcels/CDH-6.3.1-1.cdh6.3.1.p0.1470567/lib/spark/jars/*,local:/opt/cloudera/parcels/CDH-6.3.1-1.cdh6.3.1.p0.1470567/lib/spark/hive/*,hdfs://reh/user/spark/jars/*.jar

注:本地配置local,hdfs标记为hdfs目录即可


参考链接