MapReduce运行参数是用于配置和优化MapReduce作业性能的关键设置。这些参数包括输入输出格式、资源分配、并行度设定等,正确配置可以显著提高作业执行效率和系统资源的利用率。
MapReduce 运行参数和配置参数主要包括以下几类:
1、作业级别参数
2、任务级别参数
3、MapReduce 框架参数
4、Hadoop 通用参数
下面分别对这四类参数进行详细解释:
1. 作业级别参数
作业级别参数是在提交 MapReduce 作业时设置的,主要用于控制整个作业的运行,以下是一些常用的作业级别参数:
mapreduce.job.reduces
mapreduce.job.reduce.slowstart.completed.maps
mapreduce.job.reduce.slowstart.completed.maps
mapreduce.input.fileinputformat.split.maxsize
mapreduce.input.fileinputformat.split.minsize
mapreduce.output.fileoutputformat.compress
mapreduce.output.fileoutputformat.compress.codec
mapreduce.output.fileoutputformat.compress.type
mapreduce.output.fileoutputformat.sort.before.write
2. 任务级别参数
任务级别参数是在 MapReduce 任务运行时设置的,主要用于控制单个任务的运行,以下是一些常用的任务级别参数:
mapreduce.map.memory.mb
mapreduce.reduce.memory.mb
mapreduce.map.java.opts
mapreduce.reduce.java.opts
mapreduce.task.timeout
mapreduce.tasktracker.http.threads
mapreduce.tasktracker.map.tasks.maximum
mapreduce.tasktracker.reduce.tasks.maximum
3. MapReduce 框架参数
MapReduce 框架参数主要用于控制 MapReduce 框架的运行,以下是一些常用的 MapReduce 框架参数:
yarn.nodemanager.auxservices
yarn.nodemanager.pmemcheckenabled
yarn.nodemanager.vmemcheckenabled
yarn.nodemanager.resource.memorymb
yarn.nodemanager.resource.cpuvcores
yarn.nodemanager.localdirs
yarn.nodemanager.logdirs
yarn.nodemanager.delete.debugdelaysec
4. Hadoop 通用参数
Hadoop 通用参数适用于 Hadoop 集群的所有组件,以下是一些常用的 Hadoop 通用参数:
fs.defaultFS
io.file.buffer.size
io.sort.factor
io.sort.record.percent
io.sort.spill.percent
io.sort.mb
mapreduce.jobhistory.address
mapreduce.jobhistory.webapp.address
mapreduce.jobhistory.intermediatedonedir
mapreduce.jobhistory.donedir
这些参数可以通过配置文件(如mapredsite.xml
、yarnsite.xml
、hadoopenv.sh
等)或在提交作业时通过命令行参数进行设置。
本文来源于互联网,如若侵权,请联系管理员删除,本文链接:https://www.9969.net/33257.html