所谓网关机是指通过该机器来访问hadoop集群,因为在实际的生产环境中通常不是直接将pig安装到hadoop集群中的某个节点上,而是在一台能够访问hadoop集群的机器上安装pig。pig只是作为一个特殊的hadoop客户端,它可以使用local模式也可以使用mapreduce模式,在生产环境中pig都是使用mapreduce模式的,所以它需要hadoop集群的hdfs与mapreduce的支持,通俗的说就是pig客户端能够确定NameNode与JobTracker的位置,而这两个信息都是通过hadoop安装目录中conf目录下的配置文件中确定的,所以pig只需要定位到hadoop的conf目录即可。

配置pig方法:

   在pig的解压目录的bin目录下的pig执行脚本中添加一个变量:PIG_CLASSPATH=${HADOOP_HOME}/conf就行了,然后直接运行pig就可以看到日志输出已经连接到hadoop集群了。