位置:首页 > 分类聚合

Hive迁移Saprk SQL的坑和改进办法

360-Spark集群概况360-Spark集群概况360-Spark应用MLLib• 算法:LDA、LR、FP-Growth、ALS、KMeans、随机森林等。• 业务:新闻主题分类、新闻推荐、APP推荐、恶意代码识别、恶意域名检测等。GraphX• 算法:PageRank、Louvain、LPA、连通子   查看详细

1.  hive调优explainexplain select sum(salary) from t_salary;首先,查询计划会打印出抽象的语法书。它表明 Hive 是如何将查询解析成 token(符号)和 literal(字面值)的。STAGE PLANS:    Stage: Stage-1      Map Reduce   &

1.  hive函数所有的内置函数都注册在org.apache.hadoop.hive.ql.exec.FunctionRegistry类中以静态代码快的形式进行注册 show functions;desc function functionName;desc function extended functionName; 例:desc function year;year(param) - Returns the year component

1.  Hive 开发debug模式hive -hiveconf hive.root.logger=DEBUG,console debug远程调试hive先启动hive远程调试hive --debug出现如下提示Listening for transport dt_socket at address: 8000然后在idea新建一个远程连接应用然后以debug形式运行即可 自定义ho

1.  hive查询like和rlikelike    _表示一个任意字符,%表示0个或多个任意字符rlike   完全兼容java正则表达式 浮点数比较用cast(0.2 as float)转换尽量使用round,floor或ceil转换为整数 hive数据类型Number TypesTypesize

1.  Hive语法5.0 databaseDATABASE和SCHEMA是一样的意思创建数据库CREATE (DATABASE|SCHEMA) [IF NOT EXISTS] database_name  [COMMENT database_comment]  [LOCATION hdfs_path]  [WITH DBPROPERTIES (property_name=property_value, ...)];例:create database financialscomment &#

1.  Hive参数获取4.1启动hive cli时,增加参数hive -hiveconf dt=2016-05-05获取参数Set dt;select * from t1 where id%2==$dt 4.2hive cli or Beeline command重置所有配置,(不适用hiveconf: 为前缀的变量)reset打印所有用户变量set打印所有hivehe hadoop的

3.1执行 Hive脚本linux 终端下hive -f hive.hqldt=1;hive -S -hiveconf  hive.exec.mode.local.auto=true -e  "use default;select * from t1 where id%2==$dt"  hive 终端下source hive.hql Hive命令参数-S 开启静默模式,输出结果去除OK等行-i 指定

1.  Linux下Mysql数据库2.1安装1删除原本依赖rpm -e --nodeps `rpm -qa |grep MySQL`2然后yum在线安装 yum install -y mysql-server3启动mysql服务sudo service mysqld start4初始化配置mysql_secure_installation5加入到开机启动项chkconfig mysqld on6权限授予grant al

1.  Hive安装(1.2.1)1、解压一个hive安装包到集群的任意一台机器上2、配置hive的目录到环境变量中3、将hive的lib中的jline.2.12.jar 替换掉 hadoop2.6.4/share/hadoop/yarn/lib/jline.0.94.jar4、修改配置文件在hive的conf目录中vi hive-site.xml<config