Blog Articles
-
Spark SQL 访问Hbase
<p><h3>Table of Contents</h3><ul><li><a href="#_2">简介</a></li><li><a href="#hbasespark_7">打包生成hbase-spark库</a></li><li><a href="#Hbase_29">解决访问Hbase问题</a></li><li><a href="#Hbase_54">读写Hbase</a></li></ul><br /> 参考文档 : https://hbase.apache.org/book.html#_sp
Published on: -
[译]Spark SQL 访问json和jdbc数据源
<p>spark sql可以从很多数据源中读写数据, 比较常用的是json文件和可使用jdbc协议的数据库.</p> <h1><a id="json_2"></a>访问json数据</h1> <p>官方文档: <a href="https://spark.apache.org/docs/latest/sql-data-sources-json.html" target="_blank">https://spark.apache.org/docs/latest/sql-data-sources-json.ht
Published on: -
使用docker安装hadoop2.7.7
<p>官方的安装文档<br /> <a href="https://hadoop.apache.org/docs/r2.7.7/hadoop-project-dist/hadoop-common/ClusterSetup.html" target="_blank">https://hadoop.apache.org/docs/r2.7.7/hadoop-project-dist/hadoop-common/ClusterSetup.html</a><br /> 由于线上使用docker, 所以需要打包成do
Published on: -
使用docker安装hbase2.1.4
<h1><a id="_0"></a>版本确定</h1> <h3><a id="hadoop_1"></a>hadoop</h3> <p>hbase与hadoop兼容表:<a href="https://hbase.apache.org/book.html#hadoop" target="_blank">https://hbase.apache.org/book.html#hadoop</a><br /> 据当前hadoop的版本2.7.7,确定hbase的版本为2.1.x, 那么可以使用最新版本2.1.4
Published on: -
使用docker安装spark2.4.3
<h1><a id="_0"></a>前置说明</h1> <p>在安装hbase之前, 安装了hadoop, 因为hbase的数据需要存放到hdfs中<br /> spark也与hadoop有关联, 但是要理解spark仅仅用到hadoop的库, 并不依赖hadoop程序, 它不需要安装hadoop, spark仅依赖jdk.<br /> spark有四大集群模式: standalone, mesos, yarn, k8s<br /> 根据数据量, 确定使用最简单的standalone模式.</p> <h1
Published on: -
一个spark-app-demo
<p>安装完环境, 现在是时候写一个demo项目了<br /> 需求就是打印出上传到hdfs中的日志行数.</p> <h1><a id="_3"></a>依赖</h1> <p>需要用到spark-sql库, 先查看一下spark目录下sql版本:<br /> spark-2.4.3-bin-hadoop2.7/jars/spark-sql_2.11-2.4.3.jar<br /> 那么在程序中引用相同的库</p> <pre><code class="lang-"> <dependency
Published on: -
[译]Spark RDD Programming Guide(2.4.3)
<p>原文地址:<br /> <a href="https://spark.apache.org/docs/latest/rdd-programming-guide.html" target="_blank">https://spark.apache.org/docs/latest/rdd-programming-guide.html</a></p> <h1><a id="Overview_2"></a>Overview</h1> <p>从高层次的角度来看, spark应用由一个驱动程序(运行用户的<cod
Published on: -
[译]Spark SQL Start(2.4.3)
<p>原文地址: <a href="https://spark.apache.org/docs/latest/sql-programming-guide.html" target="_blank">https://spark.apache.org/docs/latest/sql-programming-guide.html</a></p> <h1><a id="OverView_1"></a>OverView</h1> <p>Spark SQL是用于处理结构化数据的spark模块。与基本的Spark RDD
Published on: -
[译] Spark SQL Generic Load/Save Functions
<p>[TOC]</p> <h1><a id="Generic_LoadSave_Functions_2"></a>Generic Load/Save Functions(通用加载/保存函数)</h1> <p>最简单的情况, 默认数据源(<code>parquet</code>, 除非使用<code>spark.sql.sources.default</code>修改了配置) 将会应用到所有操作.</p> <pre><div class="hljs"><code class="lang-java">Data
Published on: -
hbase配置hdfs后启动失败
<p>今天按照hbase官方文档配置使用hdfs保存数据, 但是启动后jps没有找到HMaster进程, 查看日志, 发现启动regionserver时出错了, 错误如下:</p> <pre><div class="hljs"><code class="lang-java">ERROR [main] regionserver.HRegionServer: Failed construction RegionServer java.lang.NoClassDefFoundError: org/apache/h
Published on: