Blog Articles
-
[译] Spark SQL Generic Load/Save Functions
<p>[TOC]</p> <h1><a id="Generic_LoadSave_Functions_2"></a>Generic Load/Save Functions(通用加载/保存函数)</h1> <p>最简单的情况, 默认数据源(<code>parquet</code>, 除非使用<code>spark.sql.sources.default</code>修改了配置) 将会应用到所有操作.</p> <pre><div class="hljs"><code class="lang-java">Data
Published on: -
[译]Spark SQL Start(2.4.3)
<p>原文地址: <a href="https://spark.apache.org/docs/latest/sql-programming-guide.html" target="_blank">https://spark.apache.org/docs/latest/sql-programming-guide.html</a></p> <h1><a id="OverView_1"></a>OverView</h1> <p>Spark SQL是用于处理结构化数据的spark模块。与基本的Spark RDD
Published on: -
[译]Spark RDD Programming Guide(2.4.3)
<p>原文地址:<br /> <a href="https://spark.apache.org/docs/latest/rdd-programming-guide.html" target="_blank">https://spark.apache.org/docs/latest/rdd-programming-guide.html</a></p> <h1><a id="Overview_2"></a>Overview</h1> <p>从高层次的角度来看, spark应用由一个驱动程序(运行用户的<cod
Published on: -
一个spark-app-demo
<p>安装完环境, 现在是时候写一个demo项目了<br /> 需求就是打印出上传到hdfs中的日志行数.</p> <h1><a id="_3"></a>依赖</h1> <p>需要用到spark-sql库, 先查看一下spark目录下sql版本:<br /> spark-2.4.3-bin-hadoop2.7/jars/spark-sql_2.11-2.4.3.jar<br /> 那么在程序中引用相同的库</p> <pre><code class="lang-"> <dependency
Published on: -
使用docker安装spark2.4.3
<h1><a id="_0"></a>前置说明</h1> <p>在安装hbase之前, 安装了hadoop, 因为hbase的数据需要存放到hdfs中<br /> spark也与hadoop有关联, 但是要理解spark仅仅用到hadoop的库, 并不依赖hadoop程序, 它不需要安装hadoop, spark仅依赖jdk.<br /> spark有四大集群模式: standalone, mesos, yarn, k8s<br /> 根据数据量, 确定使用最简单的standalone模式.</p> <h1
Published on: -
使用docker安装hbase2.1.4
<h1><a id="_0"></a>版本确定</h1> <h3><a id="hadoop_1"></a>hadoop</h3> <p>hbase与hadoop兼容表:<a href="https://hbase.apache.org/book.html#hadoop" target="_blank">https://hbase.apache.org/book.html#hadoop</a><br /> 据当前hadoop的版本2.7.7,确定hbase的版本为2.1.x, 那么可以使用最新版本2.1.4
Published on: -
spring data jdbc 基本使用
<p>官方文档:<a href="https://docs.spring.io/spring-data/jdbc/docs/1.0.6.RELEASE/reference/html/" target="_blank">https://docs.spring.io/spring-data/jdbc/docs/1.0.6.RELEASE/reference/html/</a><br /> spring data jdbc是spring data产品中的一员, 它提供查询数据库并映射成实体的功能,类似于jpa,但
Published on: -
java jdbc 实现相关类简介
<p>java中实现jdbc的包主要包括两个</p> <ul> <li>java.sql</li> <li>javax.sql</li> </ul> <h1><a id="javasql__4"></a>java.sql 包</h1> <p><img src="https://upload-images.jianshu.io/upload_images/12820326-8a2db6705c7b651f.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/12
Published on: -
数据库访问工具简介
<h1><a id="_0"></a>数据库驱动程序(客户端开发包)</h1> <p>数据库是单独的应用程序, 提供数据查询和修改的服务(CS模式).<br /> 应用程序一般使用数据库驱动程序来访问数据库,数据库驱动程序一般由数据库开发商提供.<br /> 下面列举了一些mysql数据库的驱动程序:<br /> <img src="https://upload-images.jianshu.io/upload_images/12820326-7e5c8e31702b1009.png?imageMogr2/
Published on: -
使用docker安装hadoop2.7.7
<p>官方的安装文档<br /> <a href="https://hadoop.apache.org/docs/r2.7.7/hadoop-project-dist/hadoop-common/ClusterSetup.html" target="_blank">https://hadoop.apache.org/docs/r2.7.7/hadoop-project-dist/hadoop-common/ClusterSetup.html</a><br /> 由于线上使用docker, 所以需要打包成do
Published on: