首页 spark-rdd
spark-rdd
取消

spark-rdd

创建RDD

从数据结构创建 RDD

从 Array 创建 RDD

1
2
val data = Array(1, 2, 3, 4, 5, 6, 7)
val rdd = sc.parallelize(data)

从 List 创建 RDD

1
2
val data = List(1, 2, 3, 4, 5, 6, 7)
val rdd = sc.parallelize(data)

从文件创建 RDD

从本地文件创建 RDD

如果需从本地文件系统读取文件作为外部数据源,则文件必须确保其群上的所有工作节点可访问。

1
2
val localFile = sc.textFile("file:///etc/passwd")
val localFile = sc.textFile("file:///etc/passwd,file:///etc/hosts")

从 HDFS 上创建 RDD

1
2
3
4
val hdfsFile = sc.textFile("hdfs:///user/hive/warehouse/test.db/test")

# 结果是 <K, V><urifileName> 结构
val wholeTextFile = sc.wholeTextFile("hdfs:///user/hive/warehouse/")