创建RDD
从数据结构创建 RDD
从 Array 创建 RDD
1
2
| val data = Array(1, 2, 3, 4, 5, 6, 7)
val rdd = sc.parallelize(data)
|
从 List 创建 RDD
1
2
| val data = List(1, 2, 3, 4, 5, 6, 7)
val rdd = sc.parallelize(data)
|
从文件创建 RDD
从本地文件创建 RDD
如果需从本地文件系统读取文件作为外部数据源,则文件必须确保其群上的所有工作节点可访问。
1
2
| val localFile = sc.textFile("file:///etc/passwd")
val localFile = sc.textFile("file:///etc/passwd,file:///etc/hosts")
|
从 HDFS 上创建 RDD
1
2
3
4
| val hdfsFile = sc.textFile("hdfs:///user/hive/warehouse/test.db/test")
# 结果是 <K, V>(<uri,fileName>) 结构
val wholeTextFile = sc.wholeTextFile("hdfs:///user/hive/warehouse/")
|