Apache Spark从文件夹流(不是HDFS)

问题描述:

我想知道是否有任何可靠的方法从物理位置创建火花流?我正在使用'textFileStream',但似乎它主要用于HDFS文件。如果您看到该函数的定义,它会显示“创建一个监视Hadoop兼容文件系统的输入流”Apache Spark从文件夹流(不是HDFS)

您是否暗示HDFS不是物理位置?有物理上存在的datanode目录...

您应该能够使用textFile和file:// URI,但需要确保群集中的所有节点都可以从该位置读取。

从Hadoop兼容文件系统的定义。

选择使用哪个文件系统来自用于引用它的URI方案 - 任何文件路径上的前缀hdfs:表示它指的是HDFS文件系统; file:到本地文件系统,s3:到Amazon S3,ftp:FTP,swift:OpenStackSwift,等等。

有一个新的架构添加到Hadoop的

需要通过相关的Java JAR文件提供Hadoop的明确整合其他文件系统,本机二进制文件和配置参数
+0

对不起,我通过UNIX/Windows文件系统意味着物理位置。我试图在Windows中使用本地核心进行复制,但似乎存在一些问题,即只能在更改文件时才能读取,然后在火花作业运行时移动文件。 –

+1

是的,Spark流文档说“必须在dataDirectory中创建文件,方法是将它们自动移动或重命名为数据目录”。意思是,不读取现有文件。追加到文件不会工作 –

+0

@Satyabrat这是否回答了您的问题? –