Apache Spark从文件夹流（不是HDFS）

问题描述：

我想知道是否有任何可靠的方法从物理位置创建火花流？我正在使用'textFileStream'，但似乎它主要用于HDFS文件。如果您看到该函数的定义，它会显示“创建一个监视Hadoop兼容文件系统的输入流”Apache Spark从文件夹流（不是HDFS）

答

您是否暗示HDFS不是物理位置？有物理上存在的datanode目录...

您应该能够使用textFile和file:// URI，但需要确保群集中的所有节点都可以从该位置读取。

从Hadoop兼容文件系统的定义。

选择使用哪个文件系统来自用于引用它的URI方案 - 任何文件路径上的前缀hdfs：表示它指的是HDFS文件系统; file：到本地文件系统，s3：到Amazon S3，ftp：FTP，swift：OpenStackSwift，等等。

有一个新的架构添加到Hadoop的
需要通过相关的Java JAR文件提供Hadoop的明确整合其他文件系统，本机二进制文件和配置参数

对不起，我通过UNIX/Windows文件系统意味着物理位置。我试图在Windows中使用本地核心进行复制，但似乎存在一些问题，即只能在更改文件时才能读取，然后在火花作业运行时移动文件。 –

是的，Spark流文档说“必须在dataDirectory中创建文件，方法是将它们自动移动或重命名为数据目录”。意思是，不读取现有文件。追加到文件不会工作 –

@Satyabrat这是否回答了您的问题？ –

Apache Spark从文件夹流（不是HDFS）

相关推荐