如何从Spark任务中对ADLS进行身份验证

问题描述:

我正在构建一个Spark类库,开发人员在编写它们的Spark作业以访问Azure Data Lake上的数据时将使用它。但认证将取决于他们要求的数据集。我需要从Spark作业中调用一个rest API来获取凭据并通过身份验证从ADLS读取数据。这甚至可能吗?我是新来的火花。如何从Spark任务中对ADLS进行身份验证

这并非100%清楚你实际打算做什么。所以这里是一个通用的答案。

如果您的代码只是通过Spark调用并且能够访问文件系统,那么您的工作非常简单。在HDInsight群集中,您可以通过在不同位置提供adl:// URL来直接访问数据。对于您自己的Spark群集,您可以按照以下说明将它连接到ADLS:https://medium.com/azure-data-lake/connecting-your-own-hadoop-or-spark-to-azure-data-lake-store-93d426d6a5f4

现在,如果您正在开发其他内容,则需要评估您执行的环境是否可以访问Spark中的罐子类路径。然后,您可以使用安装在那里的ADLS Java SDK来访问ADLS。

希望这至少有点用处。