从Spark写入DynamoDB

从Spark写入DynamoDB

问题描述:

我试图用spark从amazon s3抓取文件(以DataFrame或RDD的形式),做一些简单的转换,然后将文件发送到DynamoDB上的表。从Spark写入DynamoDB

在阅读了其他一些论坛帖子后,我明白了对DynamoDB的读写需要使用hadoopRDD--它与spark中的RDD不同 - 与我在其中检索我的s3不同文件。

我会如何将一个DataFrame/RDD从s3中的文件更改为hadoopRDD,以便我可以将其发送回去?

我使用scala并测试了spark-shell中的所有内容。

再次提前致谢!

+0

Hi @Willks你有没有得到解决方案将rdd转换为Spark-scala中的hadoopRDD。 – Yogesh

您可以使用亚马逊实施的EMR DynamoDB Connector。它实现了DynamoDBInputFormat和DynamoDBOutputFormat,允许从DynamoDB读写数据。

你可以在这blog post了解更多关于此。