从Spark写入DynamoDB

问题描述：

我试图用spark从amazon s3抓取文件（以DataFrame或RDD的形式），做一些简单的转换，然后将文件发送到DynamoDB上的表。从Spark写入DynamoDB

在阅读了其他一些论坛帖子后，我明白了对DynamoDB的读写需要使用hadoopRDD--它与spark中的RDD不同 - 与我在其中检索我的s3不同文件。

我会如何将一个DataFrame/RDD从s3中的文件更改为hadoopRDD，以便我可以将其发送回去？

我使用scala并测试了spark-shell中的所有内容。

再次提前致谢！

Hi @Willks你有没有得到解决方案将rdd转换为Spark-scala中的hadoopRDD。 – Yogesh

答

您可以使用亚马逊实施的EMR DynamoDB Connector。它实现了DynamoDBInputFormat和DynamoDBOutputFormat，允许从DynamoDB读写数据。

你可以在这blog post了解更多关于此。