从Spark写入DynamoDB
问题描述:
我试图用spark从amazon s3抓取文件(以DataFrame或RDD的形式),做一些简单的转换,然后将文件发送到DynamoDB上的表。从Spark写入DynamoDB
在阅读了其他一些论坛帖子后,我明白了对DynamoDB的读写需要使用hadoopRDD--它与spark中的RDD不同 - 与我在其中检索我的s3不同文件。
我会如何将一个DataFrame/RDD从s3中的文件更改为hadoopRDD,以便我可以将其发送回去?
我使用scala并测试了spark-shell中的所有内容。
再次提前致谢!
答
您可以使用亚马逊实施的EMR DynamoDB Connector。它实现了DynamoDBInputFormat和DynamoDBOutputFormat,允许从DynamoDB读写数据。
你可以在这blog post了解更多关于此。
Hi @Willks你有没有得到解决方案将rdd转换为Spark-scala中的hadoopRDD。 – Yogesh