使用熊猫在Python中导入csv时出错

问题描述：

我已经开始学习Python以用于数据科学。我几乎每天都在使用R。我在第一步堆叠。我尝试使用Pandas read_csv文件方法导入csv文件。我在导入时编码文件时遇到问题。使用熊猫在Python中导入csv时出错

如果我read.csv使用来自R一切正常：

df <- read.csv2("some_path/myfile.txt", stringsAsFactors = FALSE, encoding = 'UTF-8')

，但如果我在Python中使用类似的代码：

import pandas as pd 
df = pd.read_csv("some_path/myfile.txt", sep = ';', encoding= 'utf8')

它返回一个错误：

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xc6 in position 13: invalid continuation byte

我怎么可能在R中导入一个带有“utf-8”编码的文件，但是不能在Python中导入？

如果我使用不同的编码（latin1或iso-8859-1），它会成功导入文件，但字符不会以正确的方式编码。

好吧，我想'cp1250'编码工作得很好。 – Mislav

请向我们展示一下'myfile.txt'的样本，以帮助我们更好地理解问题。 –

答

即使我不明白为什么UTF-8能在R中工作，但在Python中不能工作，我发现cp1250编码工作正常。

答

使用编码“UTF-16”。我用这个来解决我的问题，并发生同样的错误。

你的意思是说使用'utf-16'解决了你的问题，或者你的意思是它仍然给你同样的问题？ – Simon