使用熊猫在Python中导入csv时出错
问题描述:
我已经开始学习Python以用于数据科学。我几乎每天都在使用R。我在第一步堆叠。我尝试使用Pandas read_csv文件方法导入csv文件。我在导入时编码文件时遇到问题。使用熊猫在Python中导入csv时出错
如果我read.csv使用来自R一切正常:
df <- read.csv2("some_path/myfile.txt", stringsAsFactors = FALSE, encoding = 'UTF-8')
,但如果我在Python中使用类似的代码:
import pandas as pd
df = pd.read_csv("some_path/myfile.txt", sep = ';', encoding= 'utf8')
它返回一个错误:
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xc6 in position 13: invalid continuation byte
我怎么可能在R中导入一个带有“utf-8”编码的文件,但是不能在Python中导入?
如果我使用不同的编码(latin1或iso-8859-1),它会成功导入文件,但字符不会以正确的方式编码。
答
即使我不明白为什么UTF-8能在R中工作,但在Python中不能工作,我发现cp1250编码工作正常。
好吧,我想'cp1250'编码工作得很好。 – Mislav
请向我们展示一下'myfile.txt'的样本,以帮助我们更好地理解问题。 –