从Python中的字符串中删除奇怪的字符
问题描述:
我必须解析从Web中获取的一些Web数据。 Web内容很可能是我处理的任何问题的不同区域语言。但也有出现在某些字符串如从Python中的字符串中删除奇怪的字符
我工作呢 8qîÚ4½-ôMºÝCQ'Dɬ)问+ R±}Ûýï7üÛ²ëlY& 53一些无效字符?|?8ïôóg/ ^ÿûêþIA#我¼ºy{ 5+B^ß¿ß~¾¿½|ÓûÆk.c¹~WÚ@ë¤KÈh4rF-G|!¹ÿ¬|a~μuÓñμ_»| THI 每天statstistics
我必须消除这种性格怪异和onyl提取有效字符串。我正在使用python。我用utf-8编码每个字符串。
答
如果你的意思是怪不-ascii的,你可以尝试:
import string
"".join(filter(lambda char: char in string.printable, s))
其中S是你的字符串。 这里有一些你可以过滤的字符串常量: https://docs.python.org/3/library/string.html
这些可能不是奇怪的字符。你只是使用错误的编码... –
你如何定义一个“有效的字符串”? –
@ juanpa.arrivillaga还是一个“奇怪”的角色? :) – DeepSpace