如何從Python中的文本里刪除符號?Python去掉文本中符號的方法

使用Python處理一些文本的時候,在數據中總是會包含一些特殊的符號,有些是空格或者是在文本編輯器中的特殊字符直接復制到了網頁中,這些符號會對想要的數據造成影響,如果要清除這些符號,就要利用特殊的方法,下面一起來看看吧 。

如何從Python中的文本里刪除符號?Python去掉文本中符號的方法


一、文本符號去除原理
當我們拿到一個文本數據進行處理的時候,首先要考慮的事情就是將文本中的標點符號去除,但是在處理的時候,可能會出現的情況就是在符號中可能存在英文狀態下的,也有可能是中文的,如果是這樣的話,首先就要在自定義標點符號的正則表達式中,將特殊的字符替換為空,這樣就可以將符號去除了 。
在操作的過程中,需要注意的地方是使用中文的標點符號是沒有任何問題的,但是因為在正則表達式中使用的都是英文符號,如果要采用英文的符號就必須加上轉義字符\才能將特殊含義轉換為其原來的含義 。
二、正則表達式去除符號
使用這種表達式可以將文本中的字符進行匹配,過濾掉不需要的字符,正在字符串中篩選出我們需要的部分,標點符號一般是通過刪除或者是替換的方式進行篩選的,使用的方法是re.sub,舉個例子,代碼如下:
import repunctuation = '!,;:?"\''def removePunctuation(text):    text = re.sub(r'[{}]+'.format(punctuation),'',text)    return text.strip().lower()text = " Hello, python!  "print removePunctuation(text)【如何從Python中的文本里刪除符號?Python去掉文本中符號的方法】以上就是關于如何從Python中的文本里刪除符號?Python去掉文本中符號的方法的全部內容了,希望以上的內容可以對大家的學習帶來幫助 。

    猜你喜歡