Python怎么使用flashtext數據清洗工具?Python如何使用flashtext替換字符

python程序開發之中經常需要去做的一個事情就是數據處理 , 而數據處理中對字符串這種類型的操作可以說是最頻繁的了 。而下面這一篇文章會來詳細講解一下 , 該怎么使用flashtext這個工具完成數據清洗操作 , 感興趣的小伙伴可以一起往下看看 。

Python怎么使用flashtext數據清洗工具?Python如何使用flashtext替換字符


一、安裝工具
flashtext雖然說是一個工具 , 但是它是可以作為模塊來導入使用 , 并且用pip命令就能下載安裝好 。使用win+r快捷方式打開運行窗口 , 然后輸入cmd并回車即可以管理員身份打開命令提示符 , 接著使用國內清華鏡像源安裝該工具 , 示例如下:
pip install flashtext -i https://pypi.tuna.tsinghua.edu.cn/simple二、使用flashtext工具
那么使用它來玩數據清洗操作實際上就分為兩步 , 第一步是將需要清洗的數據 , 也就是關鍵詞添加到處理器詞庫之中 , 代碼示例如下所示:
from flashtext import KeywordProcessorprocessor = KeywordProcessor()processor.add_keyword('Python')添加完成之后該詞庫之中就是已經保存了該關鍵詞 , 接下來所有的操作都是圍繞這個關鍵詞來完成 , 因為字符串類型對象數據清洗就是取出其中的關鍵詞以及替換關鍵詞兩種方式 。
那么提取關鍵詞的方法也很簡單 , 只需要使用這個對象去調用extract方法并且傳入字符串類型對象作為參數 , 就可以把該對象中所有的關鍵詞取出來 , 示例如下所示:
found = processor.extract_keywords('I like Python and Scala.')print(found)另外一種方法就是在字符串對象中匹配到詞庫內所有的關鍵詞 , 然后使用別名來替換該關鍵詞 。需要在添加關鍵詞時寫上兩個參數 , 代碼如下所示:
processor.add_keyword('Scala', 'Java')replaced = processor.replace_keywords('I like Scala.')【Python怎么使用flashtext數據清洗工具?Python如何使用flashtext替換字符】以上就是關于“Python怎么使用flashtext數據清洗工具?Python如何使用flashtext替換字符”的全部內容了 , 希望對你有所幫助 。

    猜你喜歡