用傳統的電子表格來處理數據不僅效率低下,而且無法處理某些格式的數據,對于混亂或龐大的數據集更是束手無策。本書將教你如何利用語法簡單、容易上手的Python輕松處理數據。作者通過循序漸進的練習,詳細介紹如何有效地獲取、清洗、分析與呈現數據,如何將數據處理過程自動化,如何安排文件編輯與清洗任務,如何處理更大的數據集,以及如何利用獲取的數據來創作引人入勝的故事。學完本書,你的數據處理和分析能力將更上一層樓。
* 快速了解Python基本語法、數據類型和語言概念
* 概述數據的獲取與存儲方式
* 清洗數據并格式化,以消除數據集中的重復值與錯誤
* 學習何時對數據進行標準化,何時對數據清理進行測試并將其腳本化
* 使用Scrapy寫網絡爬蟲
* 利用新的Python庫和技術對數據集進行探索與分析
* 使用Python解決方案將整個數據處理過程自動化
“如果你一直感覺電子表格(甚至關系型數據庫)無法回答你想要提出的問題,或者除這些工具之外你準備進一步學習,那么這本書非常適合你。我一直在等待這本書的出現?!?/br>
——Derek Willis,ProPublica新聞應用開發者,OpenElections聯合創始人
“所有新手數據科學家、數據工程師或其他技術方面的數據專家都應該讀一讀這本實踐指南。數據處理領域正需要這樣一本書,真希望我第一次開始用Python處理數據時就能有它指導?!?/br>
——Tyrone Grandison博士,Proficiency Labs Intl. CEO
然而本書并沒有涉及pandas的內容!