Python数据分析 Anaconda发行版 Jupyter notebook 安装和文档启动运行机制主界面新建文档工作界面文档结构编辑和命令模式快捷键执行和输出 Markdown单元图片和视频幻灯片导出格式魔法命令 Numpy 基础知识数据类型创建数组数组运算通用函数索引切片迭代添加删除去重形状变换堆积数组分割数组视图和复制广播机制花式索引布尔索引统计方法随机数 Pandas Series DataFrame Index 重建索引轴向上删除条目索引和切片算术和广播函数和映射排序和排名统计和汇总文件读取分块读取写出数据 JSON和Pickle HDF5 EXCEL文件 Web交互数据库交互删除缺失值补全缺失值删除重复值替换重命名轴索引离散化和分箱检测和过滤随机和抽样字符串操作分层索引分层索引进阶合并连接粘合与堆叠重塑 Matplotlib 配置环境使用常识保存图形两种图画接口使用中文线型图颜色线型和标记坐标轴上下限坐标轴刻度图题、轴标签和图例配置图题配置图例颜色条文本、箭头和注释散点图直方图条形图饼图误差线等高线多子图 patch 自定义坐标轴刻度风格样式展示下一步

字符串操作

阅读: 4304 评论：2

Python内置的字符串操作和re正则模块可以帮我们解决很多场景下的字符串操作需求。但是在数据分析过程中，它们有时候比较尴尬，比如：

In [143]: dic= {'one':'feixue', 'two':np.nan, 'three':'tom', 'five':'jerry@film'}

In [144]: s = pd.Series(dic)

In [145]: s
Out[145]:
one          feixue
two             NaN
three           tom
five     jerry@film
dtype: object

我现在想将s中的字母都大写，通过Python内置字符串方法，你可能会这么设计：

In [159]: s.map(lambda x : x.upper())
---------------------------------------------------------------------------
AttributeError                            Traceback (most recent call last)

但是，弹出了异常，原因是数据有一个缺失值NaN，这个值不是字符串，没有upper方法。

那怎么办呢？Pandas为这一类整体性的操作，提供了专门的字符串函数，帮助我们跳过缺失值等异常情况，对能够进行操作的每个元素进行处理：

In [160]: s.str.upper()
Out[160]:
one          FEIXUE
two             NaN
three           TOM
five     JERRY@FILM
dtype: object

这就是Series的str属性，在它的基础上甚至可以使用正则表达式的函数。

下面是部分可用的Series.str的字符串操作方法，名字基本和Python字符串内置方法相同：

cat :粘合字符串
contains：是否包含的判断
count：计数
extract：返回匹配的字符串组
endswith：以xx结尾判断
startswith：以xx开始判断
findall：查找
get：获取
isalnum：类型判断
isalpha：类型判断
isdecimal：类型判断
isdigit：类型判断
islower：是否小写
isnumeric：类型判断
isupper：是否大写
join：连接
len：长度
lower：小写
upper：大写
match：匹配
pad：将空白加到字符串的左边、右边或者两边
center：居中
repeat：重复
replace:替换
slice：切片
split：分割
strip：脱除
lstrip：左脱除
rstrip：右脱除

最后，思考一下，DataFrame怎么处理str呢？

随机和抽样分层索引

评论总数： 2

点击登录后方可评论

DataFrame没有str属性，只能一列一列的用str属性了

By 用户5888865032 On 2019年8月21日 18:32 回复

那么多方法，博主偷懒不举例。

By 用户1382844313 On 2019年3月14日 22:04 回复