Python数据分析 Anaconda发行版 Jupyter notebook 安装和文档启动运行机制主界面新建文档工作界面文档结构编辑和命令模式快捷键执行和输出 Markdown单元图片和视频幻灯片导出格式魔法命令 Numpy 基础知识数据类型创建数组数组运算通用函数索引切片迭代添加删除去重形状变换堆积数组分割数组视图和复制广播机制花式索引布尔索引统计方法随机数 Pandas Series DataFrame Index 重建索引轴向上删除条目索引和切片算术和广播函数和映射排序和排名统计和汇总文件读取分块读取写出数据 JSON和Pickle HDF5 EXCEL文件 Web交互数据库交互删除缺失值补全缺失值删除重复值替换重命名轴索引离散化和分箱检测和过滤随机和抽样字符串操作分层索引分层索引进阶合并连接粘合与堆叠重塑 Matplotlib 配置环境使用常识保存图形两种图画接口使用中文线型图颜色线型和标记坐标轴上下限坐标轴刻度图题、轴标签和图例配置图题配置图例颜色条文本、箭头和注释散点图直方图条形图饼图误差线等高线多子图 patch 自定义坐标轴刻度风格样式展示下一步

写出数据

阅读: 4894 评论：0

既然有读，必然有写。

可以使用DataFrame的to_csv方法，将数据导出为逗号分隔的文件：

In [57]: result
Out[57]:
        one       two     three      four key
0  0.467976 -0.038649 -0.295344 -1.824726   L
1 -0.358893  1.404453  0.704965 -0.200638   B
2 -0.501840  0.659254 -0.421691 -0.057688   G
3  0.204886  1.074134  1.388361 -0.982404   R
4  0.354628 -0.133116  0.283763 -0.837063   Q

In [58]: result.to_csv('d:/out.csv')

当然，也可以指定为其它分隔符，甚至将数据输出到sys.stdout中：

In [60]: result.to_csv(sys.stdout, sep='|')
|one|two|three|four|key
0|0.467976300189|-0.0386485396255|-0.295344251987|-1.82472622729|L
1|-0.358893469543|1.40445260007|0.704964644926|-0.20063830401500002|B
2|-0.50184039929|0.659253707223|-0.42169061931199997|-0.0576883018364|G
3|0.20488621220199998|1.07413396504|1.38836131252|-0.982404023494|R
4|0.354627914484|-0.13311585229599998|0.283762637978|-0.837062961653|Q

缺失值默认以空字符串出现，当然也可以指定其它标识值对缺失值进行标注，比如使用‘NULL’：

In [70]: data = pd.DataFrame(np.random.randint(9,size=9).reshape(3,3))

In [71]: data
Out[71]:
   0  1  2
0  7  7  3
1  8  1  5
2  2  4  2

In [72]: data.iloc[2,2] = np.nan

In [73]: data.to_csv(sys.stdout, na_rep='NULL')
,0,1,2
0,7,7,3.0
1,8,1,5.0
2,2,4,NULL

在写入的时候，我们还可以禁止将行索引和列索引写入：

In [74]: result.to_csv(sys.stdout, index=False, header=False)
0.467976300189,-0.0386485396255,-0.295344251987,-1.82472622729,L
-0.358893469543,1.40445260007,0.704964644926,-0.20063830401500002,B
-0.50184039929,0.659253707223,,-0.0576883018364,G
0.20488621220199998,1.07413396504,1.38836131252,-0.982404023494,R
0.354627914484,-0.13311585229599998,0.283762637978,-0.837062961653,Q

也可以挑选需要的列写入：

In [75]: result.to_csv(sys.stdout, index=False, columns=['one','three','key'])
one,three,key
0.467976300189,-0.295344251987,L
-0.358893469543,0.704964644926,B
-0.50184039929,,G
0.20488621220199998,1.38836131252,R
0.354627914484,0.283762637978,Q

Series的写入方式也是一样的：

In [76]: dates = pd.date_range('1/1/2019', periods=7) # 生成一个日期Series

In [77]: dates
Out[77]:
DatetimeIndex(['2019-01-01', '2019-01-02', '2019-01-03', '2019-01-04',
               '2019-01-05', '2019-01-06', '2019-01-07'],
              dtype='datetime64[ns]', freq='D')

In [78]: ts = pd.Series(np.arange(7), index=dates) # 将日期作为索引

In [79]: ts
Out[79]:
2019-01-01    0
2019-01-02    1
2019-01-03    2
2019-01-04    3
2019-01-05    4
2019-01-06    5
2019-01-07    6
Freq: D, dtype: int32

In [80]: ts.to_csv('d:/tseries.csv') # 写入文件中

分块读取 JSON和Pickle

评论总数： 0

点击登录后方可评论