1.pandas打开和读取文件

百科大全

更新时间：2025-10-05 14:30:3728

admin管理员组
文章数量:1794759

1.pandas打开和读取文件

最近在公司在弄数据分析相关的项目，数据分析就免不了要先对数据进行处理，也就自然避不开关于excel文档的初始化操作了。

一段时间之后，发现pandas更加符合我的项目要求，所以，将一些常规操作记录下来，便于以后查阅。

那在开始下面的操作之前，下载pandas模块是很有必要的

文件打开

首先在刚开始的时候需要导入模块pandas

import pandas as pd

pandas的打开文件一共有三种方法，分别对应三种文件，即：

数据类型说明Pandas读取方式

csv,tsv,txt	用逗号分割，tab分割的纯文本文件	pd.read_csv
excel	微软xls或者xlsx文件	pd.read_excel
mysql	关系型数据库表	pd.read_sql

我现在的工作需求中，现阶段最常用的是.xlsx的文件读取

.xlsx文件打开 df = pd.read_excel('1.xlsx') # 文件名或文件路径 print(df) id enterprise 0 18950 中国农业大学资源与环境学院 1 18949 山东恒丰农业科技有限公司 2 18948 石家庄市民丰种子有限公司、北京中农臻中农业科技发展有限公司 3 18947 九原区种子有限责任公司 4 18946 中国农业大学和武汉隆福康农业发展有限公司 ... ... ... 6215 12735 浙江省农业科学院与核技术利用研究所、湖州科奥种业有限公司 6216 12734 浙江省农科院作核所、杭州市种子技术推广站 6217 12733 浙江省农业科学院作核所、湖州市种子公司 6218 12732 浙江省农科院作核所、杭州市种子公司 6219 12731 浙江省农业科学院作物与核技术利用研究所、宁波市农业科学研究院生物技术研究所、浙江之豇种业有限... [6220 rows x 2 columns]

这样就读取了.xlsx类型的文件

文件读取 .shape

有些时候我只是想看看这个表的尺寸大约是多大的，就可以用这个方法

df.shape (6220, 2)

该方法会返回这个表的（行数，列数）

.columns

有些时候我想看看这个表的标题，就是第一行的信

df.columns Index(['id', 'enterprise'], dtype='object')

该方法会返回一个列表形式的数据

.head()

当然，有些时候也不需要那么多的数据读取，可能有些时候只想读取前几行

该方法会默认的读取数据的前5行数据

def head(self: FrameOrSeries, n: int = 5) -> FrameOrSeries: df.head() id enterprise 0 18950 中国农业大学资源与环境学院 1 18949 山东恒丰农业科技有限公司 2 18948 石家庄市民丰种子有限公司、北京中农臻中农业科技发展有限公司 3 18947 九原区种子有限责任公司 4 18946 中国农业大学和武汉隆福康农业发展有限公司

当然也可以修改读取的行数

df.head(10) .index

读取数据的时候，也许发现了，在最左侧有一列数据，他本不是在数据当中的数据，这一列就是数据的索引，就像数据库当中的id一样

那可以通过这个方法来查看索引列

df.index RangeIndex(start=0, stop=6220, step=1)

本文标签：文件 Pandas

版权声明：本文标题：1.pandas打开和读取文件内容由林淑君副主任自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：http://www.xiehuijuan.com/baike/1686805140a105140.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。