提升效率的Python脚本(二)——数据处理:CSV文件的读取和分析
数据处理:CSV文件的读取和分析
在 Python 中,对 CSV(逗号分隔值)文件进行读取和分析是常见的数据处理任务,通常会用到csv模块或pandas库。
使用csv模块
1、读取 CSV 文件
csv模块是 Python 内置的用于处理 CSV 文件的模块,它提供了基本的读取和写入功能。
def read_csv():
"""
读取CSV文件
:return:
"""
import csv
try:
with open('text.csv', 'r', encoding='utf-8') as file:
# 创建CSV读取器对象
reader = csv.reader(file)
for row in reader:
print(row)
except FileNotFoundError:
print("未找到指定的CSV文件!!!")
2、分析 CSV 文件
import csv
total = 0
try:
with open('data.csv', 'r', encoding='utf-8', newline='') as csvfile:
reader = csv.reader(csvfile)
# 跳过标题行
next(reader)
for row in reader:
try:
# 假设第二列是数值数据,将其转换为浮点数并累加
total += float(row[1])
except (IndexError, ValueError):
continue
print(f"第二列数据的总和为: {total}")
except FileNotFoundError:
print("未找到指定的 CSV 文件。")
使用pandas库
1、读取 CSV 文件
pandas是一个强大的数据处理库,它提供了更高级的功能和更简洁的语法。
import pandas as pd
def read_csvfile():
"""
读取CSV文件
:return:
"""
try:
# 读取 CSV 文件并存储为 DataFrame 对象
df = pd.read_csv('data.csv')
print(df)
except FileNotFoundError:
print("未找到指定的 CSV 文件。")
2、分析 CSV 文件
import pandas as pd
def read_csvfile():
"""
读取CSV文件
:return:
"""
try:
df = pd.read_csv('data.csv')
# 假设第二列的列名为 'column2'
column_stats = df['column2'].describe()
print(column_stats)
except FileNotFoundError:
print("未找到指定的 CSV 文件。")
except KeyError:
print("指定的列名不存在。")
describe()方法可以快速计算某列数据的基本统计信息,如计数、均值、标准差、最小值、最大值等。
总结
- csv模块是 Python 内置的,适合处理简单的 CSV 文件,代码相对基础,需要手动处理很多细节。
- pandas库功能强大,提供了丰富的数据处理和分析方法,代码简洁,更适合处理复杂的数据分析任务,但需要额外安装。你可以根据具体需求选择合适的方法。