使用Python处理Excel文件

weifeng 2023/03/13

目录

示例代码

  import pandas as pd

  # 读取文件
  df = pd.read_excel('x.xlsx')

  # 去重
  df = df.drop_duplicates()

  # 指定列去重
  df = df.drop_duplicates(subset='A')

  # 随机拆分数据集
  df1, df2, df3 = np.split(df.sample(frac=1), [int(.2*len(df)), int(.4*len(df))])
  df1.to_excel('a1.xlsx', index=False)
  df2.to_excel('a2.xlsx', index=False)
  df3.to_excel('a3.xlsx', index=False)

  # 按列计数
  df1['A'].value_counts()
  df.groupby(["A", "C"]).count()

  # 按列合并表格
  merged_df = pd.merge(df1, df2, on='A', how='left')

  # 循环读取数据并追加到变量中
  a, b, c = pd.DataFrame(), pd.DataFrame(), pd.DataFrame()
  for i in range(len(df)-1):
      if i % 10 < 3:
          a = pd.concat([a, df.iloc[i:i+1]])
      elif i % 10 < 6:
          b = pd.concat([b, df.iloc[i:i+1]])
      else:
          c = pd.concat([c, df.iloc[i:i+1]])

  # 保存到Excel文件
  a.to_excel('aa1.xlsx', index=False)
  b.to_excel('aa2.xlsx', index=False)
  c.to_excel('aa3.xlsx', index=False)