import pandas as pd
# 读取文件
df = pd.read_excel('x.xlsx')
# 去重
df = df.drop_duplicates()
# 指定列去重
df = df.drop_duplicates(subset='A')
# 随机拆分数据集
df1, df2, df3 = np.split(df.sample(frac=1), [int(.2*len(df)), int(.4*len(df))])
df1.to_excel('a1.xlsx', index=False)
df2.to_excel('a2.xlsx', index=False)
df3.to_excel('a3.xlsx', index=False)
# 按列计数
df1['A'].value_counts()
df.groupby(["A", "C"]).count()
# 按列合并表格
merged_df = pd.merge(df1, df2, on='A', how='left')
# 循环读取数据并追加到变量中
a, b, c = pd.DataFrame(), pd.DataFrame(), pd.DataFrame()
for i in range(len(df)-1):
if i % 10 < 3:
a = pd.concat([a, df.iloc[i:i+1]])
elif i % 10 < 6:
b = pd.concat([b, df.iloc[i:i+1]])
else:
c = pd.concat([c, df.iloc[i:i+1]])
# 保存到Excel文件
a.to_excel('aa1.xlsx', index=False)
b.to_excel('aa2.xlsx', index=False)
c.to_excel('aa3.xlsx', index=False)