カテゴリ:データサイエンス
ファイル読み込み
import pandas as pd
df = pd.read_csv("ファイル名", index_col=列番号)
df
文字コード: encoding="Shift_JIS"
概要
データ型 df.dtypes
最初の5行 df.head()
情報 df.info()
抽出
一列 df["列名"]
複数列 df[["列名","列名","列名"……]]
行 df.loc[インデックス]
行 df.iloc[行番号]
条件 df[df["列名"] > 値]
操作
列削除 df.drop("列名", axis=1)
行削除 df.drop("インデックス")
並べ変え df.sort_values("列名", ascending=False)
統計
基本統計量 df.describe()
平均 df.mean()
中央値 df.median()
標準偏差 df.std()
相関係数 df.corr()
合計 df.sum()
列毎の平均 df.groupby("列名").mean()
※文字列項目がある場合、()内に numeric_only=True
グラフ
import matplotlib.pyplot as plt
import seaborn as sns
sns.set_theme(font=["Meiryo"])
df.plot.bar() # グラフの種類による
plt.title("タイトル")
plt.show()
グラフの種類
ヒストグラム df.plot.hist(bins=分割数)
棒グラフ df.plot.bar()
折れ線グラフ df.plot()
円グラフ df.plot.pie(startangle=90, counterclock=False)
箱ひげ図 sns.boxplot(data=df, width=0.2)
散布図 df.plot.scatter(x="列名", y="列名")
回帰直線 sns.regplot(data=df, x="列名", y="列名", line_kws={"color":"red"})