データフレームの基本

カテゴリ：データサイエンス

ファイル読み込み

import pandas as pd

df = pd.read_csv("ファイル名", index_col=列番号)
df

文字コード: encoding="Shift_JIS"

概要

データ型  df.dtypes
最初の5行 df.head()
情報      df.info()

抽出

一列   df["列名"]
複数列 df[["列名","列名","列名"……]]
行     df.loc[インデックス]
行     df.iloc[行番号]
条件   df[df["列名"] > 値]

操作

列削除   df.drop("列名", axis=1)
行削除   df.drop("インデックス")
並べ変え df.sort_values("列名", ascending=False)

統計

基本統計量 df.describe()
平均       df.mean()
中央値     df.median()
標準偏差   df.std()
相関係数   df.corr()
合計       df.sum()
列毎の平均 df.groupby("列名").mean()

※文字列項目がある場合、()内に numeric_only=True

グラフ

import matplotlib.pyplot as plt
import seaborn as sns
sns.set_theme(font=["Meiryo"])

df.plot.bar() # グラフの種類による
plt.title("タイトル")
plt.show()

グラフの種類

ヒストグラム df.plot.hist(bins=分割数)
棒グラフ     df.plot.bar()
折れ線グラフ df.plot()
円グラフ     df.plot.pie(startangle=90, counterclock=False)
箱ひげ図     sns.boxplot(data=df, width=0.2)
散布図       df.plot.scatter(x="列名", y="列名")
回帰直線     sns.regplot(data=df, x="列名", y="列名", line_kws={"color":"red"})

その他まとめ

戻る