カテゴリ:データサイエンス
seiseki.ipynb
基本情報
df.info() で全体のサイズ、各列毎の非欠損数、データ型などを見ることが出来る。
df.info()
基本統計量
df.describe() で全体の個数、平均、中央値などを見ることが出来る。
df.describe()
出現回数を数える
df.value_counts() は出現回数をカウントすることが出来る。
df["クラス"].value_counts()
整列
df.sort_values(列名) で整列。, ascending=Falseで降順になる。
df.sort_values(["国語"], ascending=False)
グループ毎の代表値
groupby() を使うと、特定の列の値ごとにデータをグループ化し、
平均・合計・最大値などの代表値を求めることができます。
例:クラスごとの平均点を求める
df.groupby("クラス").mean(numeric_only=True) # 平均
※ 数値以外の列がある場合、numeric_only=Trueが必要です
※ 「クラス」がインデックスとなります
※ 他にsum() で合計、max()で最大値、min()で最小値、median()で中央値、std()で標準偏差などを得ることが出来る。