追加資料

カテゴリ：データサイエンス

seiseki.ipynb

基本情報

df.info() で全体のサイズ、各列毎の非欠損数、データ型などを見ることが出来る。

df.info()

df.describe() で全体の個数、平均、中央値などを見ることが出来る。

df.describe()

df.value_counts() は出現回数をカウントすることが出来る。

df["クラス"].value_counts()

df.sort_values(列名) で整列。, ascending=Falseで降順になる。

df.sort_values(["国語"], ascending=False)

groupby() を使うと、特定の列の値ごとにデータをグループ化し、
平均・合計・最大値などの代表値を求めることができます。

df.groupby("クラス").mean(numeric_only=True)   # 平均

※　数値以外の列がある場合、numeric_only=Trueが必要です
※　「クラス」がインデックスとなります
※　他にsum() で合計、max()で最大値、min()で最小値、median()で中央値、std()で標準偏差などを得ることが出来る。