追加資料

カテゴリ:データサイエンス

seiseki.ipynb

基本情報

df.info() で全体のサイズ、各列毎の非欠損数、データ型などを見ることが出来る。

df.info()

基本統計量

df.describe() で全体の個数、平均、中央値などを見ることが出来る。

df.describe()

出現回数を数える

df.value_counts() は出現回数をカウントすることが出来る。

df["クラス"].value_counts()

整列

df.sort_values(列名) で整列。, ascending=Falseで降順になる。

df.sort_values(["国語"], ascending=False)

グループ毎の代表値

groupby() を使うと、特定の列の値ごとにデータをグループ化し、
平均・合計・最大値などの代表値を求めることができます。

例:クラスごとの平均点を求める

df.groupby("クラス").mean(numeric_only=True)   # 平均

※ 数値以外の列がある場合、numeric_only=Trueが必要です
※ 「クラス」がインデックスとなります
※ 他にsum() で合計、max()で最大値、min()で最小値、median()で中央値、std()で標準偏差などを得ることが出来る。

戻る