2 분 소요

Sample Data는 이전 포스팅의 타이타닉 자료(train.csv)를 기반으로 합니다.

데이터 정렬

index를 기준으로 정렬

sort_index() 함수를 사용합니다.

import pandas as pd

df = pd.read_csv('train.csv')

df = df.sort_index()
print(df.head(3))
  • sort_index() 함수는 기본적으로 오름차순으로 정렬됩니다.
   PassengerId  Survived  Pclass  ...     Fare Cabin  Embarked
0            1         0       3  ...   7.2500   NaN         S
1            2         1       1  ...  71.2833   C85         C
2            3         1       3  ...   7.9250   NaN         S

index를 기준으로 내림차순 정렬

ascending=False 옵션을 주면 내림차순으로 정렬됩니다.

import pandas as pd

df = pd.read_csv('train.csv')

df = df.sort_index(ascending=False)
print(df.head(3))
     PassengerId  Survived  Pclass  ...     Fare Cabin  Embarked
890          891         0       3  ...   7.7500   NaN         Q
889          890         1       1  ...  30.0000  C148         C
888          889         0       3  ...  23.4500   NaN         S

특정 열을 기준으로 정렬

sort_values() 함수를 사용합니다.

import pandas as pd

df = pd.read_csv('train.csv')
df = df.sort_values(by='Age', ascending=False)
print(df.head(3))

ascending=False 옵션을 주면 내림차순으로 정렬됩니다.

여러 열을 기준으로 정렬

sort_values() 함수에 여러 열을 리스트로 입력합니다.

import pandas as pd

df = pd.read_csv('train.csv')
df.sort_values(by=['Pclass', 'Age'])

Pclass를 기준으로 먼저 정렬되고, 그 안에서 Age를 기준으로 정렬됩니다.

특정 열에 대해 정렬 순서를 다르게

ascending 옵션을 리스트로 입력합니다.

import pandas as pd

df = pd.read_csv('train.csv')
df.sort_values(by=['Pclass', 'Age'], ascending=[False, True])

Pclass는 내림차순, Age는 오름차순으로 정렬됩니다.

axis=1

axis=1 옵션을 주면 열을 기준으로 정렬됩니다.

import pandas as pd

df = pd.read_csv('train.csv')
df = df.sort_index(axis=1)
print(df.head(3))
    Age Cabin Embarked     Fare  ...     Sex  SibSp  Survived            Ticket
0  22.0   NaN        S   7.2500  ...    male      1         0         A/5 21171
1  38.0   C85        C  71.2833  ...  female      1         1          PC 17599
2  26.0   NaN        S   7.9250  ...  female      0         1  STON/O2. 3101282

ascending=False 옵션을 주면 내림차순으로 정렬됩니다.

import pandas as pd

df = pd.read_csv('train.csv')
df = df.sort_index(axis=1, ascending=False)
print(df.head(3))
             Ticket  Survived  SibSp     Sex  ...     Fare  Embarked  Cabin   Age
0         A/5 21171         0      1    male  ...   7.2500         S    NaN  22.0
1          PC 17599         1      1  female  ...  71.2833         C    C85  38.0
2  STON/O2. 3101282         1      0  female  ...   7.9250         S    NaN  26.0

데이터 분석 함수

평균값 구하기

mean() 함수를 사용합니다.

df['Age'].mean()

특정 열의 중앙값 구하기

median() 함수를 사용합니다.

df['Age'].median()

특정 열의 최댓값 구하기

max() 함수를 사용합니다.

df['Age'].max()

특정 열의 최솟값 구하기

min() 함수를 사용합니다.

df['Age'].min()

특정 열의 표준편차 구하기

std() 함수를 사용합니다.

df['Age'].std()

특정 열의 분산 구하기

var() 함수를 사용합니다.

df['Age'].var()

특정 열의 사분위수

quantile() 함수를 사용합니다.

df['Age'].quantile(0.25)
df['Age'].quantile(0.5)
df['Age'].quantile(0.75)

특정 열의 요약 정보

describe() 함수를 사용합니다.

df['Age'].describe()

특정 열의 유일한 값 구하기

unique() 함수를 사용합니다.

df['Age'].unique()

특정 열의 유일한 항목의 개수 구하기

nunique() 함수를 사용합니다.

df['Age'].nunique()

특정 열의 유일한 값의 개수 구하기

value_counts() 함수를 사용합니다.

df['Age'].value_counts()

특정 열의 가장 많이 나타나는 값 구하기

mode() 함수를 사용합니다.

df['Age'].mode()

특정 열의 누적 합 구하기

cumsum() 함수를 사용합니다.

df['Age'].cumsum()

해시태그: #python #pandas #dataframe #정렬 #분석함수 #mean #median #max #min #std #var #quantile #describe #unique #nunique #value_counts #mode #cumsum

댓글남기기