데이터 프레임에서 중복되지 않는 고유한 값을 출력해야 할 때가 종종 있죠.
아래와 같이 Name 칼럼과 같이 중복된 값이 존재하는 member_info 데이터 프레임을 예제로 활용해서 3가지 방법을 알려드릴게요.
1. unique() 함수란? 고유한 종류만 출력할 때 활용
사용방법
df이름['칼럼이름'].unique()
예시) Name에 있는 종류들 중복 없이 출력하기
member_info['Name'].unique()
결괏값
# 원래 중복으로 존재하는 최, 김 값이 고유한 값만 출력된 것을 알 수 있어요
array(['최', '김', '이', '박', '윤'], dtype=object)
2. nunique() 함수란? 고유한 종류의 개수를 알고 싶을 때 활용
사용방법
df이름['칼럼이름'].nunique()
예제) Name에 있는 고유한 값의 개수 출력하기
member_info['Name'].nunique()
결괏값
# len(member_info['Name'].unique()) 값과 동일
5
3. value_counts() 함수란? 고유한 값의 종류와 중복 갯수를 내림차순으로 정렬할 때 (기본값 내림차순)
사용방법
df이름['칼럼이름'].value_counts()
# 오름차순으로 정렬하고 싶을 때
df이름['칼럼이름'].value_counts(ascending = True)
예제) Name의 고유한 값과 중복된 개수 출력하기
member_info['Name'].value_counts()
결괏값
최 2
김 2
이 1
박 1
윤 1
Name: Name, dtype: int64