df["len"] = df["title"].apply(lambda x : len(x)) ———— ➊,➋ df["word_count"] = df["title"].apply(lambda x : len(x.split())) ———— ➌ df["unique_word_count"] = df["title"].apply(lambda x : len(set(x.split()))) ———— ➍
파생 변수가 잘 만들어졌는지는 head()로 확인한다.
df.head()
실행 결과
index |
title |
topic_idx |
topic |
len |
word_count |
unique_word_count |
|
0 |
0 |
인천→핀란드 항공기 결항…휴가철 여행객 분통 |
4.0 |
세계 |
24 |
5 |
5 |
1 |
1 |
실리콘밸리 넘어서겠다…구글 15조원 들여 美전역 거점화 |
4.0 |
세계 |
30 |
6 |
6 |
2 |
2 |
이란 외무 긴장완화 해결책은 미국이 경제전쟁 멈추는 것 |
4.0 |
세계 |
30 |
8 |
8 |
3 |
3 |
NYT 클린턴 측근韓기업 특수관계 조명…공과 사 맞물려종합 |
4.0 |
세계 |
32 |
7 |
7 |
4 |
4 |
시진핑 트럼프에 중미 무역협상 조속 타결 희망 |
4.0 |
세계 |
25 |
7 |
7 |