캐글 스터디 2주차 특징생성
“데이터가 뛰어노는 AI놀이터, 캐글” 참고하여 스터디를 진행하였고 책을 바탕으로 발표용 ppt를 만들었습니다.
문제가 있을 시 댓글 남겨주시거나 이메일 totoma3@naver.com 으로 연락주시기 바랍니다!
모델과 특징
신경망의 특징
베이스라인
결측값
특정한 값을 결측값으로 처리하려면 데이터를 읽어들일 때 인수(argument)로 지정한다. 다음과 같이 pandas 모듈의 read.csv함수에서 na_values인수로 결측값을 지정할 수 있다.
#결측값을 지정하고 train.csv 불러오기
train=pd.read.csv('train.csv', na_values=['','NA',-1,9999]
다만!! 어떤 변수에서는 -1을 결측값으로 다루는데 다른 변수에서는 유효한 값으로 -1이 나타날 경우, 앞에서 설명한 것처럼 데이터를 읽어들일 때 해당 값을 결측값으로 지정할 수 없다. 이럴 때는 일단 수치나 문자열 데이터로 읽어들인 뒤 다시 결측값으로 바꾸면 유연하게 대처할 수 있다.
# 열 col1의 값 -1을 결측값(nan)으로 변경
data['col1']=data['col1'].replace(-1,np.nan)
Leave a comment