더북(TheBook)

첫 번째 열(Date)은 날짜를 의미하며, 두 번째 열(Inspected)은 검사자 수를 의미합니다. 세 번째 열(Negative)은 검사자 중 음성인 사람 수, 네 번째 열(Conf irmed)은 확진자 수를 의미합니다. 다섯 번째 열(Recovered)은 회복한 사람 수, 마지막 열(Deaths)은 사망자 수를 의미합니다.

dataframe = read_csv('/content/deeplearning/corona_daily.csv', usecols=[3], engine='python', skipfooter=3)

우리는 네 번째 행, 즉 확진자 수만 사용하여 인공지능 모델을 생성합니다. 파일을 읽어와서 dataframe 변수에 저장하며, 이때 읽어오는 파일의 형식은 csv 파일입니다.

csv 파일을 읽어오는 여러 방법 중 여기에서는 pandas 라이브러리의 함수인 read_csv를 사용합니다. 첫 번째 '/content/deeplearning/corona_daily.csv'는 파일 경로를, 두 번째 usecols=[3]는 사용할 데이터를 의미합니다. 사용할 데이터가 4번째 열에 있는 확진자 수이므로 3(파이썬은 0부터 시작하죠?)을 넣어줍니다. 마지막 engine='python'은 사용할 언어를 의미합니다.

print(dataframe)

읽어온 데이터(dataframe)의 모습을 출력하는 코드입니다.

dataset = dataframe.values

읽어온 데이터(dataframe) 중 우리가 사용할 데이터, 즉 확진자 수 데이터만 가져옵니다. 우리가 읽어온 데이터에는 각 데이터에 대한 설명과, 데이터의 순서에 대한 값이 포함되어 있습니다. 인공지능 개발에 필요한 데이터에는 확진자 수만 필요하기 때문에 필요하지 않은 값들은 빼고, 꼭 필요한 값만 가져오기 위해서 위와 같은 코드를 입력합니다.

dataset = dataset.astype('float32')

정규화를 실시할 수 있도록 두 번째 행의 값을 실수로 바꿔 줍니다. 모델이 더 좋은 성능을 가질 수 있도록 정규화하며, 정규화하기 위해서 보통 나눗셈을 사용합니다. 지금 읽어온 데이터는 정수형 데이터이므로 정수형 데이터를 소수점 단위까지 나누기 위해서는 실수로 바꿔 줄 필요가 있습니다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.