Kaggle/Intro to Machine Learning

3. Your First Machine Learning Model

RiLLa_0511 2023. 8. 2. 16:41
728x90

● 2단계 코드 복습

import pandas as pd

iowa_file_path = '../input/home-data-for-ml-course/train.csv'

home_data = pd.read_csv(iowa_file_path)

 

 

● 판매 가격에 해당하는 변수를 y라는 새로운 변수에 저장하기

 

→ SalePrice는 우리가 예측하고자 하는 값으로서 출력 데이터에 해당됨

y = home_data.SalePrice

 

 

● 모델이 학습하기 위해 사용하는 입력데이터 입력

 

→ 'LotArea', 'YearBuilt', '1stFlrSF', '2ndFlrSF', 'FullBath', 'BedroomAbvGr', 'TotRmsAbvGrd' 와 같은 주택 특징들이 있음

→ 읽어온 데이터에서 우리가 예측에 사용하고자 하는 주택 특징들만 선택하여 새로운 DataFrame인 X를 만드는 작업 수행

feature_names = ['LotArea', 'YearBuilt', '1stFlrSF', '2ndFlrSF', 'FullBath', 'BedroomAbvGr', 'TotRmsAbvGrd']

X = home_data[feature_names]

→ X를 출력하면 다음과 같이 나옴

 

 

● Decision Tree Regressor 모델을 활용하여 주택 가격을 예측하는 iowa_model 학습

 

DecisionTreeRegressor 모델을 불러와 iowa_model이라는 변수에 DecisionTreeRegressor 모델을 생성

모델은 학습 데이터를 기반으로 학습하고, 주택의 특징들과 가격 사이의 관계를 파악함

학습된 iowa_model은 새로운 입력 데이터를 주입하여 주택 가격을 예측하는데 사용할 수 있음

from sklearn.tree import DecisionTreeRegressor

iowa_model = DecisionTreeRegressor(random_state=1)

iowa_model.fit(X, y)

 

 

● 'X'에 대한 예측 수행하기

predictions = iowa_model.predict(X)

print(predictions)

 

'Kaggle > Intro to Machine Learning' 카테고리의 다른 글

6. Random Forests  (0) 2023.08.11
5. Underfitting and Overfitting  (0) 2023.08.04
4. Model Validation  (0) 2023.08.03
2. Basic Data Exploration  (0) 2023.08.02