Kaggle/Intro to Machine Learning 5

6. Random Forests

● Random Forest → 여러 개의 트리를 사용하며, 각 구성 트리의 예측값을 평균하여 예측을 수행 from sklearn.ensemble import RandomForestRegressor # 랜덤 포레스트 회귀 모델 객체 rf_model 생성 rf_model = RandomForestRegressor() # 생성한 랜덤 포레스트 모델을 훈련 데이터 train_X와 그에 해당하는 타겟 값 train_y에 학습시키기 rf_model.fit(train_X, train_y) # 학습된 랜덤 포레스트 모델을 사용하여 검증 데이터 val_X에 대한 예측값 저장 rf_var_predictions = rf_model.predict(val_X) # 검증 데이터에 대한 랜덤 포레스트 모델의 예측값인 rf_var..

5. Underfitting and Overfitting

● Overfitting (오버피팅) → 모델이 훈련 데이터에 너무 과하게 적합화되어 훈련 데이터의 잡음이나 노이즈까지 학습하여 실제 데이터에서의 성능이 저하되는 현상 ● Underfitting (언더피팅) → 모델이 데이터의 다양성과 복잡성을 충분히 반영하지 못하고, 너무 간단한 모델을 사용하여 데이터의 패턴을 제대로 파악하지 못하는 상태 ☞ 언더피팅과 오버피팅 사이에서 최적의 균형점을 찾아야 함 ● 결정 트리 크기 비교하기 → 모델이 데이터의 다양성과 복잡성을 충분히 반영하지 못하고, 너무 간단한 모델을 사용하여 데이터의 패턴을 제대로 파악하지 못하는 상태 → 어떤 크기의 결정 트리가 가장 좋은 성능을 보이는지 확인 후, 최적의 모델 크기를 선택 → 'scores' dictionary : candid..

4. Model Validation

● MAE (Mean Absolute Error, 평균 절대 오차) : 모든 절대 오차의 평균 ☞ 여기서 Error = Actual - Predicted (실제 값과 예측 값과의 차이) ● 데이터 나누기 → train_test_split() 함수 → scikit-learn 라이브러리의 함수이며, 데이터를 두 개로 분리해 줌 → 훈련세트(training data)와 평균 절대 오차 값을 계산하기 위한 검증 세트(validation data)로 분리 → random_state : 호출할 때마다 동일한 훈련 데이터 세트와 테스트 데이터 세트를 생성하기 위한 난수 시드(seed) 값 from sklearn.model_selection import train_test_split train_X, val_X, tra..

3. Your First Machine Learning Model

● 2단계 코드 복습 import pandas as pd iowa_file_path = '../input/home-data-for-ml-course/train.csv' home_data = pd.read_csv(iowa_file_path) ● 판매 가격에 해당하는 변수를 y라는 새로운 변수에 저장하기 → SalePrice는 우리가 예측하고자 하는 값으로서 출력 데이터에 해당됨 y = home_data.SalePrice ● 모델이 학습하기 위해 사용하는 입력데이터 입력 → 'LotArea', 'YearBuilt', '1stFlrSF', '2ndFlrSF', 'FullBath', 'BedroomAbvGr', 'TotRmsAbvGrd' 와 같은 주택 특징들이 있음 → 읽어온 데이터에서 우리가 예측에 사용하고자..

2. Basic Data Exploration

● 데이터 처리와 분석을 위한 라이브러리로 Pandas를 사용 → 대체로 pandas는 코드에서 pd로 줄여서 사용 import pandas as pd ● Kaggle notebook 사용법 https://www.youtube.com/watch?v=4C2qMnaIKL4 ● csv 파일 불러오기 → pandas library의 read_csv() 함수 이용 import pandas as pd iowa_file_path = '../input/home-data-for-ml-course/train.csv' # 파일 경로 home_data = pd.read_csv(iowa_file_path) # 파일 불러오기 ● describe() → 통계량을 요약해주는 메서드 home_data.describe()