머신러닝66 백화점 데이터 분석 (머신러닝) 국비교육에서 캐글에서 백화점 데이터를 이용하여 팀을 만들어 컴피티션을 하였다. 결과는 1등을 했다.! 운이 좋았던 것 같다. 우리팀의 private score가 다른 팀에 비해 높지 않았다. 제출파일을 잘 선택하고, 각자의 모델을 잘 정리해서 1등한 것 같다. 그래서 정리하는 것이 중요하다는 것을 알게 되었다. 다른팀의 경우 높은 점수를 받은 파일을 찾지못해서 제출하지 못한 경우가 있었다. 잠도 제대로 못자고, 열심히 했는데 1등해서 보상받는 기분이 들었다. 머신러닝 파일은 하단 깃허브에서 볼 수 있다. https://github.com/DoItSon/playdata/blob/main/baseline_test_%EC%9A%A9%EC%84%9D.ipynb 처음에는 강사님의 베이스 라인을 주셔서 그것을 바탕.. 2022. 9. 25. (머신러닝) data leakage Data leakage (중요!) 데이터 유출 예측할 때 사용할 수 없는 정보가 학습 데이터로 사용되는 것 (모델이 과대평가 된다.) 예시 tmp = pd.DataFrame( enc.fit_transform(train_churn[cols]).toarray(), columns = enc.get_feature_names_out() # 컬럼 이름 넣기 ) train = pd.concat([train,tmp],axis=1) train.head() => genderSeniorCitizenPartnerDependentstenurePhoneServiceMultipleLinesOnlineSecurityOnlineBackupDeviceProtection...PaperlessBillingMonthlyChargesTotal.. 2022. 9. 15. (머신러닝) 비지도 학습 - 차원축소 지도학습 vs 비지도학습 비지도 학습의 기본 아이디어는 X를 설명할 수 있는 z가 존재한다고 가정하고 학습진행 여기서 z는 잠재변수라고 한다. z의 해는 여러개가 존재한다. 예를 들면 우리가 100을 값을 구하기 위한 방법은 25 X 4, 1 X 100, 20 X 5와 같이 여러가지 방법이 있다. 이를 잠재변수라고 비유할 수 있다. 차원의 저주 차원이 증가할수록 학습데이터의 수에 비해 특성의 차원수가 많아져서 성능이 저하되는 현상 model = LGBMClassifier(random_state=SEED) cv = KFold(n_splits=5,shuffle=True,random_state=SEED) scores = cross_val_score(model,x_train,y_train,cv = cv, sco.. 2022. 9. 14. (머신러닝) 모델튜닝 Model Tuning (Hyperparameter Optimization) 학습을 수행하기 전에 설정해야하는 값인 하이퍼파리마터의 최적값을 탐색 Grid Search 하이퍼파라미터별로 다양한 값들을 지정해서 모든 조합에 대해 성능 결과를 측정한 후 가장 높은 성능을 발휘했던 하이퍼파라미터 조합을 선정하는 방법 오래걸려서 잘 안쓰게 될 것 같다... from sklearn.model_selection import KFold cv = KFold(n_splits=5,shuffle=True,random_state=SEED) # cv =cross valid 적용 from sklearn.model_selection import GridSearchCV from lightgbm import LGBMClassifier.. 2022. 9. 13. (머신러닝) 앙상블 기존 타이타닉 데이터를 이용하여 앙상블을 진행하겠다. 데이터 가져오기 import pandas as pd import numpy as np import seaborn as sns from sklearn.preprocessing import OneHotEncoder from sklearn.model_selection import train_test_split from sklearn.metrics import roc_auc_score df = sns.load_dataset('titanic') # 타이타닉 데이터 받아오기 cols = ["age","sibsp","parch","fare"] # 숫자니까 바로 사용 features = df[cols] # 피쳐 target = df["survived"] # 정답값 .. 2022. 9. 13. (머신러닝) sklearn Scikit-learn https://scikit-learn.org/stable/# 다양한 머신러닝 관련한 기술들을 통일되고 쉬운 인터페이스로 사용할수 있게 해주는 라이브러리 머신러닝 관련 알고리즘과 개발을 위한 기능 제공 Getting Started with scikit-learn(자주 사용하는 사이킷런 모듈) - 데이터 정제(Data Cleasing) & 속성 공학(Feature Engineering) sklearn.preprocessing: 데이터 전처리(인코딩, 정규화 등) sklearn.feature_selection: 특성 선택 sklearn.feature_extraction: 특성 추출(이미지나 텍스트에서 속성 추출) - 모형 성능 평가와 개선 sklearn.model_selection: 데.. 2022. 9. 11. 이전 1 2 3 4 ··· 11 다음 728x90