데이터분석3 백화점 데이터 분석 (머신러닝) 국비교육에서 캐글에서 백화점 데이터를 이용하여 팀을 만들어 컴피티션을 하였다. 결과는 1등을 했다.! 운이 좋았던 것 같다. 우리팀의 private score가 다른 팀에 비해 높지 않았다. 제출파일을 잘 선택하고, 각자의 모델을 잘 정리해서 1등한 것 같다. 그래서 정리하는 것이 중요하다는 것을 알게 되었다. 다른팀의 경우 높은 점수를 받은 파일을 찾지못해서 제출하지 못한 경우가 있었다. 잠도 제대로 못자고, 열심히 했는데 1등해서 보상받는 기분이 들었다. 머신러닝 파일은 하단 깃허브에서 볼 수 있다. https://github.com/DoItSon/playdata/blob/main/baseline_test_%EC%9A%A9%EC%84%9D.ipynb 처음에는 강사님의 베이스 라인을 주셔서 그것을 바탕.. 2022. 9. 25. SQL (조회하기 실습 및 One-hot Encoding) 캐글 타이타닉 오늘은 캐글에 있는 타이타닉 데이터를 가지고, 실습을 해보았다. /* passengerid - 승객 id (PK) survied - 생존 여부 (0:사망, 1:생존) pclass - 객실 등급 (1, 2, 3) name - 이름 gender - 성별 (male: 남성, female: 여성) sibsp - 동반한 형제 또는 자매 또는 배우자 수 parch - 동반한 부모 또는 자식의 수 ticket - 티켓번호 fare - 요금 cabin - 객실번호 embarked - 탑승한 항구 (C: 프랑스 항국, Q: 아일랜드 항구, S: 영국 항구) */ 이것은 칼럼들에 대한 설명을 적어놓은 것이다. 이제부터 조회를 해보겠다. -- 컬럼을 선택해서 조회할 수 있다. select name,age fr.. 2022. 8. 12. 쇼핑몰 지점별 매출액 예측 데이터 분석 (따라하기) 데이터 파악하기 현재 다운 받은 데이터는 train.csv, test.csv, sample_submission.csv으로 총 3가지이며, 모두 csv파일이다. 데이터 넣기 로컬에 저장되어 있는 데이터를 코랩에 업로드하였다. 업로드 한 후 데이터를 불러오고 살펴보기 위해 pandas 라이브러리를 사용하였다. 데이터 확인 이 후 데이터 불러와 보고, 확인하였다. 이렇게 데이터가 잘 나오는 것을 확인할 수 있다. 그리고 head( ), tail( ) 메소드를 이용하여 최상단 데이터 5개와 최하단 데이터 5개를 표시하여 칼럼들을 살펴봤다. 칼럼은 총 13개이고, store는 1~45, date는 2010 5월 ~ 2012 9월까지 있는 것이 파악이 된다. 마지막으로 데이터 결측치 및 변수들의 탑입을 확인하기 위.. 2022. 7. 28. 이전 1 다음 728x90