Post

머신러닝 주택 가격 예측과 고객 세분화 분석

머신러닝 과제를 통해 주택 가격 예측 모델을 구축하고, 고객 세분화 분석을 수행. 지도 학습과 비지도 학습의 다양한 기법을 적용하며 데이터 전처리, 모델 학습, 하이퍼파라미터 튜닝, 시각화 등의 과정을 경험.

머신러닝 주택 가격 예측과 고객 세분화 분석

FACTS: 이번 일주일 동안 있었던 일, 내가 한 일

이번 주에는 머신러닝 과제를 중심으로 다음과 같은 작업을 진행했습니다:

  1. 지도 학습 과제: 주택 가격 예측 모델 구축:
    • 데이터를 탐색하고, 결측치를 처리하고, 이상치를 제거한 후 스케일링을 적용하며 데이터를 정리했습니다.
    • 선형 회귀, 랜덤 포레스트, 그래디언트 부스팅 등 다양한 회귀 모델을 학습하고 평가하며, 모델 간의 성능 차이를 비교했습니다.
    • GridSearchCV와 RandomizedSearchCV를 통해 하이퍼파라미터를 튜닝하며 최적의 모델을 찾아가는 과정도 경험했습니다.
    • 마지막으로 여러 모델의 성능을 시각화하여 비교하며 결과를 분석했습니다.
  2. 비지도 학습 과제: 고객 세분화 분석:
    • Mall Customers 데이터셋을 기반으로 데이터를 전처리하고(결측치 처리, 이상치 제거, 스케일링), 클러스터링 기법(K-means, 계층적 군집화, DBSCAN, GMM)을 적용했습니다.
    • 엘보우 방법과 실루엣 점수를 통해 최적의 클러스터 수를 결정했으며, 결과를 2D 및 3D 시각화를 통해 분석했습니다.
    • DBSCAN의 노이즈 처리와 데이터 손실 비율 계산을 통해 클러스터링 기법이 가진 한계를 이해했습니다.

FEELINGS: 나의 감정적인 반응, 느낌

이번 주는 머신러닝의 지도 학습과 비지도 학습 과제를 심도 있게 다룰 수 있는 기회였습니다. 지도 학습에서는 데이터를 다루는 체계적인 과정이 중요한 만큼, 이를 단계별로 수행하며 작업이 체계적으로 느껴져 만족감이 있었습니다. 반면, 비지도 학습은 데이터에 대한 이해가 중요하고 클러스터링 결과를 해석하는 데 시간이 필요했지만, 결과를 시각화하면서 직관적인 분석 방법을 배울 수 있어 흥미로웠습니다.

하이퍼파라미터 튜닝은 모델의 성능을 높이는 데 매우 중요한 과정임을 알게 되었지만, 동시에 계산 시간이 길고 반복 작업이 많아 효율적인 도구 사용이 필요하다는 점도 깨달았습니다. 주어진 과제가 많아 일정이 다소 빡빡했지만, 결과물을 보며 뿌듯함을 느꼈습니다.

FINDINGS: 그 상황으로부터 내가 배운 것, 얻은 것

  • 데이터 전처리의 중요성: 결측치와 이상치 처리를 포함한 전처리 단계가 모델 성능에 큰 영향을 미친다는 점을 재확인했습니다.
  • 클러스터링 기법의 선택 기준: 데이터의 특성과 목적에 따라 클러스터링 기법을 적절히 선택하고, 이를 평가하는 지표(실루엣 점수 등)를 활용해야 한다는 점을 배웠습니다.
  • 시각화의 역할: 시각화를 통해 데이터와 모델 성능을 더 잘 이해할 수 있었으며, 전달력 있는 결과물을 만드는 데 시각화가 중요한 역할을 한다는 것을 깨달았습니다.
  • 목표 설정의 필요성: 과제가 많을수록 현실적인 목표를 세우고 우선순위를 명확히 하는 것이 필요하다는 점을 알게 되었습니다.

FUTURE: 배운 것을 미래에는 어떻게 적용할지

  • Django 프레임워크 학습: 웹 개발의 기본기를 다지기 위해 Django에 집중하고, 간단한 프로젝트를 통해 실제로 활용할 수 있는 능력을 키우겠습니다.
  • AI 모델 활용 실습: 머신러닝 모델을 간단히 응용해보며, 학습 내용을 실질적인 결과물로 연결하는 연습을 할 계획입니다.

마무리

이번 주는 데이터 분석과 머신러닝 과제에서 심화된 내용을 학습하며 성장할 수 있는 시간이었다고 생각합니다. 특히 지도 학습과 비지도 학습을 모두 경험하며 머신러닝의 다양한 면을 이해할 수 있었습니다. 다음 주에는 장고와 AI 활용 학습을 중심으로 실용적인 기술을 익히고, 이번 주에 배운 내용을 실무와 연계할 수 있는 기회를 만들어가겠습니다.

This post is licensed under CC BY 4.0 by the author.