데이터 분석

머신러닝 모델 성능이 낮다면? 반드시 확인해야 할 평가 지표

⋆。゚☁︎ 돋이 ⋆☾ ゚。 2025. 3. 11. 21:54
728x90
반응형

 

오늘의 수업일지는 8시간 동안 배운 수업내용을 간다히 정리해보았다.

크게 머신러닝의 모델 평가지표결정트리에 대한 수업이었다.

 

1.다중 분류와 머신러닝 모델의 성능 평가

1-1. 다중 분류와 머신러닝 모델의 중요성

  • 학습한 데이터셋이 특정한 사람만 학습되어 일반적인 사람들에 대한 특징을 못 알아보는 문제가 있으면 안됨
  • 실무 적용 가능성도 중요하며, 이는 모델이 실제로 타겟 타겟에 적용되어 사용되는 것을 의미

1-2.머신러닝 모델의 성능 평가 방법

  • 정확도와 일반화 성능 모두 높아야 모델이 효과적.

2-2.정확도 평가 방법

  • 정확도를 측정하기 위해 프리시전과 리콜을 함께 사용하는 재현율을 계산함
  • Accuracy는 모델 성능을 평가하는 데 널리 사용됨
  • 정확도 변화량을 보기 위해 ROC를 사용하기도 함

어제 자세하게 정리 하니 오늘 수업 듣기가 수월했다.

 

모델 평가 지표 확실히 정리!

오늘 잠깐 맛만 봤는데 맛이 엄청 쓰던 모델 평가지표를 정리해 봤다. (넘나 헷깔리기에..)파이썬의 판다스를 이용하여 머신러닝을 하게된다면 많이 볼 모델 평가 지표를 정리해 보았다.  자주

myview0110.tistory.com

 

2.결정 트리의 이해와 활용

2-1. 결정 트리의 이해

  • 결정 트리는 하나의 결정을 통해 다른 결정을 판단하는 논리 구조
  • 특정 조건에 따라 판단을 내리고, 여러 조건을 동시에 고려하여 결론을 도출함
  • 결정 트리의 특징은 간단하고, 복잡한 데이터를 처리할 수 있음

2-2. 결정 트리의 특징과 한계

  • 결정 트리의 결정은 간단하며, 특정 값보다 크면 '이상', 작으면 '아주찮다'라는 판단을 내림
  • 전처리가 필요 없으며, 결정의 판단은 매우 빠름
  • 다만, 과적합이 쉽고, 일반화하기 어려워 특징이 많지 않을 때 유리하며, 많은 데이터를 필요로 함
  • 트리의 성장 동안 제한 조건을 설정하여 과적합을 방지하고 최대 깊이를 제한함

2-3.결정 트리의 장점과 단점

  • 결정 트리는 직관적이고 이해하기 쉬우며, 특정 값보다 크면 '비상', 작으면 '아주찮다'라고 판단함
  • 범주형이나 연속형 데이터 모두 처리 가능함
  • 과적합이 쉽고, 복잡한 모델을 만들기 어려움

 

3.결정 트리

3-1. 결정 트리 소개

  • 결정 트리의 목표는 예측 기준점 찾기임
  • 예측 기준점은 엔트로피와 지니계수를 활용하여 결정함
  • 데이터 중심 모델이 아닌, 지니계수와 엔트로피 기반으로 예측

3-2. 결정 트리의 적용

  • 의사결정 트리의 적용 분야는 다양함
  • 데이터가 복잡하거나 로직이 복잡할 경우, 예측 불확도가 높아짐
  • 랜덤 포레스트와 앙상블 기법을 활용하여 단점을 보완할 수 있음
  • 예측을 시뮬레이션(혹은 데이터 시나리오)하여 효율적으로 활용함

4.분류 알고리즘
4-1.데이터셋과 알고리즘

  • 필터링 과정을 통해 발달 상권만 선택한 후, 카테고리 중에서 독립변수를 만들고 라벨( 종속변수 )은 보통 주어진다고 설명함. 미팅이나 회의로 도출.
  • 머신러닝에서 성능이 안 나오면 알고리즘을 바꾸거나 데이터를 바꿔야 함을 강조

4-2.서울시 데이터셋 예시

  • 데이터가 너무 크기 때문에 예측 모델을 만드는 과정이 중요함을 강조함
  • 필터링 과정을 통해 발달 상권만 선택하고, 다른 컬럼은 제거하는 방식을 알려줌

 

서울시 상권 결정 트리 이미지

 

오늘의 코멘트.

머신러닝 배우면 좀 편해질줄 알았는데.. 콘 오산이었다 😂

 

뭔가 코드 바꿀수있게 친절한 설명이 있었으면 했는데 없었다.

혼돈 행렬도 오늘은 더 자세히 알게 될줄알았는데 딱히 짚어주진 않았다.

 

열심히 수업해주는데, 열심히 듣는 입장에서는 결과가 실망스럽지 않나 싶다.

코드만 잔뜩 쥐어준다고 응용이 바로되는게아니다~ 내일은 GPT랑 공부하는것보다 낫고 연대감있는 수업을 기대해본다.

반응형