데이터 분석 (27) 썸네일형 리스트형 계절성 회귀 분석과 딥러닝 비교 – 언제, 어디서, 어떻게 쓸까? 오늘은 회귀분석중에서도 머신러닝의 계절성 회귀 분석에 대해 학습했다.시간에 따라 반복되는 계절적 패턴을 가지고 있는 회귀 분석이다. 푸리에 변환(Fourier Transformation)으로 계절적 패턴을 사인(Sine) 및 코사인(Cosine) 함수를 이용해 모델링한다. import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport statsmodels.api as sm# 데이터 생성 (12개월 주기의 계절성을 가진 시계열 데이터)np.random.seed(42)months = np.arange(1, 25) # 2년 (24개월) 데이터seasonal_effect = 10 * np.sin(2 * np.pi * months / 12).. 차원축소의 이해. 차원 축소(Dimensionality Reduction)그후는 텐서라고 부르고 백터를 다루다보면 연산량이 필연적으로 많아지기에, 공통적인 심볼들을 축소한다.차원 축소 시에는 원래 정보를 잃지 않아야 하며, 공통적인 특징은 제거해야 함. 공통적인 특징은 압축이 가능. 차원 축소 기법의 사용은 데이터의 성능을 크게 향상시키며, 이는 곧 세상의 복잡성을 줄이는 데 기여. 인공신경망(ANN), K-평균 군집화 수업일지. 인공신경망(Artificial Neural Network, ANN)은 인간의 뇌 구조를 모방한 기계 학습 모델로, 주로 패턴 인식, 분류, 예측 등의 문제 해결에 사용. Single Layer Perceptron (SLP)위 설명을 바탕으로 주석을 달아봤는데 이게 맞나 싶었다가 다른분들의 답변을 보고 보충답을 적었다. 히든레이어가 1개라도 존재하면 MLP, 회귀식이 3개 이상이면 딥러닝이 된다고 한다. 손실 함수는 모델의 예측 값과 실제 값의 차이를 측정하는 방법순전파 알고리즘과 달리, 역전파는 웨이트와 편향을 바꿔 계산함역전파에서는 한번의 계산으로 학습률을 조정하여, 오차가 최소화되도록 함각 레이어는 은닉층으로 뉴런을 넣어, 복잡한 패턴을 인식함딥러닝은 다층 신경망을 적용한 기술임딥러닝은 반복횟수를 .. K-NN 알고리즘으로 MBTI 예측. 직접 실습해봤습니다! k-NN 알고리즘을 통한 데이터 분석 및 모델 평가거리 측정: 새로운 데이터 포인트와 모든 훈련 데이터 포인트 간의 거리를 계산합니다. 일반적으로 유클리드 거리(Euclidean Distance)를 사용하지만, 맨해튼 거리(Manhattan Distance) 등 다른 거리 측정 방법도 사용할 수 있습니다.이웃 선택: 계산된 거리 값을 기준으로 가장 가까운 $k$개의 이웃을 선택합니다.분류/회귀:분류: 선택된 k개의 이웃 중 가장 많은 클래스를 새로운 데이터 포인트의 클래스로 할당합니다. 즉, 다수결 투표(Majority Voting) 방식으로 클래스를 결정합니다.회귀: 선택된 k개의 이웃의 평균 값을 새로운 데이터 포인트의 예측 값으로 사용합니다. 실습으로 k-nn으로 mbti 유형 예측기를 만들어 VM.. 머신러닝 모델 성능이 낮다면? 반드시 확인해야 할 평가 지표 오늘의 수업일지는 8시간 동안 배운 수업내용을 간다히 정리해보았다.크게 머신러닝의 모델 평가지표와 결정트리에 대한 수업이었다. 1.다중 분류와 머신러닝 모델의 성능 평가 1-1. 다중 분류와 머신러닝 모델의 중요성학습한 데이터셋이 특정한 사람만 학습되어 일반적인 사람들에 대한 특징을 못 알아보는 문제가 있으면 안됨실무 적용 가능성도 중요하며, 이는 모델이 실제로 타겟 타겟에 적용되어 사용되는 것을 의미1-2.머신러닝 모델의 성능 평가 방법정확도와 일반화 성능 모두 높아야 모델이 효과적.2-2.정확도 평가 방법정확도를 측정하기 위해 프리시전과 리콜을 함께 사용하는 재현율을 계산함Accuracy는 모델 성능을 평가하는 데 널리 사용됨정확도 변화량을 보기 위해 ROC를 사용하기도 함어제 자세하게 정리 하니 오.. 데이터 전처리의 이상치 처리방법, 정규화 및 스케일링 기준 살펴보기 그로스 마케팅을 배우기 전에 제일 궁금했던 게 바로 데이터의 전처리였다. 데이터에는 결측값, 이상치, 중복 데이터 등이 포함될 수 있으며, 이를 처리해야 모델이 효과적으로 학습할 수 있기에 중요한 부분을 차지한다. 전처리의 중요성현장에서 데이터를 받으면 가공하여 활용 가능한 상태로 만들어야 한다. 때문에 직접 열어보고 컬럼을 정의하는 게 분석과 예측을 하기 위해 중요하다. 데이터의 타입과 칼럼정의된 칼럼을 바탕으로 설명이 필요하기 때문이다.할 수 있어야 한다. 1. 데이터 정리 및 탐색.① 데이터 로드, ② 기초 통계 확인, ③ 데이터 시각화 2. 결측값 처리는 확인 후에 처리방법이 나뉜다.① 삭제, ② 대체 3. 이상치(Outliers) 처리 데이터가 정규분포를 따른다면? → Z-Score 방법 활용.. 머신러닝 기본 개념부터 웹서비스 실습 역대급으로 집중안돼는 일주일이었던것같다...ㅎ 드디어 끝났어 ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ 머신러닝의 기본 개념 : 전통적인 프로그래밍 방식과는 달리 명시적인 규칙을 프로그래머가 지정하는 것이 아니라, 알고리즘이 데이터를 분석하여 스스로 규칙을 찾아내는 방식으로 동작 오늘은 개념이 많았는데 계속 정적인 한 화면만 보고있자니... 힘든 수업이었다...ㅎ강화 학습을 얘기하면서 아래처럼 그림 그려주셨음. 나는 심리학에 더 익숙하기때문에 이개념은 쉬웠다. 실제로 교육에서 중요하게 쓰이는 개념이며, 정책 즉, 기준 잘제시해야 교육받는 사람이 따를수있다. 기준이 확실하지 않을때는 결국 자기 마음대로 하게됨. 나는 강화학습이 설명하지 못 하는 데이터가 된게 아닐까 싶었다...😂 그리고 다시 웹서비스를 하게 됐다. 클러스.. 태블로보다 쉬운 Looker Studio? 마리아DB 연동으로 시각화하기 매주중마다 쓰는 실습일지이지만 누군가에게 도움이 될까 의문스럽다. 더깔끔하고 보기좋게, 그리고 처음보는 사람도 맥락을 파악하고 따라 할수 없을것같아 괸스레 미안한 마음이 드는 블로그..일단 내 성장을 도모하고 남을 위한 글을 쓰는 그로스 마케팅 데이터 분석가가 되기를 바라며 오늘의 수업 일지 시작. 어제 배웠던 HTML을 서버로 서비스 해보기위해서 오랜만에 SQL를 켰다 하하flask는 웹서버 (웹통신을 할수있도록 해주는 파이썬으로 만들어놓은 app.py를 살펴본다. 단 API가 별로 없어서 다 만들어야함..그래서 장고를 더 많이 쓴다.) 라는 간단한 설명을 들었다. 이번에는 이런식으로 만들어주셨다. render_template : HTML템플릿을 찾아주는 친구@app.route("/") 라우팅해.. 이전 1 2 3 4 다음