1. 통계기초 1) ML : 지도학습(회귀, 분류) + 비지도학습(군집화, 변화, 연관) + 강화학습 독립변수, 종속변수가 존재할 때 - 회귀(Regression) : 예측하고 싶은 종속변수가 숫자(수치형 데이터)일 때 사용 - 분류(Classification): 예측하고 싶은 종속변수가 이름, 문자일 때 사용 2) 선형회귀 : 독립변수는 여러개 가능, 종속변수는 하나만 독립변수의 변화에 의한 종속변수의 변화를 설명하는 기준모델 만들고, 가중치 학습으로 fitted 모델 만듦 - X : 독립변수 = 예측변수(Predict) = 설명변수(Explanatory) = 특성(Feature) - y : 종속변수 = 반응변수(Response) = 레이블(Label) = 타겟(Target) ※ 두 변수 모두 연속형변..
1. ML 문제 해결 과정 문제 정의 : Metric 👇 Preprocessing : FE, 통계적 방법론, 도메인 지식 👇 Modeling : (방법별) 트리, 회귀, 신경망, 클러스터링 / (목적별) 예측, 추천, NLP, CV 2. FE의 중요성 모델링면의 부족한 점은 FE를 통해 보완할 수 있음 (좋은 feature 형성!) 3. 전처리 과정 Brainstorm : 데이터 많이 보기, 다른 문제들 참고 FE : 4가지 방법 + 센스 = 경험의 영역! Select : Importance 등 참고 Evaluate & Revise : FE가 적용된 새 데이터에 대한 모델의 정확도 4. FE 과정 1) Imputing - WHY ? 모델한테 Null 값 넣으면 X - NaN(결측값)을 추정값으로 대체하는..
1. 데이터 분석 과정 2. EDA vs FE Garbage in, garbage out → EDA & FE의 중요성 : 데이터를 잘 정제해야 좋은 결과를 얻을 수 있다. - EDA (Exploratory Data Analysis, 탐색적 데이터 분석) : 데이터를 살펴보면서 FE에서 사용할 자료의 특징을 찾는 것 - FE (Feature Engineering) : EDA 단계에서 발견한 자료들의 특징을 이용해 ML/DL의 성능이 잘 나오도록 전처리하는 과정 3. EDA의 4가지 주제 1) 저항성 : 자료의 일부가 파손되었을 때, 영향을 적게 받는 성질 ex. 평균은 중앙값에 비해 자료의 이상치나 입력오류에 큰 영향을 받음 = 중앙값은 평균에 비해 저항성이 큼 2) 잔차의 해석 잔차가 엄청 크거나 작은 ..
1. Numpy 1) Numpy (Numerical Python) - Python에서 벡터, 행렬 등 수치 연산 수행하는 선형대수 라이브러리 - 벡터 및 행렬 연산에 있어 매우 편리 기능 제공 - 데이터 분석을 할 때 사용되는 라이브러리인 Pandas와 Matplotlib의 기반 - 기본적으로 array(행렬) 단위로 데이터 관리. 이에 대한 연산 수행 2) Array 정의 및 사용 (1) 정의 (2) .shape / .ndim / .size : 배열의 모양 / 차원 수 / 원소 개수 - 각 차원 = '축(axis)', 축의 개수 = '랭크(rank)' - shape = 각 차원(축)의 크기(길이) (3) .dtype : 자료형 - array는 모든 원소가 같은 자료형 가짐 - 자료형 직접 지정해줄 수 ..
1. 버전 관리 1) Version Control System (VCS) : 버전 관리 시스템 - 파일 변화를 시간에 따라 기록 → 특정 시점의 버전 꺼내오기 가능 - 각 파일 또는 프로젝트 전체를 이전 상태로 되돌릴 수 있음 2) Local Version Control System (LVCS) : 로컬 버전 관리 시스템 - 데이터베이스를 사용하여 버전 관리 ex) RCS(Revision Control System) : Patch Set(파일에서 변경되는 부분) 관리 3) Centralized Version Control System (CVCS) : 중앙집중식 버전 관리 시스템 - 파일을 관리하는 서버 별도 존재 + 클라이언트가 서버를 통해 파일을 받아 사용 - 장점 : 꼼꼼하고 쉽게 관리 가능 - 결점..
1. Linux 무료 공개 운영체제 유닉스와 호환 PC용 OS보다 안정적 하드웨어의 기능을 알차게 사용 강력한 네트워크 구축 가능 사용자 친화적이지 않음 지원되지 않는 프로그램 많음 Linux = GNU Linux의 Kernel (Application과 hw 사이에 존재) 2. Linux Command [Window] Git Bash (관리자 권한) [Mac] terminal mkdir : 폴더 제작 cd : 들어갈 수 있음 vim : text editor program → txt file 제작 ex) .txt .py - normal mode : 글을 쓸 수 없는 모드 - insert mode : [A] or [I] - terminal로 나가는 법 : [ESC] 눌러 normal mode → :wq 치면..