1. WordCloud : 텍스트 데이터에서 단어들의 빈도수를 나타내는 그림 텍스트에서 빈도수가 높거나 중요한 단어 직관적 파악 가능 - 빈도수가 높은 단어일수록 더 크고 두껍게 나타남 - 텍스트 데이터의 주제를 파악하는 데 도움 2. 모듈 다운로드 및 설치 1) cmd conda install -c conda-forge wordcloud=1.5 # 설치 실패하거나 DLL load failed 에러 뜰 경우 conda remove pillow conda install -c conda-forge wordcloud=1.5 2) python shell from wordcloud import WordCloud, STOPWORDS as stopwords 3. WordCloud 만들기 1) text load 및 W..
1. Introdunction to NLP 1) NLP (Natural Language Processing) : 자연어처리, 즉 우리가 일상생활에서 사용하는 언어의 의미를 분석해 컴퓨터가 처리할 수 있도록 하는 일 Ex. Sentiment Classification, Machine Translation 2) NLP Pipeline (1) Text Data (Corpus, 말뭉치, 코퍼스) (2) Data Preprocessing (데이터 전처리) + FE - Tokenization - Stemming or Lemmatization - Stopwords removal - Text Representation (3) Modeling (모델링) Train - Test - Evaluate Model 3) 관련 패..
1. ML 문제 해결 과정 문제 정의 : Metric 👇 Preprocessing : FE, 통계적 방법론, 도메인 지식 👇 Modeling : (방법별) 트리, 회귀, 신경망, 클러스터링 / (목적별) 예측, 추천, NLP, CV 2. FE의 중요성 모델링면의 부족한 점은 FE를 통해 보완할 수 있음 (좋은 feature 형성!) 3. 전처리 과정 Brainstorm : 데이터 많이 보기, 다른 문제들 참고 FE : 4가지 방법 + 센스 = 경험의 영역! Select : Importance 등 참고 Evaluate & Revise : FE가 적용된 새 데이터에 대한 모델의 정확도 4. FE 과정 1) Imputing - WHY ? 모델한테 Null 값 넣으면 X - NaN(결측값)을 추정값으로 대체하는..
1. 데이터 분석 과정 2. EDA vs FE Garbage in, garbage out → EDA & FE의 중요성 : 데이터를 잘 정제해야 좋은 결과를 얻을 수 있다. - EDA (Exploratory Data Analysis, 탐색적 데이터 분석) : 데이터를 살펴보면서 FE에서 사용할 자료의 특징을 찾는 것 - FE (Feature Engineering) : EDA 단계에서 발견한 자료들의 특징을 이용해 ML/DL의 성능이 잘 나오도록 전처리하는 과정 3. EDA의 4가지 주제 1) 저항성 : 자료의 일부가 파손되었을 때, 영향을 적게 받는 성질 ex. 평균은 중앙값에 비해 자료의 이상치나 입력오류에 큰 영향을 받음 = 중앙값은 평균에 비해 저항성이 큼 2) 잔차의 해석 잔차가 엄청 크거나 작은 ..
1. Numpy 1) Numpy (Numerical Python) - Python에서 벡터, 행렬 등 수치 연산 수행하는 선형대수 라이브러리 - 벡터 및 행렬 연산에 있어 매우 편리 기능 제공 - 데이터 분석을 할 때 사용되는 라이브러리인 Pandas와 Matplotlib의 기반 - 기본적으로 array(행렬) 단위로 데이터 관리. 이에 대한 연산 수행 2) Array 정의 및 사용 (1) 정의 (2) .shape / .ndim / .size : 배열의 모양 / 차원 수 / 원소 개수 - 각 차원 = '축(axis)', 축의 개수 = '랭크(rank)' - shape = 각 차원(축)의 크기(길이) (3) .dtype : 자료형 - array는 모든 원소가 같은 자료형 가짐 - 자료형 직접 지정해줄 수 ..