전체 글21 비정형 데이터 마이닝 본 포스팅에서는 비정형 데이터 마이닝에 대해 살펴보겠습니다. 비정형 데이터 마이닝: 1-1. 텍스트 마이닝 (Text Mining): 1-2. 텍스트 마이닝을 하는 과정 1) 비정형/반정형 텍스트 데이터를 수집 2) 특정 키워드나 의미 있는 요소를 추출하고 전처리(preprocessing)를 수행하여 데이터를 처리 3) 자연어처리(NLP), TF-IDF 등의 방법으로 알고리즘 혹은 수학적 모델로 정보를 추출 4) 최종 키워드나 의미 있는 요소의 우선순위를 도출하면서 데이터를 분석 텍스트 데이터: ASCII나 UTF-8등의 인코딩으로 구현되어 있으며, 비정형 또는 반정형 데이터의 형태를 가지고 있습니다. 또, 자연어 처리(NLP: Nautral Language Processing) 방법에 기반하여 정보를 .. 2022. 2. 4. 회귀분석, 시계열 데이터, 데이터 마이닝 본 포스팅에서는 회귀분석, 시계열 데이터 마이닝의 정의와 사례에 대해 알아보겠습니다. 회귀분석(Regression Analysis) : 관찰된 연속형 변수들 간 두 변수 사이의 모형을 구한 뒤 적합도를 측정하는 분석 방법 회귀분석의 가정 오차항은 모든 독립변수에 대해 동일한 분산을 가진다. 수집된 데이터의 확률 분포는 특별한 사항이 없는 한 정규분포를 이룬다고 가정한다. 오차항의 평균(기댓값)은 0이다. 독립변수 간에는 상관관계가 전혀 없어야 한다. 시간의 순서대로 수집된 데이터는 이상치(Out lier)가 없다. 회귀분석의 종류 선형 회귀분석(Linear regression) : 독립 변수(independent variable) x와 종속 변수(dependent variable) y로 구성되며, 이 둘.. 2022. 2. 3. 이전 1 2 3 4 5 6 7 ··· 11 다음