Etc/Deep Learning 29

3장(3) 실습 - 로지스틱 회귀 | 선형 회귀 (figure | enumerate | zip | subplot | np.reshape | digits | 혼동행렬 시각화 | train_test_split | y_pred)

3.1.4 신규 데이터(숫자, digits)에 대한 정확도 예측(로지스틱 회귀 분석) 1. plt.figure() : 새로운 figure 생성 - 옵션 figsize=(가로, 세로) : 최초 창의 크기를 가로 세로 n인치로 설정 plt.figure(figsize=(20, 4)) 2. enumerate() 반복문 사용 시 몇 번째 반복문인지 확인이 필요할 때 사용. 반환값 : 인덱스 번호와 컬렉션의 원소(tuple형태로) for index, (image, label) in enumerate(배열)): 3. zip(배열1, 배열2, ... ) 어떤 배열들에 대해서 한번에 다루고 싶을 때 사용 for x, y in zip([1, 2, 3], [4, 5, 6]): print(x, y) //1 4 //2 5 //..

Etc/Deep Learning 2021.07.25

3장 머신러닝 - 비지도 학습(1) : K-평균 군집화, 밀도 기반 군집 분석

3.2 비지도 학습 비지도 학습이란? 레이블 필요X(지도학습은 필요), 정답이 없는 상태에서 훈련시키는 방법 K-평균 군집화를 사용하는 이유와 적용 환경 사용하는 이유 : 주어진 데이터에 대한 군집화 적용 환경 : 주어진 데이터셋을 이용하여 몇 개의 클러스터를 구성할 지 사전에 알 수 있을 때 사용하면 유용 비지도 학습의 군집과 차원 축소 비교 구분 군집 차원 축소 목표 데이터 그룹화 데이터 간소화 주요 알고리즘 K-평균 군집화(K-Means) 주성분 분석(PCA) 예시 사용자의 관심사에 따라 그룹화하여 마케팅에 활용 - 데이터 압축 - 중요한 속성 도출 * 군집 = 군집화 = 클러스터(머신러닝) 3.2.1 K-평균 군집화 K-평균 군집화란? 데이터를 입력받아 소수의 그룹으로 묶는 알고리즘 레이블이 없는..

Etc/Deep Learning 2021.07.25

머신러닝 핵심 알고리즘(3) - 지도학습(로지스틱 회귀와 선형 회귀)

3.1.4 로지스틱 회귀와 선형 회귀 회귀란? 변수가 두 개 주어졌을 때 한 변수에서 다른 변수를 예측하거나 두 변수의 관계를 규명하는 데 사용하는 방법 회귀에 사용되는 변수 유형 ① 독립 변수(예측 변수) : 영향을 미칠 것으로 예상되는 변수 ② 종속 변수(기준 변수) : 영향을 받을 것으로 예상되는 변수 로지스틱 회귀 로지스틱 회귀란? 분석하고자 하는 대상들이 두 집단 혹은 그 이상의 집단으로 나누어진 경우, 개별 관측치들이 어느 집단에 분류될 수 있는지 분석, 이를 예측하는 모형을 개발하는 데 사용되는 통계 기법 로지스틱 회귀를 사용하는 이유와 적용환경 사용하는 이유 : 주어진 데이터에 대한 분류 적용환경 : 주어진 데이터에 대한 확신이 없거나((예) 분류 결과에 대해 확신X 경우), 향후 추가적으..

Etc/Deep Learning 2021.07.21

3장(2) 실습 - 결정트리(타이타닉 승객 생존 여부 예측) | 대괄호 인덱싱 | map() | dropna(), drop() | DecisionTreeClassifier() | Confusion Matrix

1. 대괄호 인덱싱 대괄호 안에 필요한 컬럼명을 나열해 해당 열의 데이터만 추출 df = df[['Pclass', 'Sex', 'Age', 'SibSp', 'Parch', 'Fare', 'Survived']] 2. map() 메서드 pd.DataFrame['요소'].map({'기존값': 새로운 값}) df['Sex'] = df['Sex'].map({'male':0, 'female':1}) #sex를 0 또는 1의 정수값으로 변환 3. dropna()와 drop() 메서드 dropna() : 결측치(NaN)가 존재하는 행을 제거(디폴트) - axis 옵션 - axis = 0(또는 row) : 행 기준 삭제 (default) - axis = 1(또는 column) : 열 기준 삭제 drop() : 선택한 값..

Etc/Deep Learning 2021.07.20

3장 머신러닝 핵심 알고리즘(2) - 지도학습(결정 트리)

3.1.3 결정 트리 결정트리란? 데이터를 이진 분류(0 또는 1)하거나 결괏값을 예측하는 분석 방법 //결과 모델이 트리 구조여서 결정 트리라고 함 결정트리를 사용하는 이유와 적용환경 - 사용하는 이유 : 주어진 데이터 분류 - 적용 환경 : 이상치가 많은 값으로 구성된 데이터셋을 다룰때 사용하기 좋음. 머신 러닝이 어떤 방식으로 의사결정하는지 알고싶을때 유용 (결정 과정이 시각적으로 표현되기 때문) 결정 트리 프로세스 + 사례 데이터를 1차 분류 → 각 영역의 순도는 증가, 불순도와 불확실성은 감소하는 방향으로 학습 진행 + 순도와 불순도 순도=균질성 : 범주 안에서 같은 종류의 데이터만 보여 있는 상태 불순도 : 서로 다른 데이터가 섞여있는 상태 ((불확실성 = 데이터 분류에 있어서 a인지 b인지 ..

Etc/Deep Learning 2021.07.20

3장(1) 실습 - Pandas 기초 | Tensorflow 기초 | KNN, SVM 구현 예제 설명

1. csv파일 읽기 dataset = pd.read_csv('iris.data', names=names) //names로 열 이름 설정 cars = pd.read_csv('car_evaluation.csv', header=None) //불러올 데이터가 header가 없을 경우 None 옵션必 + read_csv() : 디폴트로 첫번째 행을 header로 삼음 2. iloc[[행], [열]] ; 위치 인덱싱 Data의 행 번호를 활용해 데이터에 접근(정수만 가능) X = dataset.iloc[:, :-1].values //모든 행을 사용하지만 열은 뒤에서 하나를 뺀 값을 가져와서 X에 저장 y = dataset.iloc[:, 4].values //모든 행을 사용하지만 열은 앞에서 다섯번째 값만 가져와서..

Etc/Deep Learning 2021.07.19

3장 머신러닝 핵심 알고리즘(1) - 지도학습(K-최근접 이웃, 서포트 벡터 머신)

3.1 지도학습 레이블을 컴퓨터에 미리 알려주고 데이터를 학습시키는 방법 지도학습 종류 1. 분류 : 주어진 데이터를 정해진 범주에 따라 분류 2. 회귀 : 데이터들의 특성을 기준으로 연속된 값을 그래프로 표현하여, 패턴이나 트렌드를 예측할 때 사용 + 분류와 회귀의 차이 구분 분류 회귀 데이터 유형 이산형 데이터 연속형 데이터 데이터 예 성별, 종교, 지역 점수, 몸무게, 키 결과 훈련 데이터의 레이블 중 하나를 예측 연속된 값을 예측 예시 학습 데이터를 A/B/C 그룹 중 하나로 매핑 예) 스팸 메일 필터링 결괏값이 어떤 값이든 나올 수 있음 예) 주가 분석 예측 3.1.1 K-최근접 이웃 K-최근접 이웃이란? 새로운 입력(분류되지 않은 검증 데이터)을 받았을 때 기존 클러스터의 모든 데이터와 인스턴..

Etc/Deep Learning 2021.07.19

2장 텐서플로 기초

2.1 텐서플로 개요 '데이터 흐름 그래프'를 사용하여 '데이터의 수치 연산'을 하는 오픈소스 소프트웨어 프레임워크 데이터 흐름 그래프 벡터, 행렬, 텐서의 형태 ✔벡터: 인공지능에서의 데이터, 1차원 배열 형태 ✔텐서: 3차원 이상의 배열 형태 2.1.1 텐서플로 특징 및 장점 - GradientTape로 자동으로 미분을 계산할 수 있음(역전파 계산 과정 - 가중치값 업데이트(오차 최소화를 위해)에 사용) + 분산 환경에서 실행가능 //분산환경 : 데이터를 조작, 함수를 수행시 원격지의 것들을 사용할 수 있음 2.1.2 텐서플로의 일반적인 아키텍처 1. 모델(모형) 생성 : 데이터 훈련을 위한 '데이터셋과 모델' 생성, 훈련할 수 있는 환경 제공. 텐서보드 등의 도구 제공 //텐서보드 ; 모델의 학습 ..

Etc/Deep Learning 2021.07.14

1장 머신러닝과 딥러닝

1.1 인공지능, 머신러닝과 딥러닝 인공지능 : 인간의 지능을 모방, 사람이 하는 일을 컴퓨터가 할 수 있도록 하는 기술 인공지능 구현 방법 ① 머신러닝 ② 딥러닝 //인공지능, 머신러닝, 딥러닝의 관계 ; 인공지능 > 머신러닝 > 딥러닝 머신러닝과 딥러닝 머신 러닝 딥러닝 공통점 학습모델을 제공하여 데이터를 분류 차이점 데이터의 특징을 스스로 추출하지 못하므로 주어진 데이터를 인간이 먼저 처리하여 컴퓨터가 인식할 수 있도록 준비해야 함 인간이 하던 작업을 생략 대량의 데이터를 신경망에 적용 → 컴퓨터가 스스로 분석한 후 답을 찾음 동작 원리 입력 데이터에 알고리즘을 적용하여 예측 수행 정보를 전달하는 신경망을 사용해 데이터의 특징 및 관계를 해석 재사용 동일 유형의 데이터 분석을 위한 재사용은 불가능 ..

Etc/Deep Learning 2021.07.12