본문 바로가기

분류 전체보기

(12)
Chapter08 순환 신경망 순차 데이터 : 시간적 공간적 순서 관계가 있는 데이터 - 시공간의 순서 관계로 형성되는 문맥 또는 콘텍스트를 갖는다. 양극화 기법 : 값이 1에 조금이라도 가까우면1, -1에 조금이라도 가까우면 -1이 되게 만들어 연상하려는 패턴을 1과 -1로 된 벡터로 정의하고, 입력 데이터가 특정 패턴으로 양극화되도록 사전에 가중치와 편향을 계산, 기억해 둔 패턴을 연상하기 위해 입력 데이터가 점점 1과 -1로 양극화될 때까지 출력을 입력으로 피드백하여 뉴런 연산을 반족하다가 출력이 특정 패턴과 같아지면 반복 멈춤 순환 신경망 : 순차 구조를 인식하며 콘텍스트를 기억하는 모델 구조 - 데이터의 순차 구조를 인식하기 위해 데이터를 시간 순서대로 하나씩 입력 받는다. - 은닉계층에 피드백 연결 - 입력계층, 은닉계층,..
Chapter05 초기화와 정규화 모델 초기화 : 신경망을 학습할 때 손실 함수에서 출발 위치를 결정하는 방법 가중치는 모델의 파라미터에서 가장 큰 비중을 차지하므로 가중치의 초기화 방법에 따라 학습 성능이 크게 달라질 수 있다. 가중치 초기화 ▶ 상수 초기화 최적해에 관한 사전 정보가 없을 때 생각할 수 있는 가중치 초기화 방법 중 하나 1. 가중치를 0으로 초기화한 경우 : 뉴런의 가중치가 0이면 가중 합산 결과는 항상 0이 되고, 활성 함수는 가중 합산 결과인 0을 입력받아서 늘 같은 값을 출력한다. 2. 가중치를 0이 아닌 상수로 초기화한 경우 : 은닉 뉴런에 입력과 가중치가 같기 때문에 가중 합산 결과도 같고 활성 함수의 실행 결과도 같다. 즉, 실제 뉴런은 n개지만 마치 하나의 뉴런만 있는 것처럼 똑같이 작동한다. : 가중치를..
Chapter03 신경망 학습 신경망 학습 : 경험 데이터로부터 데이터에 내제한 정보와 규칙을 찾아서 추론 능력을 만드는 과정 3.1 신경망 학습의 의미 신경망을 학습한다는 것은 규칙을 찾는 과정이다. ex) 집값을 예측하는 경우 '방의 수, 면적, 집 종류, 역과의 거리'와 같은 입력 데이터와 모델이 예측해야 할 '집값' 데이터인 타깃 데이터가 제공될 뿐, 추론을 위한 규칙은 제공되지 않는다. 따라서 신경망은 스스로 이 규칙을 찾아야 한다. ■ 입출력의 매핑 규칙 신경망에 입력 데이터가 들어왔을 때 어떤 출력 데이터를 만들어야 할지를 정하는 규칙은 함수적 매핑 관계로 표현된다. 함수적 매핑 관계 : 복잡한 신경망의 계층 구조 자체가 신경망의 함수적 매핑 관계를 표현 가중 합산과 활성 함수가 연결되어 뉴런 구성 -> 뉴런이 모여 계층..
한국어 기초사전 API를 사용하여 어휘문제 자동으로 만들기 어휘문제 만드는 단계는 총 3단계로 이뤄집니다. 1단계 : 지문에서 적절한 어휘 고르기 2단계 : 한국어 기초사전 API를 이용해서 필요한 어휘 정보 가져오기 3단계 : 문제와 보기 어휘 만들기 [ 어휘문제를 만들기 위해선 앞에 포스팅한 KoNLPY와 gensim 라이브러리가 필요합니다. 아직 설치를 안하셨다면 앞에 포스팅을 보면서 설치하시길 바랍니다. ] 1단계 : 지문에서 적절한 어휘 고르기 적절한 어휘를 선정하기 위해 "매체 교육 필수 어휘_3500자, 한국어 학습용 어휘목록"을 이용하여 어휘를 상(A),중(B),하(C) 별로 구분했습니다. 1. 출제 기준 어휘 나누기 pandas 라이브러리를 이용해 excel 파일을 불러줍니다. pd.read_excel(), 괄호 안에는 " 파일이 위치해 있는 경..
"텍스트전처리"와 "워드클라우드" 만들기 저는 이번에 졸업프로젝트로 인해 "인공지능-자연어처리"를 처음 접했습니다 사실상 일상에서 굉장히 많이 사용되고 있는데 컴공과 학생으로 이 분야에 대해 처음 알았다는게 매우 당황스러웠습니다. 그래서 이번 졸업프로젝트를 통해 자연어처리부분에 대해 공부하면서 프로젝트를 진행하려고 합니다! 이 분야에 대해 많이 또 깊게 알지 못하지만 함께 공부해가며 실습하는 과정, 또 그 과정에서 겪었던 어려움들을 하나씩 포스팅해보겠습니다! 저희 프로젝트는 텍스트 속에서 문장들을 형태소 단위로 다 쪼개서 어휘들을 구분해야 하는 과정이 필요합니다. 사람이 하기에는 금방 동사, 명사 등을 구분하기 편한데 컴퓨터는 과연 잘 할 수 있을까요? 1. 컴퓨터가 잘 할 수 있도록 저희는 "텍스트 전처리"를 통해 "용도에 맞게 텍스트를 사전..
형태소 분석기에 따라 다른 워드 클라우드 결과 KoNLPy에는 여러 형태소 분석기가 있는데요, 대표적으로 코모란(Komoran), 한나눔(Hannanum), 꼬고마(Kkma), Okt(오픈코리아텍스트)가 있습니다. Komoran의 경우 빠른 속도와 보통의 분석 품질, 사전 관리가 용이하며, 타 형태소 분석기와 달리 공백이 포함된 평태소 단위로 분석 가능하다는 특징이 있습니다. Hannanum의 경우 전체 시스템이 각 모듈들(입력 필터, 문장 분리기, 형태소 분석기, 미 등록어 처리기, 형태소 분석 후 처리기, 태거)의 조합으로 구성된다는 특징이 있습니다. Kkma의 경우 구분 분석기가 일부 탑재되어 있으며 세종품사태그에 가장 가깝고 분석 범주가 가장 많다는 특징을 가지고 있습니다. Okt의 경우 정규화, 토큰화, 어근화가 가능하며 Okt 형태소 분석..
워드 클라우드 앞서 만들었던 데이터들! 저렇게 그냥 텍스트 파일로 보면 한눈에 파악하기 어렵겠죠? 요즘 방송, 특히 뉴스에서도 사용되는 "워드 클라우드" 혹시 들어보셨나요?? 저희가 앞서 한 전처리 된 데이터들을 시각화하여 사람들이 보기에 어떠한 단어가 중요한지 한눈에 쉽게 볼 수 있도록 단어의 중요도를 표현할 수 있는 것을 말합니다! 그럼 이번엔 만든 데이터를 가지고 워드클라우드를 만들어 볼까요? 워드클라우드는 jupyter notebook을 이용해 만들어보도록 하겠습니다! jupyter notebook에 들어가 실행파일을 생성해줍니다. New - Python 3을 누르면 이렇게 생성됩니다. 지문3은 파일 이름으로 원하는 이름으로 바꾸시면 됩니다. 이제 워드클라우드에 필요한 패키지들을 불러오겠습니다. 아래 코드를 입..
텍스트 전처리 저는 이번에 졸업프로젝트로 인해 "인공지능-자연어처리"를 처음 접했습니다 사실상 일상에서 굉장히 많이 사용되고 있는데 컴공과 학생으로 이 분야에 대해 처음 알았다는게 매우 당황스러웠습니다. 그래서 이번 졸업프로젝트를 통해 자연어처리부분에 대해 공부하면서 프로젝트를 진행하려고 합니다! 이 분야에 대해 많이 또 깊게 알지 못하지만 함께 공부해가며 실습하는 과정, 또 그 과정에서 겪었던 어려움들을 하나씩 포스팅해보겠습니다! 저희 프로젝트는 텍스트 속에서 문장들을 형태소 단위로 다 쪼개서 어휘들을 구분해야 하는 과정이 필요합니다. 사람이 하기에는 금방 동사, 명사 등을 구분하기 편한데 컴퓨터는 과연 잘 할 수 있을까요? 컴퓨터가 잘 할 수 있도록 저희는 "텍스트 전처리"를 통해 "용도에 맞게 텍스트를 사전에 처..