목록Knowledge (23)
MyCloud
Natural Language Processing 파이썬은 한국어 자연어처리를 위해 다양한 라이브러리가 존재합니다.그 중에서 자주 사용하며 필수적인 몇 가지 라이브러리에 대해 소개하겠습니다. 1. KoNLPyKoNLPy는 한국어 형태소 분석기로써 Twitter, Komoran, Mecab 등 다양한형태소 분석기를 모듈화하여 내장하고 있다는 장점이 있습니다.또한, 문서화가 잘되어 있어 사용하기 편리합니다! 링크 : http://konlpy.org/ko/v0.4.4/ 2. hanjahanja는 한자를 한글로 변환시켜주는 라이브러리입니다.한자가 껴있는 텍스트인 경우 전처리 과정에서 많이 사용합니다. 링크 : https://pypi.python.org/pypi/hanja 3. hangulizehangulize는..
Neural Networks: Motivations 이전에 Logistic Regression을 통해 Quadratic model을 분류할 수 있게 되었습니다.하지만 feature가 2~3개가 아니라 10만개가 넘는다면? Logistic Regression으로 성능을 내기 힘들게 됩니다. 대표적인 예시가 컴퓨터 비전 분야입니다. 예를 들어, 사진을 주고 이것이 자동차인지 아닌지 컴퓨터가 구분하는 것입니다.사람이 보기에 자동차의 손잡이는 그냥 손잡이 모양이지만,컴퓨터가 보는 손잡이는 아래와 같은 Binary code로 이루어져 있습니다. 만일 사진의 크기가 500 x 500 픽셀이라면, feature의 수는 25만이 됩니다. 여기에 흑백 사진이 아닌 컬러 사진이라면 RGB가 추가되어 75만개의 featur..
Regression Linear Regression, Logistic Regression, Softmax Regression에 관해 정리한 좋은 자료를 찾아서 공유합니다. 출처 : TensorFlow KR - Deep NLP Study
Logistic Regression Logistic Regression이란, 우리말로 로지스틱 회귀라고 하는데, 역시 전혀 감이 안옵니다.간단히 설명하자면, Logistic Regression은 분류(Classification)를 위한 예측모델입니다.특히 Negative 또는 Positive, 즉 0 또는 1로 정의되는 이항형 문제에서 사용됩니다.Anderw Ng이 들었던 예시는 다음과 같습니다.어떤 암 환자의 종양의 크기에 따라 이것이 악성인지 아닌지를 판단하는 문제입니다. 만일 Linear Regression 처럼 선형 모델을 만들게 되면,종양이 아주 큰 경우에 대해 예측 값이 틀리게 되며, 이러한 오버피팅이 자주 발생하게 됩니다.따라서 No를 0, Yes를 1로 가정했을 때, feature를 어떻게..
Linear Regression Linear Regression 은 우리 말로 선형 회귀(?) 라고 하는데 별로 와닿지 않습니다.간단히 말하면, Linear Regression이란 어떤 두 개의 변수 사이의 선형 상관관계를 모델링하는 것입니다.Andrew Ng이 말했던 집 값의 상관관계를 예로 들어 보겠습니다. 일반적으로 집의 크기가 클 수록 가격이 높게 나타납니다.위의 그래프와 같은 데이터가 있다면 상관관계를 우측 상향하는 직선으로 표현할 수 있습니다.그렇다면 저 직선은 어떻게 해야 정확하게 그릴 수 있을까요?(직선을 정확하게 그린다는 말은 실제와 비슷한 예측모델을 만든다는 말을 의미합니다) 바로 경사하강법(Gradient Descent)을 통해 조정할 수 있습니다. Gradient Descent Gr..
의사결정트리 (DecisionTree) 의사결정나무는 다양한 의사결정 경로와 결과를 나타내는데 트리 구조를 사용합니다.(우리에게 그나마 가장 익숙한 데이터 분석 기법입니다...)보통 어렸을 때의 스무고개 놀이를 예로 드는 경우가 많습니다. 위의 그림은 타이타닉 생존자를 찾는 의사결정트리 모델입니다.첫번째 뿌리 노드를 보면 성별
Supervised Learning 감독학습이란, 과거의 평가된 데이터(Training Data)로부터 하나의 함수를 유추해내기 위한 방법입니다. 1. Classification : 분류 - 단절된 요소를 나누는 것 (discrete value) - 이메일이 도착했을 때 스펨 메일인지 아닌지 구분, 환자의 종양 크기에 따라 악성 종양인지, 아닌지 판단하는 것 2. Regression : 회귀 (추상, 트렌드, 경향) - Regression은 continuous value 를 예측하는 것입니다. - 집의 평수에 따라 가격을 예측, 수 많은 제품들을 3달 안에 판매할 수 있는지 예측 Unsupervised Learning 자율학습이란, 대상에 대한 어떤 정보도 주어지지 않은 상태(labeling 되지 않은 ..
전송계층 프로토콜 TCP와 UDP 프로토콜은 모두 전송계층에서 동작하는 프로토콜입니다.TCP는 Transmission Control Protocol의 약자이고, UDP는 User Datagram Protocol의 약자입니다.두 프로토콜은 모두 패킷을 한 컴퓨터에서 다른 컴퓨터로 전달해주는 IP 프로토콜을 기반으로 구현되어 있지만,서로 다른 특징을 가지고 있습니다. 지금부터 두 프로토콜을 비교 정리해보겠습니다. TCP - Transmission Control Protocol TCP는 신뢰성있는 데이터 전송을 지원하는 연결지향형 프로토콜입니다.여기에서 어떻게 신뢰성있는 데이터 전송이 가능할까? 라는 의문이 생길 수 있습니다.TCP는 패킷을 성공적으로 전송하면 Acknowledgement(ACK) 라는 신호를..
머신러닝의 배경 올해의 가장 핫한 IT 키워드는 바로 머신러닝 (Machine Learning) 입니다.전문가들은 알파고와의 바둑 대전을 보며앞으로 인공지능 시대가 올 것이라고 예측하고 있습니다. 사실 머신러닝, 인공지능 개념은 예전부터 존재했지만 발전이 없었으며 소수에 연구원들에 의한 주제였기에 대중화 될 수 없었습니다.하지만 빅데이터 확보, CPU 성능향상, 오픈소스 프로젝트로 인해많은 개발자들이 인공지능 연구에 참여하게 되었습니다.앞으로 발전속도는 더 빨라질 것이며 나중에는 API를 가져다 쓰는 것만으로도 구현할 수 있게 될 것입니다. 머신러닝의 개념 머신러닝이란 어떠한 입력(Input)이 들어왔을 때 알고리즘을 통해 출력(Output)해주는 모듈(예측모델)을 구현하는 것을 말합니다. 사진을 보시면..
Oracle SQL Query - Join 오라클에서 지원하는 다양한 SQL 쿼리문에 대해 알아보겠습니다.먼저 JOIN 입니다. JOIN은 둘 이상의 테이블을 합쳐서 하나의 큰 테이블로 만드는 방법입니다.JOIN은 테이블의 Foreign Key를 이용하여 참조하며,정규화된 테이블로부터 결합된 형태의 정보를 추출할 때 사용합니다. 방법1은 여러 DBMS의 SQL 문법을 맞추기 위해 나중에 생긴 편리한 방법입니다.따라서 방법1을 추천하지만 출력결과는 같기 때문에 상관없습니다. 1. JOIN (방법1)// NATURAL JOINSELECT * FROM emp NATURAL JOIN dept;SELECT * FROM emp JOIN dept USING (deptno);SELECT * FROM emp JOIN d..