(5년전에 썼던 글인데, 어차피 2000년대 이전까지를 - TopicsExpress



          

(5년전에 썼던 글인데, 어차피 2000년대 이전까지를 정리하는 성격이라 지금도 큰 문제는 의의는 없을거 같고.. Reinforcement Learning 부분은 뭘 한참 모르고 써놨는데 일단 그냥 옮겨놓습니다.) 다음은 CiteseerX의 most cited documentations (all year) 1~1000위 까지 중 Machine Learning/Pattern Recognition에 관련된 주제들이다. Bayesian Inference Estimation SVM ANN Component Analysis Markov Model Clustering SOFM (SOM) Reinforcement Learning Expectation Maximization Nearest Neighborhood Filtering 그리고... 훈련방법 순서는 각 범주에 속한 문헌의 수를 내림차순으로 메겼다. 이 순서와 그 비중이 DHS라고도 하는 Pattern Classification 2nd edition (by Duda, Hart, Stork)의 순서, 비중과 일치한다. 사실 학교때부터 지금까지 이 책에 든 불만 중 큰 것이 베이지언에 대한 과도한 중시와 비중할애였다. (베이지언 내용이 왜 이렇게 많은거야? 처음부터 베이지언이고 중간에 나오고 또 나오고.. 등) 그러나 이 책은 대략 1960년대~2000년대에 이르는 연구흐름을 잘 반영하고 있음을 data는 말한다. 아울러, 확인은 못 해봤으나 사실 상 패턴인식의 표준적인 참고문헌이었던 이 책의 1판이 거꾸로 이런 흐름을 유도했는지도 모른다. 다음은 각 주제에 대해, 필자의 평소지식과, 이번 조사를 통해 얻은 간단한 정리이다. 필수적인 내용이 빠진 정리이기는 하나 다른 문헌에서 보기 힘든 내용의 서술을 꾀하였음을 감안해주시기 바란다. Bayesian Inference (베이즈 추론, 베이지안 추론) 30년에 걸쳐 꾸준히 인기를 끌어온 주제이고, 앞으로도 그럴 것이다. (아직 이의 진정한 잠재력은 충분히 드러나지 않았다는게 맞을 것이다.) 이의 소주제로는 Bayesian decision, Monte carlo sampling, Bayesian network, Graphical model 등이 있다. Bayesian inference는 Symbolic AI와 Connectionisom의 연결고리 역할을 하는 유일한 주제이다. 다만, 양쪽 연구자들은 이 주제를 각자의 방향에서 접근하고 있다. 때문에 사실 상 동일한 연구를 독립적으로 하고있음에도 서로의 연구진행 상황에 관심을 두고있지 않다. Bayesian network은 Judea Pearl에 의해 제안되어 Symbolic AI 진영에서 연구되고 있으며 사실 상 유사한 Graphical model과 Belief propagation은 connectionsm 진영에서 연구되고 있다. Monte carlo sampling은 filter/estimation/tracking/statistics 진영에서 연구되고 있다. Graphical model은 이 모든 분산된 연구를 통합할 연결고리 역할을 할 것으로 예상한다. Estimation (확률밀도추정) Probability/Statistics를 사용해 분포함수를 수학적 modeling에 이용하려는 모든 시도에서 estimation은 그 분포함수를 구해내는데 핵심적인 역할을 한다. (널리 쓰이게된 Expectation Maximization도 여기에 속한다. EM은 처음에는 불완전한 data에서 분포함수를 추정하려는 목적으로 제안되었으나 현재에는, 연속분포 상의 어떤 값을 이산 class로 직접 mapping하는 기법으로 주로 쓰이고 있다.) Estimation은 크게 잘 알려진 종류의 분포함수로 modeling을 하고 이를 구하려는 parametric 추정과, 그러한 조건을 따르지 않아도 된다고 보는 non-parametric 추정으로 나뉜다. Non-parametric 추정은 매우 간단한 window 추정 방법에서, 매우 어려운 non-parametric Bayesian estimation에 이르기까지 다양한 방법들이 속해있다. SVM (Support Vector Machine) 선형판별 기법의 현대적인 framework이라 할 수 있다. 서구에서는 Fisher의 LDA(Linera Discriminant Analysis)가 있었다. 그런데 71년에 소련의 자동제어 연구자인 Vapnik의 발표로 서구 연구자들은 선형판별이 매우 심오하고 엄밀한 접근이 가능함을 알았다. 미국에서 별개로 80년대에 이뤄지던 연구에 90년대 초반, 소련붕괴로 철의 장막이 무너지며, 자동제어 연구소장이 되어있던 Vapnik이 벨랩으로 옮겨오며 폭발적인 관심이 모아졌다. 선형판별 기법은 역사가 오래이고 이해가 쉬우며, (인공신경망에 비해) 판별기의 해석, 분석, 훈련이 용이하다는 이점이 있는데 이것이 SVM의 인기를 이끌었을 것이다. 선형판별법은 이제 Bayesian과 함께 ML/PR의 표준적인 기법의 자리를 점했다. 이를 Bayesian inference와 함께 큰 틀에서 본다면, Bayesian inference는 유사도를 산출하는 기법이고, 선형판별법은 분류를 하려한다는 차이를 가진 것으로 볼 수 있을 것이다. SVM은 90년대 후반, 신경인지과학자인 플랑크 연구소의 Sholkopf와, 인지심리학자인 Smola의 공동연구로 Kernel method라는 이름으로 확장되어 여전히 인기를 누리고 있다. Kernel method는 기본적으로 Bayesian Inference와 융합될 잠재성을 가지고 있으나 아직 이 방향으로의 연구는 시작되지 않은 듯 하다. ANN (인공신경망) Minsky, Pappert의 공격으로 짧은 인기가 사라진 후 80년대에 PDP, 또는 Connectionism으로 다시 부활했다. 여러 방법이 우후죽순처럼 등장하던 10년 이후에는 어느 정도 mature되었다. ANN에 대한 선호는 EE쪽에서 더 큰 것으로 보이며 CS에서는 다소 낮은 듯 하다. 90년대 후반, C. Bishop이 Bayesian Inference와 융합시켰다. 그러나 이 방향으로의 연구는 그리 팽창되지 않았고 Bishop은 Graphical model 진영으로 들어갔다. Component Analysis, Subspace Analsysis (성분분석, 부공간분석) 통계적 분석 분야(특히 다변량 통계분석)에서 Component Analsys는 원래 차원축소 기법으로 채용되었었다. (차원축소는 실용적으로는 내재변수를 주거나 또는 압축을 위해서 쓰인다.) 이후 독립적인 패턴인식 기법으로 자리잡았고 특히 영상처리/인식에서 Nayar와 Shmidt 등이 appearance 기반인식의 유용성을 알리며 지배적인 기법이 되었다. 이와는 독립적으로 signal processing 분야에서도 활발히 이용되었다. 주로 PCA에 집중되던 관심은 95년 이후부터는 Independent component analysis로 옮겨갔다. 그러나 이 기법은 연산량의 문제로 아직 실제적인 응용사례는 많지 않다. Markov Model (마르코프 모형) Markov 가정과 이를 이용한 model의 쓰임새를 처음 알아차린 것은 IBM의 음성인식 연구자들이었다. Baum으로부터 시작된 접근은 97년에 Rabiner가 Hidden Markov Model을 정리, 소개하는 논문을 내놓으며 일단락 되었다. Markov 가정은 Bayesian Inference에서도 대부분의 경우에 채용되는 가정이며 Graphical model은 이를 조금씩 완화해가려는 시도라 볼 수 있다. Hidden Markov Model은 information theory, estimation theory, error-correcting code 기법등에 대한 이해가 선행되어야 완전한 이해가 이뤄질 수 있다. HMM이 그 동안 다른 경쟁자 없이 공고한 위치를 오래 유지해왔지만 인지적으로도 인간의 처리를 모방하고 있는 것인지는 의문의 여지가 있다고 본다. Clustering (군집화) 1975~1996년까지 20년에 걸쳐 성숙되었다. 쉽고 직관적인 방법으로서 다만 단점은 계산시간이 오래 걸린다는 점이다. 주된 연구방향은 초기중심점의 설정 방법에 관한 것이다. 수행시간의 단점과 휴리스틱에 의존하기 쉬운 특성으로 인해 패턴인식에서 사실 그리 널리 쓰이고 있지는 못 하다. 그러나 아무 사전지식이 없는 분야에서는 나름 쓸모가 있기에 DNA 염기서열 분석과 같은 분야에서는 쓰여온 것 같다. 최근, GPU가 보급되며 clustreing의 수행시간이 비약적으로 빨라진다는 보고가 있다. 만약 그렇다면 엄격함을 덜 요구하는 분야에서는 인기를 끌고 효용을 보일 것이다. SOFM (SOM) (자가조직화 지도) ANN의 한 주제로 묶기도 한다. 하지만 그 자체로, unsupervised learning의 대표적인 방법의 하나의 위치를 차지한다. 기본 작동방식은 매우 간단하나 그의, 결과 시각화가 다른 방법보다 우수하며 monitoring을 용이하게 해준다는 장점이 있다. 이 방법이 인기를 끈데는 80년대 후반의 자가조직화에 대한 관심도 한 영향이 있을 것이다. 인용은 많이 되어오고 있으나 실제로 쓰이는 경우는 찾기가 힘들다. 제안자인 Kohonen이 꾸준히 연구를 지속해왔다. Reinforcement Learning (강화학습, 주의. 이 부분 의견은 무시하세요.) 잘 하면 인식기에 상을 주고 못 하면 벌을 주겠다는 것이 기본 아이디어이다. 영상처리/인식의 multi-grid analysis 접근과 비슷하게, 사람이 그 방식을 택하는게 명백한 기법이다. 다만, 이런 방법은, 이를 택할 경우 쉽게 사람을 모방할 수 있을걸로 생각되지만 실제로는 그렇지 못 하다는 공통점을 가진다. 모방을 위해서는 이 뿐만이 아니라 훨씬 복잡한 방식들의 구현이 필요하기 때문이다. 그리고 이 방법들이 인간의 경우처럼 역할을 보여주려면 결국 조건부 처리(Bayesian Inference)와 밀접히 결합되어야만 할 것이다. Nearest Neighborhood (최근접이웃, 유사도비교) k-NN이라고도 한다. Clustering과 유사하게, data 간의 거리를 재어 판별한다. 다만 전자는 unsupervised 여서 정답을 모르는 반면 이는 (supervised 여서) 알고 있고 그에 가장 가까운 것을 찾겠다는 것이다. 따라서 둘 다 거리척도(metric)의 선정 중요하다. 초기부터 이 거리척도의 평가에 정보이론(information theory)가 적용되었던 것 같다. 초기에 NN을 연구했던 Akaike나 Cover는 둘 다 각 시대의 대표적인 information theory의 textbook을 저술하게 된다. 현재에 와서 distance based NN은 아주 쉬운 경우에만 적용될 뿐, KL divergence로 대체된 것으로 보인다. 다만 실용적으로는 KL div.도 문제점을 가진다. (분모의 pdf 값이 0에 가까울 경우 무한대값이 나옴) Filtering (시계열필터링) Estimation의 주제일 것이나 따로 독립시켰다. (이는 영상처리/인식의 tracking이나 제어공학의 feedback contol과도 연관된다.) 1960년에 Kalman filter가 나온 후 30년간 독점적인 지위를 누렸다. 90년대 초반, Bayesian Inference와, 그동안 연산량 문제로 실용화되지 못 했던 monte carlo sampling을 적용한 Particle filter가 나왔다. 현재는 Kalman filter 역시 Bayesian 관점에서 최적(Gaussian & Linear model 경우의) 필터임이 밝혀져있다. Feature Selection (특징선택) 좋은 feautre의 선택은 인식 알고리즘 자체의 개선보다 훨씬 큰 효과를 줄 수 있다. 특징선택은, 시스템 설계 시에 해당분야의 특성을 살펴 선택하는 연구와, 시스템 자체가 특징을 선택하는 연구의 두가지로 크게 나눌 수 있다. 전자에 대해서는, 개별분야에 의존하는 관계로 연구가 많지 않다. 후자는 현재도 활발히 연구되는 주제이다. 크게는 Rissanen의 Minimum description length 관점이 지배적인데 이는 오컴의 면도날의 현대적인 버젼이라 할 수 있겠다. 훈련방법 분류기의 학습방법에 대한 연구는 크게 세가지로 나눌 수 있다. 즉, 분류기의 결합형태, 분류기들에 대한 차등적인 학습방법 그리고 training set의 이용방법이 그것들이다. 각각을 살펴보면 다음과 같다. 분류기의 결합형태 계층적 결합방법이 최선이라는 합의가 이뤄져왔다. 이 구조의 대표적인 것이 cascaded 구조이다. Boosting의 개척자 중 한 사람인 Schapier가 이 분야(분류기의 결합방식)의 주된 연구자이다. 이를 다룬 참고문헌의 인용빈도는 낮다. 분류기들에 대한 차등적인 훈련방법 Boosting이 압도적이다. Schapire가 처음 제안한 후 10년에 걸쳐 Freund가 함께 AdaBoost로 정립하였다. 얼굴의 검출에 효과적으로 적용되었으며 얼굴검출은 영상인식의 성공적인 소수의 실용사례의 하나이다. Training set의 이용방법 Booststrap이 대표적인 기법이나 아직도 완전히 정립은 안 된 상태로 보인다. 필자가 개인적으로 접하기로는, 상업화가 많이 진행된 얼굴인식 분야에서 이에 관한 연구가 많이 나왔던 것으로 안다.
Posted on: Wed, 16 Jul 2014 06:12:55 +0000

Trending Topics



Recently Viewed Topics




© 2015