Monday, 18 March 2013

튜링 테스트 Turing Test

Turing Test

Alan Turing이 1950년 논문 "Computing Machinery and Intelligence"에서 제안한 테스트로, "기계가 생각할 수 있는가?" 하는 질문에서 시작.

A, B가 C(인간심판)와 따로 대화를 하는데 심판이 A, B 중 누가 인간인지 기계인지 구별을 못하게 되면 기계가 인간의 지능을 갖게 된 것이라 할 수 있다는 것. 이 테스트는 질문에 대해 얼마나 맞는 대답을 하는가가 아니라 기계의 대답이 얼마나 인간의 대답과 가까운지를 테스트. 대화는 키보드와 모니터를 이용해서 텍스트로만. 기계가 텍스트를 오디오로 변환하는 능력을 평가하는 것은 논외이므로.

1. History
1. 1 Philosophical background
기계가 생각할 수 있는가 하는 질문은 오랫동안 계속되었다.
마음이 비물질적이라고 믿는 이원론자는 마음을 물질적으로 설명할 수 없다고 생각.
유물론자는 마음을 물질적으로 설명할 수 있다고 믿으므로 마음을 인공적으로 만들 수 있다고 봄.

1. 2 Alan Turing
영국의 수학자로 1956년 AI 연구 분야를 설립하기 십여 년 이전부터 "machine Intelligence"에 대해 고민했다. 1950년의"Computing Machinery and Intelligence"는 기계 지능에 대해 처음으로 출판된 논문. "기계가 생각할 수 있는가?" 하는 질문을 "기계가 인간이 하는 방식으로 행동할 수 있는가?"로 바꾸어서 테스트를 고안. 논문의 마지막에는 AI가 불가능하다고 하는 주장들에 대한 반박.

1.3 ELIZA and PARRY
1966년 Joseph Weizenbaum이 튜링 테스트를 통과하는 프로그램 ELIZA를 만들었다. 키워드에 대해 데이터를 갖고 있고, 사용자가 입력한 문장에서 특정 키워드가 발견되면 이에 맞추어 답을 함. 키워드가 없으면 일반적인 대응을 하거나 앞선 대답을 반복. 몇몇 사람들이 ELIZA가 실제 사람이라고 믿었고, ELIZA가 사람이 아니란 것을 믿을 수 없다는 사람도 있었다. 튜링 테스트를 통과한 최초의 프로그램으로 볼 수 있음.

1972년 Kenneth Colby는 PARRY를 만들었다. 이것은 ELIZA에 '태도 attitude'를 더한 버전. 편집증적 정신분열증 환자의 행동을 모델화하는 것을 시도했다.
한 그룹의 정신의학자들로 하여금 실제 환자와, PARRY를 상담하도록 했다.(teleprinter로).
다른 한 그룹의 정신의학자들에게 그 대화 결과를 보고 실제 환자와 PARRY를 구분하도록 했는데 48퍼센트의 정답률을 보였다.

21세기에는 이러한 버전의 프로그램들이(chatterbots 이라고 알려진) 있다. "CyberLover"는 인터넷 사용자들을 유혹해서 그들의 정보를 캐내고 특정 사이트로 방문하도록 유도해 바이러스를 심으려고 한다.

1.4 The Chinese room
1980년 John Searle은 논문 "Minds, Brains, and Programs"에서 'Chinese room'이라는 실험을 제안했다. 이것은 기계가 생각할 수 있느냐 하는 문제를 테스트하는 방식으로 튜링테스트가 적합하지 않다는 것을 증명하려는 것이었다. Searle은 ELIZA와 같은 소프트웨어는 단지 심볼을(자기가 이해하지도 못하는)을 조작하는 것만으로 튜링테스트를 통과할 수 있다고 언급했다. '이해'없이는 인간이 생각하는 것처럼 생각한다고 할 수 없다는 주장이었다. 따라서 튜링테스트는 기계가 생각하는지 아닌지 증명할 수 없다는 것.

1. 5 Loebner Prize
튜링테스트를 위한 연간 대회로 1991년에 처음 개최되었다. Hugh Loebner는 이 대회는 AI 연구를 발전시키기 위한 것이고, 또 누구도 튜링 테스트를 현실화하려고 하지 않았기 때문이라고. 가장 사람답게 말하는 채터봇을 뽑아 동상을 수여한다. 은상을 받으려면 튜링이 제안한 기초적 형태의 테스트를 통과해야 하는데, 아직 그런 예는 없다. 금상은 시각 및 청각적 의사소통도 가능할 때 준다고 되어 있다. 1991년의 첫 번째 대회에서는 튜링테스트가 과연 쓸모 있는가에 대해 토론했고, 그 해의 승자는 심문자로부터 자신의 정체를 숨기는 데 성공한 프로그램. 이후의 승자들은 중에는 단지 인간의 타이핑 에러를 흉내낸 것 등도 있었으므로 몇몇 연구자들은 이 대회를 쓸모 없다고 생각했다.

2. Versions of the Turing test
Saul Traiger는 3가지의 튜링테스트가 있다고 주장한다.

2. 1 The Imitation Game
튜링의 오리지널 게임은 3명의 참가자를 이용한 게임. A는 남자,  B는 여자, C는 심판 (남자나 여자). C는 A와 B를 볼 수 없고, 단지 텍스트를 통해서만 대화할 수 있다. C는 질문을 통해서 A, B 중 누가 남자고 누가 여잔지 맞춰야 한다. A는 심판을 속이려고 노력하고, B는 심판을 도우려고 노력한다.
튜링은 컴퓨터가 A의 남자 역할을 하도록 제안했다. 컴퓨터는 심판으로 하여금 자신이 여자라고 판단하도록 만드는 것이다.
컴퓨터의 성공여부는, A가 실제 남자일 때의 결과와 A가 컴퓨터일 때의 결과를 비교하는 것으로 판단한다. 튜링은 " 만약 A가 남자일 때 심판이 잘 못 판단하는 빈도가 A가 컴퓨터일 때의 빈도와 비슷하게 일어난다면 컴퓨터가 지능을 가졌다고 할 수 있다"라고.

두 번째 버전의 테스트는 같은 논문에 나오는데, A는 컴퓨터 B는 여자가 아니라 남자. A, B모두 심판을 속이려고 시도.

2. 2 The standard interpretation
일반적으로 튜링 테스트의 목적은, 컴퓨터가 심판으로 하여금 자신이 인간이라고 믿게 할 수 있느냐가 아니라, 컴퓨터가 인간을 흉내낼 수 있느냐하는 것이라고 이해된다. 그런데 이것이 튜링의 의도냐 하는 것에는 논쟁이 있고, 세 번째 버전의 테스트 "standard interpretation" 이 나타났다.(이 테스트를 튜링이 쓴 것인지, 튜링의 글을 잘못 해석한 것인지에 대해서는 의견이 갈린다)
이 세번째 버전에서는 A는 컴퓨터,  B는 사람(남자 혹은 여자)이고, C 심판은 A, B의 성별을 맞추는 것이 아니라 어떤 것이 사람이고 어떤 것이 기계인지 맞추어야 한다.

3. Strengths of the test
3. 1 Tractability and simplicity
튜링 테스트의 매력과 강점은 그 단순성에 있다. '지능', '생각한다'라는 것에 대해 정확한 정의가 없다. 그런 정의 없이는 AI에 대한 중요한 질문에도 대답할 수 없다. 그런데 튜링테스트는 완벽하지 않지만 측정 가능한 무언가를 제시한다. 고로 어려운 철학적 질문에 대한 실용적인 해결책인 것이다.

3. 2 Breadth of subject matter
튜링 테스트의 형식에서 심판은 기계에게 넓고 다양한 영역의 질문을 할 수 있게 되어있다. 잘 디자인된 튜링 테스트를 통과하기 위해서는 기계는 자연어, 지식, 학습, 사고를 해야 한다. 이 테스트는 비디오 인풋도 포함할 수 있고, 물건을 제시할 수도 있다. 따라서 기계가 시각과 로보틱스도 증명하도록 한다. 따라서 이러한 것들은 AI 분야가 풀어야 할 대부분의 문제를 담고 있는 것.

4. Weaknesses of the test
튜링은 이 테스트가 지능이나 다른 인간의 능력을 측정할 수 있다고 명시적으로 이야기하진 않았다. 그는 '생각한다'라는 단어에 대한 대안을 제시하려 했다. 이를 통해 '생각하는 기계'에 대한 비판에 대응하고, 그 분야의 연구가 진행될 수 있도록.
그럼에도 불구하고 이 테스트는 기계의 생각하는 능력을 측정하는 것으로 제시됐다. 그래서 철학자들이나 컴퓨터 과학자들에게 비판받았는데, 컴퓨터와 인간의 행동을 비교해서 컴퓨터의 사고를 판단하는 심판의 판단을 믿을 수 있나?, 인간과 기계의 행동을 비교하는 것의 가치와 비교하는 것 자체의 가치 등. 이 테스트가 과연 AI 분야와 관련이 있는지 의문을 갖는 연구자들도 있었다.

4. 1 Human intelligence vs. intelligence in general
튜링 테스트는 컴퓨터가 지능적으로 행동하는지 직접적으로 테스트하지는 않고, 단지 인간처럼 행동하는지 테스트한다. 인간의 행동과 인간의 지능적인 행동은 같은 것이 아니기에 이 테스트는 지능을 정확히 측정하는 데 있어 두 가지 방면에서 실패할 수 있다.
1. 지능적이지 않은 인간의 행동도 있다.
2. 지능적인 행동 중 비인간적인 것도 있다.
-이 테스트에서 만약 컴퓨터가 인간보다 더 지능적이라면, 컴퓨터는 너무 지능적으로 보이지 않게 애써야 한다. 만약에 컴퓨터가 인간은 못 푸는 문제를 풀어버리면 심판은 그것이 컴퓨터라고 알아차릴 것이고 컴퓨터는 테스트에 실패한다. 따라서 테스트는 인간의 지능 이상을 테스트 할 수 없는 것.

4. 2 Real intelligence vs. simulated intelligence
튜링 테스트는 주체가 어떻게 행동하느냐와 관련되어 있다.(기계의 외부적인 행동). 따라서 이것은 지능 연구에 행동주의 혹은 기능주의적으로 접근하는 것이다. ELIZA의 경우처럼 기계가 생각하는 것 없이 간단한 규칙을 따르는 것만으로 테스트를 통과하는 것이다. John Searle은 외부적인 행동 만으로는 실제로 생각을 하는지 판단할 수 없다고 주장.
튜링은 자신의 논문에 이와 같은 비판을 예견하는 글을 남김: '의식에 대한 미스터리가 없다고 주장하는 것이 아니다. 그러나 이 논문과 관련한 질문에 답하기 이전에 이러한 미스터리들이 꼭 해결돼야 한다고 생각하지 않는다.'

4. 3 Naivete of interrogators and the anthropomorphic fallacy
실제로, 이 테스트의 결과가 컴퓨터의 지능이 아니라 태도나 기술, 혹은 심판의 순진함에 영향받을 수 있다.

4. 4 Impracticality and irrelevance: the Turing test and AI research
주류 AI 연구자들은 튜링 테스트를 통과하려고 노력하는 것은 AI 연구 발전에 기여하지 못한다고 주장.

첫째, 프로그램을 테스트하는 더 쉬운 방법이 있다. 대부분의 AI 관련 영역의 연구는 특정 목적이 있다. 물체 인식, 자동 스케쥴링 등. 이러한 프로그램의 지능을 테스트하려면 그러한 문제를 잘 푸는지 테스트하면 된다.

둘째, 인간과 같은 어떤 것을 만드는 것 자체가 어려운 문제고, 그것은 AI 연구의 기본적인 목적을 달성하는데 필요한 것이 아니다. 비행기를 테스트 하려면 얼마나 잘 나는지 보면 되지 새와 비교할 필요는 없다.
이 부분에 있어 튜링은 그 테스트가 AI 프로그램의 지능을 실용적으로 측정하는 데 사용되는 것을 의도한 것이 아니다. 인공지능의 철학에 관련한 논의에 도움이 될 수 있는 명확하고 이해하기 쉬운 예를 제공하려고 했을 뿐.

5. Variations of the Turing test
5. 1 Reverse Turing test and CAPTCHA
기계와 인간 사이의 하나 이상의 역할의 목적이 바뀐 경우 reverse 튜링 테스트라고 한다.

5. 2 R.D. Hinshelwood는 mind를 'mind recognizing apparatus'라고 묘사했다. 만약 컴퓨터가 자신이 컴퓨터와 상호작용하는지 아니면 인간과 상호작용하는지 판단할 수 있다면 기계가 생각한다라고 여길 수 있다는 것.

5. 3 CAPTCHA가 있고.

5. 4 Subject matter expert Turing test
특정 분야에서 기계의 반응이 전문가의 반응과 구별 안되면.

5. 5 Total Turing test
튜링 테스트에 두 가지를 더 추가한 것으로 심판은 지각 능력(비전)과 물건을 다루는 능력(로보틱스)도 테스트.

5. 6 Hutter Prize
Hutter Prize 설립자는 자연어를 압축하는 것은 튜링테스트를 통과하는 것만큼이나 어렵다고 생각.
장점: 컴퓨터가 심판에게 거짓말을 안해도 된다. 어떤 컴퓨터가 더 지능적인지 측정할 수 있다.
단점: 인간을 이렇게 테스트하는 것은 불가능. 이 테스트의 어떤 점수가 튜링 테스트를 통과하는 것과 같은지 모른다.

5. 7 Ebert test
2011년 영화 평론가 Roger Ebert가 제안. 컴퓨터의 합성 목소리가 억양, 어조, 타이밍 등을 통해 인간을 웃길 만큼 충분한지 테스트.

6. Predictions
튜링은 기계가 결국 이 테스트를 통과하게 될 것이라 생각했다. 2000년이 되면 120MB의 메모리를 가진 기계가 30퍼센트의 심판을 속일 수 있을 거라고 생각. 또한 사람들은 더 이상 '생각하는 기계'의 모순에 대해 생각하지 않게 될 것이라 예견. 또 기계 학습이 중요하게 될 것이라고 예견.
커즈와일은 2020년이면 컴퓨터가 튜링 테스트를 통과할 것이라 예견했다가, 2005년 그 연도를 2029년으로 바꿨다. Mitch Kpor와 Kurzeil은 이에 대해서 2만 달러 내기를 한 상태.


*위키피디아 내용을 번역, 정리하였다: http://en.wikipedia.org/wiki/Turing_test

No comments:

Post a Comment