2009년 7월 1일 수요일

사용성 테스트에서 몇 명의 참여자가 필요한가?

우리가 사용성 테스트를 진행할 때, 과연 몇 명의 사용자를 대상으로 해야 하는가에 대해서 고민하게 된다. 마케팅 조사에서 일반적으로 활용되고 있는 정량조사 방법론은 상대적으로 많은 수의 사람들을 대상으로 하고 있어, 결과에 대한 신뢰도와 타당도를 확보하기 위하여 획득한 결과에 대해서 비교 검증을 활용할 수 있다. 하지만, 사용성 테스트는 주로 질적 방법론에 기초해서 매우 적은 수의 사용자를 대상으로 하기 때문에 이러한 방법론을 활용하기가 매우 어렵다. 특히, 이것은 내외부의 프로젝트 참여자에게 해당 결과를 설득시키는데 있어서 매우 중요한 이슈 중 하나로 부각될 수 있기 때문에 더 고민을 하는 것이다.

 

 

그 질문에 대한 해결책으로 Nielson이 제안한 것을 많이 참조한다.  UX 분야에서 선구자적인 역할을 하고 있는 Nielson은 2000년도에 자신이 운영하는 사이트인 useit.com의 'Why you only need to test with five users'라는 포스팅에서, 정교한 사용성 테스트를 진행한다면 5명의 사용자를 대상으로 하더라도 사용성 이슈의 80% 정도는 해결할 수 있다고 주장한다. 이 주장은 1992년에 Robert A. Virzi의 'A refining the test phase of usability evaluation: How many subjects is enough?'와 1993년에 Jacob Nielson과 Thomas K. Landauer의 'A mathematical model of the finding of usability problems' 에서 나온 결과를 바탕으로 해서 나온 것이다. 

 

Jacob Nielson

 

 

하지만, Nielson의 주장에는 한 가지 문제가 있다. 하나의 가정을 하고 있는데, 그것은 모든 사용자가 같은 비율로 문제가 되는 이슈에 대해서 30%를 찾을 수 있다는 것이다. 이 가정은 아주 치명적인 약점이 될 수 있는 부분이다. 그럼에도 불구하고, 많은 UX 관련자들은 Nielson이 주장한, 일명 '매직넘버 5'를 따르며 사용성 테스트를 진행해 왔다.

 

Jared Spool

 

2001년 CHI에서 Jared Spool과 Will Chroeder는  'Testing Web Sites : Five users is nowhere near enoght'를 발표하면서,  Jacob Nielson의 주장과는 다른 주장을 하고 있다. 과거에 비해 웹 사이트의 복잡성이 증가하면서 사용성 이슈 또한 복잡해져, 5명에 대한 결과만으로는 부족하다는 것이다. 또한 비록 프로젝트 초기 단계이더라도 모든 문제가 다 밝혀지기 전까지는 얼마나 많은 문제가 있는지 알지 못하기 때문에, 5명의 사용자만으로 80% 이상의 사용성 이슈를 발견할 수 있다고 주장하는 것은 무리가 있다는 것이다. 

 

그리고, 마지막으로 Jacob Nielson이 프로젝트 초기 단계에서 실시할 경우 테스트 앞단에서 거의 모든 심각한 문제를 발견할 수 있다고 했지만, Jared Spool과 Will Schroeder는 꼭 그런 것은 아니라고 주장하고 있다. 이들은 심각한 문제가 표면에 드러날 때에만 그 문제를 발견할 수 있을 뿐이라는 것이다.

 

(사실, 그 문제는 발견되었을 때만 그 문제가 있다는 것을 알 수 있다. 아무리 정교한 테스트를 설계하고 진행하더라도 테스트 설계 및 태스크 정의, 태스크 진행 방법 등에 따라서 그 문제를 발견할 수도 있고 없을 수도 있다. 그리고, 과거에 비해 웹 사이트가 워낙 복잡해졌기 때문에 한번에 모든 사용성 이슈를 다 다룰 수 없다는 것도 또 하나의 이슈가 된다.)

 

2003년 Jacob Nielson은 CHI Panel에서 기존의 자신의 의견을 다음과 같이 수정하게 된다.

 

"The standard recommendation to observe 3-4 users refers to studies conducted during a user-centered design process where an interaction design needs to be debugged for usability. The "discount usability" philosophy explicitly recognizes that this will not be a perfect study that will discover everything that's possible to know about design, but we accept this trade-off in return for having more iterations in the design process and conserving resources for subsequent evaluations of these iterations."

 

즉, 빠른 프로젝트 진행을 하면서 동시에 지속적으로 사용성 이슈가 있는지 확인하기 위해서는 소위 Rapid Iterative Testing이 필요하고, 이것을 고려할 때 많은 수의 사용자를 대상으로 수행할 수 없다는 것이다. 그래서, 5명 정도의 사용자만을 대상으로 해도 충분하다는 것이다. 여기서의 핵심은 Rapid Iterative Testing을 다시 전제로 하고 있다는 것이다. 이 부분에 대해서는 같이 패널로 참석한 Microsoft사의 Dennis Wixon 또한 동의하고 있다


Dennis Wixon

 

패널 중 한 사람이자 'Usability Testing and Research'의 저자 Southern Polytechnic 주립대학교 Carol Barnum 교수 또한, Nielson의 주장에 일부 동의하면서 다음과 같은 조건일 때 5명의 참석자로 충분하다고 주장했다.

 

  • when the original discount model for testing is followed
  • when the results of testing are understood and clearly communicated
  • when there is close cooperation between the client / sponsor and the test team
  • when the results are used for diagnostic purposes and team learning
  • when the expected results is insight, not validation 

Barum 교수의 주장은 제한적인 사항에 대해서만 사용성 테스트 진행 시 5명의 사용자면 충분하다고 주장하고 있는 것이다. 

Carol Barnum

Barum 교수의 주장과 유사하게 Tom Tullis와 Bill Albert는 2008년에 출간한 'Measuring the User Experience'에서 다음과 같은 상황에서 5명으로 충분하다고 주장한다.

 

  • The scope of the evaluation is fairly limited. This means we are not doing a product-wide assessment, but rather looking only at a limited set of functions - usually about 5 to 10 tasks and about 20 to 30 web pages
  • The user audience is well defined and represented. If we pretty much know who we want to test with, and they are well represented in testing, then five is adequate. If we identify more than one unique audience, then we will strive to have about five participants from each user group.

 

상황에 따라 사용성 테스트에 참석하는 사용자의 수가 달라진다고 주장하는 사람이 또 있다. Sarah Burton-Taylor는 'How many testers are enough?'라는 글에서 다음과 같은 상황에 따라 사용성 테스트에서 필요로 하는 사용자 수가 달라진다고 주장하고 있다.

 

  • Unearth all the usability issues on a site?

  • Identify the 'big' usability issues that stop users having a good user experience?

  • Do an academic or benchmarking study?

  • Inform a complete site redesign?

  • Develop a user centered organizational culture?

  • Persuade a senior manager that there is a major problem with the site - which he denies!

  • The budget and time available - inevitably there are always constraints on both

  • The diversity of the site's target audiences - the goals they wish to achieve, their knowledge and their experience

  • The strategic importance of the web site - is it mission critical?

 

 

2007년 San Jose에서 열린 CHI 2007에서 Gitte Lindgaard와 Jarinee Chattratichart는 다른 이슈를 제기하였다. 사용성 테스트에 참석하는 참석자 수의 문제가 아니라, 테스트에 사용되는 tasks에 의해 발생되는 이슈라는 것이다. 실제 tasks에 따라 사용성 이슈를 발견할 가능성이 달라진다고 주장하고 있는 것이다.

 

 

그렇다면, 우리는 계속해서 고민을 하게 된다. 과연 몇 명의 사용자(참석자)가 필요한 것인가? Sarah Burton-Taylor는 다음과 같이 주장하고 있다.

As we said at the beginning it's a trade off between the research objectives, time and money available, user variability and strategic importance. Quality, not quantity, is the issue - the quality of the evaluation, its results, and the use to which those results are put. Better to test smaller numbers iteratively and fix the problems in between, rather than test large numbers at any one time. Often one large problem will dominate and prevent testers progressing through the site - with large sample sizes clients will simply see testers fail repeatedly on the same task!

 

 

요약

사용성 테스트라 할지라도 사용되는 방법론이 무엇이냐에 따라서 기본적으로 요구되는 참석자 수가 달라질 것이다. 하지만, 사실 이것에 대해서도 합의된 숫자나 가이드라인은 없는 상태이다. 테스트 상황에 따라서 다르고, 웹 사이트의 복잡성에 따르고, 이슈가 되는 사용성의 심각성에 따라서도 다르기 때문이다. 이것에 대해서는 지금까지 정답이나 가이드라인이 없기 때문에 적절하면서도 효과적으로 대처할 수 밖에 없을 것이다. 현재 자신이 처한 프로젝트 상황 등을 고려해서 자신의 경험과 직관에 의해서 판단해야 할 부분이 많아질 것이다. 하지만 확실한 것은 사용성 테스트를 전혀 하지 않는 것보다 한명의 사용자를 대상으로 하더라도 사용성 테스트를 진행하는 것이 좋다는 것이다. 그것은 미쳐 우리가 생각하지 못했던 새로운 사실을 알려줄 수 있기 때문이다.

 

 

덧붙이는 말

사실 나도 사용성 테스트를 수행하면서 이런 질문도 많이 듣고 고민을 많이 했지만, 정답이 없기에 대답을 할 때 상당히 어려움을 느낀다. 그리고 계속해서 몇 명의 사용자가 필요할까라는 고민도 많이 하게 된다. 그리고 과거 경험이나 직관에 많이 의존하지만 그래도 불편하고 불안하기에는 마찬가지이다. 누군가 정답이나 가이드라인을 딱 내 놓았으면 하는 심정이다. 하지만, 정성 조사의 성격을 가지고 있기 때문에 그것은 쉬운 일이 아닐 것이다. 너무나 많은 요인들의영향을 받기 때문이다. 

댓글 없음:

댓글 쓰기