[CHI'24 LBW] MOJI: Enhancing Emoji Search System with Query Expansions and Emoji Recommendations
https://dl.acm.org/doi/10.1145/3613905.3650838
요약
- 기존 Text-based 이모지 서치 시스템에서 사용자들이 겪는 어려움을 조사 (Formative study)
- 유저들의 기존 이모지 검색 과정 관찰을 통한 유저가 키워드를 고르는 전략 조사 : “synonyms(유의어), hypernym(상위어), insentence replacement(문장내 대치), and serendipity(우연)” (Hong 등, 2024, p. 2)
- 입력 내용과 관련된 키워드를 바탕으로 한 이모지 검색 쿼리 확장 (Query Expansion)
- 확장된 쿼리에 대한 이모지 추천 (GPT, iOS 이모지 추천 시스템 활용 및 비교)
- 제안하는 쿼리 확장과 이모지 추천 시스템의 효과 평가 (User study)
섹션별 내용
3. Formative Study
[결과: Three Bottlenecks]
1) “Finding search query candidates.”
내가 생각하는 이모지에 맞는 쿼리(키워드)를 생각해내기 어려움. 머릿속으로 생각하는 이미지를 글자 형태로 변환하는 것에 대한 어려움.
2) "Predicting search results."
이모지를 찾지 못했을 때, 내가 찾는 이모지가 (시스템에) 없는 건지, 내가 못찾는 건지 (적절한 키워드를 못찾아서) 알기 어려움
= 이모지 검색 시스템의 예측 불가능성 (이모지-키워드 쌍이 쉽게 예측불가능)
3) "Refining search keywords."
서치 키워드를 계속 변경하면서 찾는 과정이 번거롭고 시간이 소요됨.
+ Formative study결과 참여자들이 이모지 키워드를 변경하는 방식을 5가지로 추릴 수 있었음.
[1,2] 원래 찾으려고 입력했던 키워드의 [1]상위어 혹은 [2]유의어 (ex. 후디 -> 옷(상위어), 건배 -> 축하(유의어), 등)
[3] 같은 문장에 등장하는 다른 키워드
[4] 나온 결과가 원하던 결과는 아니지만 그저 우연으로 받아들이는 것 (ex. 햄스터 대신 햄을 입력하면서 관련없는 단어를 입력하는 것을 즐기는 유형(..?)
[5] 텍스트 기반 서치 포기 or 이모지 리스트에서 일일이 찾기
4. System Design
Design Goal
1) 초기 검색 키워드 추천으로 사용자가 원하는 이모지 검색 키워드를 찾는 인지적 부하 줄이기
2) 이모지 추천을 통해 검색 결과의 예측가능성 향상 (이모지 추천에서는 이모지-키워드 쌍을 보여줌 -> 예측가능성 증가)
3) 쿼리(키워드) 확장을 통해 사용자가 서치 쿼리를 변경하는 시간 줄이기
주된 접근 방법은 '쿼리확장' 과 '확장된 쿼리에 대한 이모지 추천' 이며
사용자의 입력 부터 쿼리 확장, 이모지 추천에 대한 파이프라인은 아래 그림과 같다.
유저가 입력하는 문장 = Task sentence가 주어지고, 그 문장안에 이모지가 들어가야 하는 빈칸이 있다. seed query는 문장안에서 이모지가 들어갈 칸과 가장 가까이 위치한 '한 단어'이다. (가장 밀접한 서치 키워드라고 생각하면 될 것 같다. '쿼리'를 일정 길이의 여러 단어로 이루어진 구 정도로 인식하고 있어서 인지 seed query라는 말이 설명없이는 처음에 오해할 수도 있을 것 같다.)
'task sentence + seed query'가 인풋이고,
이모지 추천 시스템 2가지를 비교하기 위해 파이프라인이 두개로 나뉘어진다.
화살표에 GPT 트랙(?)은 GPT가 쿼리 확장 + 이모지 추천까지 모두 하는 경우이고,
iOS 트랙은 GPT가 쿼리 확장 + iOS 이모지 검색기가 이모지 추천을 담당하는 경우.
쿼리 확장에는 Formative Study에서 발견한 유저의 키워드 선택 전략 4가지를 반영해서 쿼리를 확장한다.
ex. 나이키와 넙죽이가 새로운 콜라보레이션 컬렉션 [emoji] 을 만든다. 라는 문장을 쿼리 확장 하면
1. collaborative collection 의 유의어: costume, design
2. 상위어 : Event, Product
3. In-sentence replacement : new, collaborative
4. Serendipity (우연) : Curl (발음 유사..?)
5. Evaluation
Formative Study에서 발견된 사용자의 어려움에 미치는 영향을 측정하는 것에 집중함.
비교대상은 baseline(iOS 이모지 검색 인터페이스), GPT(쿼리 확장+이모지 추천), iOS(GPT 쿼리확장+iOS 이모지 추천)
한 섹션마다 12개의 문장이 주어지고, 참가자가 각 시스템 (baseline, 쿼리확장 시스템(GPT, iOS))을 이용해서 떠오르는 적절한 이모지를 선택하는 것 이 User Task이다.
Metrics
1) 검색 키워드 입력 까지 걸린 시간, 이모지 입력까지 걸린 시간 : 인지적 부하를 측정하기 위한 측정
2) 검색 키워드 수정 횟수 : 하나의 이모지를 선택하기 까지 키워드를 변경한 횟수 (무엇을 측정하기 위함이었는지 결과나 메트릭 부분에 명시되어 있지 않음 - 인지적 부하나 시스템에 대한 만족도로 해석될 수도 있을 것 같음)
3) 시스템이 추천한 키워드에서 최종 이모지 선택한 횟수 : 제안된 쿼리 확장 시스템의 유용성 평가를 위해 (GPT vs iOS)
6. Results
1) 입력 시간
정규분포 X, Friedman's test 적용
검색 키워드 입력 시간 p < 0.05, 검색키워드 입력시간은 쿼리 확장 시스템이 베이스라인 보다 적게 걸림 = 인지적 부하 줄임
이모지 입력 시간은 통계적 차이가 상당하지 않았고, 전체적인 검색 로드(이모지 선택 시간)는 유사했다.
(이모지 입력 시간이 차이가 별로 없었다는 것에 대한 분석은 없음)
2) 검색 키워드 변경 횟수
Welch's ANOVA test 사용, p < 0.05
Games-Howell test 사용, baseline vs GPT (p < 0.01), baseline vs iOS (p < 0.05)
iOS, GPT 모두 베이스라인 보다 높은 변경 횟수 보임
분석: 검색 키워드 변경 로그 분석 결과 제안된(확장된)키워드에 대한 추천 이모지를 보고 비교하는 것을 시도했고,
참가자들이 제안된 키워드들의 이모지를 찾아보는 것이 즐거웠다고 피드백한 것으로 보아 단순히 사용성이나 만족도가 떨어져서 검색 키워드 변경 횟수가 많아진 것으로 보기 어려움.
3) 시스템이 추천한 키워드에서 최종 이모지 선택한 횟수
Wilcoxon signed-rank text 사용, 두 시스템 간 차이 크지 않았음
유저 피드백에서 iOS의 정확한 매칭에 기반한 추천보다 GPT의 추천에 더 만족했음.
4) 만족도 설문조사 (+ USE 설문지 사용)
검색 속도, 쉬운 사용성, 학습용이성, 즐거움에 특히 만족했다는 결과를 보임.
iOS 보다 GPT의 키워드에 더욱 만족함
Comments
- 전반적으로 이해하기 쉬운 이미지 + 그림들 덕분에 쉽게 이해할 수 있었음
- Formative Study와 System Design이 잘 연결되어서 좋았음
- Design goal에 대한 rationale은 좀 더 설명되면 좋을 것 같기는 함 선정 이유라던지. (워낙 의도가 분명한 것들이긴 하지만..!)
- 그리고 비교대상 조건들마다 다른 task sentence 인풋이 들어가는 건지..? 맞다면 왜 그러는 건지? 동일한 조건이어야 더 비교가 분명할 것 같다는 생각은 드는데, 확장된 쿼리가 다 비슷해서 참여자 입장에서는 지루하거나 혼동이 될 수도 있을 것 같긴 함
- 가설과 다르게 결과가 나온 것에 대한 분석이 기술되어 있는 점이 충분한 해석을 들을 수 있어서 좋았음.
Takeaways
- contributions, bottleneck, design goal, hypothesis, metrics, coping strategies -> 모두 개괄식으로 표현되어 있는 것 좋은 것 같다 확실히 이해하기 쉬움
- Formative Study 내부에서 Method, Result 구분한 것 명확해서 좋음. 구분이 명확해지는 것 같음.
- 실험 결과 설명할 때 본문에서 수치에 대해 자세하게 언급하지 않고. 요약문으로 정말 ㅇㅇㅇ가 로드를 줄였음. 이런 식으로만 표현하고 수치적인 부분은 그래프를 사용했는데, 장단점이 있을 것 같음. 얼마나 줄였는지까지는 아니더라도 결과를 수치 괄호안에 넣고 표현하는 것까지는 좋을듯 최대한 간략하게!
- 정규분포, 통계 테스트들 이름 (그리고 다 다른 분석 기법 사용한 것) 참고
- 결과 분석한 것 좋았음..