Xidong Feng, Vivek Veeriah, Marcus Chiam, Michael Dennis, Ryan Pachauri, Thomas Tumiel, Federico Barbero, Johan Obando-Ceron, Jiaxin Shi, Satinder Singh, Shaobo Hou, Nenad Toma\v{s}ev, Tom Zahavy
개요
생성형 AI의 한계점 극복을 위해 체스 퍼즐 생성에 RL(강화 학습) 프레임워크를 적용한 연구. 체스 엔진 검색 통계를 기반으로 한 새로운 보상을 설계하여 퍼즐의 독창성, 반직관성, 다양성 및 현실성을 향상시킴. 그 결과, 기존 방식보다 10배 이상 반직관적인 퍼즐 생성에 성공했으며, 인간 전문가들로부터 창의성을 인정받아 퍼즐 북을 출판.