Sign In

AIPsy-Affect: A Keyword-Free Clinical Stimulus Battery for Mechanistic Interpretability of Emotion in Language Models

Created by
  • Haebom
Category
Empty

์ €์ž

Michael Keeman

๐Ÿ’ก ๊ฐœ์š”

์ด ๋…ผ๋ฌธ์€ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ(LLM)์—์„œ ๊ฐ์ •์˜ ๊ธฐ๊ณ„์  ํ•ด์„ ์—ฐ๊ตฌ์— ์žˆ์–ด์„œ ๋‹จ์–ด ์ž์ฒด์— ์˜์กดํ•˜๋Š” ๊ธฐ์กด ๋ฐฉ์‹์˜ ํ•œ๊ณ„๋ฅผ ์ง€์ ํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด, ํ”Œ๋Ÿฌ์ฒ˜ํฌ์˜ 8๊ฐ€์ง€ ๊ธฐ๋ณธ ๊ฐ์ • ๊ฐ๊ฐ์„ ์ง์ ‘์ ์ธ ๊ฐ์ • ๋‹จ์–ด ์—†์ด ์ด์•ผ๊ธฐ ์ƒํ™ฉ๋งŒ์œผ๋กœ ์œ ๋ฐœํ•˜๋Š” 480๊ฐœ์˜ ์ž„์ƒ ์ž๊ทน ๋ฐ์ดํ„ฐ์…‹์ธ AIPsy-Affect๋ฅผ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. ์ด ๋ฐ์ดํ„ฐ์…‹์€ ๊ฐ์ • ๋‹จ์–ด์˜ ์กด์žฌ์™€ ๊ฐ์ • ์ž์ฒด๋ฅผ ๋ถ„๋ฆฌํ•˜์—ฌ LLM์˜ ๊ฐ์ • ์ฒ˜๋ฆฌ ๋ฉ”์ปค๋‹ˆ์ฆ˜์— ๋Œ€ํ•œ ๋ณด๋‹ค ์ •ํ™•ํ•œ ํ•ด์„์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค.

๐Ÿ”‘ ์‹œ์‚ฌ์  ๋ฐ ํ•œ๊ณ„

โ€ข
๊ฐ์ • ๋‹จ์–ด์™€ ๊ฐ์ • ํ‘œํ˜„์˜ ๋ถ„๋ฆฌ: AIPsy-Affect ๋ฐ์ดํ„ฐ์…‹์€ LLM์ด ๊ฐ์ • ๋‹จ์–ด ์ž์ฒด๋ฅผ ์ธ์‹ํ•˜๋Š” ๊ฒƒ์ธ์ง€, ์•„๋‹ˆ๋ฉด ์‹ค์ œ ๊ฐ์ •์„ ์ดํ•ดํ•˜๊ณ  ์ฒ˜๋ฆฌํ•˜๋Š” ๊ฒƒ์ธ์ง€ ๋ช…ํ™•ํ•˜๊ฒŒ ๊ตฌ๋ถ„ํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ•จ์œผ๋กœ์จ ๊ธฐ๊ณ„์  ํ•ด์„ ์—ฐ๊ตฌ์˜ ์‹ ๋ขฐ์„ฑ์„ ๋†’์ž…๋‹ˆ๋‹ค.
โ€ข
์ •๊ตํ•œ ๊ฐ์ • ํšŒ๋กœ ๋ถ„์„ ์ง€์›: ์„ ํ˜• ํ”„๋กœ๋น™, ํ™œ์„ฑํ™” ํŒจ์นญ, ํฌ์†Œ ์˜คํ† ์ธ์ฝ”๋”(SAE) ํŠน์ง• ๋ถ„์„, ์ธ๊ณผ์  ์ œ๊ฑฐ, ์ œ์–ด ๋ฒกํ„ฐ ์ถ”์ถœ ๋“ฑ ๋‹ค์–‘ํ•œ ๊ธฐ๊ณ„์  ํ•ด์„ ๊ธฐ๋ฒ•์„ ๊ฐ์ • ๋‹จ์–ด์˜ ํ˜ผ๋ž€ ์—†์ด ์ ์šฉํ•  ์ˆ˜ ์žˆ์–ด, LLM์˜ ๊ฐ์ • ๊ด€๋ จ ๋‚ด๋ถ€ ํ‘œํ˜„์„ ๋” ๊นŠ์ด ์ดํ•ดํ•˜๋Š” ๋ฐ ๊ธฐ์—ฌํ•ฉ๋‹ˆ๋‹ค.
โ€ข
๋ฐ์ดํ„ฐ์…‹์˜ ์ž„์ƒ์  ์œ ํšจ์„ฑ ๋ฐ ํ™•์žฅ์„ฑ: ๋ณธ ์—ฐ๊ตฌ๋Š” ๊ธฐ์กด ๋ฐ์ดํ„ฐ์…‹์„ 4๋ฐฐ ํ™•์žฅํ•˜๊ณ , ์ž„์ƒ์  ํƒ€๋‹น๋„๋ฅผ ํ™•๋ณดํ–ˆ์œผ๋ฉฐ, MIT ๋ผ์ด์„ ์Šค๋กœ ๊ณต๊ฐœํ•˜์—ฌ ๊ด€๋ จ ์—ฐ๊ตฌ ์ปค๋ฎค๋‹ˆํ‹ฐ์˜ ๋ฐœ์ „์„ ์ด‰์ง„ํ•ฉ๋‹ˆ๋‹ค.
๐Ÿ‘