Daily Arxiv

This page organizes papers related to artificial intelligence published around the world.
This page is summarized using Google Gemini and is operated on a non-profit basis.
The copyright of the paper belongs to the author and the relevant institution. When sharing, simply cite the source.

Where to Start Alignment? Diffusion Large Language Model May Demand a Distinct Position

Created by
  • Haebom
Category
Empty

저자

Zhixin Xie, Xurui Song, Jun Luo

개요

Diffusion Large Language Models (dLLMs)의 안전성 연구를 최초로 수행하고, dLLMs의 독특한 생성 특성에 맞춰진 새로운 안전성 정렬 방법인 Middle-tOken Safety Alignment (MOSA)를 제안합니다. dLLMs의 안전성에서 중요한 비대칭성을 발견하여, 중간 토큰이 전체 안전성에 더 중요하며, 공격자가 중간 토큰을 조작하는 데 어려움이 있다는 점을 밝힙니다. MOSA는 강화 학습을 사용하여 모델의 중간 생성을 안전한 거절로 직접 정렬합니다. MOSA의 성능을 다양한 공격 방법 및 벤치마크를 통해 평가하고, 코딩, 수학 및 일반 추론 작업에서의 유용성을 테스트하여 MOSA의 우수성을 입증합니다.

시사점, 한계점

시사점:
dLLMs의 안전성 연구를 최초로 수행하여 새로운 아키텍처의 안전성 문제를 해결합니다.
dLLMs의 안전성에 대한 중요한 비대칭성을 발견하고, 이를 활용한 새로운 안전성 정렬 방법 MOSA를 제안합니다.
MOSA는 다양한 공격 방법에 대해 우수한 성능을 보이며, 다양한 작업에서 유용성을 입증합니다.
한계점:
논문에서 구체적인 한계점이 명시되지 않았습니다.
👍