Cet article vise à développer un système automatisé permettant de fournir aux auteurs des commentaires utiles lors de l'évaluation par les pairs. Pour répondre aux contraintes de temps des évaluateurs, nous proposons quatre dimensions clés qui améliorent l'utilité des évaluations : l'exploitabilité, les preuves et la spécificité, la vérifiabilité et l'utilisabilité. Pour évaluer ces dimensions et faciliter le développement de modèles, nous introduisons l'ensemble de données RevUtil, qui contient 1 430 commentaires d'évaluation étiquetés manuellement et 10 000 données étiquetées synthétiquement. Ces données synthétiques incluent également des justifications expliquant les scores de chaque dimension. À l'aide de l'ensemble de données RevUtil, nous comparons des modèles affinés qui évaluent ces dimensions et génèrent des justifications. Les résultats expérimentaux montrent que les modèles affinés concordent avec les humains, comparables, voire supérieurs, à des modèles fermés performants comme GPT-4o. Cependant, les évaluations générées automatiquement obtiennent généralement de moins bons résultats que les évaluateurs humains sur ces quatre dimensions.