[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Large Language Models Engineer Too Many Simple Features For Tabular Data

Created by
  • Haebom

作者

Jaris K uken, Lennart Purucker, Frank Hutter

概要

本論文は,大規模言語モデル(LLM)を用いた表形式データの特徴工学で発生し得る偏向性を調査する。 LLMが特徴工学に使用される演算子(例えば、2つの特徴加算)の頻度で異常を検出して偏向性を検出する方法を提案する。 2つの大規模モデルと2つの小規模オープンソースモデルを27の表形式データセットに適用して実験した結果、LLMは加算などの単純演算子に偏っており、グループ化後に集計などの複雑な演算子を活用できない傾向があることを発見した。この偏向は、LLMによって生成された特徴を使用するときの予測性能に悪影響を及ぼす可能性があります。

Takeaways、Limitations

Takeaways: LLMを特徴工学に活用するときに発生する可能性があるバイアスを検出して軽減する方法を示します。 LLMの偏向が予測性能に与える悪影響を実験的に証明した。 LLMベースの特徴工学の実用化のためのTakeawaysを提供します。
Limitations:この研究は特定のLLMとデータセットに限定された結果である可能性があります。さまざまなLLMとより広範なデータセットに関するさらなる研究が必要です。提案された偏向検出方法の一般化の可能性についてのさらなる検証が必要である。
👍