연방준비제도|기타|2026.01.01

FEDS 워킹페이퍼: 'LLM은 무엇을 원하는가' — 대형언어모델은 사람보다 더 강한 '불평등 회피' 선호를 가진다

- Fed 이코노미스트 4명, FEDS 2026-006: 독재자 게임에서 LLM이 균등 분배 제안 — Fehr-Schmidt 추정 불평등 회피 강도가 사람보다 강함
- 선호는 견고하지 않다 — 프롬프트 마스킹·통제 벡터로 페이오프 극대화 행동으로 이동, 페르소나 프롬프트는 효과 제한적
- McCall 직장탐색 동적 환경에서는 응답이 덜 합리화 — 정책 시뮬레이션에 LLM 행위자 그대로 쓰면 분배 결과가 평등주의로 편향

#연방준비제도 #LLM 경제적 선호 #현시 선호(Revealed Preference)#불평등 회피(Inequality Aversion)#McCall 직장탐색 모형 #인공지능(AI) 생산성 #대형언어모델 고용 영향

연방준비제도(Fed) 캔자스시티 연은의 Thomas R. Cook, Stanford HAI의 Sophia Kazinnik, 연준 이사회(Board of Governors)의 Zach Modig·Nathan M. Palmer가 공저한 FEDS 워킹페이퍼 2026-006 — *What Do LLMs Want?* — 가 2026년 1월 발간됐다.

페이퍼는 'LLM이 경제 의사결정 과제에서 드러내는 잠재 선호(latent preferences)'라는 다소 도발적인 질문을 정면으로 다룬다. LLM은 실제로 무엇을 '원하지(want)'는 않지만 — 감각이 없으니까 — 대규모 인간 텍스트로 사전학습되고 RLHF로 미세조정되는 과정에서 사람의 '선호와 유사한 행동 경향'이 내재화된다. 저자들은 실험경제학(experimental economics)의 도구와 논리를 빌려 이 경향을 정량화했다.

실험 1: 독재자 게임 — LLM은 '균등 분배'를 선호

저자들은 캐노니컬한 분배 게임(canonical allocation games)으로 시작한다. 모델에게 고정된 금액을 자기와 다른 당사자 사이에서 나누라고 요구하는 '독재자 게임(dictator game)' 변형이다.

결과는 직관과 다르다.

Most models offer close to an even split, even in situations where a purely self-interested agent would not share. These outcomes resemble altruistic behavior observed in human laboratory experiments and fit well within inequality-averse utility models such as Fehr-Schmidt preferences.

'대부분 모델은 순수한 이기적 행위자라면 나누지 않을 상황에서도 균등 분배에 가까운 제안을 한다'는 결과다. 사람의 실험실 실험에서 관찰되는 이타적 행동과 닮았고, Fehr-Schmidt 효용함수(불평등 회피 모형)에 잘 들어맞는다.

페이퍼의 더 흥미로운 발견은 강도다.

Our estimated parameters indicate even stronger aversion to unequal outcomes than typical human data suggest.

'추정된 모수는 일반적인 사람 데이터보다도 더 강한 불평등 회피를 시사한다'. LLM은 '사람보다도 더 사회적 선호가 강한 행위자'처럼 행동한다는 의미다.

그러나 '공정성'은 깨지기 쉽다

핵심 발견은 다음 단계에 있다. LLM의 분배 친화 행동은 견고하지 않고 프레이밍과 개입에 따라 무너진다.

저자들은 세 가지 '조타 메커니즘(steering mechanisms)'을 비교했다.

1. 프롬프트 마스킹(prompt masking) — 과제의 사회·경제 맥락을 가려서 재구성. 예: 자원 배분을 '통화 환전'처럼 제시.
2. 페르소나 프롬프트(persona prompts) — 특정 인구·사회 특성을 가진 행위자 관점을 채택하라고 지시.
3. 통제 벡터(control vectors) — 모델 내부 표현(internal representations)에 직접 개입해 잠재 축을 따라 행동을 이동.

결과는 메커니즘별로 차이가 컸다.

프롬프트 마스킹과 통제 벡터는 페이오프 극대화(payoff-maximizing) 방향으로 행동을 신뢰성 있게 이동시켰다.
페르소나 기반 프롬프트는 영향이 제한적이었다. 특히 최신 모델일수록 페르소나 효과가 약하고 신뢰도가 낮았다.
1인칭에서 3인칭으로 시점을 바꾸는 미세한 변화만으로도 체계적인 행동 차이가 발생했다.

실험 2: McCall 직장탐색 — 동적 환경에서 '흔들리는 합리성'

저자들은 분석을 더 복잡한 환경으로 확장한다. McCall(1970)의 표준 직장탐색 모형(sequential job-search environment)에서 LLM이 '제시된 임금 제안을 수락할지 거절할지'를 순차적으로 결정하게 했다.

구조 추정으로 '함의된 할인 인자(implied discount factor)'를 복원해보니, 응답이 분배 게임만큼 일관되게 합리화되지 않았다.

Here, we recover implied discount factors from accept/reject behavior, but find that responses are less consistently rationalizable and preferences more fragile.

'동적 환경에서는 모델의 선호가 덜 안정적이고, 무작위성이나 맥락 단서에 더 큰 영향을 받는다'. 일회 게임(one-shot game)에서 보였던 안정된 '인격성'이 동적 의사결정에서는 흩어진다는 의미다.

핵심 함의 두 가지

페이퍼는 결론을 두 문장으로 압축한다.

Our findings highlight two core insights: (i) LLMs exhibit structured, latent preferences that often align with human behavioral norms, and (ii) these preferences can be steered, albeit more effectively in simple settings than in complex, dynamic ones.

1. (i) LLM은 구조화된 잠재 선호를 가진다 — 종종 사람의 행동 규범에 맞춰진. 이는 LLM이 단순한 '확률적 앵무새'가 아니라 측정 가능한 행동 규칙성을 가진다는 뜻이다.
2. (ii) 그 선호는 조타 가능하다 — 단, 단순한 환경에서 더 효과적이고, 복잡한 동적 환경에서는 덜 효과적이다.

왜 Fed가 이 연구를 했는가 — 정책·금융 관점

FEDS 워킹페이퍼가 LLM 행동경제학 연구를 다루는 게 의외로 보일 수 있다. 그러나 페이퍼의 동기는 명확히 정책·금융 응용에 있다.

중앙은행·감독 차원의 함의:
- LLM이 경제 추론(economic reasoning)에 점점 많이 쓰인다 — 시뮬레이션 행위자, 가계·기업 의사결정 대리(proxy), 정책 시나리오 분석. 이때 '편향(bias)'을 모르고 쓰면 결과가 왜곡된다.
- LLM의 '사람보다 강한 불평등 회피'는 LLM이 시뮬레이션한 가계 분배 결과가 실제 가계 행동보다 더 평등주의적으로 편향될 수 있음을 시사한다. 분배 정책 모델링에 그대로 쓰면 위험하다.
- 동적 환경에서 LLM 선호가 흔들린다는 결과는 시계열·동적 의사결정 시뮬레이션(예: 직장탐색, 주택구매, 포트폴리오 리밸런싱)에 LLM 에이전트를 그대로 쓰면 안 된다는 경고다.

금융 응용:
- 신용평가·면접·고객 대화에 LLM이 들어가는 추세에서, 모델의 잠재 '공정성 선호'와 '맥락 의존성'을 감독 차원에서 추적해야 함.
- 페이퍼의 메서드 — 현시 선호 프레임워크로 LLM 선호 모수 추정 — 는 향후 'AI 행동 감사(behavioral auditing)'의 기술적 기반이 될 수 있다.

메타 — Fed의 LLM 연구 흐름

이 페이퍼는 Fed 이사회·연은이 2025년 이후 진행해온 LLM 관련 FEDS 시리즈의 일부다. 같은 시기 페이퍼들이 보여주는 패턴은 다음과 같다.

2026-018 (AI and Coder Employment) — AI가 노동시장에 미치는 거시 영향
2026-020 (Validating LLM Annotations) — LLM 주석의 신뢰성 검증 방법론
2026-006 (What Do LLMs Want?) — LLM의 선호 자체를 측정

공통 메시지: 'LLM을 정책·연구 도구로 쓰려면, 그 LLM 자체의 행동 규칙성과 한계를 정량적으로 알아야 한다'. Fed는 'AI를 어떻게 쓸 것인가'와 'AI를 어떻게 평가할 것인가'를 동시에 연구하고 있다.

한국 시사점

한국은행·금융감독원·금융위 차원에서도 LLM의 정책·감독 활용이 본격화되고 있다.

시나리오 분석에 LLM 도입 시 '불평등 회피 편향'을 보정하는 절차 필요 — LLM이 시뮬레이션한 가계 행동은 실제보다 더 평등주의적일 수 있음.
고객 응대·신용평가 LLM에 대한 행동 감사 프레임워크 — 페이퍼의 현시 선호 메서드를 한국 금융사 LLM 평가에 적용할 여지.
연구·통계 작업에 LLM 주석 활용 시 검증 표준 — Fed의 동시기 페이퍼 2026-020과 함께 참고 가치.

페이퍼는 'LLM을 경제 행위자로 다루는 것은 정보적이다, 단 맥락을 통제하고 노이즈와 구조를 분리하는 모형으로 선호를 추정하며 조타 가능성을 명시적으로 검증할 때만'이라는 균형 잡힌 결론으로 마친다.

시리즈 시간축

FEDS Working Papers · 16건

핵심 데이터

01
핵심 결론: 'LLM은 (i) 사람의 행동 규범과 일치하는 구조화된 잠재 선호를 보이며, (ii) 단순한 환경에서는 효과적으로, 복잡한 동적 환경에서는 덜 효과적으로 조타 가능하다'
02
독재자 게임 결과: '대부분 모델은 순수한 이기적 행위자라면 나누지 않을 상황에서도 균등 분배에 가까운 제안을 한다 — 이는 사람의 실험실 실험에서 관찰되는 이타적 행동과 닮았고 Fehr-Schmidt 같은 불평등 회피 효용 모형에 잘 들어맞는다'
03
정량 비교: 'Fehr-Schmidt 모수의 구조 추정 결과, LLM의 불평등 회피 강도는 일반적인 사람 데이터에서 관찰되는 수준을 초과한다'
04
동적 환경 한계: 'McCall 직장탐색 모형의 수락/거절 행동에서 함의된 할인 인자를 복원할 수 있으나, 응답은 일관되게 합리화되지 않으며 선호가 더 취약하다'
05
조타 메커니즘 비교: 프롬프트 프레이밍(예: 사회 맥락 마스킹)과 통제 벡터는 모델을 페이오프 극대화 행동으로 신뢰성 있게 이동시키는 반면, 페르소나 기반 프롬프트는 — 특히 최신 모델에서 — 영향이 제한적
06
FEDS 워킹페이퍼 2026-006 발간일 2026년 1월. 저자: Thomas R. Cook(Kansas City Fed), Sophia Kazinnik(Stanford HAI), Zach Modig·Nathan M. Palmer(Fed 이사회). DOI 10.17016/FEDS.2026.006. JEL: C63·C68·C61·D14·D83·D91·E20·E21

출처

Citation

연방준비제도 · FEDS Working Papers · 2026.01.01

[1]
Federal Reserve FEDS Working Paperhttps://www.federalreserve.gov/econres/feds/what-do-llms-want.htm
[2]
Federal Reserve FEDS Working Paperhttps://www.federalreserve.gov/econres/feds/files/2026006pap.pdf
[3]
Federal Reserve FEDS Working Paperhttps://doi.org/10.17016/FEDS.2026.006

← 모든 이슈