見出し画像

ChatGPT はどんな性格?PsychoBench を使った LLM の心理描写のベンチマーク

こんにちは、PKSHA Technology の AI Solution 事業本部にてシニアアルゴリズムリードを務めている渡邉です。近年、大規模言語モデル(LLM)をはじめとする人工知能技術が革新的な進化を遂げており、当該領域に対する世の中の関心が非常に高まっています。弊社は創業以来、人工知能技術の研究開発・社会実装を通じて様々な知識を蓄積してきました。その知識を皆様に共有し共に成長していく場として、当ブログを活用していきたいと考えています。

渡邉 陽太郎(AI Solution 事業本部 シニアアルゴリズムリード)
奈良先端科学技術大学院大学博士後期課程修了後、東北大学大学院情報科学研究科助教。その間、主に自然言語処理、特に言語の意味解析技術・推論技術の研究に従事。大手電機メーカーにてAI関連技術のプロジェクトリーダーを務めた後、PKSHA Technology 参画。現職では、多様な事業領域の顧客課題を解決するソリューション開発や対話エンジン高度化のための研究開発に従事。博士(工学)。趣味:カレー作り、作曲。

LLM の出現により対話技術の高度化が急速に進んできていることで、人間とエージェントが近づいてきています。その中で、LLM がどのような性格、気質、感情的側面を有しているか、という疑問が生じてきます。本記事では、臨床心理学でよく用いられている心理測定尺度(心理的特徴を捉えるための物差しとなるものであり、心理現象の個人差を把握するためのもの)で構成される LLM の評価フレームワークである PsychoBench を提案した論文、「Who is ChatGPT? Benchmarking LLMs’ Psychological Portrayal Using PsychoBench」(日本語訳:「ChatGPT とは?PsychoBench を用いた LLM の心理学的肖像のベンチマーク」)をご紹介します。本論文は機械学習分野のトップカンファレンスである ICLR 2024 に口頭発表として採択されています。


概要

本研究では、LLM の性格、気質、感情などの多様な心理学的側面を評価するための評価フレームワークである PsychoBench を提案しています。PsychBench は性格特性、対人関係、動機づけ、感情能力の 4 つのクラスに分類され、臨床心理学で広く使われている 13 種類の心理測定尺度で構成されています。データセットはこちらのURLで公開されています。PsychoBench を用いて、5 種類の LLM (text-davinci-003, GPT-3.5-Turbo, GPT-4, LLaMA-2-{7b,13b})の心理学的側面を評価、LLM  に関する様々な特性の違いなどの知見を提供しています。

アプローチと新規性

PsychoBench は大きく人格テスト(性格特性、対人関係、動機テスト)と能力テスト(感情能力)に分かれ、臨床心理学で広く使われている計 13 種類の心理測定尺度で構成されています。以下、それぞれの尺度について説明します。

A. 性格特性(PERSONALITY TRAITS)

A-1. Big Five Inventory(The BFI, John et al., 1999)
性格特性を測定するために広く使用され、「5 因子モデル」または「OCEAN」と呼ばれています。以下の 5 つの因子から性格を特徴づけます。

  1. 経験に対する開放性(Openness): 個人が新しいことに挑戦する意欲、創造性のレベル、芸術、感情、冒険、珍しいアイデアに対する評価。

  2. 誠実さ(Consientiousness): 個人が組織され、責任を持ち、信頼できる程度。

  3. 外向性(Extraversion): 個人がどの程度、社会的な状況からエネルギーを得ているか。

  4. 同意性(Agreeableness): 個人が対人関係においてどの程度の思いやりと協力性を示すか。

  5. 神経症(Neuroticism): 不安、怒り、抑うつなどの否定的な感情を経験しやすいか、あるいは、一般に情緒的に安定し、ストレスに対する反応性が低いか。

A-2. Eysenck Personality Questionnaire(Revised)(EPQ-R, Eysenck et al., 1985)
性格特性の個人差を測定するために用いられる心理評価ツールです。以下の 3 つの次元(E, N, P)のうち、E と N の 2 次元は BFI の次元と重なります。

  1. 外向性(Extraversion): 個人が発信、社会、活発である程度と内向的、控えめ、静かであるかどうかを測定する。

  2. 神経症(Neuroticism): 情緒の安定性を意味する。

  3. 精神病理(Psychoticism): 孤独であること、共感を欠き、より攻撃的であること、または強靭であることへの傾向。

A-3. Dark Triad Dirty Dozen (DTDD, Jonason & Webster, 2010)
Dark Triad は、自己愛傾向、マキャベリアニズム、サイコパシー、という 3 つの反社会的なパーソナリティ特性を指します。DTDD は、これら 3 つの中核的な性格特性を評価するためにデザインされました。

  1. 自己愛傾向(Narcissism): 自己重要性の壮大な感覚、無制限の成功の幻想への偏執、過剰な賞賛の必要性を伴う。

  2. マキャベリアニズム(Machiavellianism): 対人関係における操作的な戦略であり、道徳を冷笑的に無視する。

  3. サイコパシー (Psychopathy): 衝動性、低共感、対人拮抗を含む。

B. 対人関係(INTERPERSONAL RELATIONSHIP)

B-1. Bem’s Sex Role Inventory (BSRI, Bem, 1974)
伝統的な男性的・女性的属性(Bem, 1977; Auster & Ohm, 2000)を支持する個人を測定するものです。スポーツや料理の活動などの行動に特化した基準ではなく、自己主張や優しさなどの心理的特徴に焦点を当てた尺度です。

B-2. Comprehensive Assessment of Basic Interests(CABIN, Su et al., 2019)
41 の基本的な職業的関心の次元を特定するための包括的評価を含む尺度です。健康科学、創造的表現、技術、人、組織、影響力、自然、物などから構成されます。

B-3. Implicit Culture Belief(ICB scale, Chao et al., 2017)
人間は自分が帰属する民族文化によって形成されている、とどの程度考えているかを評価する尺度です。スコアが高いほど、個人の民族文化が主にアイデンティティ、価値観、世界観を決定しているという確信が強いことを示します。スコアが低いほど、個人のアイデンティティが専心、努力、学習を通じて進化するという信念を意味します。

B-4. Experiences in Close Relationships(Revised)(ECR-R, Fraley et al., 2000)
成人の愛着パターンの個人差、特に恋愛関係の文脈で評価するために考案された尺度です。具体的には、以下の2つの観点が含まれます。

  1. Attachment Anxiety(愛着不安): 恋愛相手から拒絶されたり見捨てられたりすることに対する個人の心配を反映します。

  2. Attachment Avoidance (愛着回避): 親密さや依存感による不快感を理由に、相手との感情的・身体的な距離を保とうとする程度を測定します。

C. 動機に関するテスト(MOTIVATIONAL TESTS)

C-1. General Self-Efficacy(GSE Scale, Schwarzer & Jerusalem, 1995)
様々な困難な要求を処理する能力を個人が信じているかどうかを評価します。これは自己効力感(self-efficacy)と呼ばれます。この尺度のスコアが高いほど、困難な状況に取り組み、新しいタスクや困難なタスクを管理し、それに伴う逆境に対処する能力があると信じます。逆に、スコアが低い人は、困難に対処する自信がなく、逆境に直面したときに無力感、不安、回避などの感情を抱きやすくなります。

C-2. Life Orientation Test(Revised)(LOT-R, Scheier et al., 1994)
楽観主義と悲観主義の個人差を測定します。楽観主義の項目でスコアが高く、悲観主義の項目でスコアが低いほど、より楽観的な志向であることを示します。

C-3. Love of Money Scale(LMS, Tang et al., 2006)
個人の金銭に対する態度や感情を評価する尺度です。個人が資金を権力、成功、自由の源泉としてどの程度見ているか、また、行動や意思決定を促進する上でどの程度重要であるかを測定するために設計されています。LMSの3つの要素からなります。

  1. Rich: 個人がどの程度、成功や達成と金銭を結びつけているかを捉える

  2. Motivator: 個人の人生における金銭の動機づけの役割、すなわち、個人が意思決定や行動において金銭によってどの程度動かされているかを測定

  3. Important: 個人がお金をどれだけ重要視しているかを測定。個人の価値観、目標、世界観に影響を与える。

D. 感情に関する能力(EMOTIONAL ABILITIES)

D-1. Emotional Intelligence Scale(EIS)
感情知能 (Emotional Intelligence, EI)の様々な構成要素に焦点を当てた尺度です。EIS は、心理研究において、幸福感、職務遂行能力、対人関係など、様々な成果における情緒的知性の役割を検討するために広く利用されています。

D-2. Wong and Law Emotional Intelligence Scale(WLEIS, Wong & Law, 2002)
EIS と同様にEIの自己報告尺度として開発されたものですが、以下の 4 つの尺度が含まれる点が特徴です。

  1. 自己情動評価(Self-emotion appraisal, SEA): 個人が自分自身の感情を理解し認識する能力を評価します。

  2. 他者感情評価(Others’ emotion appraisal, OEA): 他者の感情を知覚し、理解する能力を評価します。

  3. 感情の利用(Use of Emotion, UOE): 思考や問題解決など、様々な認知活動を促進するために感情を利用する能力を評価します。

  4. 感情の調節(Regulartion of emotion, ROE): 自分自身や他者の感情を調節し、管理する能力に関係した尺度です。

D-3. Empathy Scale(Dietz & Kleinlogel (2014))
Davis (1983)で最初に提案された共感尺度のより簡潔なバージョンです。共感とは、他人の感情を理解し共有する能力で、認知的共感と感情的共感の 2 種類に大別されます(Batson, 2010)。

  1. 認知的共感: 他人の思考、信念、感情を認識し、理解する知的能力。

  2. 感情的共感: 他者が経験している感情を直接的に感じる知的能力。

実験設定

利用するモデルは、OpenAI の GPT 系モデル 3 種類 (text-davinci-003, GPT-3.5-Turbo, GPT-4)と、Meta 社の LLaMA 2(7B, 13B)です。GPT-4 については、Jailbreak したモデル(Alignmentによる発話内容を制御された状態が解除されたもの)も比較対象として用いられています。また、クラウドソーシングを通じて(一部男女別の)人の評価結果も示されます(Crowdとして表記)。

LLM に対して上記のようなテンプレートに基づくプロンプトを用います。各尺度に関して取りうる値の範囲が決まっているため、それを MIN と MAX で指定し、スケールの指示やレベルの定義を入れ、最後に質問を入れます。

結果

性格特性(PERSONALITY TRAITS)に関するテスト結果

こちらの表から、LLM によって異なる性格特性を示していることがわかります。例えば、GPT-3.5-Turbo は DTDD で計測された反社会的性格特性であるナルシシズム、マキャベリズム、サイコパス特性が強く出ています。この特徴は GPT-4 ではかなり抑制されていることがわかります。ただし、Jailbreak を適用することで反社会的性格特性が現れています(GPT-4 vs GPT-4-jb)。

対人関係(INTERPERSONAL RELATIONSHIP)に関するテスト結果

まず、BSRI の結果の Conclusion に記載されている 4 つの数値は、「識別困難:男性性:女性性:男女両性」の 4 つの性役割のどれに該当するかが頻度の分布で示されています。これより、通常 LLM の性別は識別困難であるが、人によるフィードバックを通じて学習された(アライメントが適用された)モデルである GPT-3.5-Turbo や GPT-4 は男性性が表現されやすくなる傾向があることが示されています。
CABIN については、通常の 41 カテゴリだけでなく縮約されたカテゴリセット( 6、8 カテゴリ)の結果も示されています。ここで、赤色は最も望んだ職業、青色は最も望まなかった職業です。LLM の全体の傾向として、人の評価結果(Crowd)と最大値・最小値が同一であるものが複数あることなどから、LLM は職業選択において人と類似した傾向を示していることがわかります。

動機に関するテスト(MOTIVATIONAL TESTS)結果

こちらの表は動機に関連する心理測定の結果です。
まず、GSE の結果から、LLM は人と比較して高い自己効力感(self-efficacy)を持っていることがわかります。LLM の中では、GPT 系モデルが高い傾向があり、GPT-4 が最も高い値を示しています。
楽観主義傾向については、text-davinci-003 で特に顕著で、GPT-3.5-Turbo や GPT-4 でその値が低下しています(LOT-R)。
金銭的所有の重要性・欲求(LMS)については、GPT 系モデルがLLaMA-2 モデルや平均的な人間集団よりも高い値を示しています。

感情に関する能力(EMOTIONAL ABILITIES)のテスト結果

LLM は平均的な人間よりと同等またはそれ以上のに高い感情知能を持ち、特に GPT-4 は顕著に高い感情に関する能力を有していることが示されました。LLM 間では、LLaMA よりも GPT 系モデルの方が感情知能の数値が高い傾向がありました。また、GPT-4 の Jailbreak によって、EIS(感情知能)、Empathy(共感)は大きく低下するという結果が得られており、アラインメントを通じて感情知能が高まっていると言えます。

役割を与えることによって、人格がどの程度変化するか

これまで LLM の性格特性について調査してきましたが、疑問として出てくるのは LLM に与える役割が変わることで、回答の傾向はどのように変化するか、です。こちらの実験では、GPT-3.5-Turbo に対して 4 つの役割を与えた上で、回答の傾向がどのように変化するかを調査しています。4 つの役割は具体的には、一般人を表す平均的な役割(Ordinary)、英雄を表 すポジティブな役割(Hero)、サイコパス(Psychopath)と嘘つき (Liar)を体現するネガティブな役割で構成されます。
以下の 2 つのタスクで評価をおこない、加えて反社会的パーソナリティ傾向(DTDD)と嘘つき傾向(EPQ-RのLyingの値)も評価しています(論文中では直接の言及はありませんでしたが、上記の性格特性の変更による振る舞いの違いを顕著に捉えられる尺度であるためと思われます)。

  1. TruthfulQA: 健康、法律、金融、政治など 38 のカテゴリから構成される QA データで、人の誤った信念や誤解のために誤った回答をする傾向のある問いが含まれます。多肢選択問題であり、LLM はその中から最適な答えを選択することが求められます。

  2. SafetyQA: 安全でない、有害な引き出す可能性のある質問を投げかけます。生成された回答の安全性は GPT-4 を用いて評価されます。

上記のグラフより、様々な役割によって性格特性が大きく変わることがわかります。
まず、平均的な役割はデフォルトの性格特性と類似する傾向が観測されました。
サイコパスや嘘つきなどの負の役割では、反社会的パーソナリティ(自己愛傾向、マキャベリアニズム、サイコパシー)傾向が強く出ており、また、SafetyQA の結果から一貫して毒性に傾いたコンテンツを生み出す傾向が観測されています。 一方、TruthfulQA では、モデル内に埋め込まれた基礎知識は主に役割の割り当てに影響されないため、精度への影響は限定的となりました。

おわりに

AI エージェントが今後世の中に広く普及していくことが想定される中、LLM の基本的な性格特性を捉えること、またそれが与えられる役割によってどのように変化するかを把握することはとても重要です。本研究での分析から、LLM の持つ基本的な性格特性・感情スキルはモデルによって異なり、また、LLM に対して与える役割によっては、嘘をついたり安全でない発話をするような反社会的な性格特性も持たせてしまえることが明らかになりました。これは、 LLM を社会課題解決に活用していく上でも非常に重要な知見であると考えています。

―INFORMATION―
PKSHA Technology では、共に働く仲間を募集しています。このような技術に興味を持っていただけた場合は、採用サイトや Wantedly から応募やカジュアル面談が可能ですので、是非ご覧ください!

▼ 中途採用:アルゴリズムエンジニア(データサイエンティスト)

25 新卒:アルゴリズムエンジニア(データサイエンティスト)本選考はこちら

26 新卒:アルゴリズムエンジニア(データサイエンティスト)インターン選考はこちら

▼ カジュアル面談も受付中です!Wantedly はこちら