「科学哲学会ワークショップ『AI×実験哲学の可能性』」報告
前回の投稿からかなり間が空いてしまいましたが、今回は昨年12月に中間報告を兼ねて行った学会ワークショップについて報告させていただきます。本ワークショップ『AI×実験哲学の可能性』は、筑波大学で行われた科学哲学会(2023/12/2-12/3)の二日目午後に、学会の公募ワークショップとして開催されました。本ワークショップではプロジェクト代表の稲荷森がオーガナイザー兼提題者を務め、そのほかプロジェクトメンバーの晴木・竹下からも提題を行ったほか、名古屋大学の久木田水生准教授をゲストに迎え、本テーマに関するコメンタリーをいただきました。
以下、各提題の要旨およびフロアからの質問について報告します。
・稲荷森報告
稲荷森報告「AI実験哲学の可能性と課題」では、大規模言語モデル(Large Lamguage Model/LLM)を用いた実験哲学的・心理学的研究の可能性について提案がなされた。Chat GPTシリーズに代表される昨今のLLMは、「誤信念課題」をはじめとして、人間の被験者に与えられるのと同じような心理学実験課題を遂行することができる。同様にLLMは、いわゆる「ゲティア事例」など、哲学的な思考実験の数々にも回答を与えることが可能である。こうしたLLMの目覚ましい発展は、心理学研究並びその応用である実験哲学での活用可能性を示唆している。本報告ではLLMを応用した心理学研究・実験哲学に関する以下五種類の区分を提案した。
![]() |
| 報告を行う稲荷森 |
- 内在的・非内在的
- 強い・弱い
- 予測的・非予測的
- 単数的・集合的
- シミュレーション的・非シミュレーション的
本分類は心理学研究と実験哲学の両方に適用できる分類であり、LLMを用いた特定の研究は、本分類から導かれる32種類のいずれかに当てはまる。本報告の後半では、これら区分のうち予測的研究と非予測的研究に着目した。人間の心理メカニズムを明らかにすることが目的の心理学研究一般の場合、人間の回答を予測しないLLMの回答が役立つ場面は限定的である。しかし心理学研究一般とは異なり、実験哲学では非予測的研究が大きな役割を果たす可能性がある。
実験哲学が盛んになった2000年代以降、人間の哲学的直観は課題のフレーミングや提示順序など、哲学的真理と無関係の様々な要因によって影響されることが明らかとなった。また、自由意志の実験哲学など一部領域では、一般の人々の多くが課題の理解に失敗してしまうことが知られている。このように、実験哲学で得られる直感データには様々なバイアスが影響している。これに対しLLMなどの人工知能は、人間が影響される諸々のバイアスから自由でありうる。そして、もしその結果としてLLMが人間の回答とは異なる非予測的回答を産出するなら、そうした回答は人間の直観よりもより高い確率で哲学的真理をトラックしている&問題の正確な理解に基づく直観を反映しているという意味で、人間の直観よりも哲学的探究にとってベターであり得る。
本提題では実際にいくつかのモデルを用いて行った自由意志の実験哲学に関するデータも示された。残念ながら、現状のLLMは人間以上に無関連要因への感受性が高く、また人間よりも正確に「決定論」のような哲学的概念を正確に理解しているとも言えないようである。しかし、将来的にLLMの直観が人間の直観よりも信頼できる証拠となる可能性は否定できない。
・晴木報告
稲荷森に引き続き、認知心理学を専門とする晴木から、自由意志の実験哲学で得られた成果についての報告「実験哲学の実際:一般人を対象とした大規模調査からの問題提起」がなされた。本報告では、プロジェクトの一環である日本語母語話者を対象とした大規模実験の成果が公表された。日本人約1200名を対象として行った本調査では、自由意志の実験哲学でよく用いられるシナリオ提示型の実験を実施した。具体的には、あらゆる出来事が因果的に一意に決定される決定論的な世界を描写したシナリオを実験参加者に提示したうえで、実験参加者のシナリオ理解度、およびシナリオ内に登場する人物への自由意志・責任帰属に関する直観を調べた。その結果、先行研究で示された結果と同様、実験に参加した人々の多くは提示されたシナリオを正しく理解することに失敗していた。とりわけ、決定論的状況においては行為者の心的状態が因果的効力をもたないという「バイパス判断」が広範に見受けられ、殆どの人は決定論と運命論とを混同していることが明らかとなった。また、バイパス判断と自由意志・責任帰属直観には負の相関があることも示された。注目すべきことに、本実験ではシナリオの理解度に加えて質問紙を用いた処罰欲求の測定を行った。その結果、道徳的責任の帰属については処罰欲求が最も高い説明力を有することが明らかとなった。
![]() |
| 報告を行う晴木 |
一方、同様の実験課題をChat-GPTに与えた場合、こうした人間の回答傾向とは異なる反応が得られるようである。Chat-GPTも人間と同様、バイパスを意味するバイパス文へ肯定的回答を与えてしまうという点では同様の傾向を示すが、決定論が別-可能性を排除するという点については人間の被験者よりもよく理解しており、処罰欲求については中立的な回答を示すなど、一般的な非-哲学者とは異なる回答傾向を示すことが明らかとなった。
・竹下報告
稲荷森、晴木に続き、第三報告者である竹下からは「大規模言語モデルの出力を技術的観点から考える」と題した発表がなされた。本提題では既存のLLMがもつ様々なバイアスに着目し、実験哲学にLLMを用いる上で生じる種々の懸念が検討された。竹下報告ではまず、LLMとは何かについて簡単な解説が行われた。LLMは事前学習ステップにおいて、 次の単語の予測を通じて、言語の特徴を学習する。その結果LLMは、 系列(単語列)が与えられたときに、次の単語の確率を予測し、 系列に対して確率(その単語列がどれほどありそうか)を計算できるようになる。このようにしてLLMは、与えられた単語列に対して、あたかも人間のような応答をすることができる。LLMの学習データは人間がもつそれに比べてはるかに膨大であり、その中にはPhilpaperでアクセス可能な哲学論文の殆ども含まれていると考えられる。このような大規模データによる学習と膨大な数のパラメータが、様々な領域におけるLLMの創発能力を可能にしている。
竹下曰く、LLMを用いた実験には予測的・非予測的に関係なく、1. 実験コスト(金銭、時間等)の削減、2. 人に対する危害がないので、倫理審査不要といったメリットがある。一方、非予測的研究に貢献するために必要なこととして、人間の言語のコピー以上の振る舞い・人間のようなバイアス・理解不足に悩まされないの二点が必要であると考えられる。このうち「コピー以上の振る舞い」については、ある程度達成されていると考えてよいかもしれない。なぜなら、LLMの振る舞いを単に学習データのコピーとして説明することには無理があるからだ。たとえば、Meta社が開発したLLMであるLLaMAのモデルサイズは、実際に用いられた学習データに比べてはるかに小さいことが分かっているし、LLMの回答が常に学習データと一致するわけではない。とはいえ、実際に出力されたデータがデータ記憶に基づくものであるかどうかを判断する現実的な方法が存在しないという点で、与えられた課題に対する回答が単なるコピーに過ぎないという懸念を完全に払しょくすることは難しい。
一方、「バイアス・理解不足に悩まされない」という点についてはより多くの課題が残されている。Chat-GPTをはじめとするLLMの回答は、ジェンダーや非ヒト動物に関して様々な差別的バイアスを反映することが知られているほか、モデルによって反映している政治的立場や社会階層が異なることも指摘されている。Open AIはこうしたバイアスを低減するためにRLHF(人間のフィードバックによる強化学習)を行い、モデルが差別的発言をしないようチューニングを施している。しかし、こうした介入は結局のところ、Open AIの価値観を反映する以上のことを達成できないだろう。加えて、学習データの大半が英語のテキストデータである以上、文化的なバイアスの反映は避けられない。
これらの問題を解決するためには、モデルにより中立的な価値観を埋め込む必要がある。しかし、そもそもそのように絶対的に中立な価値観なるものを規定することはおよそ不可能である。次善策として、バイアスを取り除くこと自体はあきらめ、社会階層や文化圏ごとにモデルを作成するという方向もありうるかもしれない。とはいえ、そのようなLLMが実験哲学にとって有用なモデルといえるかどうかは定かでない。
・久木田
三人の発表が終わったのちに休憩を挟み、最後にゲストの久木田水生(名古屋大学准教授)より提題「AI科学とAI実験哲学」を発表いただいた。久木田氏によれば、LLMは現在、タンパク質配列を学習したLLMに未知のたんぱく質を予測させるといった仕方で、自然科学諸分野で活用が進みつつある。ゲノム研究や進化生物学の分野でもこうした領域特化型LLMの開発が進んでいる。将来的には、こうした領域特化型のAIとロボットによる実験が組み合わさり、LLMがもつ膨大なデータを用いて仮説を生成し、機械的に反復される実験によってその仮説を検証することで、実験科学が大幅に自動化・効率化される可能性がある。
一方実験哲学の場合、たとえ人々の反応をLLMで予測できるようになったとしても、そうした反応を直ちに人々の回答と同一視できるわけではない。また、自然科学と異なり、哲学的問題に対する人々の反応について立てられる仮説の数は限定的であるから、仮説空間の絞り込みという観点からもインパクトは少ないと考えられる。別の問題として、LLMを通じておおまかな回答傾向を明らかにすることはできるかもしれないが、個人差や回答の分散を予測することは難しいかもしれない。
むしろ、AI実験哲学はAIそれ自体の振る舞いや性格を明らかにするという用途で役に立つと考えられる。たとえば、今後ロボットが社会に浸透していく中で、ロボットの奇妙なふるまいがどのような考えから生み出されているのかを明らかにすること(ロボット心理学)が求められる可能性がある。また、LLMが医療現場や教育現場で用いられるようになれば、LLMがどのような道徳規範にコミットしているか明らかにすることが求められるだろう。道徳的行為には正当化が求められるという点に鑑みても、AI実験哲学を通じてLLMの振る舞いの理由を明らかにすることは重要である。このように、AI実験哲学は実験哲学それ自体に大きく寄与するとは考え難いが、独自の意義をもつと考えられる。
・フロアからの質問
本セッションでは、各発表のあと個別に質問時間を設けたほか、久木田氏の発表を踏まえた全体討議を行いました。以下、フロアからいただいた質問の一部を抜粋して掲載いたします。
・やはりオープンソースじゃないと研究に用いるのは厳しいのではないか?
・LLMは哲学者の理論を学習している可能性があるのではないか?もしそうだとすれば、LLMに頼らずに哲学者の直観を調べればよいのではないか?
・とくに集合的研究の場合、LLMの回答が私たちの回答を代表していると考える根拠はあるのか?
・日本語でデータをとっているが、今回の実験で用いた質問文の翻訳に問題はないか?
・LLMが多言語で学習してるときに、その出力は、例えば日本語を入れて英語が出てくるときに、内部のメカニズムはどうなってるのか
・テキストデータ以外を用いた実験に応用できる可能性はないか?
・一人のエージェントとしてのllmの回答を集めて、ヒト被験者の傾向と比較することは可能か?
およそ二時間のワークショップ、多くの研究者にお越しいただき、白熱した議論が繰り広げられました。当日参加してくださった皆さんには改めて感謝申し上げます。


コメント
コメントを投稿