マルチモーダルな技術社会で問う言語表現の彼方|CFD005(後編):樋口恭介(SF作家) 東京大学×ソニーグループによる、Creative Futurists Initiative(以下CFI、越境的未来共創社会連携講座)は、領域を越境し、未来へ向けた共創を先導する方々を迎える対話の場、Creative Futurists Dialoguesシリーズ(以下CFD)を展開しています。第5回目は、SF作家の樋口恭介氏をゲストにお招きし、「大規模言語モデル(LLM)」や「マルチモーダル」といった近年急激に普及したキーワードを掲げ、参加型レクチャーが行われました。対話の後半では、人間視点から捉えられてきた認知を改めて広い視点から捉え直し、言語表現のもつ特性やその解釈が及ぼす他者との越境の可能性について言及されました。前編はこちら。(※) 記事中の所属・役職等は取材当時のものTEXT: Nanami Sudo PHOTOGRAPH: Yasuaki Kakehi Laboratory PRODUCTION: VOLOCITEE Inc.目次: 視覚表現での意思疎通へ向かう“人間らしい”マルチモーダルAI AIの書く文章を人は見抜けるのか サウンドへ介在する言語的解釈 分散化した声がアンコントローラブルに重なり合う 視覚表現での意思疎通へ向かう“人間らしい”マルチモーダルAI 筧康明(以下、筧): マルチモーダルについて、皆さんが普段からどれくらい関心を持っているのか気になっています。僕はインターフェースの研究をしているので、音声や画像、映像、さらには触覚や香りまでもを操るために、マルチモーダルやクロスモーダルについて考えることが多いです。ただ、今立ち上がっているマルチモーダルに対する関心が、その延長線上にあるものなのか、それとも全く異なる新しい現象なのかを聞きたいです。 渡邉英徳(情報学環)(以下、渡邉): 僕自身の問題意識としては、LLM自身の精度向上へ行くよりも前に、マルチモーダルの方が優先事項として挙げられて、プロンプトをテキストで書くのではなく、画像や映像の処理の方が盛り上がっていることが興味深いと思っています。その上で、それがマルチモーダルとして、暗黙の共通理解が得られているという状況が面白いと感じます。つまり、LLMが本来持っている言語的な姿勢に対して、画像や映像も読み込めるということが全く別の問題として、ある種人間らしくこしらえられているというふうに見ることもできます。…





