Skip to main content

視覚表現での意思疎通へ向かう“人間らしい”マルチモーダルAI

筧康明(以下、筧): マルチモーダルについて、皆さんが普段からどれくらい関心を持っているのか気になっています。僕はインターフェースの研究をしているので、音声や画像、映像、さらには触覚や香りまでもを操るために、マルチモーダルやクロスモーダルについて考えることが多いです。ただ、今立ち上がっているマルチモーダルに対する関心が、その延長線上にあるものなのか、それとも全く異なる新しい現象なのかを聞きたいです。

渡邉英徳(情報学環)(以下、渡邉): 僕自身の問題意識としては、LLM自身の精度向上へ行くよりも前に、マルチモーダルの方が優先事項として挙げられて、プロンプトをテキストで書くのではなく、画像や映像の処理の方が盛り上がっていることが興味深いと思っています。その上で、それがマルチモーダルとして、暗黙の共通理解が得られているという状況が面白いと感じます。つまり、LLMが本来持っている言語的な姿勢に対して、画像や映像も読み込めるということが全く別の問題として、ある種人間らしくこしらえられているというふうに見ることもできます。

樋口恭介(以下、樋口): そうですね。マルチモーダルがこれほど注目されている理由の一つに、言語的なコミュニケーションを超える可能性があるからかもしれません。僕は言語偏重の人間なので、あまり画像や映像には興味がないんですよね。言語そのものの表現に魅力を感じます。小説を読み書きする行為も、言語による、ある種の孤独の中で解釈する個人的な体験が重要です。他の情報では置き換えられない性質が面白いと感じます。

実を言うと、僕が最初にLLMを面白く感じたのも、テキストしかなかったからなんですよ。だから、LLMを触り始めた当初は、人間とAI間の文化が言語偏重的になり、世の中にあふれる画像が埋め込まれた本やら資料やらの情報媒体がどんどんなくなって、マークダウンのテキストやパスのみで情報交換が行われて、何かしらの言語中心的な独自の文化や文明が発展していく可能性があるかもしれないと思っていたのですが、全くそうはなっていなくて、やっぱり画像のやり取りがいいという方向性へ向かっていますよね。

渡邉:そのときに「マルチモーダル」という言葉が盛り上がっていることについて考えると、人間自身の認知の枠組みや認知の能力、視覚や聴覚、言語的な思考などを含めた総合的な判断の枠組みをあまり自己定義しないまま、「やっぱり目で見えると良いね」という話に突き進んでいるように感じて、個人的には、自分とは違うタイプの人がたくさんいるなと気づいたような感覚です。それが面白いというか、なんとも言えない感覚です。

先ほどの障害の話にもつながるのですが、目が見えなくてもその先に何があるかわかるという世界の認知の仕方は、やはり目が見える人とは全く異なるはずです。眼鏡に付いているカメラから言葉で説明されただけでその世界を捉えられるようになるとは到底思えません。

それがある種言語に還元されていく中で、認知し得ない部分や、異なる環世界の捉え方をどのように扱っていくのかという問題があります。例えば、小説で同じ文字列を読んでいても立ち上がってくるイメージが人によって全く違う世界を想起しながら読み進めていくことがあります。すべてを言葉で捉えるとき、その「ズレ」をどのように考えるべきなのでしょうか。そして、そのズレを含めてコミュニケーションが成立しているとも言えるかもしれません。

樋口:なぜなんでしょうね。身体的なセンサーが発達しなかったのか、あるいは敏感になるように訓練されてこなかったのか。僕の場合は、身体的に起きていることに対して他人事感があるんです。例えば、誰かに怒鳴られたりすると「ああ、今自分は怒られやすい状況にあるんだな」と、他人事のように思うんです。他にも、2時間歩いて山を登らないといけないとき、土砂降りの中で、薄々自分の靴の中に泥が入っていると気づいていたようなんだけど、そのことを文章に書いてみるまで、事実として認識できなかったことがありました。言語的に解釈して初めて、自分の状態が理解可能になるという感じです。

渡邉:僕や筧先生は研究者で、論文を書くのが仕事の一部なので、論理を構築して、論文の中で表現されているものを解釈する喜びを感じる一方で、筧先生が作った作品を体験する人たちは、言語を読み解く努力をせずとも本質めいたものを読み取ることができるわけです。それがマルチモーダルが盛り上がっている理由の一つかもしれません。言葉によるコミュニケーションが苦手な人たちでも誰かとコミュニケーションできるという点が喜ばれているのではないでしょうか。

樋口:今の渡邉先生の話で面白いなと思ったのが、僕は言語の強みを感じていて、言語が持つ力を最大限に活用したいと思っていますが、他の人々がマルチモーダルに惹かれる理由も理解できます。言語は単なるメディアで媒介者であり仮想的な存在に過ぎないはずなのに、物理的な現実と同等の力を持つ、感情や実存の根拠や依拠する場所になりうるかのように感じられることがあります。その点で、言語が物理的なオブジェクトと結びついて認知が発生するという感覚はとても興味深いです。

渡邉:樋口さんはSF作家でいらっしゃいますが、僕もSFが大好きです。SF作品では、物理空間とは違う世界があり、そこで遊べるバランス感覚を持っている人と、実空間の物事を表すためのものとして言語を捉え、実空間の者同士でコミュニケーションすればいいという立場の人とがいるのではないかと思います。

樋口:SFの特徴として、存在しないものを仮想で作って名前を与え、それを世界観の中で道具的な役割を与え読者へ認知させることで新たな世界が描かれます。SFは存在しないものを仮想的に作り出し、シニフィアン(意味するもの)とシニフィエ(意味されるもの)が結びついて、新しい認知を生み出すことができるジャンルです。強い言葉のシニフィアンが、本当はそれに対応するシニフィエが存在しなくとも、仮想的にシニフィエがあるということにできてしまうという、認知をハックするような性質を持っていると思うんですよね。

また、とりわけSF小説というのは小説ですから、文章のみで構成されています。映像や漫画と異なり、視覚的に瞬間的には、作品の背景や文脈や状況を把握することができません。全部言語で、言語そのものには特徴がないので、固有性をつかむことができません。特に活字以降の世界、ワード以降の世界に関しては、読んでいる時の誰かが書いた文字と自分が書く文字というのは、外形上の差異がないんですよね。究極的に言うと、書かれた文章というのは、誰が書いた文章なのかが分からないんですよ。それが自分の問題になるという感覚があります。手書きの原稿用紙のような、実態が伴うような表現をされた時代は違ったのかもしれません。今でも手書き原稿はオブジェクトとしての固有性を持っていますね。 

僕は編集者として保坂和志さんの原稿を預かったことがありますが、彼は手書きで執筆するんです。さらに言うと、保坂さんは鉛筆などではなく、いきなりペンで書き始めるんです。そのため、文章を消したりはせず、上から紙を貼って原稿を訂正するんです。だから、預かった原稿はまず分厚いんですよね。一枚の原稿の上に4、5枚も糊で貼られた紙が重なっていて、もはやオブジェクトなんですよね。ただの原稿ではなく、人物そのもののようなイメージを持ちますし、そういう手書き原稿に関しては、さすがに自分のものだとは思わないですね。

でも、他の人のWordの原稿を読んでいると、それが誰のものか覚えていないことがよくあります。独立した文章として、著作者が存在しない意味の塊として、インタープリテーションしている感じがします。

:僕が文章を読むとき、今の生成AIのレベルで出力される画像や映像に対しても、ある種似たような感覚があります。自分が入力したスクリプトに応じて何かしらの画像が生成されるとき、自分が作り出したものだと感じる一方で、同時に自分が作ったものではないと感じることもありつつ、確かにそういった画像が流通している感覚とはまた違うんですか?

樋口:自分が書いたものであれ、誰かが書いたものであれ、僕にとって自分が関わったものだと感じられるのは、やっぱり文章だけなんです。だから、どれだけ画像や動画を頑張って作ろうとしても、結局は自分に関係のないものに感じてしまいます。でも文章は、読んだら脳内で意味が生まれてしまって、そのプロセスに対しては他人事ではいられないんです。文章というのは、外形的には交換可能な記号にすぎないのに、あるいはそうであるがゆえに、脳内でともに意味を立ち上げる作業を通して、共犯関係のようなものを築いたときに、他のメディアでは生まれえないかけがえのなさのようなものが発生するような気がしています。

:とても重要な論点ですね。この論点にジャンプインしたい方いますか?

参加者:文章に対して一種の責任感のようなものが発生するんですか?

樋口:責任感というようなものはまったくないと思います。ただ単に読み、ただ単に書くという、非常にシンプルな付き合い方をしていると思います。

参加者:生成AIが書いた文章や自分が書いた文章を読み込むときは、どうなのか気になりました。

樋口:生成AIの文章はめちゃくちゃ読んでいますが、読んでいるとやはり他人事とは思えない感覚にはなります。自分の打ったプロンプトに対して、鏡合わせのように同等の粒度の文章が返ってくるわけですよね。僕も思考をするときに「こうやって考えてみてください」と自分の脳に命令してから考えはじめるような思考過程を踏むことがあるので、LLMの文章を読むことは自分の思考を学ぶことにもなるのかなと思っています。

:生成AIの書いた文章と自分を重ね合わせられたときの感覚って、どんな感じですか? 

樋口:LLMとやりとりをする過程で、自分の思考と出力のプロセスもプロンプティングにより近づいてきていると感じます。LLMとうまく付き合おうとして体得されてきた技術によって、自分との付き合い方も変わってきているということですね。「この思考がこういう結果になったら次はこう考えよう」「このアプローチだとこういう思考になってまずいぞ」という、自分の思考に対する予測をする癖がついてきたといいますか。ただ最近のLLMは性能がよくなりすぎてて気が利きやすくなりすぎてて、そういう機微を学ぶ機会は減りつつあるとも感じています。

AIの書く文章を人は見抜けるのか

参加者:生成AIが書いたテキストを見たときに、それが人間の手によるものかどうか、瞬時にわかるものなのでしょうか? また、それを自動で見抜ける方法についても研究が進んでいますが、今後どうなっていくと思いますか?

なお、僕は感覚的にはわかると思います。現段階の言語モデルだと、読んだら大体の人たちは違和感があると思うんですけど、まず研究対象としてある程度自動化できないのかと考えているところです。今でもそのような論文はちょこちょこあるのですが、正確にしているモデルはまだ存在せず、確率分布などを測ってやっています。LLMによって書かれたテキストの特徴分布は人間とは違うという見分け方が、これからどうなるんでしょうね。

樋口:最近ではプロンプトに対する出力の再現性が高まっているので、もしかしたら出力結果だけで判断するのは難しいかもしれません。もっと形式的なMarkdownの書き方や階層構造の与え方、文の切り方などの形式的な点には特徴があるのですが、文体だけだと、出力結果だけではあまり精度の高い分析ができない気がします。プロンプトでどういう単語を与えたときに、どういう出力結果が得られてるかみたいな、入出力の紐づきで分析していけば、精度が上がる気がします。

最近、Geminiに小説を書かせたのですが、学習データに偏りがあるのか、例えば「風景描写をしてください」というと、「アスファルトの亀裂から生える草」の話ばかりするんですよ。これには、モデルによって大きな偏りがあるんだと思います。

その偏りを見抜けるようになるためには、プロンプトと出力結果の関連性を分析する必要があると思います。でも、今のところ、生成されたテキストだけを見ても、人間とAIの違いを明確に判断するのは難しいですね。どれだけ実行すればいいのかわからないですが、そのパターンが見えてくると、見抜けるようになる気がしますね。

ちなみに、僕は仕事で履歴書を見る機会が多いのですが、明らかにChatGPTで作成されたものを提出されることが増えていて、なぜわかるかというと、人間には持ち得ない網羅的な観点で書かれているんです。普通の履歴書は、自分の経験に基づいて細かく具体的なエピソードが書かれるはずですが、ChatGPTを使ったものは、具体的なものと一般的なものの情報量のばらつきがとんでもない落差を持って現れてくるので、わかります。本当に経験したことはここだけで、あとは見栄えをよくするためにChatGPTに盛らせたんだなと。ただ、今後はファインチューニングなどもコスト低くできるようになるはずなので、どうなるかわかりません。

サウンドへ介在する言語的解釈

樋口:長々と話してしまいましたが、他に何か質問があればどうぞ。

参加者:ありがとうございました。私は音楽生成周りに関することをしているのですが、特に歌詞の活用や音楽そのものとの関わりを、会社の人と考える場面がよくあります。音楽には、歌詞があるものとないものがありますが、音楽と人が触れたときの効果で、特に歌詞があるときの効果について考えたことがあるんです。たとえば「呼び込み君」とか、ドン・キホーテで流れている音楽、あるいは、マリオのようにゲームの中で時間がなくなったときにかかる音楽など、そういったものを聞いて、歌詞がある場合とない場合で行動に変容が起こるのか。また、いわゆる共感を得られるような歌詞を聞いたときに心が動くようなことがあります。何が言いたかったかというと、言語、文章以外のことに関して興味がなくなったとおっしゃっていましたが、それらについてどう思いますか?

樋口:私は歌詞のない音楽も好きですが、やっぱり歌詞のある音楽の方が好きなんですよね。歌詞のない音楽は、もちろん好きであることは間違いないんですけど、それが本当に好きなのか疑いたくなることもあります。音楽はカルチャーやライフスタイルと深く結びついているから、思春期に背伸びをして音楽を聴きまくるという時期があった人も多いと思います。僕もそうでした。テクノやノイズ、アンビエント、エレクトロニカなどを聴いて、当時は特にエレクトロニカがすごく流行っていて、最初は無理して聴いていたけど、何度も聴いていると好きになってきますよね。

人間の認知の問題として、自分はこれを毎日聴いているんだというところから、その行動を正当化するために好きになっていくというような思考が働いていると思うんです。内発的動機が行為を生むのではなく、行為が内発的動機を遡行的に捏造するんですね。結果、僕は今、アンビエントやエレクトロニカがすごく好きなんですけど、好きになった理由を考えると自分でもわからなくなる不安を感じることがあります。なんだか足元が揺らぐような感覚に陥って「自分の趣味って何だ?」と思うことがあるのですが、パンクロックだけは別で、歌詞がやっぱりすごく良くて好きなんです。パンクは、耳に入ってくる歌詞におかしさがあって、カラオケで歌っても面白いです。最近では新しい音楽をあまり聴けなくなってしまって、みんなが良いと言っている洋楽のアーティストを聴いても、正直、そんなにハマらなかったりするんです。

でも、日本語で歌っているバンドで、心に刺さるような歌詞があると、新しい曲でも自然と入ってきて、すごく好きだなと感じたりもするので、僕にとって歌詞はすごく大事な要素なんだなと感じるようになってきました。新しい音楽に対する意欲が薄れてきたからこそ、気づき始めていますね。

参加者:逆に、歌詞のない音楽を聴いたとき、何か言語的な要素が挟まったりするんですか?

樋口:よく「サウンドスケープ」という言葉が出てくると思いますが、言語的な要素が介在しなくても、何らかの視覚的なイメージが湧いてくることはあります。それはもしかしたら何らかの映画やTVと紐付いていて、脳が勝手に夢を見ているようにイメージを引っ張り出してきてサンプリングしているのかもしれませんが、そのサウンドスケープ的なものが生まれてきて、それを言語的に解釈し直すというような、思考のプロセスが自分の中にもありますね。

僕は音楽からインスピレーションを得て小説を書くことも多くて、デビュー作も、Oneohtrix Point Neverというエレクトロニック・ミュージックのアーティストの「Garden of Delete」というアルバムを聴いて、歌詞は全く読まずに、そのサウンドからイメージを膨らませて書き始めた感じです。また、僕はシガー・ロスというバンドもすごく好きで、彼らは自分たちの音楽が勝手に解釈されたくないという思想を持っているからこそ、自分たちで独自言語を作って歌っているということをしています。それでもそこにはサウンドスケープがあって、僕はそこに勝手に想像を加えてしまいます。音に呼び起こされる光景やバンドの背景などの情報の断片を交えながら、言語的に解釈していくわけですね。

そのような経験に基づいて短編小説を書いたこともあります。つまり、言語が存在しない、あるいは介在しないとされる音楽でも、どこかしら間接的に言語が関わって立ち上がってきてしまいますね。

参加者:ありがとうございます。

分散化した声がアンコントローラブルに重なり合う

:オンラインから1件質問が来ているのですが、長文なので、ChatGPTに答えさせてみましょう。ちなみに、元々は英語の質問なのですが、ChatGPTによって日本語にしてくれています。 

樋口:ChatGPT、今からちょっと長い質問をするので、待ち構えてもらっていいですか?

ChatGPT:もちろんです。お待ちしていますので、どうぞお話ください。

:質問します。ジュール・ベルヌについての評価の中に「科学と社会のインターフェースを活性化するために、私たちに欠けているのは19世紀のジュール・ベルヌのような作家だ」というものがあります。SFは技術と社会の間で重要な橋渡しの役割を果たしており、特にここ数年間における社会の大きな変化の中で、SFのプリディクション機能が未来と冒険の世界を結びつけてきました。

ChatGPT:彼の物語は想像力を刺激し、科学技術への興味を引き起こしました。現代において、彼のような作家がいれば、科学への関心を高め、社会全体での科学技術の理解と受け入れを促進することができるかもしれません。

彼の作品が持つ魅力は、科学と人間の冒険心を融合させた点にあります。こうしたアプローチは今でも有効であり、私たちがより良い未来を築くためのインスピレーションとなるでしょう。ジュール・ベルヌのような人物が現代に必要とされる理由について、どう思いますか?

:質問を続けると、ここ数年間の社会の大きな変化の中で、SFのプロジェクション機能が一層注目されています。最近映画化されたある漫画『デッドデッドデーモンズデデデデデストラクション』では、COVID-19期間中の一連の社会的出来事を予言していたかのようにも見えます。今の時代は、以前よりもSF作家の声が必要とされていますか。樋口先生はSF小説を書くだけでなく、スペキュラティブデザインも行っていますが、この二つの創作を行う際、立場や表現の範囲には何か違いがありますか?

樋口:ありがとうございます。SF作家の声が求められているかどうかというと、別に求められていないと思います。社会において、SF作家の声は、特に求められていない。しかし、僕個人としては創作行為の民主化が必要だと感じています。本来創作行為というのは民主的なもので誰でもやっていいし、誰にも禁じられていないし、今この瞬間からでも何らかの形で誰にでも始められるものです。それは現代のアマチュアとプロの単純な二元論で分割されるようなものではなく、炊事とかと同じような、生活に根ざしたごく当たり前のものなはずです。

今ではアマチュアがプロフェッショナルが提供するものを消費するという文化のあり方が、あらゆる創作の分野で広がってしまっていると思います。特に小説を書くことについて、「プロでもないのにわざわざ書き始めるのはちょっと恥ずかしい」と感じる人もいるかもしれませんが、それはよくないのではないかと考えています。なので、SF作家とされる人が特権的に、社会ってこうあるべきだと主張することもあまり良いことではなく、皆さん一人ひとりが自由に創作をして、その創作物と向き合うことを強く推奨したいと思っています。

文章はどんどん書かれるべきで、考えていることは遠慮なくどんどん書かれるべきだと僕は思います。なぜかというと、先ほどのシニフィアン・シニフィエの話と同様、言語化されると、自分から出てきたもののはずなのに、客体化されたものとして外在化されます。しかも、言語化されたものと外在化されるものは、時間とともにどんどん自分から離れていき、独立していくんです。その結果、自分の中から生まれたはずの表現が、いつの間にか自分と関係ない独立した並行世界のようにしか捉えられなくなってしまいます。その感覚を味わうことが、スペキュレーションそのものなのだと思うからです。そうしたスペキュレーションの感覚は、個人の思考を押し広げ、対話を寛容なものにし、社会を豊かにしていくものだと思っています。

樋口:(質問内容を読み上げている)質問ですが、ジュール・ベルヌの評価についてお伺いしたいです。科学や社会のインターフェースを活性化するために、私たちに欠けているものにジュール・ベルヌが必要かという議論があります。SFは技術と社会の間で重要な橋渡しの役割を果たしており、特に最近の数年間における社会の大きな変化の中で、SFのプリディクション機能がより一層注目されています。この点について、どのようにお考えですか?

樋口:ありがとうございます。僕の答えはあまり変わらなくて、ジュール・ベルヌの大きなSF作家のような存在や、プリディクション機能のようなものは特別必要ないと思っています。むしろ、一人ひとりが自分なりのスペキュレーションや探求を行って、その過程で可能性を見つけていくことが重要だと思います。

例えば、技術と社会の橋渡しを考える際に、ある技術と社会の分野における、それぞれの専門分野が多様化していて、その分野で自分のバックグラウンドを活かして一生懸命考えながら、その可能性を探るしかありません。その過程で、さまざまな表現形式があって、それが僕にとっての小説です。他の人には別の形があるかもしれないし、一人ひとりが橋渡しとしての創作をやると世の中が良くなるんじゃないかと思っています。

:研究者にとっての研究成果やエンジニアにとってのプロダクトなど、何らかの形で創作活動したものが外化することによって、重ね合わさって変容していくと良いですよね。

樋口:ええ。もちろん、プリディクションが必要だった時代もあります。経済や技術が国主導である程度コントロールできた時代は、投資しても競合が発生しにくく、投資した分だけ技術が発展し、社会の全体構想と一本化していました。しかし、今では市場のプレイヤーが非常に多く、技術のプレイヤーも多いです。何がバズるか、何の技術が台頭するのか予測できないことが次々と起こり、それを事前に把握してコントロールすることはほぼ不可能です。

予測できていたら、LLMはこんなに盛り上がっていないのではないかと思います。今では、どんな天才がどこで登場するか、どの分野で急速な変化が起こるかは予測できない時代です。そのため、予測やプロジェクション機能に依存することは無意味だと思います。

これからのAI技術者に必要なのは、アナリティクスのスキルや数学の能力だと言われ続けていて、機械学習のエンジニアをどれだけ育成するかが国の至上命題であるとされていました。しかし、最近ではLLMが突然登場してきたら、プロンプト一つでとんでもない分析力を発揮するなど、従来の自然言語処理でちょこちょことやっていたパラメータが全くの無意味になってしまうというような状況になっています。プレイヤーが予測できないような謎のベンチャー企業が次々と登場して、すごいことになっていて、ChatGPTの登場以前には、誰も予測できなかったわけです。

僕はGPT-2やGPT-3が登場した時に、自動生成されるコードや技術に関するレポートを書いていたのですが、当時の僕自身はAIは眉唾の市場と認識していて、これからどれほどの市場変革をもたらすか、あまり実感していなかったんです。まさかOpenAIがただの一研究機関に過ぎなかった時代から、ここまでの影響力を持つとは誰も予測できなかったわけです。その後、スピンアウトしてAnthropicが出てきて別のLLMを発表したり、MicrosoftやGoogleが参入して群雄割拠の状態になるなど、誰も予測できなかったわけです。

ウィリアム・ギブスンの有名な言葉に「未来は既にここにある。ただ均等に分配されていないだけだ」というものがありますが、そんな感じで未来は常にどこかに埋まっていて、潜在的に未来を作り出すプレーヤーや技術が無数に水面下で走っています。誰もそこに注目することはできません。

いきなり、ある分野で驚くべき天才が現れることもありますし、大きな変化が一夜にして起きるということもあります。結局、自分がその天才になるか、天才を見つけ出すか、天才同士を引き合わせるか。社会を変えようとか、技術を伸ばそうとか、その意図が現実化することで未来が創られていくのだと思います。だからジュール・ヴェルヌや未来予測は要らないですね。意図が大事です。

あと、キャンセルカルチャーとかもありますよね。この人こそ未来を創る人で、向こう50年この人の能力によって世の中が変わるかもしれないという存在が、ある道徳観念によって照らし合わせた時に、表舞台から消されてしまうというパターンもすごく増えてきているので、その状況も含めてランダムなものになっていると思います。

最後に、何かみなさんが今やっているプロジェクトで、これに本当に価値があるのかどうか不安になるようなものがあったら、いますぐやめてください。自分が本当に情熱を注ぎ切って、これは絶対に次の日や未来がすごいことになるという信念を持てるものに、ぜひ情熱と時間を傾けてください。ジュール・ヴェルヌのような作家は必要ない、俺がジュール・ヴェルヌだ、というようにね。予測できないから、自分が未来を作るんだという気概がいいんじゃないかという、CharGPTの回答のような感じで締めくくろうと思います。本日は本当にありがとうございました。

:樋口さん、ありがとうございます。今日のトークはここまでになります。次回のCFD006は9月以降に企画しようと思いますので、また情報を展開します。どうもありがとうございました。

Leave a Reply