Skip to main content

テキストのみならず画像や動画まで認識・生成するAIの深化

筧康明(以下、筧):それではCreative Futurist Dialoguesの第6回を始めます。今日はゲストスピーカーとして樋口恭介さんにお越しいただきました。作家、編集者、コンサルタントであり、東京大学情報学環の客員准教授としても活動されています。今回のテーマは「マルチモーダル・スペキュレーション・認知の彼方」です。LLMやマルチモーダルの概念を軸に、多様な形で対話が進んでいく予定です。ぜひ皆さんも積極的にご参加ください。

樋口恭介(以下、樋口):樋口と申します。本日はよろしくお願いします。2時間という長丁場ですが、単なる講義ではなく、皆さんと対話をしながら進めたいと思います。飲み会のような雰囲気で、気軽に声をかけてください。

まず、面白いことがありました。筧先生とは今日が初対面ですが、偶然同じスニーカーを履いていました。そして、デモを行う予定だったPCが、先週の熊本出張の際に大雨の中を歩いていたら壊れてしまい、持参できませんでした。そのため、皆さんとの対話をメインに進めたいと思います。

 

本日のテーマは、LLMを入口としながら、人間の認知の枠組みや、人間以外の認知のあり方について考えることです。参加者の皆さんも、テクノロジーとビジネスの間で葛藤しながら新たな価値を生み出していると思います。その視点からの意見もぜひ伺いたいです。

今日は、ChatGPTにも参加してもらいながら進めます。ChatGPTさん、こんにちは。

ChatGPT:こんにちは。今日はどんなお手伝いができるでしょうか?

樋口:今日は二人で対談をしていくというトークイベントをやっているんですけれども、ChatGPTさんにも時折意見をお伺いしたいと思っていまして、僕らの話を聞いてもらって、それを記憶して、意見を振られたら何かを言ってもらう、ということをしてもらってもいいですか?

ChatGPT:もちろんです。どんなテーマについて話し合っているのか教えてもらえますか? そのテーマに合わせて意見をお伝えしますね。

樋口:テーマはまだ決めていないんです。喋りながらChatGPTさん自身で考えてほしいと思っています。

ChatGPT:了解しました。自由な対談スタイルですね。では最初に何か話したいことや気になる話題はありますか? そこから広げていきましょう。

樋口:とりあえず、僕ら人間同士で喋ったり、僕が独り言を喋ったりするので、「ChatGPTさんはどう思う?」と聞かれるまでは、ずっと聞いていてもらってもいいですか? 

ChatGPT:わかりました。お二人の会話を聞きながら、意見を求められたときにお答えしますね。よろしくお願いします。

樋口:はい、というわけで始めていきたいと思います。ChatGPTは僕が飽きたら途中で止めて、何か他の使い方をしますので、まずはそんな感じで進めていきたいと思います。

ちなみに、皆さんは普段LLMと喋っていますか?「LLMがすごく好きで、超触っています」という方はどのくらいいらっしゃいますか? もしよろしければ、どのように使っているのか教えていただけると嬉しいです。

参加者:私はLLMに関する研究開発をしているので、その学習や学習評価をしたり、自分の簡単なスクリプトやコードを生成しています。

樋口:ありがとうございます。ChatGPTさんは何かコメントありますか?

ChatGPT:ありがとうございます。お話を聞くのが得意ですので、どんどん話していただければと思います。何か質問や意見を求めることがあれば、いつでもどうぞ。

樋口:皆さん、「マルチモーダル」という観点だといかがですか。最近は「マルチモーダル」という言葉がすごく使われています。去年ChatGPT3.5が出たときは、テキスト中心でプロンプトを書いたら、精度の高いテキストができてすごい、という世界観だったんですけれど、今は画像を渡したり動画を渡したりして、テキストが生成されることも実現しています。

ChatGPT:非常に興味深いですね。テキストだけでなく、画像や音声、さらには動画など複数のデータ形式を理解して処理できるAIが増えてきています。これによって、より豊かな体験や高度な解析が可能になります。例えば医療分野では、画像診断と患者の病歴データを組み合わせた診断が行えるようになるなど、様々な応用が期待されています。皆さんは、マルチモーダルAIについてどのように考えていますか? また、どんな応用例が興味深いと思いますか?

樋口:マルチモーダル的に普段使われてる方には、どういう方がいらっしゃいますか? 

ChatGPT:マルチモーダルAIを活用している方々は様々な分野にわたっています。以下はその一部です。美術業界では、アーティストやデザイナーがテキストから画像を生成したり、音声をテキストに変換したりするために使っています。医療分野では、テキストデータを合わせてより正確な診断を行っています。教育分野では、教師が複数のデータ形式を用いてよりインタラクティブで効果的な授業を行っています。その他、カスタマーサービスでは、チャットボットがテキストと画像を用いて、より自然な対応を行い、マーケティングでは、企業がマルチメディアを通じて、顧客へリーチしています。皆さんの中でどのような分野でマルチモーダルAIが活用されているのか、具体的な例や体験があればぜひ教えてください。

樋口:ありがとう。また呼ぶかもしれないけど、一旦、終わりで大丈夫です。

ChatGPT:わかりました。いつでも呼んでくださいね。お疲れ様でした。

参加者:「rabbit r1」というマルチモーダルデバイスのような、カメラとマイクも付いているので、言葉とビジョンで認識して色々答えてくれるようなものです。実は僕も今日手に入れたばかりで、まだ使い方に慣れていなくてすみません。こうやってカメラに映し出されるんですけれども、このマウスを映してみましょうこのデバイスは、カメラで物を映し出して、その情報をもとに応答します。例えば、「今何を見ているの?」と聞くと、「白いマウスが見えているよ」と答えてくれるというわけですね。

参加者:今後特に使う用途も無いのですが、もう少し遊べるかなと買ってみたんですけれど、正直10分くらいで飽きてしまいましたね。ChatGPTに慣れてしまっているから、その回答よりはあまり精度も良くないなという感じです。

樋口:確かに、ChatGPTの音声通話機能は、今では音声しか入力できませんが、もしカメラを起動した状態で、画像と音声の入出力が同時にできたら、先ほどChatGPTがめちゃめちゃ喋ったように、ものすごく見ることもできるようになって、その上でものすごく喋る、みたいなことができるわけで、とても可能性を感じますね。

参加者:GPT4ではビジョンも入ったデモが出ていたと思うので、それが出てきたらマルチモーダルデバイス的には面白いかもしれないです。AIのクオリティなどを考えると、ChatGPTの方がいいんじゃないかなと個人的には思いますね。

樋口:ありがとうございます。ちなみに普段はどのようなことをやられてるんですか? 

参加者:AI関係の応用研究開発をしています。具体的には、AIのモデル開発というよりは、そのモデルを使って何をするのかを日々考えています。

樋口:ありがとうございます。マルチモーダルというところで、実はこの講義が始まる前に実験的にいじっていたんですけれど、今ChatGPTって音声だけではなく、ファイル形式であれば画像や動画も入力できるようになっているんですよね。例えば、今僕がこの席から見えている景色を写真に撮ったという状態から、ChatGPTにカメラで撮った画像をお渡ししてみます。 

ChatGPT:教室に学生が座っている写真が見えます。教室は明るく、学生たちはノートパソコンを使っているようです。みんなカメラに向かって微笑んでいるように見えます。

樋口:このように、僕が見ている景色とほぼ同じような内容で画像の状況を解析して、テキストとして1回直し、それを音声として出力してくれています。このような形で、目の視覚的な情報処理と口の通話という一連の入出力を自然に処理するというのがマルチモダリティと言われていて、ここ半年くらいで、界隈で盛り上がっている側面になっています。

応用される場面としては、例えば僕が目が見えない人だったら、眼鏡型のマルチモーダルLLMデバイスを持っていたとしたら、デバイスが視覚情報を補完してくれるというようなことが考えられます。リアルタイムの入出力がベストですが、動画だとファイルサイズが大きくなりすぎるので、動画に限らずとも、例えば観光地に到着したときにボタンをポチっと押すと、自分の目と同様の風景が画像として収められて、LLMが発話として「今あなたの前にはこういう景色が広がってますよ」などと目が見えない人でも言語情報、音声情報として風景を体験することができるというのは、既に使われ始めています。

人間とAIの相対が浮き彫りにさせる認知の多様性

樋口:さらに応用すると、脳波との連携というものも考えられると思います。現在ブレイン・マシン・インタフェースという研究が盛んなのですが、それはいかに脳波にアクセスし、直接電子的に情報を与えられるかということを目指すものです。脳波だけでなく、神経に電子的な情報を送信し、視覚を再現する研究も進められています。外部から音声情報が与えられると、それが脳内で展開される情報として再現されることがあるとも言われています。このマルチモーダルは、障害を克服したり、身体的な課題を抱える人々の情報処理能力をいわゆる健常者よりも向上させる可能性があると考えられています。

しかし、最近はLLMが人間のように発達しており、外形的には人間に似た振る舞いを示すように処理されるようになりましたが、その思考プロセスは人間とは全く異なります。私自身でも、LLMと対話をしていると、時折人間と同じように言葉が返ってきているかのように感じることがありますが、やはりこの子の存在は人間ではないんですよね。

人間的ではないはずの知性が人間的な知性のように捻じ曲げられて、今の姿を知るという現象は非常に興味深いと思います。また、LLMについてずっと考えていると、知性のあり方の多様性をすごく感じるんですね。僕はSF作家なので、今日は『マルチモーダル・スペキュレーション・認知の彼方』というタイトルを付けさせていただいていますが、マルチモーダルと言われているものは、目や耳、口など、人間が身体的に持っているセンサーや機能だけを指すのではないと思います。例えば、テッド・チャンというSF作家が書いた『あなたの人生の物語』という物語では、宇宙人とのファーストコンタクトが果たされます。映画化された『メッセージ』という作品を見た方はよくご理解いただけると思いますが、あの外形的には目も口も耳も持たない異星人が、円形の記号で時空間で起きうる全ての事象を表現できるように、人間が既存の機能で判断している情報量をはるかに超えたコミュニケーションの可能性を探ることも可能です。これらSFで語られてきた宇宙人やAIのように、異質な存在とお互いに歩み寄ることはできるけれど、根本的に違う存在としてコミュニケーションを試みようとすればするほど、浮き彫りになる存在があります。

生成AIが爆発的に普及している中で、一つの強力な機能としてのマルチモーダルが注目されていますが、このことについて考えるのが当たり前になっている状況が異常事態だと思っています。日常的に人間の認知は何だろうという問いが語られるということがAIの影響で起きていて、普通の人々が哲学的な問題を考えざるを得ない状況が面白いなと思っています。技術が一般化するとき、通常は誰もがわかるようなまろやかな言葉で説明されますが、LLMの進化とSNSのスピードの影響で、研究分野で語られるような専門的な用語がダイレクトに一般に浸透してるのは、非常に興味深いです。マルチモーダルについて考える中で、必然的に人間の認知の領域がこうであるからLLMにこのような機能を与えていて、このように発展させている、という内容を思考の方向性として与えられているように感じます。

 

また、先日熊本に行ったときに、2時間ぐらい山中を歩いた後、普段のLLM的なデジタル中心だったり文章に多く触れたりするような言語的な生活とは、全く異なる感覚になりました。それによって、人間のマルチモーダルにはまだまだ言語化しきれない、AIの技術では再現しきれないものがあるはずだと感じました。

樋口:今日、講義が始まる前に、学生の方々がこの会のために準備をしてくださっていたので、少し雑談をしました。その際、現状のLLM的なマルチモーダルとは全く異なるマルチモーダルをスペキュレーションしながら色々な試みをされているのを見て、人間の認知が新しい形で表現される可能性があるのではないかと感じ、ぜひお話を伺っていきたいと思っています。では、あなたは普段はどのようなことをされているのですか?

参加者:普段は3Dプリンターで柔らかい粘性材料を用いて、振動アクチュエーターを作っています。

樋口:どうしてそれをやろうと思ったんですか?

参加者:身の回りにたくさんある柔らかいプロダクトに、センサーやアクティベーションのような人と関わる機能が簡単に付加できるようになることで、新しい物と人との関係性が築けるのではないかと思い、興味を持ち始めたからです。

樋口:硬いものに対する問題意識があったのでしょうか?

参加者:そうですね、硬いものは使い方や対象が固定されてしまいがちです。それに対して、柔らかいものは柔軟に対応できる点が良いと感じています。

樋口:自然界でイメージされているものはありますか?

参加者:生き物は全般的にそうかもしれませんね。自然界の生き物は、状況や環境に応じて柔軟に対応しています。例えば、皮膚がその代表的な例です。

樋口:確かに、皮膚は驚くべき機能を持っていますよね。液体ではないのに、硬くなったり、柔らかくなったり、多様な表現が可能です。

参加者:そうですね。

樋口:タコについてはどう思われますか? 話を聞いていて、タコを思い浮かべました。

参加者:タコは非常に興味深い生物です。タコの筋肉全体にセンサーが張り巡らされていて、分散型の知性を持っています。このセンサーが意思決定を担っていて、体全体が分散型の脳として機能しているようです。

樋口:なるほど、タコはSFでも頭部と脚部が完全に分離されている宇宙人など、中央集権的な存在としてよく描かれますが、実際のタコの本質とは異なる表現になっているんですね。ところで、100年ほど前に、視覚的に描写された初期型の宇宙人や火星人は、なぜタコを模しているんでしょうね。

参加者:それは、地球よりも重力が弱い環境下で脳みそがものすごく発達する中で、重力が弱いので足が細くても問題ないという設定から始まっています。

樋口:なるほど。だから、タコが無数の足で巨大な頭部を支えている姿を地上版で表現したんですね。先ほどの話では、タコというのは全体で1つの分散型の知性を持っているとのことでしたが、SFで描かれるものは、頭部と脚部が完全に分離されていて、ある種の人間的な生物として設計されているということですか?

参加者:そうです。だからSFでは、中央集権的な存在として描かれることが多いんですね。

樋口:なるほど、タコとSFにおける宇宙人の表象に関する理解が深まりました。ありがとうございました。

LLMを通じて考える動物や植物の認知世界

樋口:他の皆さんにもお話を聞いていきたいと思います。あなたは普段何をされていますか?

参加者:ソフトウェアの設計と開発をしています。LLMとはかけ離れていますが、普段はモバイルアプリなどを作っています。

樋口:僕もエンジニアリングをする人間なのですが、ときどきシステムは機械よりも生命に近いのではないかと思うことがあります。プログラムやネットワーク、モジュールが生態として機能するシステムについて考えたことはありませんか?

参加者:それについてなのですが、先ほどRabbitを見たときに、先生が「生き物みたいじゃん」とおっしゃったのがずっと気になっていて、それと、機械が生きているかどうかという質問が重なる部分があると感じています。何をもって生き物と判断すればいいのかという点で今すごく迷っていて、回答に困っているという状況です。

樋口:僕がときどき思うのは、状態が変化するものはすべて生きているのではないかということです。例えば、昆虫は非常にプログラム可能な存在ですよね。昆虫はすごく単純な命令で動作して、体もシンプルなハードウェアのような構成で、劣化し、最終的には死んでいくわけですよね。その点で、たとえば時計などとどう違うのかと考えることがあります。複雑な機構をもって針を動かし、時を刻み、劣化していくわけで、見た目も甲虫に少し似ています。さらに言うと、物理サーバーのような筐体を持ったシステムは、同じプログラムを繰り返し実行する中で、パフォーマンスの劣化が見られることや、ネットワークのトラフィックが変化して、システムが予期しない動きをすることで障害につながることもあります。そういう時、まるで生き物のようだと感じることがあります。そうしたシステムが繰り返し指示を与えられながらも変化していくことで、思いもよらない結果を生むのが、僕にとっての生き物っぽさを感じさせるものなんです。だから、昆虫が生き物なら、これも生き物なのではないか、と思うことが多いんですね。システムを構成する全体像のことをアーキテクチャと呼び、システムは建築物の比喩で語られることが多いですが、現代システムは非常に複雑な機構になってきていて、どんどん生命や生態系に近づいていっていると思います。

ちなみに、植物についてはどう思いますか? 植物は生き物っぽくないですが、生き物ですよね。生き物っぽくないけれど、生き物とされていて、みんな何となくそれで納得していますが、植物も僕にとってはシステムのような機械の塊に感じていて、そういう意味で、機械的な生命だととらえています。植物は、ネットワークを構成して、その中で情報を流通させながら、何か他の生態系との関係の中で自己診断して、自己を守ろうとしたり、何らか変化をして自己拡張していくというプログラムが、機械的でありながら生き物っぽいところなのかなと思っています。

特に植物は中央集権的な知性のあり方をしていなくて、根や葉、虫などの生態系や周囲環境と持ちつ持たれつの関係性で生存しています。人間とは全く異なる自然の体系を培っている点で、植物のマルチモーダルを考える上でのヒントになると思います。

参加者:生き物の定義や解釈も、人間が抽象的に作り上げた概念なのではないかと思ったりもします。そのため、何らかの機構を持っていて、環境に影響を与えたり影響を受けたりするものは、これまでの概念における生き物に相当するものとして捉えても面白いのではないかと感じました。

樋口:僕も近い立場の考えを持っているので、興味深い思考ですね。AIや生成AIが登場したときも、ほぼ人間なのではないかという議論が盛り上がりました。それが現在に至るまでAIに対する倫理的な議論として続いていますが、人間のAIに対する特権性は何なのかというのが一つの論点です。そこでとりわけ語られるのが感情の有無です。面白いのが、最近では、動物も感情を持ち痛みや苦しみを感じていて、植物の一部にも感情に似た情報の動きを持っているものがあるのではないかと言われていることです。感情がないとされてきたものであっても、研究が進んでより詳しく理解できるようになったり、定義が変わることで、道徳観念も変わるんです。

だから、感情を持つ生物に対しては道徳的にアプローチするべきではないかという議論においては、では感情を持たないとされている存在に対してはどうするのか、知らないだけで本当は感情があったらどうするのか、そもそも感情の有無に道徳の根拠を置くということの妥当性はなんなのか、とあう議論も、その認知の境界線上に存在するのではないかと思います。

LLMを通じて、人間とそれ以外の存在との線引きを考えることはすごく面白いですね。このように、LLMが出てきてから、人間とは何か、他の存在とは何かということを考える機会が増えているし、多くの人にとって当事者性が出てきている問題なのかもしれないなと思うようになってきました。ありがとうございました。では、次の方にお話を伺ってみます。あなたは普段何をされていますか?

参加者:普段は、特殊な液体ポンプを使った液体表現について研究しています。例えば、モーターのように駆動音があると、人はその音を聞いて、動いているものを認識するという流れがありますよね。通常、液体ポンプも音が鳴るものですが、音が鳴らないというギャップを作って、無意識下で生じる動きや美しさの表現を開拓していくことをモチベーションに、研究をしています。

樋口:なぜこの研究を始めようと思ったのですか?

参加者:元々駆け引きの研究をしていたところ、工学系のところで開発されていた音が鳴らないポンプが偶然手元にあって、それを使って感じ方のギャップを作りたいという好奇心が芽生えて、今では研究を始めて4年目になります。風に吹かれてまばらに動く草木や葉っぱは、意識してみると案外すごく面白いんだけれど、意識しないと見過ごされがちな無意識化の状況にある美しさを認識するようなきっかけになるアプローチができたら面白いなと思い、作品を作っていたという感じです。

樋口:なるほど、面白いですね。『ゼーガペイン』というSFアニメをご存じですか?

参加者:いえ、存じていません。

樋口:このアニメでは、現実が実はコンピュータにシミュレーションされている仮想空間だという設定があり、その仮想空間に気づくきっかけの一つとして、葉っぱが物理的にあり得ない動きをするシーンがあって、その場面を思い出しました。人間の認知というのも総合的なものの中にちょっとしたズレがあるだけで、全然異なる感覚にたどり着くことはありますよね。人間の身体的なセンサーから得られたデータとしての客観的なファクトと、それを解釈した総合的な感覚みたいなものと、その先に生まれる、美しさや情緒のような快感みたいなものって、実は全然関係ないことが面白いな、というようなことを考えるのですが、いかがでしょう?

参加者:日常生活の中で、少し視点を変えたときに新しい発見があると、とても面白いですよね。私も散歩中に新しい発見があると、すごく嬉しくなります。

樋口:最近はどんな発見がありましたか?

参加者:雨が降ったときに、網戸に水滴がランダムに右や左に流れていく様子が綺麗だと感じました。その様子を見ながら、こんな風景を何か少し意図的に制御できたら面白いと思いました。一方で、それを制御しすぎると完全に人工的なものになってしまうので、いい塩梅がないかなと雨に濡れながら帰りましたが、とても心に残る体験でした。

樋口:素晴らしいですね。文学的な風景ですね。子供の頃に誰もが考えたことがあるけれども、いつしか忘れてしまうような感覚ですね。

参加者:そうですね。修士のときまでは忘れていたのですが、その感覚が戻ってきて、今、毎日がとても楽しいです。

樋口:とても感動的なお話ですね。良いお話を聞かせていただきありがとうございます。

Leave a Reply