オピニオン

高度化する人工知能(AI)との向き合い方

2023年02月28日　大原慶久

　人工知能（AI）は、テキストや画像を簡単に生成してくれるようになった。特に、昨年秋ごろから、こうした話題が沸騰している。代表格は対話AIのChatGPTだ。人間の発話に対し、AIが答えを返すことで対話を行うことができるツールだが、その完成度の高さが注目されている。ChatGPTはGPT-3.5（Generative Pre-trained Transformer 3.5）シリーズの一環として、米OpenAIが開発し、昨年11月末にリリースされた。インターネットにあふれる文章から学習した大規模言語モデルであるGPT-3シリーズを基礎とし、人間のフィードバックをもとにしたモデル学習手法と、HHH(helpful:実用においてタスク解決への有益性、honest:デマや虚偽の情報ではない真実性、harmless:人や環境を傷つけない無害性の高さ)を報酬とした学習プロセスで構築されている。単に、質問に答えるだけでなく、物語の作成やコーディングなども行うことができる。また画像生成AIではテキストで記述した内容をもとに画像を生成することや画像から画像(例えばラフ画・線画から着色したイラスト画像)を生成することができる。画像生成AIではChatGPTと同じくOpenAIがリリースしたDALL·E2や英Stability AIがリリースしたStableDiffusionがよく話題に上がる。既にこのどちらも商用として展開されている。2010年代より始まったとされる第3次AIブームだが、けん引役となった深層学習技術は技術者向けツールの色合いが濃かった。それが、今回は、ウェブサービスやデモ版が提供されているため、誰でもすぐに試せる点が大きな特徴だ。ChatGPTのテスト版はユーザ数が1週間で100万人を突破したと伝えられており、大きなムーブメントを起こしているといえる。
　上記の様な生成系AIの開発競争と開発コミュニティは、これまでにも増して一層活性化しており、構想からツール化までのスピードも高速だ。開発競争ではMicrosoftが100億ドル以上の資金を投じてChatGPTを支援していると伝えられている。対して、GoogleはBARD AIをリリースして対抗、中国は北京智源人工智能研究院や大手IT企業群(BATH)を中心に第三極を形成する動きを見せており、BaiduはErnie Botの立上げ計画を明らかにしている。
　また、開発コミュニティの盛況さに関しては、ControlNetの事例が象徴的である[1]。従来の画像生成AIでは難しかったイラスト人物のポーズを、テキストではなく棒人間で指定するアイデアであるが、この内容を載せた論文が発表された3日後にはStableDiffusionのウェブサービスで、誰もがこの手法を使用できる状況になっており、その対応は衝撃的なスピードであった。

　さて、我々は介護分野で、利用者に大きなハードルを課すこと無く、容易に導入可能な対話AIの利用検討を進めている。そのためChatGPTには、当然、注目しているが、介護分野での活用に向けては、いくつかの乗り越えるべきポイントも浮かび上がる。
　1つ目はAI発話の情報の正確性についてだ。実際の対話状況の中では「正確性を犠牲にしても話を続けることが重要な場面」と「正確に話さねばならない場面」とが混在している。ChatGPTを使用してみると、細かな部分ではまだ正確ではない部分も多く、最新の話題への対応もあまり良くない印象を受ける。ただ、それらしい対話を続けることができるのも事実である。一方で、最新の話題にも対応ができ、回答の情報元を明らかにできる対話AIも既にリリースされている[2]。各々のユースケースを想定して、求められる正確性に応じたサービスを選択することが有効だろう。
　2つ目は個人情報の流出対策だ。対話の過程で、特段の意図はなくても利用者が個人情報を口にしてしまう場面は容易に想定される。いくつかの対話AIでは、使用ログを学習データに取り込むシステムが存在している場合もある。ChatGPTでは入力データの取り扱いは明らかにされていないものの、規約には入力されたデータを学習に使用することへの許諾を求める項目も存在する。利用者は、意図しない情報漏洩を防ぐため、サービス提供者の情報の取扱、活用、保護の取り決めを、都度、丁寧に確認しておく必要があろう。
　3つ目はインタラクション性の改善についてだ。ChatGPTは対話AIモデルであるものの、テキストでのやり取りが基本である。ただ、人間の対話は音声やジェスチャーを介して行うことが一般的だ。そのため音声またはジェスチャーをテキストに変換する機能と、AI側の発話内容を音声またはジェスチャーに変換する機能は欠かせない。それ以外にも、聞き取りやすい話し方、速度や間の調整などへの対応、明瞭でない回答の大まかな意図の把握などへの配慮が実用段階では求められる。この様な機能はスマートスピーカーや高齢者向け対話システムの中で実現されつつあり、上手に組み合わせることで、さらに使いやすいシステムの実現に貢献できるであろう。
　AIに関する技術の進歩のスピードはとてつもなく速い。有望な技術に時間をかけキャッチアップしようとしているあいだに、技術進歩に後れを取ってしまう可能性が高い。したがって、常に目的を念頭に、是々非々でAIシステムの選定や試行、アーキテクチャ設計の工夫を行い、AIのアップデートに合わせて素早く取り込めるようにしておくことが、高度化するAIとうまく付き合う為のポイントではないかと考える。また、AIの今後の発展を展望して、業務や日常な中のどの部分であればAIに任せたいか考え、利用目的のストックを用意しておくことも、大切なのかもしれない。

[1] Lvmin Zhang and Maneesh Agrawala. Adding Conditional Control to Text-to-Image Diffusion Models. Stanford University.(参照2023/2/20)

[2]https://www.perplexity.ai/(参照2023/2/20)

※記事は執筆者の個人的見解であり、日本総研の公式見解を示すものではありません。