2024年前半のトピックから読み解く　グローバルIT大手の生成AI戦略

ホーム
週刊BCN
Special Feature
2024年前半のトピックから読み解く　グローバルIT大手の生成AI戦略

週刊BCN特別企画　■■AI時代のIT需要を探る■■

エッジコンピューティングビジネスの勝ち筋
データ活用やAI導入の加速により、エッジコンピューティング技術を活用した
ソリューション提案が新たなビジネス領域に進出するチャンスとなっている

× こちらから＞＞

Special Feature

2024年前半のトピックから読み解く　グローバルIT大手の生成AI戦略

2024/07/18 09:00

#Google #OpenAI Japan #Anthropic #米マイクロソフト

お気に入り

週刊BCN 2024年07月15日vol.2022掲載

　“生成AI元年”だった2023年に引き続き、24年に入ってもエンタープライズITの世界では新しい大規模言語モデル（LLM）や巨額の投資、大型のパートナーシップなど、生成AIに関する発表が相次いでいる。わずか1年前の業界地図が古びてしまうほど、この領域でのテクノロジーやビジネスの構造の変化は激しい。世界の大手IT企業はどのように生成AIに取り組み、今後に向けてどんな戦略を描いているのか。24年前半の動きを振り返り、企業の情報システムに生成AIが与える影響を探る。
（文／日高彰）

米OpenAI
人と自然に対話できる「GPT-4o」を発表

　今年に入っても、生成AI市場における話題の中心となっているのは米OpenAI（オープンエーアイ）だ。5月には新たなAIモデルの「GPT-4o」を発表。名称に付く「o」は「すべての」「全方位」などを意味するomniから取られているという。テキストだけでなく、画像や音声の処理も単一のニューラルネットワークで行う仕組みを採用したことから、このように名付けられているとみられる。

OpenAIが公開した「GPT-4o」のデモンストレーション映像。
「I〓ChatGPT」と書かれた画像を見せられ、AIが照れ笑いを含みながら回答する様子が披露された
※〓は絵文字のハート

　テキスト以外の情報もまとめて処理できる、「マルチモーダル」なAIへの進化をさらに志向した。例えば、音声で指示を入力し、その返答を音声で得るといった処理もスムーズに行える。従来の「GPT-4」でも音声での対話は可能だったが、入力された音声をいったんテキストに変換して解釈し、生成したテキストを再び音声に変換して出力していたため反応に時間がかかったほか、声の抑揚や話すスピードなどに含まれる情報も失われていた。GPT-4oではより自然にやりとりできるようになることが期待される。

　性能を示す数値としては、音声に対する応答時間がGPT-3.5では平均2.8秒、GPT-4では同5.4秒だったのに対し、GPT-4oでは同0.32秒と、大幅に高速化したことが示されている。OpenAIが公開したデモンストレーション映像では、GPT-4oが人間同士の会話に近いテンポでユーザーと対話するシーンが披露されたほか、人の表情を認識したり、音声での返答中にわずかに言葉に詰まったりと、より“人間らしい”反応を示すことが明らかになった。

　また、テキストをAIが理解可能な形式に分割・変換する、「トークナイザー」と呼ばれる処理において、多言語で圧縮率を向上した。日本語では圧縮率が1.4倍となり、これまでより少ないトークン量で処理が可能となる。GPT-4oは、主力製品である「GPT-3.5 Turbo」に比べるとトークンあたりのAPI利用価格は10倍と高価だが、これまで最上位製品だった「GPT-4 Turbo」よりは安価に設定されている。トークナイザーの圧縮率向上と合わせると、性能の割には安く使える値付けとなっており、OpenAIは最新のモデルへの移行を積極的に促していく姿勢を見せている。

　生成AIは、自然言語でユーザーとの対話が行えることが最大のメリットとされ、さまざまな業務システムへの組み込みが進んでいる。しかし、応答時間の問題があったため、特定の業務に習熟したユーザーにとっては、求める情報が得られるまでのタイムラグでストレスが生じたり、自然言語ではなく従来のシステムが理解可能なコマンドを学んだほうが実用的だったりと、生成AIが必ずしも生産性向上につながらない課題があった。GPT-4oのように高速で、しかもユーザーの表情や声の調子からより多くの文脈を理解できるAIモデルが利用可能となれば、AIを“優れた同僚”として活用し業務を効率化できる可能性が広がる。

　ただ、5月中旬の発表と同時にGPT-4oのAPIは利用可能となったが、高度な音声認識機能については今後一部ユーザーに対して提供するという段階で、すべてのユーザーに公開されるのは今年秋頃になる予定。リアルタイムでの音声対話が可能になるのはまだ先のことであり、デモンストレーション映像の中で示された新機能の内容はやや先走りの感も否めない。

　世界中で生成AI向けの計算資源が争奪戦となっている中、OpenAI自身もLLMの開発やサービス提供に必要となるGPUサーバーの確保に奔走している。6月には、米Oracle（オラクル）と協業し、LLMの構築用に「Oracle Cloud Infrastructure（OCI）」を新たに採用することを発表した。OpenAIはこれまで出資を受ける米Microsoft（マイクロソフト）のクラウド基盤を主に使用していたが、それだけでは今後の需要を満たせないと判断したとみられる。

　この協業はオラクル、マイクロソフト、OpenAIの3社による提携で、マイクロソフトのクラウドサービスである「Azure」をOCI上に拡張するかたちで実現するという。オラクルは、自社が支援するカナダのCohere（コヒア）や、イーロン・マスク氏が主導しチャットボット「Grok」などを開発する米xAI（エックスエーアイ）などにもOCIを提供しており、生成AIによるコンピューティング需要の急騰をOCI事業の成長につなげていく考えだ。

　また、企業の業務への生成AI導入に関しては、AIの安全性についてリスクを指摘する声は絶えない。OpenAIの設立者の一人で、チーフサイエンティストを務めていたイリヤ・サツキバー氏が同社を退職するというニュースが、GPT-4oの発表直後に生成AI業界では話題となった。同氏は、今後AIがより高度に進化する中で、人間社会にとって望ましくない動きをするようになることを懸念。AIの動作をコントロールする取り組みを、OpenAI内の「スーパーアライメントチーム」で進めていたが、同社はこのチームを解散した。

　サツキバー氏の退職の理由は明らかになっていないが、生成AIをめぐってはプライバシーや著作権、セキュリティーなどの問題が常に指摘されており、OpenAIは欧米の大手メディア企業などと協業を進める一方で、著作権を侵害したとして新聞社や著作者団体など複数の権利者から訴えられている。OpenAIの技術が企業にとって安心して導入できるものなのか、慎重に見極めていく必要がある。

この記事の続き＞＞