Google DeepMindが、新しいマルチモーダルAIモデル群「Gemini Omni」を発表した。画像・音声・動画・テキストといったあらゆる入力を横断し、それらを単に繋ぎ合わせるのではなく推論したうえで、一貫性のある動画として出力できるのが最大の特徴だ。初号機「Gemini Omni Flash」は早くもGeminiアプリやYouTube Shortsなどに展開され、生成系AIの競争を一段と加速させようとしている。
Gemini Omniは、2026年5月19日に開かれたGoogleの開発者会議「Google I/O」で発表された。Google DeepMindは公式サイトで「あらゆる入力からあらゆるものを作る、まずは動画から」と説明しており、複数のモダリティを横断する生成モデルとして位置づけている。
入力を「束ねる」のではなく「推論する」設計
注目したいのは、複数の入力を「ただ束ねる」のではなく、すべてを推論して一貫した出力を生み出すという設計思想だ。たとえば画像と音声、テキストを同時に与えると、それぞれの情報を解釈し、矛盾のない一本の動画にまとめ上げる。Google DeepMindはこれを「Geminiの推論する能力と、創造する能力が出会う場所」と表現する。生成にあたっては物理・文化・歴史・科学といった世界知識が反映され、現実に即した自然な映像を目指しているという。
初号機となる「Gemini Omni Flash」は、最大10秒のAI動画生成に対応する。この10秒という制限について、Google DeepMindのニコール・ブリヒトヴァ氏は「モデルそのものの制約ではなく、より多くのユーザーに届け、需要に応じて判断した結果だ」と説明している。つまり技術的な上限ではなく、提供規模を考慮した当面の仕様であり、長尺への対応は今後予定されている。
操作は自然言語で段階的に指示できる。ユーザーが加えた編集は一つ前の状態を引き継ぎ、シーンの一貫性を保ったまま反復的に作り込んでいける仕組みだ。画像・テキスト・動画・音声といった参照素材を、一つのまとまった出力へと変換する。
展開先とSynthIDによる透明性の担保
展開先も幅広い。Gemini Omni Flashは発表と同時に、GeminiアプリとYouTube Shorts、そしてGoogleのAIクリエイティブスタジオ「Flow」で利用できるようになった。Flowでの提供はAI Plus・Pro・Ultraといった有料プラン向けとされる。開発者・企業向けのAPIは、数週間以内に提供される予定だという。
生成された動画には、AIによる生成物であることを示すための仕組みも組み込まれている。Google独自の電子透かし技術「SynthID」と、来歴情報を記録する「C2PA Content Credentials」が全ての動画に付与される。SynthIDは人間の目には知覚できない透かしで、Geminiアプリ上で検証できる。今後はChromeブラウザやGoogle検索でも確認できるよう対応が進められる予定だ。AI生成コンテンツが急速に普及するなかで、本物と生成物を見分ける手段は社会的な要請になりつつあり、こうした透明性の担保は重要な意味を持つ。
Soraとの競争が激化する動画生成AI
競合との比較も話題になっている。TechCrunchは、自分自身を録音して映像に登場させるデジタルアバター機能などが、OpenAIの動画生成アプリ「Sora」の「Cameos」機能と機能的に似ていると指摘している。テキストや画像から動画を生み出す生成AIの分野は、SoraやそのほかのモデルとGoogleとの間で競争が一段と激しくなっている。
Gemini Omniは、テキスト・画像・音声・動画という主要なモダリティを横断し、推論を通じて一貫した動画を生成するという点で、これまでの生成AIから一歩進んだ存在だといえる。まずは最大10秒という短尺からのスタートだが、長尺対応や開発者向けAPIの公開が進めば、活用の幅は大きく広がるだろう。SynthIDによる透明性の仕組みとあわせて、生成AIがどこまで実用と信頼を両立できるのか、今後の展開に注目したい。
参考:Gemini Omni(Google DeepMind公式)
参考:Google's Gemini Omni turns images, audio and text into video — and that's just the start(TechCrunch、2026年5月19日)

