ニュースの要約
- パナソニックHDが、テキスト、画像、音を相互に変換可能なマルチモーダル生成AI「OmniFlow」を開発
- OmniFlowは、各データ形式に特化した生成AIを組み合わせることで、少ないデータ枚数でも高精度なAny-to-Anyモデルを学習できる
- この技術を様々な現場で活用することで、マルチモーダルAIの活用領域を広げられる可能性がある
概要
パナソニック ホールディングス株式会社(以下、パナソニックHD)およびパナソニックR&Dカンパニーオブアメリカは、カリフォルニア大学ロサンゼルス校の研究者らと共同で、テキスト、画像、音といった異なるデータ形式を自由に相互変換できる(以下、Any-to-Any)マルチモーダル生成AI「OmniFlow」を開発しました。
近年、異なるデータ形式同士の変換を実現するマルチモーダルな生成AIの研究が盛んに行われていますが、学習データには通常、取り扱いたいデータ全てのペアを用意する必要があるため、取り扱いたいデータの種類が増えるとデータを取得するコストも増えてしまいます。今回開発したOmniFlowは、各データ形式に特化した生成AI(テキスト←→音、テキスト←→画像)を柔軟に組み合わせることで3組全てのモーダルから成るデータ(テキスト←→音←→画像)の枚数が少なくても高精度なAny-to-Anyモデルを学習でき、学習データの作成コストを大きく削減することに成功しました。
本技術は、先進性が国際的に認められ、AI・Computer VisionのトップカンファレンスであるCVPR 2025に採択されました。2025年6月11日から2025年6月15日までアメリカ ナッシュビルで開催される本会議で発表します。
今回開発したOmniFlowは各データ形式(テキスト→音、テキスト→画像)に特化した生成AIを柔軟に組み合わせて3組全てのデータのペア(テキスト←→音←→画像)の学習枚数を少なくしても高精度なAny-to-Any手法です。この技術を工場やくらし領域など様々な現場で学習することでその現場に特化した様々な種類のデータを生成することが可能になり、マルチモーダルAIの活用領域を広げることが期待できます。
編集部の感想
編集部のまとめ
OmniFlow:パナソニックHD、テキスト、画像、音を相互に変換可能なマルチモーダル生成AI「OmniFlow」を開発についてまとめました
今回のニュースは、パナソニックHDが先端的なマルチモーダルAI技術「OmniFlow」を開発したというものです。
OmniFlowは、テキスト、画像、音といった異なるデータ形式を自由に相互変換できる機能を持っており、これまでのマルチモーダルAIの課題であった学習データ作成コストの大幅な削減を実現しています。
この技術の開発により、工場やくらしの現場など、様々な分野でマルチモーダルAIの活用が広がることが期待されます。パナソニックHDは、AIの社会実装を加速し、顧客の生活・仕事の現場に貢献するAI技術の研究・開発を今後も推進していくと述べています。
編集部としても、OmniFlowのような先進的なマルチモーダルAI技術の登場は、AIの可能性をさらに広げるものだと評価しています。今後の技術の進化と、様々な分野での実用化に注目していきたいと思います。
参照元:https://prtimes.jp/main/html/rd/p/000006274.000003442.html