目まぐるしく進化し続けている画像生成AIに置き去りにされないために･･･【MRのための読書論（216）】

【ミクスOnline 2023年12月22日号】 MRのための読書論（216）

画像生成AI

『画像生成AIがよくわかる本――図解ポケット　次世代AIサービス』（田中秀弥著、松村雄太監修、秀和システム）を読むと、生成AIが目まぐるしく進化し続けていることが実感できる。

「画像生成AIは、ユーザーが生成したい画像のイメージを、テキストや参照画像で指示すると、そのイメージに沿った画像を自動で生成してくれるAIです。代表的なツールにはStable DiffusionやMidjourneyなどが挙げられますが、他にも様々なツールが次々と登場しています」。

「生成される画像は、写実的なものから油絵風、アニメ風のものまで幅広く、画風や色味などもテキストで指示を出すことができます。画像生成AIで生成された画像のクオリティは非常に高く、AIが描いたのか人間が描いたのか判別できないレベルになってきています」。

画像生成AIの仕組み

「Stable Diffusionは、拡散モデルの一種である潜在拡散モデルを使用しています。拡散モデルと潜在拡散モデルの基本的な考え方は同じで、純粋なノイズ画像から少しずつノイズを取り除いていくことで、最終的に綺麗な画像を生成するという仕組みです。･･･入力したテキストと画像を結びつけるには、CLIPと呼ばれる画像分類モデルを利用しています」。

「Stable Diffusionでは、入力したテキストのプロンプトから画像を生成するだけでなく、参照したい画像と補足説明のテキストを入力することで、画像を生成できるimg2img（Image to Image）と呼ばれる機能も利用できます」。

プロンプトエンジニアリング

「プロンプトエンジニアリングは、生成AIに対して的確なプロンプト（テキスト）で指示や質問をすることで、AIが生成するアウトプットの質を高める手法のことです。今後は、プロンプトエンジニアと呼ばれる職種が広がる可能性もあります」。

画像生成AIの活用事例

▶コミック制作　▶映像制作　▶ゲーム開発　▶建築デザイン　▶インテリアデザイン　▶広告クリエイティブの作成　▶自動車のデザイン　▶医療画像の作成

生成AIのこれから

「画像生成AIはさらなる進化を遂げており、テキストから動画を生成するAIも登場しています」。

「マルチモーダルとは、数値、テキスト、画像、音声、動画などの複数の種類からなるデータのことです。従来のAIは、画像のみやテキストのみを学習して処理を行うなど、1種類のデータから得た情報をもとに学習しており、こうしたAIはシングルモーダルAIと呼ばれています。最近では、マルチモーダルAIという言葉も登場しており、これは、複数の種類のデータを組み合わせたり、関連付けたりして学習できるAIモデルを意味します」。

「視覚メディア生成AIのスタートアップ企業は、AIを使った画像や3D素材の生成だけでなく、顔と声の合成や、顔の匿名化などに取り組んでいます」。

本書は、「ぜひAIに仕事を奪われる側の人間ではなく、AIをうまく使いこなし、AIと共存できる側の人間になりましょう」と呼びかけている。

戻る　|　「MRのための読書論」一覧　|　トップページ

▲ ページの一番上へ