生成AI(ジェネレーティブAI)とは?種類やできること、サービスをわかりやすく解説
集めたデータを効率的に分析することをはじめ様々な面で活用されてきているAIですが、最近ではChatGPTをはじめとしたテキストや画像などのクリエイティブな成果物を生成するAI(生成AI)が大きな注目を集めています。
本記事では、そもそも生成AIとはなにか、従来のAIとの違いといった基本的な内容から、具体的な活用事例や活用する際の注意点などについてまとめました。ぜひ参考にして頂ければと思います。
生成AI(ジェネレーティブAI)とは?
生成AIとは、画像や動画といった創造性あふれるコンテンツを0から生成することができるAIのことを指します。
この生成AI最大の特徴は、インプットされたデータを分析するだけでなく、データに基づいた最適なアウトプットを出力できることにあります。
従来のAIと比較して、より幅広い分野での活用が見込まれており、そのポテンシャルの高さから「現存の社会構造を抜本的に覆すゲームチェンジャー」と呼ばれています。
そんな社会的にも大きな注目を集める生成AIですがジェネレーティブAIとも呼ばれており、既にChatGPTをはじめ続々と実用的なサービスが誕生しています。
また、生成できるコンテンツも音楽や3Dモデルなど非常に幅広く、早くも企業や個人に対して影響を与えはじめています。
生成AIとこれまでのAIとの違い
「そうは言うものの、これまでのAIと何が違うのか?」という疑問を持たれる方もいらっしゃると思います。
わかりやすくは、次の点が従来のAIと異なるポイントになります。
従来のAIは過去のデータを基に推測する
1つ目は、従来のAIだと過去のデータを基に推測するといったことしかできなかったという点です。
どちらも同じ「AI(人工知能)」というIT技術ではあるものの、できることが異なります。
これまでの利用用途だと、文字認識(OCR)や画像を識別するといったことが代表的な例でした。
例えば、PDF書類をクラウドサーバーで保管する際に、AIOCRで自動で書類を識別するための情報を抽出したり、自動車部品工場で流れてくる部品や製品が規格と合っているかどうかを判断するといった利用用途です。
上述した例のように、これまでのAIの性能では与えられたデータが事前に学習された答えと合ってるか否かを判別することや、入力データに基づいた結果の予測・傾向を算出することまでしか実現できませんでした。
生成AIは入力データに基づいて創造的なアウトプットが可能
2つ目は、入力データに基づいて創造的なアウトプットが可能な点です。
従来のAIでは、「識別」や「予測・推測」が社会実装の限界とされていました。
先程の例にあるような、読み込まれた文字情報や画像データに対して、事前にインプットされたデータ(解答内容)と照らし合わせて正解か不正解かを識別したり、予測したりすることです。
それでも長い人類史でいえば目覚ましいほどの技術といえる従来のAIですが、生成AIでは、従来のAIができることはもちろん入力されたデータに基づいたアウトプットを創出することができます。
これまでのAIでは到達できなかった、人間の強みと呼ぶべき「考える」や「計画する」「クリエイティブな成果物を創出する」といった自立性の高い行動さえも、自ら補完できてしまうのが生成AI最大の特徴です。
活用できる/できないということが、企業はもちろん個人間でも大きな差別化になることが予想されるほどの技術革新を起こした張本人とも言えるような技術が、生成AIです。
生成AIの種類
様々な面での利活用が進む生成AIですが、現状では一つの生成AIですべてのコンテンツを生成できるというものは少なく、生成したいコンテンツごとに生成AIの種類もそれぞれ分かれています。
ここではよく知られている生成AIについて、その一例をご紹介します。
画像生成AI
出来上がりの画像をイメージしたテキストを入力するだけで、その内容を反映した画像を生成することができます。
生成したい画像の枚数や入力した文量で多少の差はあるものの、数秒〜長くても数分単位で画像を生成することができるので、広告やWebに関するデザイナーをはじめ様々なクリエイティブ業務のサポートや、新しいアイディアの創出など幅広い活用が期待されています。
テキスト生成AI
AIがユーザーの入力した質問や指示の内容を解析して、その内容に対して回答となるテキストを生成することができます。
生成AIを世界的に広めるきっかけとなった「ChatGPT」も、このテキスト生成AIに該当し、まるで人に質問・相談・指示したときのような回答結果が得られます。
文章の要約や説明文の作成はもちろんですが、プログラムのソースコードのエラー箇所を指摘するなども可能です。
回答する上で参照している情報が現状はWebのみのため必ずしも正確な情報が得られるわけではないという点は注意を要しますが、業務面や日常生活に至るまで幅広い面で利活用することができます。
デザイン生成AI
入力されたテキストや画像データを基にして、自動でレイアウトや背景の配色などが生成されます。
デザインという言葉から想像されるように、人の「感性」に直接的に影響を及ぼす分野でもあるので人間が作成するクオリティとの比較が課題とされていますが、画像生成AI同様に、アイディア創出のためのサポートとしての役割を担えるという点で注目を集めています。
3Dモデル生成AI
テキストや画像を参照データとして入力すると、3Dモデル(建築設計や、ゲーム、映画などに利用される立体的なCG)を生成することができます。
Vtuberのアバターや、自動運転の社会実装のためのシミュレーションといった様々な分野で既に活用されている3Dモデルですが、これまでは制作用のソフトなどを活用して作成する必要があり、一定の知識や経験が必要されていました。
しかし、生成AIが登場したことで誰でも簡単に3Dモデルを作成することができるようになりつつあるため、一般利用はもちろん、建設業界をはじめとした生産性の向上が急務な業界においても注目を集めています。
動画生成AI
画像生成AIの発展形という形になりますが、入力されたテキストや画像などから動画を自動生成できることはもちろんのこと、入力された動画を全く別の動画に再構築したり、ブログ記事のURLを入力するだけでその記事の宣伝映像を生成することができるようなものもあります。
後ほどご紹介しますが、同じ類の生成AIでもどのモデル(コンテンツ生成の仕方)を採用してるのかによって、コンテンツの精度やできることに差が生まれます。
音声生成AI
入力したテキストを音声として出力する(読み上げる)ことができたり、音声データそのものを入力することで新しい音声を生成できたりもします。
例えば、「Google Cloud Text-to-Speech」は入力したテキストを数秒で解析・読み上げてくれる音声変換サービスであり、日本語を含め複数の言語に対応し、ただ読み上げるだけではなく機械学習を利用して自然な発音の音声を合成することができます。
音楽生成AI
「勉強に向いているミュージック」とテキスト入力するだけで音楽を生成できたり、思いついた歌詞を入力するだけでそれに合わせた作曲ができます。
音楽分野は著作権も絡んできやすいため、注意は必要ですが、実際に音楽生成AIを活用して作曲した海外アーティストもいるくらいには実用化が進んでいます。
生成AIの仕組み・モデル
このように多種多様な生成AIが誕生していますが、一体どのように入力したテキストやその他の情報からコンテンツ生成しているのでしょうか?
実は、生成AIの大枠の仕組みとしては、入力されたデータに対して本当にシステムが人のようにあれこれと考えているのではなく、予め組み込まれた思考回路(ニューラルネットワーク)に沿って、入力された情報を変換してコンテンツを生成しています。
その思考回路は「モデル」と呼ばれ、いくつか種類があるのですが、今回はその中でも代表的なAIモデルを紹介します。
GAN(Generative Adversarial Networks)
GAN(Generative Adversarial Networks)は、画像生成AIのモデルとして活用されています。
日本語訳すると「敵対的生成ネットワーク」という意味になるのですが、簡単に言うと入力されたデータから特徴を学習し、擬似的なデータを生成することができるモデルです。
GANは「Generator(生成ネットワーク)」と「Discriminator(識別ネットワーク)」という2つの変換装置を経てコンテンツ生成をするようなイメージのモデルであり、そのプロセスにおいて、GeneratorとDiscriminatorの互いを競い合わせることで精度を高めていくことから、「敵対的生成」と表現されています。
Generator=本物そっくりに描こうとする贋作師、Discriminator=それを判別する鑑定士と考えるとよりわかりやすいと思います。
要は入力されたデータから、最終的には本物とほとんど変わらないデータ・情報を作成するために、いたちごっこのように競り合ってコンテンツを生成しているので、解像度の低い画像から高解像度の画像を生成したり、テキストから全く新しい画像を生成したりすることが可能です。
Diffusion(拡散モデル)
Diffusion(拡散モデル)も、画像生成AIのモデルとして活用されています。
「ノイズ除去拡散確率モデル」と呼ばれるモデルとなりますが、わかりやすく言い換えると、画像に対してランダムノイズを徐々に加え完全にノイズになったものから、今度はノイズを取り除いていき、ノイズ除去後の画像と元の画像の差分を少なくするように学習するモデルです。
同じ画像生成系のモデルではありますがDiffusionはGANの発展系のような位置づけであり、より高解像度な画像を生成することが可能になります。
GPT(Generative Pre-trained Transformer)
ChatGPTで耳馴染みのある方もいらっしゃるかと思いますが、こちらは米国のOpenAI社が発表した高性能な言語モデルです。
よくGPT-3とか書かれていますが、後ろに書かれているのはバージョンのようなものと思って頂いて問題ありません(もちろんバージョンによってモデルの仕組みそのものが違う可能性はあります)。
GPTの仕組みを要約すると「AIが大量のテキストデータを学習し、文章の生成や言語理解の能力を身につけ、次の予測や推測ができるようになった次世代型言語モデル」です。
人間が作成したかのような違和感のない文章を生成できるのが特徴ですが、その精度の高さからChatGPTが世界的に注目されるようになり、局所的な文書の要約や新たなアイディアの創出に留まらず、さらなる活躍が見込まれています。
※ちなみに、最新のバージョンはGPT-4になります。
生成AIを活用したサービスの一例
ChatGPT以外にも、生成AIを活用した多くのサービスが世の中には存在しています。代表的なサービスをご紹介します。
画像生成系:Stable Diffusion
https://stablediffusionweb.com/
Stable Diffusionは、2022年にStability AIが公開した画像生成系AIです。
生成される画像のクオリティの高さや生成にかかる時間の速さといった点から、テキスト→画像生成をするAIの中では最も有名なサービスです。
テキスト生成系:ChatGPT
まるで人間と会話しているかのような自然な会話を楽しめる対話型AIチャットサービスであり、世界的にも脚光を浴びている生成AIサービスの一つです。
従来のチャットボットと違い、事前に設定された質問以外にも回答できる範囲が広く、かつ人と自然に会話しているような対話ができることが特徴です。
デザイン生成系:Canva
https://www.canva.com/ja_jp/login/
デザインツールとして名高いCanvaですが、テキスト入力→画像生成が可能です。
また、使っていくうちにパーソナライズされていき、個人の趣味嗜好に合わせたデザインが生成されるようになります。
3Dモデル生成系:Shap-E
https://github.com/openai/shap-e
ChatGPTを発表したOpenAI社が提供する3Dモデル生成AIです。
テキストからの3Dモデル生成のみならず、画像からも生成することが可能であり、誰でも無料で利用できます。
動画生成系:Runway Gen-2
https://research.runwayml.com/gen2
テキストや画像から動画を生成できるサービスです。
生成されたコンテンツのクオリティの高さから、動画生成系のAIサービスでは最も注目されているものの一つです。
音声生成系:IBM Watson Text to Speech
https://www.ibm.com/jp-ja/cloud/watson-text-to-speech
IBM社が提供するWatson Assistant内で、書かれたテキストをさまざまな言語の自然な響きの音声に変換することができるサービスです。
さまざまな言語や音声に対応しているほか、自分の声を録音してモデル化する「カスタム音声」を搭載している点が特徴的です。
音楽生成系:SOUNDRAW
ムード、ジャンル、長さを選ぶだけで、あなたの作成意図に沿った音楽を生成できる音楽生成AIサービスです。
イントロを短くしたり、サビの位置を変えたりと、音楽の知識がない方でも簡単に曲を編集できます。曲と映像を合わせながらお好みの曲の作成をされてみてはいかがでしょうか。
生成AIを活用するメリット
ここまで生成AIがどういったものであり、その仕組みや種類についてお話ししてきましたが、改めて生成AIを活用するメリットについて4つご紹介します。
機械的な作業の自動化
1つ目のメリットは、機械的な作業を自動化できることです。
AIと聞いて最もイメージしやすいメリットのうちの一つではありますが、それゆえにその恩恵を感じる場面もこれからより一層増えるかと思います。
例えば、取引先へ送る御礼メール文面の雛形作成などのちょっとした作業であったしても1日に数件〜数十件送る方からすると、もっと簡単にメールを送りたいですよね。
そうした際に、ChatGPTをはじめとするテキスト生成系AIで文面を作成してもらうことで大幅な効率化が期待できますし、より付加価値の高い業務にリソースを割くことができます。
アイディア創出のサポート
2つ目のメリットは、アイディア創出のサポート役を担ってくれることです。
生成AIは単なる情報のやり取りではなく、指示した内容やインプットされた情報に基づいて最終的な成果物もアウトプットしてくれます。そのため、インプットする情報を細かく設定することで、出力されるコンテンツのバリエーションを増やすことも可能です。
例えば、新しくWeb広告のバナー作成する際にも画像生成AIやデザイン生成AIを活用することでいくつかのサンプルを入手することができ、そのサンプルを基に議論・ブラッシュアップすることで、よりハイクオリティなバナーを作成することができます。
コンテンツ作成の負担軽減
3つ目のメリットは、コンテンツ作成の負担軽減です。
従来であれば予め決められた方針のもと担当者が全てを0から作成する必要がありましたが、生成AIを活用するとものの数秒〜数分でコンテンツを作成することができます。
例えば、オウンドメディアの記事タイトルや各見出しの案出しに際して、テキスト生成AIを活用するとより効率的にそれらが作成可能です。
早期のプロトタイプ作成
さいごのメリットは、早期のプロトタイプ作成が可能になることです。
先ほど説明した「コンテンツ作成の負担軽減」と内容そのものとしては近いですが、時間をかけずに様々なバリエーションのコンテンツを作成できるので、生成されたものについてディスカッションすることで、よりもっともらしい意思決定をすることができます。
例えば、難しいとされている新製品開発する際のアイディアについても生成AIを活用すれば、すぐにたたきとなるアウトプットが出てくるので、後はそれらについて吟味・議論することでより早期に新製品の決定→テスト開発を実現することが可能です。
生成AIを活用する方法
コンテンツ生成の補助
例えば、新しい集客チャネルとしてSNS運用をスタートさせるといった際に、画像生成AIを活用しブランドイメージやサービス概要などの情報をインプットすれば、SNSのアカウントに利用できるアイコン画像を生成することができます。また、イメージを踏まえたロゴ画像の生成や背景素材の生成といったことにも応用が可能です。
従来であれば、イメージという情報を画像(デザイン)に変換するというのは非常にクリエイティブさが求められますが、生成AIを活用すれば誰でも一定レベルのコンテンツを作成することができるようになります。
文面の作成
活用例の2つ目は、文面の作成です。
例えば、既存取引先へ新しい商品・サービスのセールスメールを送る際にテキスト生成AIを活用して、詳細な商品名やセールスポイントなどの情報をインプットすれば、瞬時にメール文面の作成が可能です。
セールスポイントのような製品やサービスの魅力を言語化して伝わりやすい文章に起こすというのは0からやると難しいですが、生成AIを活用することで簡素化が期待できます。
その他にも、長い文章の要約や議事録をまとめたりすることにも応用できます。
AIを組み込んだチャットボットの構築
従来、チャットボットは事前に設定さたれた質問にしか応答できませんでしたが、テキスト生成AIを組み込むことでユーザーからの複雑な質問にも回答できるようになりました。
社内のカスタマーサポート担当の負担を軽減することも期待できます。
アイディアのブレスト
活用例の4つ目は、アイディアのブレストです。
例えば、既存製品の販売戦略を考える際に、ChatGPTのようなテキスト生成系、かつ対話型のAIを活用し、販売している製品と既存のターゲット顧客層と現状の課題点などの情報をインプットすれば、より効果的な戦略についてのアイディアをキャッチアップすることができます。
また、アウトプットされたアイディアから、これまでに想像もつかなかった気づきや発見を得られる可能性もあります。
今後の予測と洞察
従来型のAIと似たような使い道ではありますが、生成AIは過去のデータやトレンドを基に、需要や販売数量の予測、顧客の購買傾向の予測などを行うことができます。
これまでと違った点でいうと、上述しているようにChatGPTのような対話型AIであれば単純な数値だけではなく、その数値から導き出されるインサイトも得ることが可能です。
生成AIを活用するデメリット・注意点
利便性も高く社会的な面での実利用がより一層期待されている生成AIですが、注意しなければならない点が多くあることも事実です。
情報漏えい等のリスクはもちろんのこと、技術面での進歩が早いがために安全に運用する上でのガイドラインや法的な解釈が曖昧な状態です。
今回は、特に気をつけるべき点を4つ紹介します。
著作権・商標権などの権利侵害に注意を払う
現状のガイドラインでは、著作権については「単にAIに他人の著作物を入力するだけの行為は著作権侵害に該当しない」としつつ、「生成されたデータが、入力したデータや既存のデータ(著作物)と同一・類似している場合は、当該生成物の利用が当該著作物の著作権侵害になる可能性もある」とされています。
本人に悪意はなくとも、生成したコンテンツを実際に使用する際には著作権・商標権などの権利侵害に当たらないかどうかは要チェックしましょう。
生成AIに入力した情報が他者に流出する可能性
ガイドラインでは、『個人情報・秘密情報・機密情報』といった、いわゆる『秘匿性の高い情報は入力しない』よう、呼びかけています。
ユーザーが入力したデータはAIのモデルの学習に利用されますし、該当サーバーがサイバー攻撃を受け情報が流出する可能性もあります。
情報をインプットする際には十分に注意を払いましょう
他人が生成したコンテンツとの差別化のハードルが上がる可能性
コンテンツ作成の補助がメリットになる一方、一定レベルのコンテンツは誰でも作成できるようになっていますので、生成された成果物をそのまま使用すると、他の人とコンテンツが類似する可能性があります。
また、差別化に必要な「クリエイティブさ」がより求められるようになるので、そうした要件を満たさないレベルのデザイナーは淘汰されていってしまうことも考えられます。
フェイクコンテンツ増加の恐れがある
生成AIは本物に酷似した画像やニュースからWebサイトに至るまで、あらゆるものを作り出すことが可能です。
例えば、著名人や知り合いに似せた画像をSNSに投稿した結果、実態とは誤った情報が世界中に発信される可能性もあります。
また、近年問題となっている「なりすましのアイコン画像やコラージュ」なども生成することが可能なため、当人の誹謗中傷につながる可能性が高いです。
このように、生成されたコンテンツには注意すべき点がある一方で、コンテンツそのものだけでは真偽がわかりかねるため、適切な判断を下すための新たな基準を考えていく必要があるというのが社会が抱える課題の一つとなっています。
まとめ
生成AIは活用することで享受できるメリットが大きい一方で、注意すべき点もあります。
ただ、これは普段利用しているPCやインターネットにも言えることなので、未知なものだからといって遠ざけるより正しく理解して活用していく方が、会社や個人、ひいては日本社会の成長に大きく寄与してくれる技術だと思います。
新しい技術を「使えない」ことによって周囲の競合企業に遅れを取ることもビジネスの世界では大きなリスクになり得ますので、ぜひこの記事を通じて生成AIについての理解を少しでも深めて頂けたら幸いです。