AIワンダーランド

AIエンジニアの個人開発ブログ

「JDLA Generative AI Test 2023」の勉強方法と対策

更新日:2023年11月21日

============================

追記:2023/11/21

第二回来ましたねー!!

ブログ内の情報更新しておきます。

用語問題はそのままですが、参考になると思います。

 

今回からは記述式問題があるとのこと、こちらは理解力が問われるため

生成AI関連の本や記事を読んで人に話せるようになるのが良さそうですね。

 

追記:2023/6/30

無事合格してました。この記事を書きながら勉強して、生成AIの技術と利活用は満点とれました。が、著作権などのリスクは満点とれなかったので、もっと勉強必要ですね。。

 

追記:2023/6/25

みなさん試験お疲れ様でした!どうでしたかー

この記事が少しでもお役にたっていたら嬉しいです。

 

私は技術系の設問が少なくちょっと肩透かしな感じ

シラバスにはあんなにあったのにね・・

またグレードアップして開催されたらいいですね。

============================

 

G検定E資格取得者としてこれは受けるしかない!!

しかし、あと10日しかない!

 

概要

一般社団法人日本ディープラーニング協会(JDLA)が生成AIを適切に活用する能力や知識を検定する「Generative AI Test 2023」を開催されるとのこと。

 

 

ということで突貫で勉強方法を記事にまとめながら自身も勉強していきたいと思います。受検される皆様の何らかの参考になれば幸いです。

 

試験詳細

◆試験の詳細◆ 正式名称:「JDLA Generative AI Test 2023 #2」
受験資格:どなたでも受験可能
実施概要:オンライン実施(PC/スマホ)
試験時間: 20分
問題:20問程度、択一式/多肢選択式 19問 ・ 記述式 1問
開催日時:2023年12月2日(土)10:00 〜 23:59
受験申込期間:2023年10月16日(月)13:00 〜 2023年11月28日(火)23:59
出題範囲:シラバスより出題
受験費用:2,200円 (税込)

 

試験の内容は、生成AIの基本構造や学習方法、活用事例や活用を制限する要因、技術面・倫理面・法令面・社会面などでのリスクなどについて問われるようです。

 

試験時間が20分!

受験費用も2,200円と安いので皆さん試しに受けてみてはどうでしょう。

試験の申し込みや詳細については、JDLAの公式ウェブサイトをご覧ください。

 

www.jdla.org

 

試験までにやること

「シラバス内容を参照の上、JDLAが提供する参考資料も活用してと」ありましたので、資料に目を通して、シラバスの単語を理解しておけばある程度点数をとれるでしょう。

 

1.敵を知る(試験を理解する)

設問の予想イメージ

15分=900秒 ÷ 20問 = 1問あたり45秒

記述1問で20分になったので

19問x45秒=855秒

1200秒-855秒=345秒

 

19問を1問あたり45秒で回答し、記述1問を5分で回答

といったペースですね。


【参考】

JDLAのG検定が120分で、多肢選択式の知識問題200問程度です。

7,200秒 ÷ 200問 = 1問あたり36秒

なので、今回の「JDLA Generative AI Test 2023」も下記のような出題形式になるのではと予想しています。

前回の第一回の試験問題、予想通りでしたね!

第二回も同じ形式なようです。

 

【選択式】

 

【記述式】

 

参照:https://www.jdla.org/certificate/generativeai/issues/

IBT試験のデモ試験画面

PCで実際受験する際はIBT試験なので下記のような選択画面になります。

 

【択一式】

【択多形式】

 

2.参考資料を見る

公式で参考と言っているので必ず見る必要があるでしょう。

参考資料1:「JDLA緊急企画!「生成AIの衝撃」〜ChatGPTで世界はどう変わるのか〜」

生成AIの構造や仕組みについて、3月9日のウェビナーを録画した2時間の動画と解説レポートがあります。

私はリアルタイムで見ましたが内容すごく面白く刺激を受けました!!

受験されない方も見る価値ありです。

 

www.jdla.org

 

参考資料2:「JDLA公開 生成AIの利用ガイドライン」

生成AIを活用する上で知っておくべきこと、気をつけるべきこと

ドキュメントファイル3つをダウンロードできます。

全部で14ページしかないので、1日あれば大丈夫かと

 

・「生成AIの利用ガイドラインの作成にあたって」1ページ

・「生成AIの利用ガイドライン 第1版, 2023年5月公開」5ページ

・「生成AのI利用ガイドライン 第1版, 2023年5月公開 【簡易解説付】」8ページ

 

www.jdla.org

 

 

3.スキルアップAIさんの対策ウェビナーに申し込む

対応が早い!

さすがスキルアップAIさんですね~

何かとお世話になっております。

 

追記:アーカイブ動画+資料を販売されています。一部youtubeで配信されているとのこと。

 

日時:2023年6月21日(水)19:30~21:00

開催方法:Zoom

参加費:無料

 

www.skillupai.com

 

 

4.シラバスの用語理解

【Perplexity.AI】を利用させていただき、用語の要点を掴む。

試験対策としてはこれだけでも足りるのではと思っています。

詳細が知りたい方は別途調べてください。

 

勉強しやすいようにクリックすると展開するようにしてみました。

 

生成AIの技術 特徴

テキスト、画像、音声等の生成モデルに共通する技術的な特徴を俯瞰して理解している。

▼ 確率的生成モデル

現実世界のデータを生成するモデルであり、そのデータが決定論的に厳密に生成されるのではなく、あるバラつきや揺らぎを持って生成されると考えるものです。確率的生成モデルは、確率密度分布に従ってデータを生成するため、確率モデルとも呼ばれます。データの不確実性とモデル推定の不確実性を考慮するモデルです。この不確実性は、平均や分散を用いて確率という形で表現されます。

 

▼ ハルシネーション(Hallucination)

AIの生成モデルにおいて重要な概念であり、訓練データには存在しない情報を生成することを指します。ハルシネーションは、生成AIにおいて問題となることがあります。例えば、テキスト生成AIにおいては、実際には存在しない単語や、事実ではない説明をすることがあります。AIの研究者たちは、この問題に対処するために様々な手法を開発しています。

 

大規模言語モデルの基本構造を理解している。

▼ 基盤モデル

大規模言語モデルにおける基盤モデルは、幅広いデータで大規模に訓練された、幅広い下流タスクに適用できる大規模な人工知能モデルです。基盤モデルは、大規模言語モデルの一種であり、ファインチューニングなどによって、テキスト分類、感情分析、情報抽出、文章要約、テキスト生成、質問応答などの自然言語処理タスクに適応できます。

 

▼ 言語モデル

条件付き確率の積を用いてテキストの続きを推定するモデルです。このモデルは機械翻訳や音声認識において、単語の並びの自然さを考慮するために用いられてきました。単語列に対する確率分布を表すものであり、自然言語処理の分野で広く使用されています。

言語モデルは、長さがm個の単語列が与えられたとき、その単語列全体に対しての確率を与えます。

言語モデルは、1つまたは複数の言語のテキストコーパスを使用して訓練することによって得られます。マルコフ仮定や、回帰型ニューラルネットワークあるいはトランスフォーマー(transformer)などのニューラルアーキテクチャなど、さまざまなモデリング方法が考案されています。

 

▼ 大規模言語モデル(LLM)

大量のテキストデータを使ってトレーニングされた自然言語処理のモデルであり、テキスト分類、感情分析、情報抽出、文章要約、テキスト生成、質問応答などの自然言語処理タスクに適応できます。大規模言語モデルは、ファインチューニングなどによって、様々なアプリケーションの基盤として使用されることがあります。大規模言語モデルの例としては、BERTやGPT-3などが挙げられます。大規模言語モデルは、その内部のニューラルネットワークに含まれるパラメーターの数も非常に多く、GPT-3は1750億、GPT-3.5は3550億ものパラメーターを持っています。

 

▼ Transformer

自然言語処理(NLP)の分野で使用される深層学習モデルであり、2017年にGoogleの研究者によって発表されました。Transformerは、時系列データを逐次処理する必要がないため、回帰型ニューラルネットワークよりもはるかに多くの並列化が可能であり、トレーニング時間が短縮されます。Transformerは、自然言語の翻訳やテキスト要約などのタスクに使用されます。Transformerは、自己注意機構を採用しており、入力データの各部分の重要性を異なる重み付けで考慮することができます。Transformerは、大規模言語モデルの一種であり、BERTやGPT-3などのモデルが挙げられます。

 

▼ アテンション(Attention)

機械学習の分野で使用される手法の一つであり、人間の認知的な注意を模倣するように設計されたものです。アテンションは、入力データの中で特定の部分に注目することで、処理の効率性を高めることができます。アテンションは、自然言語処理の分野で広く使用されており、機械翻訳や画像キャプションなどのタスクに使用されます。アテンションは、入力データの各部分の重要性を異なる重み付けで考慮することができます。アテンションは、自己アテンションや多段階アテンションなど、様々な種類があります。Self-Attentionは単語間の相互関係を捉え文脈を理解できるようになる。

 

▼ GPT-3(Generative Pre-trained Transformer 3)

GPTはデコーダ(単語を予測する部分)に大規模なテキストを学習させ、最適な単語を予測できるようベクトルを近づけるよう学習させ、パラメータを更新させます。事前学習ではコンテキスト内学習を行っており、ファインチューニングをしないでも多くのタスクで高い性能をだせる。

会話形式でのやりとりができる新しいモデルであり、OpenAIによってトレーニングされています。このモデルは、プロンプトに従って指示を実行し、対話の文脈に適切な応答を提供するようにトレーニングされています。ChatGPTは、質問に答えたり、レシピの提案、特定のスタイルで歌詞を書いたり、コードを生成したりするのに役立ちます。
ChatGPTは、人間のフィードバックからの強化学習(RLHF)を使用してトレーニングされています。このモデルは、以前のGPTのイテレーションよりもはるかに能力があり、有害で不正確な出力を減らすためにトレーニングされている。

 

大規模言語モデルにおけるモデルの学習方法を理解している。

▼ 教師あり学習

大規模言語モデルは、大量のテキストデータを使ってトレーニングされた自然言語処理のモデルであり、教師あり学習によって構築されます。

 

▼ 自己教師あり学習

自己教師あり学習(SSL)は教師なし学習であり、大量のデータを手間をかけずに学習させることができます。SSLは、教師ラベルの無いデータを用いて、データ自身から独自のラベルを機械的に作り、それを予測する事前学習タスクを解くことで、大量のデータを学習させることができる。その後少量の教師あり学習で精度を上げることが多い。

 

▼ 事前学習

大量のテキストデータを使って言語モデルをトレーニングすることで、言語の基本的なパターンや文脈理解を把握します。具体的には、トレーニングデータ中の単語をマスクし、マスクされた単語をモデルが復元する予測タスクを学習することが一般的です。

 

▼ ファインチューニング

あらかじめトレーニングされた言語モデルを、特定のタスクやドメインに適応させるために行われます。ファインチューニングは、教師あり学習や教師なし学習などの手法でトレーニングデータを用い、モデルのパラメータを調整することで実現します。

 

大規模言語モデルのアラインメントを理解している。

▼ アラインメント (Alignment)

人間の価値、意図、好みに合わせるプロセスを指します。このアライメントは、AIシステムが訓練で最適化し、その予測が意図された目的に沿ったものであり、人間が提供する倫理基準や安全基準を遵守することを保証するために極めて重要です。

 

▼ 強化学習 (RLHF)

人間のフィードバックを使って言語モデルを強化学習する手法であり、言語モデルの性能向上に役立つことが分かります。RLHFは、ChatGPTやInstructGPTなどの言語モデルで使用されており、人間の価値基準に合わせて言語モデルを最適化することができます。

 

▼ インストラクション・チューニング (Instruction Tuning)

より自然で正確な対話を実現するために考案された技術であり、FLANやInstructGPTなどの言語モデルで使用されています。インストラクション・チューニングは、様々なタスクのファインチューニングにより未知のタスクへの精度を上げる手法である。

 

大規模言語モデルにおける生成の仕組みを理解している。

▼ コンテキスト内学習 (In-Context Learning)

例示文章を多数用意し、次の単語を逐次予測することで事前学習することで、少しの例示でタスクに回答できるようになる。特定のタスクにおいてパラメータを更新することなく、説明や入出力例を見て学習することです。

Zero-shot Learning、One-shot Learning、Few-shot Learningと呼ばれることがあります。人間の学習に近い方法であり、事前学習済みモデルであったとしても特定のタスクに適応するためにラベル付きデータが必要である問題を解消することができます。

 

▼ Zero-Shot、Few-Shot

Zero-Shot:モデルに任意の例を提示しないで推論すること。

Few-shot:いくつかの例を質問文に埋め込むことで出力をコントロールする手法。
問題をステップに分解して、モデルにそれをデモンストレーションすることが有効。

 

▼ サンプリング手法

言語モデルが生成するテキストの多様性を増やすため、次の単語候補のうち確率の高い候補からどれを選択するかの手法。サンプリング手法には、ランダムサンプリング、ビームサーチ、トップkサンプリング、トップpサンプリングなどがありChat-GPTはトップpを使用。これらの手法は、生成されるテキストの品質や多様性を向上させることができます。

 

生成AIの技術 動向

テキスト、画像、音声等の生成モデルの技術動向を俯瞰して理解している。

▼ 条件付き生成

特定の条件に基づいて言語モデルがテキストを生成することを可能にする技術であり、翻訳、質問応答、穴埋め、マス埋めパズル、文中の新語検出などのNLPタスクに使用されます。条件付き生成は、プロンプトエンジニアリングによって最適化されることがあり、基盤モデルとして使用されることがあります。

 

▼ 拡散モデル(Diffusion Model)

拡散モデルは、最近流行りの画像生成AIであるDALL・E2やStable Diffusionなどのベースになっている技術であり、話題になっています。データにノイズを徐々に加えていき、データを完全なノイズに変換する拡散過程を考え、この拡散過程を逆向きにたどる逆拡散過程によって生成過程を定義する方法であり、画像編集や自然言語処理などの分野で使用されます。モデルはデノイジング拡散確率モデルやU-Netがあり、LDM潜在拡散モデルではVAEとU-Netを使用し、大規模なDiffusion Modelへと発展している。これにより高品質な画像生成や自然な文章生成を実現することができます。また、拡散モデルは、基盤モデルの1つとして使用されることがあります。

 

大規模言語モデルのオープン化の動向と原因について理解している。

▼ オープンコミュニティ

大規模言語モデルの開発には、オープンコミュニティが重要な役割を果たしており、モデルの改善や新しいアプリケーションの開発が促進されています。また、大規模言語モデルの開発には、オープンソースのデータセットが必要であり、オープンコミュニティによってデータセットの共有や整備が行われています。

 

▼ オープン大規模言語モデル

一般に公開されている大規模言語モデルのことを指し、自然言語処理の様々なタスクに使用されます。例えば、BERTやGPT-3は、テキスト分類、感情分析、情報抽出、文章要約、テキスト生成、質問応答などのタスクに使用されます。オープン大規模言語モデルは、プロンプトエンジニアリングによって最適化されることがあり、基盤モデルとして使用されることがあります。

 

▼ オープンデータセット

大規模言語モデルの訓練には、多様で大量のデータが必要であり、オープンデータセットが使用されます。オープンデータセットには、CommonCrawl、Wikipedia、Redditなどがあります。また、大規模言語モデルの基盤モデルには、多数のオープンデータセットが使用されています。

 

▼ オープンソース

AIコミュニティが共同で開発しています。オープンソースの大規模言語モデルは、自然言語処理の分野で広く使用されており、様々なタスクに応用されています。大規模言語モデルの開発には、オープンコミュニティが重要な役割を果たしており、モデルの改善や新しいアプリケーションの開発が促進されています。また、大規模言語モデルのオープンソース化によって、多くの人々がモデルを使用して、新しいアプリケーションを開発することができます。

 

大規模言語モデルの性能を決める要素の動向と原因について理解している。

▼ スケーリング則(Scaling Laws)

大規模言語モデルの性能に関する経験則で、「モデルを大きくすればするほどモデルの性能は高くなる」という法則の存在があります。スケーリング則によって、データやサイズ、トレーニングに使用する計算の観点からモデルをスケールアップすることで、将来のモデルの性能を予測することができます。また、スケーリング則によって、大規模言語モデルの性能が向上することが示されており、モデルのアーキテクチャ設計はほとんど変更せず、より多くの計算、データ、およびトレーニングに使用するパラメータなど、スケールが大幅に増加したことで、性能が向上しています。

 

▼ データセットのサイズ

BERTは約33億語16GB、GPT-3は約100億語45TBのテキストデータを学習していると言われています。また、日本語GPT言語モデルの学習データセットには、Japanese C-4、Japanese CC-100、日本語Wikipediaなどがあります。

 

▼ データセットの質

大規模言語モデルの訓練には、多様で大量のデータが必要であり、オープンデータセットが使用されます。オープンデータセットには、CommonCrawl、Wikipedia、Redditなどがあります。データセットの質は、大規模言語モデルの性能に影響を与えるため、データのクリーニングや前処理が行われます。また、プロンプトエンジニアリングによって、データセットの質を向上させることができます。

 

▼ パラメーター数

BERTは約3億、GPT-3は約1750億、GPT-3.5は約3550億のパラメータを持っています。また、大規模言語モデルの基盤モデルは、大量かつ多様なデータで訓練された、様々なアプリケーションの基盤とできる大規模なAIモデルであり、パラメーター数も非常に多いとされています。

 

▼ 計算資源の効率化

大規模言語モデルの訓練には、膨大な計算資源が必要であり、計算資源の効率化が重要な課題となっています。NVIDIAは、大規模言語モデルの推論に使用できるオープンソースの推論サービングソフトウェアを提供しています。大規模言語モデルの訓練には、GPUを使用することが一般的であり、分散学習を使用することで、複数のGPUを使用して訓練を高速化することができます。また、大規模言語モデルの訓練には、クラウドコンピューティングを使用することが一般的であり、必要な計算資源を柔軟に確保することができます。さらに、大規模言語モデルの訓練には、省電力化も重要な課題となっており、ハードウェアの最適化やアルゴリズムの最適化が必要です。

 

▼ GPU

大規模言語モデルのトレーニングには、多数のGPUが必要であり、GPUの数が多いほどトレーニング時間が短縮されます。NVIDIAは、コンテナ化されたフレームワークを提供しており、数千単位のGPUで高い学習効率を実現し、企業が大規模なモデルを構築し、展開することを可能にしています。また、大規模言語モデルのトレーニングには、GPUの他にも、TPUなどの特殊なハードウェアが使用されることがあります。大規模言語モデルは、GPUの数が多いほどトレーニング時間が短縮されるため、大規模なGPUクラスターが必要になることがあります。

 

大規模言語モデルのマルチモーダル化の動向と原因について理解している。

▼ マルチモーダル

テキストと画像など、複数の入力形式をとれるものをマルチモーダルと呼ぶ。指示を与える人側の負荷が低減され、ロボット分野への応用が期待される。

 

大規模言語モデルの外部ツール・リソースの利用の動向と原因について理解している。

▼ 学習データの時間的カットオフ

知識蒸留や、LoRA、学習環境と実行環境を分離するなどを駆使し、より少ないパラメータで同等の性能を出していくモデルが増えていきそうです。計算負荷が低減すると、手元のPCや、スマホなどのローカル環境でモデルを動作させることが可能になり、高レスポンス、低コスト化が望めそうです。

 

▼ 大規模言語モデルの知識

基本的に学習時までの知識しか持っていないので、ChatGPTであれば2021年9月までの情報しか知らないことになります。

 

▼ 不得意タスク

推論タスク。事実ではない間違った情報を出力してしまう。価値観の偏った出力や、暴力的や性的な出力をするケースが存在します。

 

生成AIの利活用 特徴

生成AIには何ができるのかを理解している。

▼ ケイパビリティ

画像、音声、テキストなどのデータを生成することができることが挙げられます。また、生成AIのアルゴリズムは、機械学習(ML)モデルによって最適な次の単語/画像を予測することで、画像やテキストなどの新しいコンテンツを作成することができます。生成AIは、コアビジネスプロセスの合理化、顧客サービスの向上、パーソナライズされたコンテンツ生成の実現などの面で、企業の活用を支援するツールやサービスを提供しています。

 

▼ 活用事例

小売業界では、アマゾンやウォルマートなどが商品の画像生成や商品の説明文の自動生成などに使用されています。NTTデータでは、ニュース原稿の自動生成や、医療分野での病気の診断支援など、様々な分野でAIを活用しています。Algomaticは、プロンプト検証活動を高速化し、ビジネスで成果を上げることを可能にするプロンプトエンジニアリング部門を設立しています。

 

▼ プロンプトエンジニアリング

生成AIに対して高品質のコンテンツが生成されるように命令を出すエンジニアのことであり、AIに対する入力の「プロンプト」を最適化することを主とする職種です。Algomaticは、生成AI関連サービスの普及に向けて、プロンプトエンジニアリング部門を立ち上げています。また、プロンプトエンジニアリングは、ジェネレーティブAIにおいて、プロンプトの使いこなし方しだいでビジネスに活用できるレベルの写真ライクの画像やイラストを自由自在に出力することができます。

 

生成AIの利活用 動向

生成AIの新たな活用方法を生み出すためのアプローチを理解している。

▼ ハッカソン

生成AIに関するハッカソンは、ビジネスや業務改善など、様々な分野で行われている。学生エンジニア向けのハッカソンでは、生成系AIを使用したことで大きな変化があったと報告されている。

 

▼ 自主的なユースケース開発

プロフィール自己紹介や合成データ生成など、様々な分野で行われていることが分かります。また、開発者が自らの興味やニーズに基づいてユースケースを開発することで、生成AIの潜在的な活用方法を発掘することができます。

 

▼ インターネット・書籍

AIハッカソンの事例や、画像生成AIの基礎知識や活用事例について解説した書籍がある。

 

▼ 活用の探索

従業員研修やプロフィールの自己紹介、アイコン・デザイン・Webサイトの制作、NFTの販売、資料の挿絵など、ビジネスの活用方法について解説したセミナーなどが行われている。

 

生成AIの活用を制限する要因を理解している。

▼ 生成AIの学習データ

大量のデータを学習することで、画像、音声、テキストなどの生成が可能になる。
ディープラーニング技術によって自動生成することができたり、AI学習データ作成サービスを提供する企業がある。

 

▼ 生成AIの性能評価

1.混合プロンプト:AIモデルによって生成されたテキストの多様性と品質を評価するためのプロンプトのセットです。異なる基準に一致するテキストを生成できるかどうかをテストするために、ポジティブなプロンプトとネガティブなプロンプトを混ぜます。
2.美的予測: 美的予測は、AIモデルによって生成された画像の美しさを評価するツールです。
3.モデルに対して、避けるべきネガティブなプロンプト(例:不正確な肢体、低解像度、悪い解剖学)のリストを提供し、それらのプロンプトに一致するテキストを生成しないかどうかを確認する方法。

 

▼ 生成AIの言語能力

高度な言語能力を持ち、自然言語処理の発展によりますます進化しています。しかし、常識推論能力が低いため、まだ妥当な文の作成に必要な常識に欠けていることが指摘されています。また、生成AIはプログラム生成にも利用され、学習者にとって有益なツールとなっています。

 

業界に特化した生成AIの活用方法を理解している。

▼ Bard

Google の大規模言語モデル( LLM : Large Language Model )である PaLM 2 を利用しています。LLM は言語のパターンを拾い上げること、それを使って文章の中で次に来る確率の高い単語を予測することを学習します。

 

▼ 広告クリエイティブへの応用

実用化されているのは画像や音楽、文章、デザインの自動生成です。AIによるクリエイティブ自動生成でできることとしては、さまざまなパターンのバナー広告の生成が挙げられます。現在稼働している自動生成の中には、1時間に最大10万枚という膨大な量のバナーを生み出し、広告が高いと予想される素材を絞り込むものも存在します。

 

▼ ドメイン固有

ドメイン固有のデータを使用してトレーニングすることで、大規模で一般的なモデルよりも優れたパフォーマンスを発揮することができます。生成対抗ネットワーク(GAN)は、高品質なサンプルを提供し、出力を迅速に生成できますが、多様性が低いため、ドメイン固有のデータを生成するのに適しています。

 

生成AIのリスク 特徴

生成AIが、技術面・倫理面・法令面・社会面などで多様なリスクを孕むことを理解している

▼ 正確性

誤った結果を出したりすることがあり、意図しない結果をもたらす可能性がある。トレーニングデータがバイアスがかったり、不正確な、または誤った回答につながる可能性があるため、これらを特定するのは困難であるとされています。そのため、AIの出力は批判的に評価し、必要に応じて他の信頼できる情報源で確認することが重要です。

 

▼ ハルシネーション (Hallucination)

人間の指示やデータに基づかず、全く新しい情報や内容を生成することを指します。原因は、モデルが訓練データから統計的なパターンを学び、それを元に応答を生成するからです。AIは事実を知っているわけではなく、ただ訓練データで見たパターンを再現するだけです。そのため、AIが生成する情報は必ずしも正確であるとは限りません。

 

▼ セキュリティ

機密情報の流出、サイバー攻撃の巧妙化などが挙げられます。
AIサービスプロバイダ、ビジネス利用者及びデータ提供者は、学習モデルの生成及びその管理において、セキュリティに脆弱性が存在することに留意する必要がある。開発者や利用者は、セキュリティに関するリスクを認識し、適切な対策を講じることが重要です。例えば、開発過程でのセキュリティテストや、運用時の監視、セキュリティに関するガイドラインの策定などが挙げられます。

 

▼ 公平性

人種、性別、年齢、障害の有無などの個人属性に基づく偏りを排除し、公正な結果を出すことを指します。

 

▼ プライバシー

生成AIにおけるプライバシー保護には、機械学習エンジニアの知識と技術、技術的・組織的措置、法令遵守を前提とした企業の自主的な対策が必要である。

 

▼ 透明性

1.解釈可能性・説明可能性
2.再現性・トレーサビリティ
3.倫理性・信頼性・公平性

欧州議会は、AI規制法案を可決し、ChatGPTなどの生成AIに対し、透明性要件を順守するよう求めています。AIの透明性に関する研究や議論が進められており、AIの社会実装や利活用に向けた共創が行われています。

 

生成AIの入力(データ)と出力(生成物)について注意すべき事項を理解している。

▼ 著作権

① 著作権侵害
 生成AIからの生成物が、既存の著作物と同一・類似している場合は、当該生成物を利用(複製や配信等)する行為が著作権侵害に該当する可能性があります。
 そのため、以下の留意事項を遵守してください。
・ 特定の作者や作家の作品のみを学習させた特化型AIは利用しないでください。
・ プロンプトに既存著作物、作家名、作品の名称を入力しないようにしてください。
・ 特に生成物を「利用」(配信・公開等)する場合には、生成物が既存著作物に類似しないかの調査を行うようにしてください。

② 商標権・意匠権侵害
 画像生成AIを利用して生成した画像や、文章生成AIを利用して生成したキャッチコピーなどを商品ロゴや広告宣伝などに使う行為は、他者が権利を持っている登録商標権や登録意匠権を侵害する可能性がありますので、生成物が既存著作物に類似しないかの調査に加えて、登録商標・登録意匠の調査を行うようにしてください。

 

▼ 個人情報

個人情報(顧客氏名・住所等)を入力する場合、当該個人情報により特定される本人の同意を取得する必要があります。そのような同意取得は現実的ではありませんので、個人情報を入力しないでください。

【ChatGPT】などは、個人に関する虚偽の情報を生成する可能性があることが知られています。虚偽の個人情報を生成して利用・提供する行為は、個人情報保護法違反(法19条、20条違反)や、名誉毀損・信用毀損に該当する可能性がありますので、そのような行為は行わないでください。

 

▼ 機密情報

外部事業者が提供する生成AIに、他社との間で秘密保持契約(NDA)などを締結して取得した秘密情報を入力する行為は、生成AI提供者という「第三者」に秘密情報を「開示」することになるため、NDAに反する可能性があります。
そのため、そのような秘密情報は入力しないでください。

自【社】内の機密情報(ノウハウ等)を生成AIに入力する行為は何らかの法令に違反するということはありませんが、生成AIの処理内容や規約の内容によっては当該機密情報が法律上保護されなくなったり特許出願ができなくなったりしてしまうリスクがありますので、入力しないでください。

 

▼ 商用利用

 生成AIにより生成した生成物をビジネスで利用する場合、当該生成物を商用利用できるかが問題となります。この論点は、利用する生成AIの利用規約により結論が左右されますが、【ChatGPTの場合、生成物の利用に制限がないことが利用規約に明記されているので、この点は問題になりません。】

 

▼ 利用規約

 生成AIにおいては、これまで説明してきたリスク(主として法令上の制限)以外にも、サービスのポリシー上独自の制限を設けていることがあります。
ChatGPTを利用する場合、以下の点に注意してください。アダルトコンテンツ、アダルト産業、出会い系アプリ。許可なく法律実務を行うこと、または資格のある人が情報をレビューしないままに特定の法的助言を提供すること、などの具体的禁止項目が定められています。
 また、医療、金融、法律業界、ニュース生成、ニュース要約など、消費者向けにコンテンツを作成して提供する場合には、AIが使用されていることとその潜在的な限界を知らせる免責事項をユーザに提供する必要があることも同ポリシーには明記されています。
 さらに、関連ポリシー上は、ChatGPTなどOpenAI社のサービスを利用して生成されたコンテンツを公開する際には、AIを利用した生成物であることを明示することなどが定められています。

 

生成AIのリスク 動向

生成AIについて、現時点では認識されていない新たなリスクの出現とそれに伴う規制化の可能性を理解している。

▼ 新たなリスク

セキュリティやプライバシー、バイアスの管理、結果の透明性と追跡可能性などの一般的なリスクのほか、具体的なリスクや著作権侵害のリスクが含まれます。また、生成AIの利用によって、ハルシネーション、ディープフェイク、データプライバシー、サイバーセキュリティの問題などが生じる可能性があります。

 

▼ 規制化

各国が規制について検討を急いでいること、AIと著作権の関係については異なる適用条文があること、商用利用が可能であるが利用規約によっては制限される場合があること、情報漏洩につながる危険性があること、欧州議会がAI規制法案を可決し、プログラム構築に使うデータについてのさらなる開示を義務付けるものとなっていることが挙げられます。

 

▼ 情報収集

サービスプロバイダーによって異なる利用規約があること、生成AIの多くは情報漏洩につながる危険性があること、SNSが最も活用される情報収集手段であること、情報開示を義務化する動きがあること、利用ガイドラインを策定することが重要であることが挙げられます。

 

生成AIの活用に伴うリスクを自主的に低減するための方法を把握している。

▼ 自主対策

JDLAによる「生成AIの利用ガイドライン」の公開、PwCコンサルティングによる「生成AIに関する実態調査2023」の結果、企業が直面する課題と対策に関する記事、AIと著作権の関係についての内閣府の資料、経済産業省が公表した「AI・データの利用に関する契約ガイドライン」などが挙げられます。

 

====================================

【参考サイト】

大規模言語モデルのための強化学習|npaka

事前学習済み言語モデルの流行とリスク|NHK技研R&D|NHK放送技術研究所

https://www.promptingguide.ai/jp

 

====================================

【おすすめ書籍】

2023年7月発売

鋭い洞察と深みのある言葉がささります。

読み物としてお勧め。なので電子版でもいいです。

 

2023年10月発売

AI、データ活用が必須の時代に。

豊富な企業事例で自社や自分を俯瞰できると思います。

 

【お勧めアイテム】

肩こりに悩むエンジニアの皆様へ!!!

 

私も慢性的な重度の肩こりプログラマですが

数年間いろいろな枕を買っては捨ててを繰り返してきまして

やーーーーっといい枕に出会いました。

朝起きて首が痛くない!すばらしい

横向けでも仰向けでもいい感じに寝ることができています。

 

ので肩こりが多いエンジニアの皆様にお勧めします。

高価ですが、整体2回分と考えたら安いものですね笑

====================================

 

お疲れ様でした。

それではテスト本番がんばりましょう!!

 

 

以上、「JDLA Generative AI Test 2023」勉強方法と対策 でした。

ではまた。